JP2016191791A - 情報処理装置、情報処理方法及びプログラム - Google Patents

情報処理装置、情報処理方法及びプログラム Download PDF

Info

Publication number
JP2016191791A
JP2016191791A JP2015071091A JP2015071091A JP2016191791A JP 2016191791 A JP2016191791 A JP 2016191791A JP 2015071091 A JP2015071091 A JP 2015071091A JP 2015071091 A JP2015071091 A JP 2015071091A JP 2016191791 A JP2016191791 A JP 2016191791A
Authority
JP
Japan
Prior art keywords
information
user
candidates
sound
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015071091A
Other languages
English (en)
Inventor
祐介 工藤
Yusuke Kudo
祐介 工藤
克也 兵頭
Katsuya Hyodo
克也 兵頭
大輔 中田
Daisuke Nakada
大輔 中田
遼 深澤
Ryo Fukazawa
遼 深澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2015071091A priority Critical patent/JP2016191791A/ja
Priority to US15/559,862 priority patent/US10129442B2/en
Priority to PCT/JP2016/000560 priority patent/WO2016157678A1/ja
Publication of JP2016191791A publication Critical patent/JP2016191791A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/60Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals
    • H04N5/602Receiver circuitry for the reception of television signals according to analogue transmission standards for the sound signals for digital sound signals
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F1/00Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
    • G06F1/16Constructional details or arrangements
    • G06F1/1613Constructional details or arrangements for portable computers
    • G06F1/163Wearable computers, e.g. on a belt
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/0101Head-up displays characterised by optical features
    • G02B2027/014Head-up displays characterised by optical features comprising information/image processing systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Hardware Design (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Optics & Photonics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】ユーザフレンドリーな情報処理装置、情報処理方法及び音声出力装置を提供する。【解決手段】情報処理装置は、音声情報取得部と、音声合成部とを具備する。音声情報取得部は、ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得するように構成される。音声合成部は、前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成するように構成される。【選択図】図3

Description

本技術は、ユーザが選択可能な複数の候補それぞれを表す音声を出力するように音声出力装置を制御するように構成された情報処理装置、情報処理方法及びプログラムに関する。
複数の候補フレーズから1つの候補フレーズを選択させるための音声ガイダンスをユーザに送出する技術が知られている(例えば、特許文献1の請求項1参照。)。
特開特開2005−274639号公報
このような技術は、ユーザの聴覚に直接作用するという性格上、益々ユーザフレンドリーであることが望まれる。
以上のような事情に鑑み、本技術の目的は、ユーザフレンドリーな情報処理装置、情報処理方法及びプログラムを提供することにある。
本技術の一実施形態にかかる情報処理装置は、音声情報取得部と、音声合成部とを具備する。音声情報取得部は、ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得するように構成される。音声合成部は、前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成するように構成される。
本実施形態によれば、複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力される。これにより、全ての音声が出力される時間が、全体として短縮される。
情報処理装置は、前記複数の候補それぞれを表す音声の重なり量を決定するように構成された重なり量決定部をさらに具備する。
本実施形態によれば、各種の条件や設定情報に応じて重なり量を動的に変更することができる。
前記重なり量決定部は、ユーザに関して検出された情報であるユーザ情報をもとに、前記複数の候補それぞれを表す音声の重なり量を決定するように構成される。
前記ユーザ情報は、ユーザの生体情報と、ユーザの行動情報と、ユーザの周囲の環境情報との少なくとも何れか1つを含む。
本実施形態によれば、ユーザ情報を基にユーザに対する生体的負荷、行動的負荷又は環境的負荷を予測し、予測される負荷に応じて重なり量を動的に変更することができる。
前記重なり量決定部は、前記複数の候補それぞれの重要度をもとに、前記複数の候補それぞれを表す音声の重なり量を決定するように構成される。
本実施形態によれば、さらに重要度に応じて重なり量を動的に変更することができる。ユーザ情報だけでなく重要度にも基づいて重なり量を動的に変更することにより、重なり量をより最適に選定することができる。
情報処理装置は、ユーザが選択可能な複数の候補それぞれを表す画像に関する画像情報を取得し、特定の候補を表す音声と前記特定の候補を表す画像とが同期して出力されるように、前記画像情報を制御するように構成された画像情報制御部をさらに具備する。
本実施形態によれば、ユーザは、選択可能な候補を聴覚だけでなく視覚的にも認識することができるので、全ての候補を一層速く正確に識別できる。
情報処理装置は、前記複数の候補それぞれを表す音声の少なくとも一部の、音質及び/又は音像が異なるように、前記複数の候補それぞれを表す音声の音質及び/又は音像を変更するように構成された音質/音像割り当て部をさらに具備する。
本実施形態によれば、複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されても、音質及び/又は音像が異なるので、ユーザがそれぞれの音声を識別しやすくなる。
前記音質/音像割り当て部は、前記ユーザ情報をもとに、前記複数の候補それぞれを表す音声の音質及び/又は音像を決定するように構成される。
本実施形態によれば、ユーザ情報を基にユーザに対する生体的負荷、行動的負荷又は環境的負荷を予測し、予測される負荷に応じて音質/音像を動的に変更することができる。
前記音質/音像割り当て部は、前記複数の候補それぞれの重要度をもとに、前記複数の候補それぞれを表す音声の音質及び/又は音像を決定するように構成される。
本実施形態によれば、さらに重要度に応じて音質/音像を動的に変更することができる。ユーザ情報だけでなく重要度にも基づいて音質/音像を動的に変更することにより、音質/音像をより最適に選定することができる。
本技術の一実施形態にかかる情報処理方法は、ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得し、前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成する。
本技術の一実施形態にかかるプログラムは、音声情報取得部と、音声合成部としてコンピュータを機能させる。音声情報取得部は、ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得するように構成される。音声合成部は、前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成するように構成される。
以上のように、本技術によれば、ユーザフレンドリーな情報処理装置、情報処理方法及びプログラムが提供される。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
第1の実施形態に係る情報処理装置の少なくとも一部を示す斜視図である。 情報処理装置のハードウェア構成を示すブロック図である。 情報処理装置の機能的な構成を示すブロック図である。 情報処理装置の動作を示すフローチャートである。 候補リストの一例を示す図である。 音質/音像の数を決定する方法を示すフローチャートである。 重なり量を決定する方法を示すフローチャートである。 第2の実施形態に係る情報処理装置の機能的な構成を示すブロック図である。 第3の実施形態に係る情報処理装置の機能的な構成を示すブロック図である。 情報処理装置の動作を示すフローチャートである。 第4の実施形態に係る情報処理装置の機能的な構成を示すブロック図である。
以下、本技術に係る実施形態を、図面を参照しながら説明する。
(1.第1の実施形態)
(1−1.第1の実施形態の概要)
ユーザが選択可能な複数の候補それぞれを表す音声をユーザに送出する技術が知られている。このような技術においては、一般に、複数の候補が順番に1つずつ読み上げられる。その結果、選択可能なすべての候補をユーザが認識するまでに時間が掛かり、ユーザが不便を感じることがある。
以上のような事情に鑑み、本実施形態によれば、情報処理装置1は、ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得するように構成された音声情報取得部(テキスト/音声変換部107)と、前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成するように構成された音声合成部108とを具備する。
情報処理装置1は、前記複数の候補それぞれを表す音声の重なり量を決定するように構成された重なり量決定部104をさらに具備する。
重なり量決定部104は、ユーザに関して検出された情報であるユーザ情報をもとに、前記複数の候補それぞれを表す音声の重なり量を決定するように構成される。
前記ユーザ情報は、ユーザの生体情報と、ユーザの行動情報と、ユーザの周囲の環境情報との少なくとも何れか1つを含む。
重なり量決定部104は、前記複数の候補それぞれの重要度をもとに、前記複数の候補それぞれを表す音声の重なり量を決定するように構成される。
情報処理装置1は、前記複数の候補それぞれを表す音声の少なくとも一部の、音質及び/又は音像が異なるように、前記複数の候補それぞれを表す音声の音質及び/又は音像を変更するように構成された音質/音像割り当て部106をさらに具備する。
音質/音像割り当て部106は、前記ユーザ情報をもとに、前記複数の候補それぞれを表す音声の音質及び/又は音像を決定するように構成される。
情報処理装置1は、前記複数の候補それぞれを表す音声の少なくとも一部が重なり合うように、前記音声を出力するよう構成された音声出力部17をさらに具備する。
(1−2.情報処理装置のハードウェア構成)
図1は、第1の実施形態に係る情報処理装置の少なくとも一部を示す斜視図である。図2は、情報処理装置のハードウェア構成を示すブロック図である。
情報処理装置1において、演算部12には、バス13を介して、記憶部14と、出力部15と、入力部16と、ネットワーク接続部18とが接続される。
記憶部14は、ROM(Read Only Memory)と、RAM(Random Access Memory)と、その他の半導体メモリを含む。ROMは、演算部12が実行するプログラムやデータなどを固定的に格納する。RAMには、ROMに格納されたプログラムがロードされる。
演算部12は、CPU(Central Processing Unit)やGPU(Graphics Processing Unit)等を含む。演算部12は、RAMにロードされたプログラムを実行する。
出力部15は、人間の左右の目に対応して設けられる左目用画像出力部11L及び右目用画像出力部11Rと、左耳用音声出力部17L及び右耳用音声出力部17Rとを含む。なお、以下、画像出力部11L、11Rをまとめて画像出力部11と記載し、音声出力部17L、17Rをまとめて音声出力部17と記載することがある。画像出力部11は、演算部12から受け取った情報に基づいて演算処理を行い、生成した画像信号を画面に表示する。音声出力部17は、演算部12から受け取った情報に基づいて演算処理を行い、生成した音声をスピーカから出力する。
入力部16は、音声入力部19と、ユーザの左右の眼球を撮影するための左目用カメラ16L及び右目用カメラ16Rと、検出部群16Sとを含む。入力部16は、音声入力部19(マイクロフォン)から入力されたアナログな音声信号を、演算部12が処理可能なデジタル信号に変換し、演算部12に供給する。入力部16は、カメラ16L、16R(視線情報取得部)が取得した視線情報や、検出部群16Sが検出した情報を、ログとして記憶部14に書き込む。典型的には、入力部16は、ボタン等、ユーザが任意の情報を入力することが可能な情報入力部(図示せず)をさらに含む。
検出部群16Sは、ユーザの生体情報と、ユーザの行動情報を判断するための情報と、ユーザの周囲の環境情報を判断するための情報とを検出する複数の検出部を含む。
ユーザの生体情報を検出する検出部の具体例としては、心拍センサ、発汗センサ、温度(体温)センサ、脳波センサ等が挙げられる。
ユーザの行動情報を取得するために用いられる情報を検出する検出部の具体例としては、ユーザの動きや姿勢(歩行、走行、停止等)を検出するための加速度センサ、ジャイロセンサ及び地磁気センサ(9軸センサ)等が挙げられる。
ユーザの周囲の環境情報を取得するために用いられる情報を検出する検出部の具体例としては、GPS(Global Positioning System)、Wi‐fi(登録商標)、SLAM(Simultaneous Localization and Mapping)等の技術を利用した受信装置、ユーザの視界を撮影するための環境用カメラ、ユーザの周囲の音声(ノイズ)を検出するためのマイクロフォン、環境光の明暗を検出するための輝度センサ等が挙げられる。
ネットワーク接続部18は、インターネット等のネットワークNを介してサーバ装置Sにアクセスし、サーバ装置Sとの間で情報を授受する。
上記のハードウェア構成を一体として有する情報処理装置1の典型的な例として、透過型又は遮蔽型のヘッドマウントディスプレイ(Head Mount Display、以下単にHMDと呼ぶ。)が挙げられる。なお、情報処理装置1のハードウェア構成の少なくとも一部は、HMDと有線又は無線で接続される電子機器(図示せず)に設けてもよい。
(1−3.情報処理装置の機能的な構成)
図3は、情報処理装置の機能的な構成を示すブロック図である。
情報処理装置1は、リスト生成部101と、音質/音像数決定部103と、ユーザ情報取得部102と、重なり量決定部104と、タイミング算出部105と、音質/音像割り当て部106と、テキスト/音声変換部107(音声情報取得部)と、音声合成部108とを有する。
リスト生成部101は、ネットワーク接続部18を用いてネットワークNを介して、データソースとしてのサーバ装置Sにアクセスし、サーバ装置Sから、ユーザが選択可能な複数の候補に関する情報を検索する。
ユーザ情報取得部102は、検出部群16Sがセンサログ142に書き込んだ情報を読み出す。ユーザ情報取得部102は、読み出した情報をそのままユーザ情報として利用したり、読み出した情報をもとにユーザ情報を作成したりする。
音質/音像数決定部103は、所定数の候補それぞれを表す音声の音質/音像の数を決定する。
重なり量決定部104は、ユーザが選択可能な所定数の候補それぞれを表す音声同士の重なり量を決定する。
タイミング算出部105は、音声出力部17がそれぞれの候補を表す音声を出力する回数を算出し、音声を出力するタイミングを算出する。
音質/音像割り当て部106は、複数の候補に音質及び音像を割り当てる。
テキスト/音声変換部107は、それぞれの候補を表すテキスト情報を、それぞれの候補を表す音声に関する音声情報に変換する。
音声合成部108は、それぞれの候補についての音声情報を再生する。音声出力部17は、音声合成部108が再生した音声情報を、音声として左右一対のスピーカから出力する。
(1−4.情報処理装置の動作)
次に、上記機能的構成を有する情報処理装置1の動作を、複数のフローチャートを参照してより詳細に説明する。
図4は、情報処理装置の動作を示すフローチャートである。
リスト生成部101は、所定のアプリケーションが起動されると、ネットワーク接続部18を用いてネットワークNを介して、データソースとしてのサーバ装置Sにアクセスする。なお、本実施形態では、「所定のアプリケーション」として飲食店検索アプリケーションを例として以下説明する。リスト生成部101は、サーバ装置Sから、ユーザが選択可能な所定数の候補に関する情報を検索する。本実施形態において、「ユーザが選択可能な所定数の候補に関する情報」は、具体的には、情報処理装置1のユーザの現在地から所定距離範囲内に位置する所定数の飲食店に関する情報とする。この「飲食店に関する情報」は、例えば、飲食店の名称や重要度(本例では、ソーシャルな評価点数)など種々の情報を含む。リスト生成部101は、取得した情報をもとに、ユーザが選択可能な所定数の候補それぞれを表すテキスト情報を生成し、このテキスト情報を含むリストである候補リスト200を生成する。リスト生成部101は、生成した候補リスト200を、記憶部14に格納する(ステップS101)。本例の「テキスト情報」とは、飲食店それぞれの名称である。
図5は、候補リストの一例を示す図である。
リスト生成部101は、例えば重要度203が高い順にユーザが選択可能な所定数(本例では、4個)の候補201それぞれを表すテキスト情報202(飲食店の名称)を並べ替え、記憶部14に格納された候補リスト200を書き換える(ステップS102、図5のA)。リスト生成部101は、候補リスト200の生成及び並び替えが完了したことを、音質/音像数決定部103に通知する。なお、図5の候補リスト200に記載した各種の値はあくまでも一例にすぎず、他の値でもよいことは言うまでもない。
通知を受けると、音質/音像数決定部103は、所定数の候補それぞれを表す音声の音質/音像の数を決定する(ステップS103)。ここで「音質」とは、音声出力部17が出力する音声の音質(声質)であり、具体的には、高音/低音、男声/女声、大人の声/子どもの声などのいずれか1つであるか、あるいは、少なくとも一部の組み合わせである。「音像」とは、ユーザの感覚的な音源の方向及び距離の組み合わせである。「音質/音像の数」とは、音質と音像との組み合わせ(この組み合わせを「エージェント」と称することがある。)の数である。以下、ステップS103で音質/音像の数を決定する方法をより詳細に説明する。
図6は、音質/音像の数を決定する方法を示すフローチャートである。
音質/音像数決定部103は、記憶部14に格納された設定情報141を参照し、情報処理装置1の性能に基づくエージェント数を決定する(ステップS1031)。「情報処理装置1の性能」とは、例えば、音声出力部17が音声を出力可能なチャネルの数などである。「設定情報141」は、情報処理装置1に予め設定されている各種の情報や、ユーザが事後的に設定した各種の情報を含む。
一方、検出部群16Sは、検出した情報を、記憶部14のセンサログ142に書き込む。検出した情報との具体例としては、ユーザの生体情報(心拍、発汗、体温、脳波等)、加速度センサ、ジャイロセンサ及び地磁気センサ(9軸センサ)等のデータ、GPS情報、Wi−fi情報、SLAM情報、環境用カメラの撮影情報、マイクロフォンの音声(ノイズ)情報が挙げられる。
ユーザ情報取得部102は、検出部群16Sがセンサログ142に書き込んだ情報を読み出す。ユーザ情報取得部102は、読み出した情報をそのままユーザ情報として利用したり、読み出した情報をもとにユーザ情報を作成したりする。例えば、ユーザ情報取得部102は、読み出したユーザの生体情報(心拍、発汗、体温、脳波等)をそのまま利用する。あるいは、例えば、ユーザ情報取得部102は、読み出した加速度センサ、ジャイロセンサ及び地磁気センサ(9軸センサ)等のデータをもとに、ユーザの行動(動きや姿勢(走行、歩行、停止等))を判定することで、ユーザの行動情報を取得する。あるいは、例えば、ユーザ情報取得部102は、読み出したGPS情報、Wi−fi情報、SLAM情報、環境用カメラの撮影情報、マイクロフォンの音声(ノイズ)情報、環境光の輝度情報をもとに、ユーザの周囲の環境情報を判定することで、ユーザの周囲の環境情報を取得する。ユーザ情報取得部102は、取得したユーザ情報(ユーザの生体情報、ユーザの行動情報、ユーザの周囲の環境情報)を、音質/音像数決定部103及び重なり量決定部104に供給する。
本実施形態においては、具体的には、ユーザ情報取得部102は、少なくとも加速度センサの情報をもとに、ユーザの行動(活動量が所定値より大きい(運動時)、活動量が所定値以下(安静時))を判定することで、ユーザの行動情報を取得するものとする。
音質/音像数決定部103は、ユーザ情報取得部102からのユーザ情報を取得すると、ユーザ情報に基づくエージェント数を決定する(ステップS1032)。例えば、音質/音像数決定部103は、ユーザの活動量が所定値より大きい場合、エージェント数=1を設定する。音質/音像数決定部103は、ユーザの活動量が所定値以下の場合、設定情報141を参照し、ユーザにより設定された(あるいは初期設定の)エージェント数を取得する。
音質/音像数決定部103は、情報処理装置1の性能に基づくエージェント数(ステップS1031で決定)と、ユーザ情報に基づくエージェント数(ステップS1032で決定)とのうち、最小値を最終的なエージェント数として決定する(ステップS1033)。音質/音像数決定部103は、決定したエージェント数を、音質/音像割り当て部106に通知する。
図4に戻り、一方、重なり量決定部104は、ユーザ情報取得部102からユーザ情報を取得すると、ユーザが選択可能な所定数の候補それぞれを表す音声同士の重なり量を決定する(ステップS104)。ここで「重なり量」とは、音声出力部17より出力される、ある1つの候補を表す音声の語尾に対して、別の候補を表すその次の音声の語頭が重なる(オーバーラップする)時間(例えば、数秒以下)をいう。以下、ステップS104で重なり量を決定する方法をより詳細に説明する。
図7は、重なり量を決定する方法を示すフローチャートである。
重なり量決定部104は、ユーザ情報取得部102からユーザ情報を取得する(ステップS1041)。続いて、重なり量決定部104は、記憶部14に格納された設定情報141を参照し、ユーザにより設定された(あるいは初期設定の)最大重なり量を取得する(ステップS1042)。
続いて、重なり量決定部104は、ユーザ情報(ステップS1041で取得)に基づく係数を決定する(ステップS1043)。例えば、重なり量決定部104は、ユーザの活動量が所定値より大きい場合(運動時)、係数=0.0を設定する。重なり量決定部104は、ユーザの活動量が所定値以下の場合(安静時)、係数=1.0を設定する。
続いて、重なり量決定部104は、記憶部14に格納された候補リスト200を参照し、それぞれの候補201について、重要度203に基づく係数を決定する(ステップS1044)。例えば、重なり量決定部104は、重要度が所定値より大きい候補について、係数=0.0を設定する。重なり量決定部104は、重要度が所定値以下の候補について、係数=1.0を設定する。
重なり量決定部104は、記憶部14に格納された設定情報141を参照し、予め設定された最大重なり量を取得する。重なり量決定部104は、(取得した最大重なり量)×(ステップS1043で決定したユーザ情報に基づく係数)×(ステップS1044で決定したそれぞれの候補についての重要度203に基づく係数)を求める。重なり量決定部104は、それぞれの候補について、乗算により求めた値を最終的な重なり量として決定する(ステップS1045)。重なり量決定部104は、それぞれの候補201について決定した重なり量204を候補リスト200に書き込み(図5のB)、タイミング算出部105に通知する。
図4に戻り、タイミング算出部105は、重なり量決定部104から通知を受けると、音声出力部17がそれぞれの候補を表す音声を出力する回数を算出し、音声を出力するタイミングを算出する(ステップS105)。まず、タイミング算出部105は、記憶部14に格納された候補リスト200を参照し、それぞれの候補201について、重要度203に基づき、音声を出力する回数を決定する。例えば、タイミング算出部105は、重要度の高い候補は音声を出力する回数を多く設定し、重要度の低い候補は音声を出力する回数を少なく設定する。タイミング算出部105は、それぞれの候補201について決定した回数205を候補リスト200に書き込む(図5のC)。続いて、タイミング算出部105は、重なり量204及び回数205に基づき、音声出力部17がそれぞれの候補を表す音声を出力するタイミングを算出する。タイミング算出部105は、それぞれの候補201について算出したタイミング206を候補リスト200に書き込み(図5のD)、テキスト/音声変換部107に通知する。
一方、音質/音像割り当て部106は、音質/音像数決定部103からエージェント数(ステップS1033)の通知を受けると、候補リスト200を参照し、候補リスト200に記録された所定数の候補201をエージェント数で分割する。音質/音像割り当て部106は、所定数の候補201を分割して得られた複数の(エージェント数=1の場合は1つの)候補群それぞれに異なるエージェントを割り当てるように、候補リスト200にエージェントとしての音質207及び音像208を書き込む(図5のE)。その結果、所定数の候補201全てに音質207及び音像208が割り当てられる(ステップS106)。例えば、音質/音像割り当て部106は、設定情報141を参照し、予め設定されている任意の音質と音像との組み合わせ(エージェント)を、エージェント数と同じ数のパターンだけ取得する。音質/音像割り当て部106は、取得した音質と音像との組み合わせ(エージェント)それぞれを、複数の候補群それぞれにランダムに割り当てる。ただし、エージェント数が複数の場合、音質/音像割り当て部106は、ある1つの候補を表す音声のエージェントと、その次に出力される別の候補を表す音声のエージェントとが異なるように、割り当てを行う。音質/音像割り当て部106は、候補リスト200に音質207及び音像208の書き込みが完了したことを、テキスト/音声変換部107に通知する。
テキスト/音声変換部107は、タイミング算出部105及び音質/音像割り当て部106から通知を受けると、候補リスト200を参照し、それぞれの候補201を表すテキスト情報202を、それぞれの候補201を表す音声に関する音声情報に変換する(ステップS107)。具体的には、テキスト/音声変換部107は、ある1つの候補201を表すテキスト情報202を、その候補201に割り当てられた音質207を反映した音声に関する音声情報に変換する。続いて、テキスト/音声変換部107は、生成した音声情報を加工する(ステップS108)。「音声情報を加工」する具体例としては、速度の変更や、音量の変更が挙げられる。例えば、テキスト/音声変換部107は、候補リスト200に書き込まれた重要度203に基づき、重要度の高い候補は音声を出力する速度を低速に設定し、重要度の低い候補は音声を出力する速度を高速に設定する。あるいは、テキスト/音声変換部107は、重要度203に基づき、重要度の高い候補は音量を高く設定し、重要度の低い候補は音量を低く設定する。テキスト/音声変換部107は、それぞれの候補について生成した音声情報を、音声合成部108に供給する。なお、テキスト/音声変換部107は、記憶部14に格納された設定情報141に基づき、音声情報を生成及び加工してもよい。
音声合成部108は、テキスト/音声変換部107から音声情報を取得すると、候補リスト200を参照し、それぞれの候補201について生成した音声情報を、候補リスト200に書き込まれた回数205、タイミング206及び音像208で再生する(ステップS109)。音声出力部17は、音声合成部108が再生した音声情報を、音声として左右一対のスピーカから出力する(ステップS110)。
なお、本例では、「重要度」としてソーシャルな評価点数を用いたが、これに代えて、例えば、ユーザの現在地から飲食店までの距離としてもよい。飲食店が近いほど重要度を高く、遠いほど重要度を低くすればよい。
(1−5.まとめ)
ユーザが選択可能な複数の候補それぞれを表す音声をユーザに送出する技術が知られている。このような技術においては、一般に、複数の候補が順番に1つずつ読み上げられる。その結果、選択可能なすべての候補をユーザが認識するまでに時間が掛かり、ユーザが不便を感じることがある。
これに対して、本実施形態によれば、複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力される。これにより、全ての音声が出力される時間が、全体として短縮されるので、ユーザが不便を感じる可能性が減る。なお、「少なくとも一部が重なり合」うとは、複数の候補それぞれを表す音声の全てが重なり合う場合も含む。
一般に、人間は、複数の人物がそれぞれ異なる発話をしているとき、話を聞くのに集中していなくても、自分が関心のある情報を選択的に聞き取ることができる(カクテルパーティー効果)。この聴覚機能が有効に達成される要因の1つとして、それぞれの人物の声の基本周波数(音質)が異なることや、それぞれの音源(声を発する人物)の方向及び距離(音像)が異なることが挙げられる。
そこで、本実施形態によれば、少なくとも、ある1つの候補を表す音声の音質/音像(エージェント)と、その次に出力される別の候補を表す音声の音質/音像(エージェント)とを異ならせる。これにより、複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されても、ユーザがそれぞれの音声を識別しやすくなる。
また、本実施形態によれば、ユーザ情報(生体情報、行動情報、環境情報)をもとに、重なり量や音質/音像(エージェント)の数を決定する。言い換えれば、ユーザ情報を基にユーザに対する生体的負荷、行動的負荷又は環境的負荷を予測し、予測される負荷に応じて重なり量や音質/音像(エージェント)の数を動的に変更する。
例えば、ユーザに対する生体的負荷、行動的負荷又は環境的負荷が低いと予測されるときには、重なり量を増やす。その結果、同時に出力される音声の数を増やしてもよい。これにより、ユーザに対する負荷が低いときには、全ての音声が出力される時間が、全体として一層短縮される。
これに対して、例えば、ユーザに対する生体的負荷、行動的負荷又は環境的負荷が高いときには、重なり量を減らす。その結果、同時に出力される音声の数を減らしてもよい。このとき、ユーザの負荷が所定の閾値を超えて高い場合には、重なり量をゼロにしてもよい。また、ユーザに対する負荷が高いときには、音質/音像(エージェント)の数を増やす。これにより、ユーザに対する負荷が高いと予測されるときには、ユーザがそれぞれの音声を一層識別しやすくなる。
さらに、本実施形態によれば、ユーザ情報だけでなく重要度にも基づいて、重なり量を動的に変更する。これにより、重なり量をより最適に選定することができる。
(2.第2の実施形態)
以下の説明において、既に説明した各実施形態に記載された構成、動作及び作用等と同様の構成、動作及び作用等は、説明を省略し、異なる点を主に説明する。また、既に説明した各実施形態に記載された構成及び動作の参照符号及びステップ番号は、同様の構成及び動作を示すものとして、以下の実施形態でも同様のものを使用する。
(2−1.第2の実施形態の構成)
第1の実施形態では、リスト生成部101は、ネットワークNを介してサーバ装置Sから、ユーザが選択可能な複数の候補(飲食店)に関する情報を検索した。これに対して、第2の実施形態では、リスト生成部101は、記憶部14から、インストール済みの複数のアプリケーションを、ユーザが選択可能な複数の候補として検索する。
図8は、第2の実施形態に係る情報処理装置の機能的な構成を示すブロック図である。
情報処理装置1Aのリスト生成部101は、所定のアプリケーション(本例では、アプリケーションランチャー)が起動されると、記憶部14から、ユーザが選択可能な所定数の候補に関する情報として、インストール済みの複数のアプリケーション143に関する情報を検索する。この「アプリケーション143に関する情報」は、例えば、アプリケーションの名称や重要度など種々の情報を含む。リスト生成部101は、取得した情報をもとに、ユーザが選択可能な所定数の候補それぞれを表すテキスト情報(アプリケーションの名称)を生成し、このテキスト情報のリストである候補リスト200を生成する。
アプリケーションの「重要度」とは、例えば、アプリケーションの使用頻度、アプリケーションの最近の使用順、起動の優先度である。「重要度」が起動の優先度である場合、例えば、未読メールがある場合には、メールブラウザの起動の優先度が高いため、重要度が高く設定される。
第2の実施形態に係る情報処理装置1Aのその他の機能は、第1の実施形態に係る情報処理装置1の機能と同様である。
(2−2.第2の実施形態の変形例)
第2の実施形態の変形例として、情報処理装置1Aのリスト生成部101は、所定のアプリケーション(本変形例では、メッセージ交換アプリケーション、メールブラウザ)が起動されると、記憶部14から、ユーザが選択可能な所定数の候補に関する情報として、メッセージ送信先に関する情報を検索する。この「メッセージ送信先に関する情報」は、例えば、メッセージ送信先である人物の名前や重要度など種々の情報を含む。リスト生成部101は、取得した情報をもとに、ユーザが選択可能な所定数の候補それぞれを表すテキスト情報(人物の名前)を生成し、このテキスト情報のリストである候補リスト200を生成する。メッセージ送信先の「重要度」とは、例えば、メッセージ送受信頻度、最近のメッセージ送受信順、最終ログイン時刻が新しい(近い)順である。
(3.第3の実施形態)
(3−1.第3の実施形態の構成)
第1の実施形態では、情報処理装置1は、ユーザに対して一方的に複数の候補を提供した。これに対して、第3の実施形態では、情報処理装置は、ユーザに対してインタラクティブ(双方向的、対話的)に、選択可能な複数の候補をヒントとして提供する。
図9は、第3の実施形態に係る情報処理装置の機能的な構成を示すブロック図である。図10は、情報処理装置の動作を示すフローチャートである。
情報処理装置1Bの入力部16は、音声入力部19(マイクロフォン)から入力されたアナログな音声信号を、演算部12が処理可能なデジタル信号に変換し、対話部109に供給する。本例では、「アナログな音声信号」としてユーザの発話「レストランを検索」が入力されたとする。対話部109は、音声入力部19からのデジタル信号を取得すると(ステップS201でYes)、音声出力部17からユーザの発話に対する応答「何が食べたいですか?」を出力する(ステップS202)。対話部109は、所定時間内にユーザからの応答を音声入力部19を介して取得した場合(ステップS203でYES)、ユーザからの発話が再び入力されるまで待機(スタンバイ)する。一方、対話部109は、所定時間内にユーザからの応答を音声入力部19を介して取得しない(ユーザが所定時間沈黙した)場合(ステップS203でNO)、そのことをリスト生成部101に通知する。リスト生成部101は、通知を受けると、ネットワークNを介してサーバ装置Sから、ユーザが選択可能な複数の候補(飲食店、メニュー、ジャンル)に関する情報を検索する(ステップS101)。そして、ステップS101以下の動作が実行される。なお、「メニュー」の一例は「ラーメン」であり、「ジャンル」の一例は「フレンチ」である。
(3−2.第3の実施形態の変形例)
第3の実施形態の変形例として、リスト生成部101は、ユーザの現在地とは関係のない広義的な情報(メニュー、ジャンル)をユーザが選択可能な複数の候補として検索する場合、サーバ装置Sではなく、記憶部17から情報を検索してもよい。
本実施形態では、所定時間内にユーザからの応答が音声入力部19を介して入力されない(ユーザが所定時間沈黙した)場合、ユーザが選択可能な複数の候補を提供するための動作を開始した(ステップS203でNO)。そして、対話部109は、所定時間内にユーザからの応答を音声入力部19を介して取得した場合(ステップS203でYES)、ユーザからの発話が再び入力されるまで待機(スタンバイ)した。これに代えて、以下の各変形例を採用してもよい。
一変形例として、ユーザ情報取得部102が、ユーザの所定の動作(ジェスチャ)を検出した場合、ユーザが選択可能な複数の候補を提供するための動作が開始されてもよい。ジェスチャの例としては、上を見上げる、うつむく、首を傾げる、顎、口元又は頭に手を当てる、目をつぶる等が挙げられる。そして、ユーザ情報取得部102が、ユーザが元の姿勢に戻ったことを検出した場合、ユーザからの発話が再び入力されるまで待機(スタンバイ)してもよい。
別の変形例として、入力部16が所定のボタン操作を検出した場合、ユーザが選択可能な複数の候補を提供するための動作が開始されてもよい。そして、入力部16が所定のボタン操作を再び検出した場合、ユーザからの発話が再び入力されるまで待機(スタンバイ)してもよい。
別の変形例として、音声入力部19にユーザから所定の発話(「例えば?」など)が入力された場合、ユーザが選択可能な複数の候補を提供するための動作が開始されてもよい。
(4.第4の実施形態)
(4−1.第4の実施形態の構成)
第1の実施形態では、情報処理装置は、ユーザに対して、選択可能な複数の候補それぞれを表す音声を出力した。第4の実施形態では、情報処理装置は、ユーザに対して、選択可能な複数の候補それぞれを表す音声を出力するとともに、同時に、複数の候補それぞれを表す画像を出力する。
要するに、情報処理装置は、ユーザが選択可能な複数の候補それぞれを表す画像に関する画像情報を取得し、特定の候補を表す音声と前記特定の候補を表す画像とが同期して出力されるように、前記画像情報を制御するように構成された画像情報制御部111をさらに具備する。
図11は、第4の実施形態に係る情報処理装置の機能的な構成を示すブロック図である。
情報処理装置1Cは、注視点算出部110と、画像情報制御部111とをさらに有する。
カメラ16L、16Rは、ユーザの視線情報を取得する。具体的には、カメラ16L、16Rは、ユーザの左右の眼球を撮影し、視線情報を記憶部14の視線情報ログ144に書き込む。視線情報とは、ユーザの視線方向(x,y,z)を表す情報)である。
注視点算出部110は、視線情報ログ144を参照し、視線情報(ユーザの視線方向(x,y,z))に基づき、画像出力部11の画面上の注視点(x,y)を算出する。注視点算出部110は、算出した注視点の位置情報である注視点情報を、画像情報制御部111に供給する。
リスト生成部101は、サーバ装置Sから、ユーザが選択可能な所定数の候補に関する情報を検索する。「ユーザが選択可能な所定数の候補に関する情報」(本例では、飲食店に関する情報)には、例えば、飲食店の名称や重要度に加えて、画像情報が含まれる。リスト生成部101が生成する候補リスト200には、画像情報が含まれる。
タイミング算出部105は、それぞれの候補201について算出したタイミング206を候補リスト200に書き込むと、テキスト/音声変換部107に加えて画像情報制御部111にも通知する。
画像情報制御部111は、記憶部14に格納された候補リスト200を参照し、それぞれの候補201について、画像情報を取得する。画像情報制御部111は、それぞれの候補201を表す画像情報をもとに、それぞれの候補201の画像のアニメーション情報を、記憶部14の描画バッファ145に書き込む。ここで、画像情報制御部111は、それぞれの候補201を表す画像が、タイミング算出部105から通知されたタイミングで表示が開始され、且つ、画面の周辺領域から中心領域に向かって移動するようなアニメーション情報を生成する。画像情報制御部111は、中心領域内で複数の画像が互いに干渉しないように、表示開始位置、移動方向及び移動速度を制御する。なお「中心領域」は、注視点算出部110から取得した注視点を中心とし、ユーザの中心視野(視機能の精度が高い視野範囲)に相当する。「周辺領域」は、中心領域を取り囲み、ユーザの周辺視野(視機能の精度が低い視野範囲)に相当する。画像情報制御部111は、タイミング算出部105から通知されたタイミングで、それぞれの候補201を表す画像のアニメーション情報を、画像出力部11に供給する。これにより、特定の候補を表す音声と、その候補を表す画像とが同期して出力される。
なお、リスト生成部101がサーバ装置Sから所定の候補について画像を取得できなかった場合は、画像情報制御部111は、その候補を示すテキスト情報を画像として出力すればよい。
本実施形態によれば、特定の候補を表す音声とその候補を表す画像とが同期して出力される。これにより、ユーザは、選択可能な候補を聴覚だけでなく視覚的にも認識することができるので、全ての候補を一層速く正確に識別できる。これにより、ユーザが不便を感じる可能性がさらに減る。
(4−2.第4の実施形態の変形例)
第4の実施形態の変形例として、表示される画像はアニメーションではなく静止画でもよい。あるいは、第2又は第3の実施形態と、第4の実施形態の画像出力機能とを組み合わせてもよい。
あるいは、ユーザ情報や重要度に応じて、画像の大きさ、位置、速度などを変更してもよい。例えば、ユーザ情報に基づきユーザに対する負荷が高いと予測される場合、画像を大きくしたり、注視点に近い位置に画像を表示したり、アニメーションの速度を遅くしてもよい。負荷が低いと予測される場合、画像を小さくしたり、注視点から離れた位置に画像を表示したり、アニメーションの速度を早くしてもよい。重要度が高い場合、画像を大きくしたり、注視点に近い位置に画像を表示してもよい。重要度が低い場合、画像を小さくしたり、注視点から離れた位置に画像を表示してもよい。
(5.重なり量及びエージェントの数を動的に変更するためのパラメータの具体例)
第1の実施形態において、情報処理装置は、ユーザの行動情報(運動時、安静時)に基づいて重なり量や音質/音像(エージェント)の数を動的に変更した。重なり量や音質/音像(エージェント)の数を動的に変更するためのパラメータの他の具体例としては、以下の例が挙げられる。
一例として、ユーザ情報取得部102は、ジャイロセンサ及び加速度センサのデータを基に、ユーザの頭部の動き情報を取得する(ヘッドトラッキング)。例えば、ユーザの頭部が激しく動いているとき(走行中等)は、ユーザは複数の候補を表す音声を正確に識別することが難しいと予測されるので、重なり量決定部104は重なり量を減らしたり、音質/音像数決定部103は音質/音像数を増やしたりする。
別の例として、ユーザ情報取得部102は、GPSの移動量、SLAMの自己位置推定の相対位置、Wi−fiの位置推定などに基づき、ユーザの移動速度(走行、歩行、停止)を検出する。第1の実施形態と同様に、ユーザが高速に動いているとき(走行時)は、ユーザは複数の候補を表す音声を正確に識別することが難しいと予測されるので、重なり量決定部104は重なり量を減らしたり、音質/音像数決定部103は音質/音像数を増やしたりする。
別の例として、ユーザ情報取得部102は、学習機能を有し、検出部群16Sの検出情報を蓄積してユーザの行動(座位、階段昇降、車両運転、会話中等)を予測してもよい。例えば、ユーザの行動として車両運転や会話中が予測されるときには、重なり量決定部104は重なり量を減らしたり、音質/音像数決定部103は音質/音像数を増やしたりする。学習機能の別の例として、ユーザ情報取得部102は、ユーザが音声をリプレイした場合のノイズや心拍数などを蓄積しておく。そのノイズや心拍数などを検出した場合には、ユーザが音声を聞き取りにくい状態であることが予測されるので、重なり量決定部104は重なり量を減らしたり、音質/音像数決定部103は音質/音像数を増やしたりする。
別の例として、ユーザ情報取得部102は、心拍センサにより検出された心拍数が閾値以上のとき、又は、発汗センサにより検出された発汗値が閾値以上のとき、ユーザが緊張状態にあると判断する。ユーザが緊張状態にあるときは、ユーザは複数の候補を表す音声を正確に識別することが難しいと予測されるので、重なり量決定部104は重なり量を減らしたり、音質/音像数決定部103は音質/音像数を増やしたりする。
別の例として、ユーザ情報取得部102は、ユーザの周囲の音声(ノイズ)を検出するためのマイクロフォンにより検出されたノイズが閾値以上のとき、ユーザの周囲が騒音環境であると判断する。ユーザの周囲が騒音環境であるときは、ユーザは複数の候補を表す音声を正確に識別することが難しいと予測されるので、重なり量決定部104は重なり量を減らしたり、音質/音像数決定部103は音質/音像数を増やしたりする。
(6.その他の実施形態)
第1の実施形態では、重なり量決定部104は、ユーザ情報及び重要度に基づいて重なり量を決定した。重なり量決定部104は、さらにエージェント数にも基づいて重なり量を決定してもよい。例えば、重なり量決定部104は、エージェント数が多いとき、重なり量を大きく設定すればよい。異なる複数の種類のエージェント(音質及び音像の組み合わせ)を用いることで、重なり量を増やしても、ユーザがそれぞれの音声を識別しやすくなる。また、全ての音声が出力される時間が、全体として一層短縮される。
第1の実施形態では、音質/音像割り当て部106は、複数の候補それぞれに、音質及び音像をランダムに割り当てた。これに代えて、音質/音像割り当て部106は、重要度やユーザ情報に基づいて音質及び音像を選定してもよい。要するに、音質/音像割り当て部106は、前記複数の候補それぞれの重要度をもとに、前記複数の候補それぞれを表す音声の音質及び/又は音像を決定するように構成されてもよい。
一般に、周波数帯の観点から、男声より女声が聞き取りやすいとされる。例えば、音質/音像割り当て部106は、重要度が高い候補を女声とし、重要度が低い候補を男声としてもよい。あるいは、音質/音像割り当て部106は、ユーザ情報を基に予測されるユーザに対する負荷が高いと予測されるときには女声を用いる候補の数を増やし、負荷が低いと予測されるときには女声を用いる候補の数を減らしてもよい。
情報処理装置の典型的な例は、出力部15、入力部16及びネットワーク接続部18等を一体として有する透過型又は遮蔽型のHMDとした。これに代えて、情報処理装置は、入力部16を有するモバイル機器(スマートフォン等)又はウェアラブル機器(リストバンド型、ペンダント型等)と、音声出力部17を有するヘッドフォン(オープンタイプ、首掛けタイプ含む)と、画像出力部11を有するウェアラブル機器(HMD等)との組み合わせであってもよい。あるいは、情報処理装置は、入力部16を有する据え置き型機器(パーソナルコンピュータ、セットトップボックス等)と、音声出力部17を有するスピーカシステムと、画像出力部11を有する据え置き型機器(テレビジョン受像機、プロジェクタ等)との組み合わせであってもよい。
あるいは、情報処理装置は、ユーザ情報を取得するように構成された電子機器と、ネットワークを介して接続可能なサーバ装置との組み合わせであってもよい。この場合、サーバ装置は、記憶部に格納される情報のうち少なくとも一部を電子機器から受信して記憶し、上記各実施形態において情報処理装置が実行した処理のうち少なくとも一部を実行し、処理済みのデータを電子機器へ送信する。例えば、サーバ装置は、上記各実施形態において情報処理装置が実行した処理のうち、音声出力以外の処理を実行してもよい。
上記各実施形態及び変形例の各機能部として情報処理装置を機能させるプログラムは、非一過性の記録媒体(non-transitory computer readable medium)に格納されうる。
なお、本技術は以下のような構成もとることができる。
(1)ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得するように構成された音声情報取得部と、
前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成するように構成された音声合成部
とを具備する情報処理装置。
(2)上記(1)に記載の情報処理装置であって、
前記複数の候補それぞれを表す音声の重なり量を決定するように構成された重なり量決定部
をさらに具備する情報処理装置。
(3)上記(2)に記載の情報処理装置であって、
前記重なり量決定部は、ユーザに関して検出された情報であるユーザ情報をもとに、前記複数の候補それぞれを表す音声の重なり量を決定するように構成される
情報処理装置。
(4)上記(3)に記載の情報処理装置であって、
前記ユーザ情報は、ユーザの生体情報と、ユーザの行動情報と、ユーザの周囲の環境情報との少なくとも何れか1つを含む
情報処理装置。
(5)上記(2)から(4)のいずれか1つに記載の情報処理装置であって、
前記重なり量決定部は、前記複数の候補それぞれの重要度をもとに、前記複数の候補それぞれを表す音声の重なり量を決定するように構成される
情報処理装置。
(6)上記(1)から(5)のいずれか1つに記載の情報処理装置であって、
ユーザが選択可能な複数の候補それぞれを表す画像に関する画像情報を取得し、
特定の候補を表す音声と前記特定の候補を表す画像とが同期して出力されるように、前記画像情報を制御するように構成された画像情報制御部
をさらに具備する情報処理装置。
(7)上記(1)から(6)のいずれか1つに記載の情報処理装置であって、
前記複数の候補それぞれを表す音声の少なくとも一部の、音質及び/又は音像が異なるように、前記複数の候補それぞれを表す音声の音質及び/又は音像を変更するように構成された音質/音像割り当て部
をさらに具備する情報処理装置。
(8)上記(7)に記載の情報処理装置であって、
前記音質/音像割り当て部は、前記ユーザ情報をもとに、前記複数の候補それぞれを表す音声の音質及び/又は音像を決定するように構成される
情報処理装置。
(9)上記(7)又は(8)に記載の情報処理装置であって、
前記音質/音像割り当て部は、前記複数の候補それぞれの重要度をもとに、前記複数の候補それぞれを表す音声の音質及び/又は音像を決定するように構成される
情報処理装置。
(10)ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得し、
前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成する
情報処理方法。
(11)ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得するように構成された音声情報取得部と、
前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成するように構成された音声合成部
としてコンピュータを機能させるプログラム。
(12)ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得するように構成された音声情報取得部と、
前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成するように構成された音声合成部
としてコンピュータを機能させるプログラムを格納した非一過性の記録媒体。
1,1A,1B,1C…情報処理装置
101…リスト生成部
102…ユーザ情報取得部
103…音質/音像数決定部
104…重なり量決定部
105…タイミング算出部
106…音質/音像割り当て部
107…テキスト/音声変換部
108…音声合成部
200…候補リスト

Claims (11)

  1. ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得するように構成された音声情報取得部と、
    前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成するように構成された音声合成部
    とを具備する情報処理装置。
  2. 請求項1に記載の情報処理装置であって、
    前記複数の候補それぞれを表す音声の重なり量を決定するように構成された重なり量決定部
    をさらに具備する情報処理装置。
  3. 請求項2に記載の情報処理装置であって、
    前記重なり量決定部は、ユーザに関して検出された情報であるユーザ情報をもとに、前記複数の候補それぞれを表す音声の重なり量を決定するように構成される
    情報処理装置。
  4. 請求項3に記載の情報処理装置であって、
    前記ユーザ情報は、ユーザの生体情報と、ユーザの行動情報と、ユーザの周囲の環境情報との少なくとも何れか1つを含む
    情報処理装置。
  5. 請求項4に記載の情報処理装置であって、
    前記重なり量決定部は、前記複数の候補それぞれの重要度をもとに、前記複数の候補それぞれを表す音声の重なり量を決定するように構成される
    情報処理装置。
  6. 請求項5に記載の情報処理装置であって、
    ユーザが選択可能な複数の候補それぞれを表す画像に関する画像情報を取得し、
    特定の候補を表す音声と前記特定の候補を表す画像とが同期して出力されるように、前記画像情報を制御するように構成された画像情報制御部
    をさらに具備する情報処理装置。
  7. 請求項6に記載の情報処理装置であって、
    前記複数の候補それぞれを表す音声の少なくとも一部の、音質及び/又は音像が異なるように、前記複数の候補それぞれを表す音声の音質及び/又は音像を変更するように構成された音質/音像割り当て部
    をさらに具備する情報処理装置。
  8. 請求項6に記載の情報処理装置であって、
    前記音質/音像割り当て部は、前記ユーザ情報をもとに、前記複数の候補それぞれを表す音声の音質及び/又は音像を決定するように構成される
    情報処理装置。
  9. 請求項8に記載の情報処理装置であって、
    前記音質/音像割り当て部は、前記複数の候補それぞれの重要度をもとに、前記複数の候補それぞれを表す音声の音質及び/又は音像を決定するように構成される
    情報処理装置。
  10. ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得し、
    前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成する
    情報処理方法。
  11. ユーザが選択可能な複数の候補それぞれを表す音声に関する複数の音声情報を取得するように構成された音声情報取得部と、
    前記複数の候補それぞれを表す音声の少なくとも一部が重なり合って出力されるように、前記複数の音声情報を合成するように構成された音声合成部
    としてコンピュータを機能させるプログラム。
JP2015071091A 2015-03-31 2015-03-31 情報処理装置、情報処理方法及びプログラム Pending JP2016191791A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2015071091A JP2016191791A (ja) 2015-03-31 2015-03-31 情報処理装置、情報処理方法及びプログラム
US15/559,862 US10129442B2 (en) 2015-03-31 2016-02-03 Information processing apparatus and information processing method
PCT/JP2016/000560 WO2016157678A1 (ja) 2015-03-31 2016-02-03 情報処理装置、情報処理方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015071091A JP2016191791A (ja) 2015-03-31 2015-03-31 情報処理装置、情報処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2016191791A true JP2016191791A (ja) 2016-11-10

Family

ID=57004062

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015071091A Pending JP2016191791A (ja) 2015-03-31 2015-03-31 情報処理装置、情報処理方法及びプログラム

Country Status (3)

Country Link
US (1) US10129442B2 (ja)
JP (1) JP2016191791A (ja)
WO (1) WO2016157678A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021260848A1 (ja) * 2020-06-24 2021-12-30 日本電信電話株式会社 学習装置、学習方法及び学習プログラム

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016191845A (ja) * 2015-03-31 2016-11-10 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
WO2019108979A1 (en) * 2017-11-30 2019-06-06 Dale Wettlaufer Partial or whole food hopper, grinder and cold press counter-top juicing machine, system and method

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002032098A (ja) * 2000-07-14 2002-01-31 Canon Inc 音声出力装置、音声出力システム、音声出力方法及び記憶媒体
US7031924B2 (en) 2000-06-30 2006-04-18 Canon Kabushiki Kaisha Voice synthesizing apparatus, voice synthesizing system, voice synthesizing method and storage medium
AU2001293248A1 (en) * 2000-10-03 2002-04-15 Abraham R. Zingher Biometric system and method for detecting duress transactions
US7577569B2 (en) * 2001-09-05 2009-08-18 Voice Signal Technologies, Inc. Combined speech recognition and text-to-speech generation
JP2005274639A (ja) 2004-03-23 2005-10-06 Saxa Inc 音声ガイダンス装置
KR100699050B1 (ko) * 2006-06-30 2007-03-28 삼성전자주식회사 문자정보를 음성정보로 출력하는 이동통신 단말기 및 그방법
JP2010128099A (ja) * 2008-11-26 2010-06-10 Toyota Infotechnology Center Co Ltd 車載用音声情報提供システム
JP4785909B2 (ja) * 2008-12-04 2011-10-05 株式会社ソニー・コンピュータエンタテインメント 情報処理装置
JP2011221237A (ja) * 2010-04-08 2011-11-04 Nec Corp 音声出力装置、そのコンピュータプログラムおよびデータ処理方法
WO2013132712A1 (ja) * 2012-03-07 2013-09-12 三菱電機株式会社 ナビゲーション装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021260848A1 (ja) * 2020-06-24 2021-12-30 日本電信電話株式会社 学習装置、学習方法及び学習プログラム

Also Published As

Publication number Publication date
US10129442B2 (en) 2018-11-13
WO2016157678A1 (ja) 2016-10-06
US20180063384A1 (en) 2018-03-01

Similar Documents

Publication Publication Date Title
US11277519B2 (en) Methods and apparatus to assist listeners in distinguishing between electronically generated binaural sound and physical environment sound
CN108028957B (zh) 信息处理装置、信息处理方法和机器可读介质
US10154360B2 (en) Method and system of improving detection of environmental sounds in an immersive environment
US20210132686A1 (en) Storage medium, augmented reality presentation apparatus, and augmented reality presentation method
US11231827B2 (en) Computing device and extended reality integration
US12032155B2 (en) Method and head-mounted unit for assisting a hearing-impaired user
JPWO2018155026A1 (ja) 情報処理装置、情報処理方法、及びプログラム
US11036464B2 (en) Spatialized augmented reality (AR) audio menu
US20230260534A1 (en) Smart glass interface for impaired users or users with disabilities
WO2016157678A1 (ja) 情報処理装置、情報処理方法及びプログラム
US11275554B2 (en) Information processing apparatus, information processing method, and program
US20200279559A1 (en) Information processing apparatus, information processing method, and program
US11074034B2 (en) Information processing apparatus, information processing method, and program
JP4772315B2 (ja) 情報変換装置及び情報変換方法、並びに通信装置及び通信方法
JPWO2018168247A1 (ja) 情報処理装置、情報処理方法およびプログラム
JPWO2018190099A1 (ja) 音声提供装置、音声提供方法及びプログラム
US12119021B1 (en) Situational awareness for head mounted devices
US11935557B2 (en) Techniques for detecting and processing domain-specific terminology
KR20170093631A (ko) 적응적 컨텐츠 출력 방법
US11935168B1 (en) Selective amplification of voice and interactive language simulator
WO2024134736A1 (ja) ヘッドマウントディスプレイ装置および立体音響の制御方法
WO2023058393A1 (ja) 情報処理装置、情報処理方法、及びプログラム
TW202320556A (zh) 基於用戶電信號的音頻調整
CN118251667A (zh) 用于生成视觉字幕的系统和方法