JP7115480B2 - 情報処理装置、情報処理方法、並びにプログラム - Google Patents

情報処理装置、情報処理方法、並びにプログラム Download PDF

Info

Publication number
JP7115480B2
JP7115480B2 JP2019534016A JP2019534016A JP7115480B2 JP 7115480 B2 JP7115480 B2 JP 7115480B2 JP 2019534016 A JP2019534016 A JP 2019534016A JP 2019534016 A JP2019534016 A JP 2019534016A JP 7115480 B2 JP7115480 B2 JP 7115480B2
Authority
JP
Japan
Prior art keywords
sound image
sound
user
information processing
virtual character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019534016A
Other languages
English (en)
Other versions
JPWO2019026597A1 (ja
Inventor
大介 望月
純子 福田
智彦 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2019026597A1 publication Critical patent/JPWO2019026597A1/ja
Priority to JP2022120199A priority Critical patent/JP7456463B2/ja
Application granted granted Critical
Publication of JP7115480B2 publication Critical patent/JP7115480B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/025Arrangements for fixing loudspeaker transducers, e.g. in a box, furniture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/403Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers loud-speakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/02Details casings, cabinets or mounting therein for transducers covered by H04R1/02 but not provided for in any of its subgroups
    • H04R2201/023Transducers incorporated in garment, rucksacks or the like
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)
  • Details Of Audible-Bandwidth Transducers (AREA)

Description

本技術は情報処理装置、情報処理方法、並びにプログラムに関し、例えば、AR(Augmented Reality)ゲームなどに適用して好適な情報処理装置、情報処理方法、並びにプログラムに関する。
情報処理および情報通信技術の発展に伴い、コンピュータが広く普及し、日常生活の支援や娯楽にも積極的に利用されている。最近では、エンタテインメントの分野においてもコンピュータ処理が利用させるようになり、このようなエンタテインメントはオフィスや家庭内など特定の場所で作業するユーザに利用されるだけでなく、移動中のユーザにおいても必要とされる。
移動中のエンタテインメントに関し、例えば下記特許文献1では、移動中のユーザの身体のリズムに応じて画面に表示するキャラクタのインタラクションを制御することでユーザの親密感を得て、移動そのものをエンタテインメントとして楽しませる情報処理装置が提案されている。
特開2003-305278号公報
しかしながら、上記特許文献1では、表示画面にキャラクタの画像が表示されるため、歩行中や走行中に画面を見ることが困難な場合はエンタテインメントを楽しむことができない。また、エンタテインメントとして楽しませる情報処理装置で、より多くの時間、ユーザを楽しませるようにすることが望まれている。
本技術は、このような状況に鑑みてなされたものであり、ユーザを楽しませることができるようにするものである。
本技術の一側面の情報処理装置は、音像定位により現実空間に存在するよう知覚させる仮想物体の音像の位置と、ユーザの位置とに基づいて、前記ユーザに対する前記仮想物体の音源の相対的な位置を算出する算出部と、前記算出された定位位置に音像を定位させるよう前記音源の音声信号処理を行う音像定位部と、音像の位置を保持する音像位置保持部とを備え、前記算出部は、前記音像の位置を、前記仮想物体が発する音声を切り替えるとき、切り替え後の音声の音像の位置を、切り替え前の音声の音像の位置を引き継いだ位置に設定する場合、前記音像位置保持部に保持されている音像の位置を参照して、前記音像の位置を算出する。
本技術の一側面の情報処理方法は、音像定位により現実空間に存在するよう知覚させる仮想物体の音像の位置と、ユーザの位置とに基づいて、前記ユーザに対する前記仮想物体の音源の相対的な位置を算出し、前記算出された定位位置に音像を定位させるよう前記音源の音声信号処理を行い、保持されている音像の位置を更新するステップを含み、前記仮想物体が発する音声を切り替えるとき、切り替え後の音声の音像の位置を、切り替え前の音声の音像の位置を引き継いだ位置に設定する場合、前記保持されている音像の位置が参照されて、前記音像の位置が算出される。
本技術の一側面のプログラムは、コンピュータに、音像定位により現実空間に存在するよう知覚させる仮想物体の音像の位置と、ユーザの位置とに基づいて、前記ユーザに対する前記仮想物体の音源の相対的な位置を算出し、前記算出された定位位置に音像を定位させるよう前記音源の音声信号処理を行い、保持されている音像の位置を更新するステップを含み、前記仮想物体が発する音声を切り替えるとき、切り替え後の音声の音像の位置を、切り替え前の音声の音像の位置を引き継いだ位置に設定する場合、前記保持されている音像の位置が参照されて、前記音像の位置が算出される処理を実行させる。
本技術の一側面の情報処理装置、情報処理方法、並びにプログラムにおいては、音像定位により現実空間に存在するよう知覚させる仮想物体の音像の位置と、ユーザの位置とに基づいて、ユーザに対する仮想物体の音源の相対的な位置が算出され、算出された定位位置に音像を定位させるよう音源の音声信号処理が行われ、保持されている音像の位置が更新される。また音像の位置を、仮想物体が発する音声を切り替えるとき、切り替え後の音声の音像の位置を、切り替え前の音声の音像の位置を引き継いだ位置に設定する場合、保持されている音像の位置が参照されて、音像の位置が算出される。
なお、情報処理装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
また、プログラムは、伝送媒体を介して伝送することにより、または、記録媒体に記録して、提供することができる。
本技術の一側面によれば、ユーザを楽しませることができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術を適用した情報処理装置の概要について説明する図である。 本技術を適用した情報処理装置の外観構成の一例を示す斜視図である。 情報処理装置の内部構成の一例を示すブロック図である。 ユーザの体格データについて説明する図である。 情報処理装置の動作について説明するためのフローチャートである。 音像について説明するための図である。 音像アニメーションについて説明するための図である。 音像アニメーションについて説明するための図である。 音像アニメーションについて説明するための図である。 音像アニメーションについて説明するための図である。 コンテンツについて説明するための図である。 ノードの構成について説明するための図である。 キーフレームの構成について説明するための図である。 キーフレーム間の補間について説明するための図である。 音像アニメーションについて説明するための図である。 音像アニメーションについて説明するための図である。 音声の引き継ぎについて説明するための図である。 音声の引き継ぎについて説明するための図である。 音声の引き継ぎについて説明するための図である。 制御部の構成について説明するための図である。 制御部の動作について説明するためのフローチャートである。 制御部の動作について説明するためのフローチャートである。 記録媒体について説明するための図である。
以下に、本技術を実施するための形態(以下、実施の形態という)について説明する。
<本開示の一実施の形態による情報処理装置の概要>
まず、本開示の一実施の形態による情報処理装置の概要について、図1を参照して説明する。図1に示すように、本実施の形態による情報処理装置1は、例えばユーザAの首に掛けられるネックバンド型の情報処理端末であって、スピーカおよび各種センサ(加速度センサ、ジャイロセンサ、地磁気センサ、絶対位置測位部等)を有する。かかる情報処理装置1は、音声情報を空間的に配置する音像定位技術により、現実空間に仮想キャラクタ20が本当に存在しているようユーザに知覚させる機能を有する。なお仮想キャラクタ20は仮想物体の一例である。仮想物体としては、仮想ラジオ、仮想楽器などの物体や、街中の雑音(例えば、車の音、踏切の音、人混みの雑話音など)を発する物体などでも良い。
そこで、本実施の形態による情報処理装置1は、ユーザの状態と仮想キャラクタの情報に基づいて、仮想キャラクタを知覚させる音を定位させる相対的な3次元位置を適切に算出し、現実空間における仮想物体の存在感をよりリアルに提示することを可能とする。具体的には、例えば情報処理装置1は、ユーザAの身長や状態(立っている、座っている等)と仮想キャラクの身長情報に基づいて、仮想キャラクタの声を定位させる相対的な高さを算出し、音像定位することで、仮想キャラクタの大きさをユーザに実感させることができる。
また、情報処理装置1は、ユーザAの状態や動きに応じて仮想キャラクタの音を変化させることで、仮想キャラクタの動きにリアリティを持たせることができる。この際、情報処理装置1は、仮想キャラクタの声の音は仮想キャラクタの口元(頭部)に定位させ、仮想キャラクタの足音は仮想キャラクタの足元に定位する等、音の種別に基づいて対応する仮想キャラクタの部位に定位させるよう制御する。
以上、本実施の形態による情報処理装置1の概要について説明した。続いて、本実施の形態による情報処理装置1の構成について図2および図3を参照して説明する。
<情報処理装置の外観の構成>
図2は、本実施の形態による情報処理装置1の外観構成の一例を示す斜視図である。情報処理装置1は、いわゆるウェアラブル端末である。図2に示すように、ネックバンド型の情報処理装置1は、首の両側から後ろ側(背中側)にかけて半周回するような形状の装着ユニット(装着可能に構成された筐体)を有し、ユーザの首にかけられることでユーザに装着される。図2では、装着ユニットをユーザが装着した状態における斜視図を示す。
なお、本明細書では、上下左右前後といった方向を示す言葉を用いるが、これらの方向はユーザの直立姿勢における、ユーザの体の中心(例えば鳩尾の位置)からみた方向を示すものとする。例えば、「右」とはユーザの右半身側の方向を示し、「左」とはユーザの左半身側の方向を示し、「上」とはユーザの頭側の方向を示し、「下」とはユーザの足側の方向を示すものとする。また、「前」とはユーザの体が向く方向を示し、「後」とはユーザの背中側の方向を示すものとする。
図2に示すように、装着ユニットは、ユーザの首に密着して装着されてもよいし、離間して装着されてもよい。なお首かけ型の装着ユニットの他の形状としては、例えば首下げ紐によりユーザに装着されるペンダント型や、頭にかけるヘッドバンドの代わりに首の後ろ側を通るネックバンドを有するヘッドセット型が考えられる。
また、装着ユニットの使用形態は、人体に直接的に装着されて使用される形態であってもよい。直接的に装着されて使用される形態とは、装着ユニットと人体との間に何らの物体も存在しない状態で使用される形態を指す。例えば、図2に示す装着ユニットがユーザの首の肌に接するように装着される場合は本形態に該当する。他にも、頭部に直接的に装着されるヘッドセット型やメガネ型等の多様な形態が考えられる。
若しくは、装着ユニットの使用形態は、人体に間接的に装着されて使用される形態であってもよい。間接的に装着されて使用される形態とは、装着ユニットと人体との間に何らかの物体が存在する状態で使用される形態を指す。例えば、図2に示した装着ユニットが、シャツの襟の下に隠れるように装着される等、服の上からユーザに接するように装着される場合は、本形態に該当する。他にも、首下げ紐によりユーザに装着されるペンダント型や、衣服に留め具等で留められるブローチ型等の多様な形態が考えられる。
また、情報処理装置1は、図2に示すように、複数のマイクロフォン12(12A、12B)、カメラ13(13A、13B)、スピーカ15(15A、15B)を有している。マイクロフォン12は、ユーザ音声又は周囲の環境音等の音声データを取得する。カメラ13は、周囲の様子を撮像し撮像データを取得する。また、スピーカ15は、音声データの再生を行う。特に本実施の形態によるスピーカ15は、現実空間に実際に存在しているかのようにユーザに知覚させる仮想キャラクタの音像定位処理された音声信号を再生する。
このように、情報処理装置1は、音像定位処理された音声信号を再生する複数のスピーカが搭載され、ユーザの体の一部に装着可能に構成された筐体を、少なくとも有する構成とされている。
なお図2では、情報処理装置1にマイクロフォン12、カメラ13、およびスピーカ15がそれぞれ2つ設けられる構成を示したが、本実施の形態はこれに限定されない。例えば、情報処理装置1は、マイクロフォン12およびカメラ13をそれぞれ1つ有していてもよいし、マイクロフォン12、カメラ13、およびスピーカ15をそれぞれ3つ以上有していてもよい。
<情報処理装置の内部構成>
続いて、本実施の形態による情報処理装置1の内部構成について図3を参照して説明する。図3は、本実施の形態による情報処理装置1の内部構成の一例を示すブロック図である。図3に示すように、情報処理装置1は、制御部10、通信部11、マイクロフォン12、カメラ13、9軸センサ14、スピーカ15、位置測位部16、および記憶部17を有する。
制御部10は、演算処理装置および制御装置として機能し、各種プログラムに従って情報処理装置1内の動作全般を制御する。制御部10は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、制御部10は、使用するプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、及び適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)を含んでいてもよい。
また、本実施の形態による制御部10は、図3に示すように、状態・行動検出部10a、仮想キャラクタ行動決定部10b、シナリオ更新部10c、相対位置算出部10d、音像定位部10e、音声出力制御部10f、および再生履歴・フィードバック記憶制御部10gとして機能する。
状態・行動検出部10aは、ユーザの状態の検出、また、検出した状態に基づく行動の認識を行い、検出した状態や認識した行動を仮想キャラクタ行動決定部10bに出力する。具体的には、状態・行動検出部10aは、位置情報、移動速度、向き、耳(または頭部)の高さといった情報を、ユーザの状態に関する情報として取得する。ユーザ状態は、検出したタイミングで一意に特定可能であって、各種センサから数値として算出・取得できる情報である。
例えば位置情報は、位置測位部16から取得される。また、移動速度は、位置測位部16、9軸センサ14に含まれる加速度センサ、またはカメラ13等から取得される。向きは、9軸センサ14に含まれるジャイロセンサ、加速度センサ、および地磁気センサ、若しくはカメラ13により取得される。耳(または頭部)の高さは、ユーザの体格データ、加速度センサ、およびジャイロセンサから取得される。また、移動速度および向きは、カメラ13により継続的に周囲を撮像した映像における特徴点の変化をベースに動きを算出するSLAM(Simultaneous Localization and Mapping)を用いて取得してもよい。
また、耳(または頭部)の高さは、ユーザの体格データに基づいて算出され得る。ユーザの体格データとしては、例えば図4左に示すように、身長H1、座高H2、および耳から頭頂までの距離H3が設定され、記憶部17に記憶される。状態・行動検出部10aは、例えば以下のように耳の高さを算出する。なお『E1(頭の傾き)』は、図4右に示すように、上半身の傾きとして加速度センサやジャイロセンサ等により検出され得る。
(式1) ユーザが立っている場合:
耳の高さ=身長-座高+(座高-耳から頭頂までの距離)×E1(頭の傾き)
(式2) ユーザが座っている/寝転んでいる場合:
耳の高さ=(座高-耳から頭頂までの距離)×E1(頭の傾き)
他の計算式により、ユーザの体格データが生成されるようにしても良い。
状態・行動検出部10aは、前後の状態を参照することでユーザ行動を認識することも可能である。ユーザ行動としては、例えば「立ち止まっている」、「歩いている」、「走っている」、「座っている」、「寝転んでいる」、「車に乗っている」、「自転車を漕いでいる」、「キャラクタの方を向いている」等が想定される。状態・行動検出部10aは、9軸センサ14(加速度センサ、ジャイロセンサ、地磁気センサ)により検出された情報や、位置測位部16により検出された位置情報に基づいて、所定の行動認識エンジンを用いてユーザ行動を認識することも可能である。
仮想キャラクタ行動決定部10bは、状態・行動検出部10aにより認識されたユーザ行動に応じて、仮想キャラクタ20の現実空間における仮想的な行動を決定し(またはシナリオの選択も含む)、決定した行動に対応する音コンテンツをシナリオから選択する。
例えば仮想キャラクタ行動決定部10bは、ユーザが歩いている時は仮想キャラクタ20も歩かせ、ユーザが走っている時は仮想キャラクタ20もユーザの後を追いかけるよう走らせる等、ユーザと同じ行動を仮想キャラクタに取らせることで、仮想キャラクタの存在感を提示することができる。
また、仮想キャラクタ行動決定部10bは、仮想キャラクタの行動が決定すると、コンテンツのシナリオとして予め記憶している音源リスト(音コンテンツ)の中で、仮想キャラクタの行動に対応する音源を選択する。この際、再生回数に制限がある音源については、仮想キャラクタ行動決定部10bは再生ログに基づいて再生可否を判断する。また、仮想キャラクタ行動決定部10bは、仮想キャラクタの行動に対応する音源であって、かつユーザの嗜好に合う音源(好きな仮想キャラクターの音源等)や、現在地(場所)に紐付けられた特定の仮想キャラクタの音源を選択してもよい。
例えば仮想キャラクタ行動決定部10bは、決定された仮想キャラクタの行動が立ち止まっている場合は声の音コンテンツ(例えばセリフや呼吸)を選択し、歩いている場合は声の音コンテンツと足音の音コンテンツを選択する。また、仮想キャラクタ行動決定部10bは、決定された仮想キャラクタの行動が走っている場合は声の音コンテンツとして息切れの音などを選択する。このように、仮想キャラクタの行動に応じて、音コンテンツを選択し、行動に応じた鳴らし分けを実行する(すなわち、行動に対応しない音コンテンツは選択せず、再生しない)。
シナリオ更新部10cは、仮想キャラクタ行動決定部10bにより決定された仮想キャラクタの行動に対応する音コンテンツがシナリオから選択されることで、シナリオが進むため、シナリオの更新を行う。当該シナリオは、例えば記憶部17に記憶されている。
相対位置算出部10dは、仮想キャラクタ行動決定部10bにより選択された仮想キャラクタの音源(音コンテンツ)を定位する相対的な3次元位置(xy座標位置および高さ)を算出する。具体的には、まず相対位置算出部10dは、音源の種別に対応する仮想キャラクタの部位の位置を、仮想キャラクタ行動決定部10bにより決定された仮想キャラクタの行動を参照して設定する。相対位置算出部10dは、算出した音コンテンツ毎の音像定位位置(3次元位置)を、音像定位部10eに出力する。
音像定位部10eは、相対位置算出部10dにより算出された音コンテンツ毎の音像定位位置に、仮想キャラクタ行動決定部10bにより選択された対応する音コンテンツ(音源)を定位させるよう、音コンテンツの音声信号処理を行う。
音声出力制御部10fは、音像定位部10eにより処理された音声信号をスピーカ15で再生するよう制御する。これにより、本実施の形態による情報処理装置1は、ユーザの状態・行動に応じた仮想キャラクタの動きに対応する音コンテンツを、ユーザに対して適切な位置、距離、高さで音像定位し、仮想キャラクタの動きや大きさのリアリティを提示し、現実空間における仮想キャラクタの存在感を増すことができる。
再生履歴・フィードバック記憶制御部10gは、音声出力制御部10fで音声出力された音源(音コンテンツ)を履歴(再生ログ)として記憶部17に記憶するよう制御する。また、再生履歴・フィードバック記憶制御部10gは、音声出力制御部10fで音声出力された際に、ユーザが声の方向に振り向いたり、立ち止まって話を聞いたりといったユーザの反応をフィードバックとして記憶部17に記憶するよう制御する。これにより制御部10はユーザ嗜好を学習することが可能となり、上述した仮想キャラクタ行動決定部10bにおいてユーザ嗜好に応じた音コンテンツを選択することができる。
通信部11は、有線/無線により他の装置との間でデータの送受信を行うための通信モジュールである。通信部11は、例えば有線LAN(Local Area Network)、無線LAN、Wi-Fi(Wireless Fidelity、登録商標)、赤外線通信、Bluetooth(登録商標)、近距離/非接触通信等の方式で、外部機器と直接、またはネットワークアクセスポイントを介して無線通信する。
例えば、上述した制御部10の各機能がスマートフォン又はクラウド上のサーバ等の他の装置に含まれる場合、通信部11は、マイクロフォン12、カメラ13、および9軸センサ14により取得されたデータを送信してもよい。この場合、他の装置により、仮想キャラクタの行動決定や、音コンテンツの選択、音像定位位置の算出、音像定位処理等が行われる。他にも、例えばマイクロフォン12、カメラ13、または9軸センサ14が別箇の装置に設けられる場合には、通信部11は、それらにより取得されたデータを受信して制御部10に出力してもよい。また、通信部11は、制御部10により選択される音コンテンツを、クラウド上のサーバ等の他の装置から受信してもよい。
マイクロフォン12は、ユーザの音声や周囲の環境を収音し、音声データとして制御部10に出力する。
カメラ13は、撮像レンズ、絞り、ズームレンズ、及びフォーカスレンズ等により構成されるレンズ系、レンズ系に対してフォーカス動作やズーム動作を行わせる駆動系、レンズ系で得られる撮像光を光電変換して撮像信号を生成する固体撮像素子アレイ等を有する。固体撮像素子アレイは、例えばCCD(Charge Coupled Device)センサアレイや、CMOS(Complementary Metal Oxide Semiconductor)センサアレイにより実現されてもよい。
例えば、カメラ13は、情報処理装置1(装着ユニット)がユーザに装着された状態で、ユーザの前方を撮像可能に設けられてもよい。この場合、カメラ13は、例えばユーザの動きに応じた周囲の景色の動きを撮像することが可能となる。また、カメラ13は、情報処理装置1がユーザに装着された状態で、ユーザの顔を撮像可能に設けられてもよい。この場合、情報処理装置1は、撮像画像からユーザの耳の位置や表情を特定することが可能となる。また、カメラ13は、デジタル信号とされた撮像画像のデータを制御部10へ出力する。
9軸センサ14は、3軸ジャイロセンサ(角速度(回転速度)の検出)、3軸加速度センサ(Gセンサとも称す。移動時の加速度の検出)、および3軸地磁気センサ(コンパス、絶対方向(方位)の検出)を含む。9軸センサ14は、情報処理装置1を装着したユーザの状態または周囲の状態をセンシングする機能を有する。なお9軸センサ14は、センサ部の一例であって、本実施の形態はこれに限定されず、例えば速度センサまたは振動センサ等をさらに用いてもよいし、加速度センサ、ジャイロセンサ、および地磁気センサのうち少なくともいずれかを用いてもよい。
また、センサ部は、情報処理装置1(装着ユニット)とは別の装置に設けられていてもよいし、複数の装置に分散して設けられていてもよい。例えば、加速度センサ、ジャイロセンサ、および地磁気センサが頭部に装着されたデバイス(例えばイヤホン)に設けられ、速度センサや振動センサがスマートフォンに設けられてもよい。9軸センサ14は、センシング結果を示す情報を制御部10へ出力する。
スピーカ15は、音声出力制御部10fの制御に従って、音像定位部10eにより処理された音声信号を再生する。また、スピーカ15は、任意の位置/方向の複数の音源をステレオ音声に変換して出力することも可能である。
位置測位部16は、外部からの取得信号に基づいて情報処理装置1の現在位置を検知する機能を有する。具体的には、例えば位置測位部16は、GPS(Global Positioning System)測位部により実現され、GPS衛星からの電波を受信して、情報処理装置1が存在している位置を検知し、検知した位置情報を制御部10に出力する。また、情報処理装置1は、GPSの他、例えばWi-Fi(登録商標)、Bluetooth(登録商標)、携帯電話・PHS・スマートフォン等との送受信、または近距離通信等により位置を検知するものであってもよい。
記憶部17は、上述した制御部10が各機能を実行するためのプログラムやパラメータを格納する。また、本実施の形態による記憶部17は、シナリオ(各種音コンテンツ)、仮想キャラクタの設定情報(形状、身長等)、ユーザ情報(氏名、年齢、自宅、職業、職場、体格データ、趣味・嗜好等)を格納する。なお記憶部17に格納される情報の少なくとも一部は、クラウド上のサーバ等の別装置に格納されていてもよい。
以上、本実施の形態による情報処理装置1の構成について具体的に説明した。
<情報処理装置の動作>
続いて、本実施の形態による情報処理装置1の音声処理について図5を参照して説明する。図5は、本実施の形態による音声処理を示すフローチャートである。
図5に示すように、まず、ステップS101において、情報処理装置1の状態・行動検出部10aは、各種センサ(マイクロフォン12、カメラ13、9軸センサ14、または位置測位部16)により検出された情報に基づいて、ユーザ状態および行動を検出する。
ステップS102において、仮想キャラクタ行動決定部10bは、検出されたユーザの状態、行動に応じて、再生する仮想キャラクタの行動を決定する。例えば仮想キャラクタ行動決定部10bは、検出されたユーザの行動と同じ行動(ユーザが歩いていれば一緒に歩く、走っていれば一緒に走る、座っていれば一緒に座る、寝ていれば一緒に寝る等)に決定する。
ステップS103において、仮想キャラクタ行動決定部10bは、決定した仮想キャラクタの行動に対応する音源(音コンテンツ)をシナリオから選択する。
ステップS104において、相対位置算出部10dは、選択された音源の相対位置(3次元位置)を、検出されたユーザ状態、ユーザ行動、予め登録されたユーザの身長等の体格データ、決定された仮想キャラクタの行動、および予め登録された仮想キャラクタの身長等の設定情報に基づいて算出する。
ステップS105において、シナリオ更新部10cは、決定された仮想キャラクタの行動や選択された音コンテンツに応じてシナリオを更新する(すなわち、次のイベントに進める)。
ステップS106において、音像定位部10eは、算出された音像の相対位置に当該音像を定位させるよう、対応の音コンテンツに対して音像定位処理を行う。
ステップS107において、音声出力制御部10fは、音像定位処理された音声信号をスピーカ15から再生するよう制御する。
ステップS108において、再生履歴・フィードバック記憶制御部10gにより、再生された(すなわち音声出力された)音コンテンツの履歴、および当該音コンテンツに対するユーザのフィードバックを、記憶部17に記憶する。
ステップS109において、シナリオのイベントが終了するまで上記S103~S124が繰り返される。例えば1ゲームが終了するとシナリオが終了する。
上述したように、本開示の実施の形態による情報処理システムでは、ユーザの状態と仮想キャラクタの情報に基づいて、仮想キャラクタ(仮想物体の一例)を知覚させる音を定位させる相対的な3次元位置を適切に算出し、現実空間における仮想キャラクタの存在感をよりリアルに提示することを可能とする。
また、本実施の形態による情報処理装置1は、スピーカ15が設けられたヘッドホン(またはイヤホン、アイウェア等)と、主に制御部10の機能を有するモバイル端末(スマートフォン等)を含む情報処理システムにより実現されていてもよい。この際、モバイル端末は、音像定位処理した音声信号をヘッドホンに送信して再生させる。また、スピーカ15は、ユーザに装着される装置に搭載される場合に限定されず、例えばユーザの周囲に設置された環境スピーカにより実現されてもよく、この場合環境スピーカは、ユーザの周囲の任意の位置に音像定位することが可能である。
次に、上記した処理が実行されることで、発せられる音声について、説明を加える。まず、図6を参照し、xy座標位置および高さを含む3次元位置の一例について説明する。
図6は、本実施の形態による仮想キャラクタ20の行動および身長とユーザの状態に応じた音像定位の一例について説明する図である。ここでは、例えばユーザAが学校や勤務先から自宅近くの駅に帰ってきて自宅に向かって歩いている場合に仮想キャラクタ20がユーザAを見つけて声を掛け、一緒に帰るといったシナリオを想定する。
仮想キャラクタ行動決定部10bは、状態・行動検出部10aにより、ユーザAが自宅近くの最寄駅に到着し、改札を出て歩き出したことが検出されたことをトリガとしてイベント(音コンテンツの提供)を開始する。
まずは仮想キャラクタ20が、図6に示すように、歩いているユーザAを見つけて声を掛けるといったイベントが行われる。具体的には、相対位置算出部10dは、図6上に示すように、最初に再生する声の音コンテンツV1(「あ!」)の音源のxy座標位置としてユーザAの数メートル後方であってユーザの耳に対して角度F1の定位方向を算出する。
次いで相対位置算出部10dは、ユーザAを追いかける足音の音コンテンツV2の音源のxy座標位置としてユーザAに徐々に近付くよう算出する(ユーザの耳に対して角度F2の定位方向)。そして相対位置算出部10dは、声の音コンテンツV3(「おかえりなさい!」)の音源のxy座標位置としてユーザAのすぐ後ろの位置であってユーザの耳に対して角度F3の定位方向を算出する。
このように仮想キャラクタ20が実際に現実空間に存在して行動していると想定した場合に違和感の無いよう、仮想キャラクタ20の行動とセリフに合わせて音像定位位置(ユーザに対する定位方向および距離)を算出することで、仮想キャラクタ20の動きをよりリアルに感じさせることができる。
また、相対位置算出部10dは、音コンテンツの種別に対応する仮想キャラクタ20の部位に応じて音像定位位置の高さを算出する。例えばユーザの耳の高さが仮想キャラクタ20の頭部より高い場合、図6下に示すように、仮想キャラクタ20の声の音コンテンツV1、V3の音源の高さはユーザの耳の高さより下になる(ユーザの耳に対して角度G1下方)。
また、仮想キャラクタ20の足音の音コンテンツV2の音源は仮想キャラクタ20の足元であるため、声の音源よりも下になる(ユーザの耳に対して角度G2下方)。このように仮想キャラクタ20が実際に現実空間に存在していると想定した場合に仮想キャラクタ20の状態(立っている、座っている等)と大きさ(身長)を考慮して音像定位位置の高さを算出することで、仮想キャラクタ20の存在感をよりリアルに感じさせることができる。
このように、ユーザに提供される音が動くことで、あたかも、そこに仮想キャラクタ20が存在しているような動作を行い、その動作がユーザに伝わるような音が、ユーザに提供される。ここでは、このような音の移動、換言すれば、音によるアニメーションを、音像アニメーションと適宜記載する。
音像アニメーションは、上記したように、音像の位置に動き(アニメ-ション)を与えることで、音により、ユーザに仮想キャラクタ20の存在を認識させるための表現であり、その実現手段としては、キーフレームアニメーションなどと称される技術を適用することができる。
音像アニメーションにより、図6に示したように、ユーザの後方(角度F1)から、徐々に仮想キャラクタ20が近づいてきて、角度F3のところで、「お帰りなさい」というセリフが発せられるという一連のアニメーションが、ユーザに提供される。
以下に音像アニメーションについて説明を加えるが、以下の説明においては、xy座標に関してのアニメーションについて説明を加え、高さ方向に関するアニメーションについては説明を省略するが、xy座標と同様に高さ方向に関しても処理することができる。
図7を参照し、音像アニメーションについてさらに説明を加える。図7以降の説明においては、ユーザAの正面を角度0度とし、ユーザAの左側をマイナス側とし、ユーザAの右側をプラス側として説明を続ける。
時刻t=0において、仮想キャラクタ20は、-45度、距離1mの所に位置し、所定の音(セリフなど)を発している。時刻t=0から時刻t=3において、仮想キャラクタ20は、円弧を描くように、ユーザAの正面に移動する。時刻t=3において、仮想キャラクタ20は、0度、距離1mの所に位置し、所定の音(セリフなど)を発している。
時刻t=3から時刻t=5において、仮想キャラクタ20は、ユーザAの右側に移動する。時刻t=5において、仮想キャラクタ20は、45度、距離1.5mの所に位置し、所定の音(セリフなど)を発している。
このような音像アニメーションがユーザAに提供される場合、各時刻tにおける仮想キャラクタ20の位置に関する情報が、キーフレームとして記述されている。キーフレームとは、ここでは、仮想キャラクタ20の位置に関する情報(音像位置情報)であるとして説明を続ける。
すなわち、図7に示したように、キーフレーム[0]={t=0,-45度,距離1m}、キーフレーム[1]={t=3,0度,距離1m}、キーフレーム[2]={t=5,+45度,距離1.5m}という情報が設定され、補間処理されることで、図7に例示した音像アニメーションが実行される。
図7に示した音像アニメーションは、セリフAが発せられるときのアニメーションであるとし、その後、セリフBが発せられるときについて、図8を参照して説明する。
図8左側に示した図は、図7に示した図と同様であり、セリフAが発せられるときの音像アニメーションの一例を示している。セリフAが発せられた後、連続して、または、所定の時間が経過した後、セリフBが発せられる。セリフBの開始時点(時刻t=0)において、キーフレーム[0]={t=0,+45度,距離1.5m}との情報が処理されることで、ユーザの右45度、距離1.5mに仮想キャラクタ20が存在し、セリフBの発話が開始される。
セリフBの終了時点(時刻t=10)において、キーフレーム[1]={t=10,+135度,距離3m}との情報が処理されることで、ユーザの右135度、距離3mに仮想キャラクタ20が存在し、セリフBの発話が終了される。このような音像アニメーションが実行されることで、ユーザAの右前から、右後ろ側に、仮想キャラクタ20が移動しつつ、セリフBを発話している仮想キャラクタ20を表現することができる。
ところで、ユーザAが移動していなければ、特に、この場合、頭部が動いていなければ、音像アニメーションを作成した作成者の意図通りに、音像が動き、セリフAの終了位置からセリフBの発話が開始され、仮想キャラクタ20が動いているような感覚を、ユーザAに与えることができる。ここで、図1、図2を再度参照するに、本技術を適用した情報処理装置1は、ユーザAの頭部(首)に装着され、ユーザAとともに移動することで、ユーザAに、情報処理装置1で、より多くの時間を、一緒に広範囲を探索しながらエンタテイメントを楽しむといったようなことを、実現することができる構成とされている。
よって、情報処理装置1が装着されているときに、ユーザの頭部が動くことが想定され、ユーザの頭部が動くことで、図7や図8を参照して説明した音像アニメーションを、作成者の意図通りに提供できない可能性がある。このことについて、図9、図10を参照して説明する。
図9の左上図に示したように、セリフAの終了時に、音像が、ユーザAに対して、角度F10(+45度)の位置にある状態から、ユーザAの頭部が角度F11だけ、左方向に動いたときに、セリフBが開始されたとする。この場合、図9の右上図に示すように、キーフレーム[0]の情報に基づき、ユーザAの正面を0度として+45度の方向に音像が定位し、セリフBが開始される。
このことを、仮想キャラクタ20が現実空間(ユーザが実際に居る空間)にいるとして、現実空間における仮想キャラクタ20の位置について、図9の下図を参照して説明する。なお、以下の説明おいては、仮想キャラクタ20のユーザに対する位置を、相対位置と記述し、仮想キャラクタ20の現実空間における位置を絶対位置と記述する。
相対位置の座標系(以下、適宜、相対座標系と記述する)は、ユーザAの頭部の中心をx=y=0(以下、中心点と記述する)とし、ユーザAが正面方向(鼻がある方向)をy軸とした座標系であり、ユーザAの頭部に固定されている座標系であるとして説明を続ける。よって、相対座標系においては、ユーザAが頭部を動かしても、常に、ユーザAの正面方向は、角度0度とされている座標系である。
絶対位置の座標系(以下、適宜、絶対座標系と記述する)は、ある時点におけるユーザAの頭部の中心をx=y=0(以下、中心点と記述する)とし、そのときのユーザAの正面方向(鼻がある方向)をy軸とした座標系であるが、ユーザAの頭部に固定されていない座標系で、現実空間に固定された座標系であるとして説明を続ける。よって、絶対座標系においては、ある時点で設定された絶対座標系は、ユーザAが頭部を動かしても、その移動に合わせて軸方向が変わることなく、現実空間に固定されている座標系である。
図9左下図を参照するに、セリフAの終了時の仮想キャラクタ20の絶対位置は、ユーザAの頭部を中心点としたときに、角度F10の方向となる。図9右下図を参照するに、セリフBの開始時の仮想キャラクタ20の絶対位置は、セリフAの終了時の座標系と同一絶対座標系上で、中心点(x=y=0)から、角度F12の方向となる。
例えば、角度F10を+45度とし、ユーザの頭部が動いた角度F11を70度とした場合、図9右下図から、絶対座標系における仮想キャラクタ20の位置(角度F12)は、差分の35度であり、マイナス側であるため、-35度となる。
この場合、仮想キャラクタ20は、セリフAの終了時には、絶対座標系において、角度F10(=45度)の所に居たが、セリフBの開始時には、絶対座標系において、角度F12(=-35度)に居ることになる。よってユーザAは、仮想キャラクタ20が、角度F10(=45度)から角度F12(=-35度)に瞬間的に移動したように認識する。
さらに、セリフBの発話時に、音像アニメーションが設定されていた場合、例えば、図8を参照して説明したようなセリフBに対する音像アニメーションが設定されていた場合、図9の左上図に示すように、相対位置での角度F10(絶対位置での角度F12)から、キーフレーム[1]で規定されている相対位置まで、仮想キャラクタ20が移動する音像アニメーションが実行される。
このように、音像アニメーションの作成者が、ユーザAの顔の方向にかかわらず、セリフBは、ユーザAの右+45度の方向から発せられることを意図していた場合、このような処理が行われる。換言すれば、音像アニメーションの作成者は、相対位置で意図した位置に音像が位置するように、プログラムを作成することができる。
一方で、セリフAの終了地点から、仮想キャラクタ20が動くこと無く、セリフBが発せられるような認識をユーザAに与えたい場合、換言すれば、現実空間で、仮想キャラクタ20が固定された(動いていない)状態で、セリフBが発せられるような認識をユーザAに与えたい場合、図10を参照して説明するように、ユーザAの頭部の動きに追従した処理が行われる。
図10の左上図に示したように、セリフAの終了時に、音像が、ユーザAに対して、角度F10(+45度)の位置にある状態から、ユーザAの頭部が角度F11だけ、左方向に動いたときに、セリフBが開始されたとする。セリフAの終了時から、セリフBの開始時までの間(セリフAからセリフBへと音声が切り替わる間)、ユーザAの頭部の移動は検知され、その移動量や方向が検知されている。なお、セリフAやセリフBの発話中も、ユーザAの移動量は検知されている。
セリフBの発話開始時には、その時点でのユーザAの移動量とキーフレーム[0]の情報に基づき、仮想キャラクタ20の音像の位置が設定される。図10の右上図を参照するに、ユーザAが角度F11だけ向きを変えた場合、相対位置において、角度F13の位置に仮想キャラクタ20が居るような音像位置の設定が行われる。角度F13は、ユーザAの移動量である角度F11を打ち消す角度に、キーフレーム[0]で規定されている角度を加えた値となる。
図10の右下図を参照するに、仮想キャラクタ20は、現実空間(実座標系)においては、角度F10の位置に居る。この角度F10は、ユーザAの移動量をキャンセルするための値が、加算された結果、図10の左下図に示したセリフAの終了時点の位置と同位置となる。この場合、角度F13―角度F11=角度F10との関係が成り立つ。
このように、ユーザAの移動量を検知し、その移動量をキャンセルする処理を行うことで、仮想キャラクタ20が、現実空間に固定されているような感覚を、ユーザAに提供できる。なお、詳細は後述するが、このように、セリフAの終了位置がセリフBの開始位置になるようにしたい場合、セリフBの時刻t=0におけるキーフレーム[0]は、図10に示すように、キーフレーム[0]={t=0,(セリフAの終了位置)}と規定される。
セリフBの開始時の時刻t=0後に、キーフレームが設定されていない場合、仮想キャラクタ20は、セリフBの開始時の位置で、セリフBの発話と続ける。
セリフBの開始時の時刻t=0後に、キーフレームが設定されていた場合、換言すれば、セリフBの発話時に、音像アニメーションが設定されていた場合、例えば、図8を参照して説明したようなセリフBに対する音像アニメーションと同一の音像アニメーションが設定されていた場合、図10の左上図に示すように、相対位置での角度F13(絶対位置での角度F10)から、キーフレーム[1]で規定されている相対位置まで、仮想キャラクタ20が移動する音像アニメーションが実行される。
このように、音像アニメーションの作成者が、ユーザAの顔の方向によらず、仮想キャラクタ20の現実空間の位置を固定し、セリフBが発せられることを意図していた場合、このような処理が行われる。換言すれば、音像アニメーションの作成者は、絶対位置で意図した位置に音像が位置するように、プログラムを作成することができる。
<コンテンツについて>
ここで、コンテンツについて説明を加える。図11は、コンテンツの構成を示す図である。
コンテンツは、複数のシーンが含まれている。図11では、説明のため、1シーンのみが含まれているように示しているが、複数のシーンが、シーン毎に用意されている。
所定の発火条件が満たされたとき、シーンが開始される。シーンは、ユーザの時間を占有する、一連の処理フローである。1シーンには、1以上のノードが含まれる。図11に示したシーンでは、4つのノードN1乃至N4が含まれている例を示している。ノードは、音声再生処理における最小実行処理単位である。
発火条件が満たされると、ノードN1による処理が開始される。例えば、ノードN1は、セリフAを発する処理を行うノードである。ノードN1が実行された後、遷移条件が設定されており、満たされた条件により、ノードN2またはノードN3に処理は進められる。例えば、遷移条件が、ユーザが右を向いたという遷移条件であり、その条件が満たされた場合、ノードN2に遷移し、遷移条件が、ユーザが左を向いたという遷移条件であり、その条件が満たされた場合、ノードN3に遷移する。
例えば、ノードN2は、セリフBを発する処理を行うノードであり、ノードN3は、セリフCを発する処理を行うノードである。この場合、ノードN1により、セリフAが発せられた後、ユーザからの指示待ち(ユーザが遷移条件を満たすまでの待機状態)となり、ユーザからの指示があった場合、その指示に基づき、ノードN2またはノードN3による処理が実行される。このように、ノードが切り替わるときに、セリフ(音声)の切り替わりが発生する。
ノードN2またはノードN3による処理が終了されると、ノードN4へと遷移し、ノードN4による処理が実行される。このように、ノードを遷移しつつ、シーンが実行される。
ノードは、内部に実行要素としてエレメントを有し、そのエレメントとしては、例えば、“音声を再生する”、“フラグをセットする”、“プログラムを制御する(終了させるなど)”が用意されている。
ここでは、音声を再生するエレメントを例に挙げて説明を続ける。
図12は、ノードを構成するパラメータなどの設定方法について説明するための図である。ノード(Node)には、パラメータとして、“id”、“type”、“element”、および“branch”が設定されている。
“id”は、ノードを識別するために割り振られた識別子であり、データ型として、“string”が設定されている情報である。データ型が“string”である場合、パラメータの型が文字型であることを示している。
“element”は、“DirectionalSoundElement”や、フラグをセットするエレメントなどが設定され、データ型として、“Element”が設定されている情報である。データ型が“Element”である場合、Elementという名称で定義されたデータ構造であることを示している。“branch”は、遷移情報のリストが記載され、データ型として、“Transition[]”が設定されている情報である。
この“Transition[]”には、パラメータとして“target id ref”と“condition”が設定されている。“target id ref”は、遷移先のノードのIDが記載され、データ型として、“string”が設定されている情報である。“condition”は、遷移条件、例えば、“ユーザが右方向を向く”といった条件が記載され、データ型として“Condition”が設定されている情報である。
ノードの“element”が、“DirectionalSoundElement”である場合、“DirectionalSoundElement(extends Element)”が参照される。なおここでは、“DirectionalSoundElement”を図示し、説明を加えるが、“DirectionalSoundElement”以外にも、例えば、フラグを操作する“FlagElement”などもあり、ノードの“element”が、“FlagElement”である場合、“FlagElement”が参照される。
“DirectionalSoundElement”は、音声に関するエレメントであり、“stream id”、“sound id ref”、“keyframes ref”、“stream id ref”といったパラメータが設定される。
“stream id”は、エレメントのID(“DirectionalSoundElement”を識別するための識別子)であり、データ型として“string”が設定されている情報である。
“sound id ref”は、参照する音声データ(音声ファイル)のIDであり、データ型として“string”が設定されている情報である。
“keyframes ref”は、アニメーションキーフレームのIDであり、図13を参照して説明する“Animations”内のキーを表し、データ型として“string”が設定されている情報である。
“stream id ref”は、別の“DirectionalSoundElement”に指定された“stream id”であり、データ型として“string”が設定されている情報である。
“DirectionalSoundElement”には、“keyframes ref”、“stream id ref”のどちらか一方、または両方が指定されることが必須とされている。すなわち、“keyframes ref”のみが指定されている場合、“stream id ref”のみが指定されている場合、または、“keyframes ref”と“stream id ref”が指定されている場合の3パターンがある。このパターン毎に、ノードが遷移したときの音像位置の設定の仕方が異なる。
詳細は、再度後述するが、“keyframes ref”のみが指定されている場合、例えば、図8や図9を参照して説明したように、セリフ開始時の音像の位置は、ユーザの頭部に固定された相対座標において設定される。
また、“stream id ref”のみが指定されている場合、例えば、図10を参照して説明したように、セリフ開始時の音像の位置は、現実空間に固定されている絶対座標において設定される。
また、“keyframes ref”と“stream id ref”が指定されている場合、図10を参照して説明したように、セリフ開始時の音像の位置は、現実空間に固定されている絶対座標において設定され、その後音像アニメーションが提供される。
これらの音像の位置については後述するとし、先に、“Animations”について説明を加える。図13を参照し、キーフレームアニメーションの設定方法について説明する。
キーフレームアニメーションは、“Animation ID”というパラメータを含む“Animations”で規定され、“Animation ID”は、アニメーションIDをキーとしたkeyframes配列を表し、データ型として“keyframe[]”が設定されている。この“keyframe[]”は、パラメータとして、“time”、“interpolation”、“distance”、“azimuth”、“elevation”、“pos x”、“pos y”、“pos z”が設定されている。
“time”は、経過時間[ms]を表し、データ型として“number”が設定されている情報である。“interpolation”は、次のKeyFrameへの補間方法を表し、例えば、図14に示すような方法が設定される。図14を参照するに、“interpolation”には、“NONE”、“LINEAR”、“EASE IN QUAD”、“EASE OUT QUAD”、“EASE IN OUT QUAD”などが設定される。
“NONE”は、補間しない場合に設定される。補間しないとは、次のキーフレームの時刻まで、現キーフレームの値を変化させないという設定である。“LINEAR”は、線形補間する場合に設定される。
“EASE IN QUAD”は、二次関数により、冒頭がスムーズになるように補間するときに設定される。“EASE OUT QUAD”は、二次関数により、終端がスムーズになるように補間するときに設定される。“EASE IN OUT QUAD”は、二次関数により、冒頭と終端がスムーズになるように補間するときに設定される。
この他にも、“interpolation”には、種々の補間方法が設定されている。
図13に示したKeyFrameについての説明に戻り、“distance”、“azimuth”、および“elevation”は、極座標を用いるときに記載される情報である。“distance”は、自身(情報処理装置1)からの距離[m]を表し、データ型として“number”が設定されている情報である。
“azimuth”は、自身(情報処理装置1)からの相対方位[deg]を表し、正面が0度、右側が+90度、左側が-90度に設定されている座標であり、データ型として“number”が設定されている情報である。“elevation” 耳元からの仰角[deg]を表し、上が正、下が負に設定されている座標であり、データ型として“number”が設定されている情報である。
“pos x”、“pos y”、“pos z”は、デカルト座標を用いるときに記載される情報である。“pos x”は、自身(情報処理装置1)を0とし、右方を正とした、左右位置[m]を表し、データ型として“number”が設定されている情報である。“pos y”は、自身(情報処理装置1)を0とし、前方を正とした、前後位置[m]を表し、データ型として“number”が設定されている情報である。“pos z”は、自身(情報処理装置1)を0とし、上方を正とした、上下位置[m]を表し、データ型として“number”が設定されている情報である。
例えば、図10を再度参照するに、セリフAの時刻t=5の所に示したキーフレームは、“time”が“5”、“azimuth”が“+45”、“distance”が“1”に設定されている例を示している。なお、上記したように、ここでは、高さ方向などに関しては説明を省略しているだけであり、実際には、高さ方向などに関する情報もキーフレームには記載されている。
KeyFrameにおいては、“distance”、“azimuth”、“elevation”で示される極座標、または“pos x”、“pos y”、“pos z”で示されるデカルト座標のどちらか一方が、必ず指定されている。
次に、図7乃至10を参照して説明したことを含め、“keyframes ref”のみが指定されている場合、“stream id ref”のみが指定されている場合、または、“keyframes ref”と“stream id ref”が指定されている場合の3パターンについて説明を加える。
<1再生区間における音像位置について>
まず、1再生区間における音像位置について説明する。1再生区間とは、例えば、セリフAが再生される区間であり、1ノードが処理されたときの区間であるとする。
まず、図15を参照して、キーフレームで指定される動きについて説明する。図15に示したグラフの横軸は、時刻tを表し、縦軸は、左右方向の角度を表す。時刻t0において、セリフAの発話が開始される。
時刻t1に、keyframes[0]が設定されている。このkeyframes[0]より以前の時刻、ここでは、時刻t0から時刻t1までの間は、先頭KeyFrame、この場合、keyframes[0]の値が適用される。図15にしめした例では、keyframes[0]では角度が0度と設定されている。よって、時刻t0のときの角度を基準として、0度だけ、方向を変化させた位置に、音像が定位するような設定が行われる。
時刻t2に、keyframes[1]が設定されている。このkeyframes[1]では角度が+30度と設定されている。よって、時刻t0のときの角度を基準として、+30度だけ、方向を変化させた位置に、音像が定位するような設定が行われる。
このkeyframes[0]からkeyframes[1]の間は、“interpolation”に基づき、補間される。図15に示した例において、keyframes[0]からkeyframes[1]の間に設定されている“interpolation”は、“LINEAR”である場合を示している。
時刻t3に、keyframes[2]が設定されている。このkeyframes[2]では角度が-30度と設定されている。よって、時刻t0のときの角度を基準として、-30度だけ、方向を変化させた位置に、音像が定位するような設定が行われる。
このkeyframes[1]からkeyframes[2]の間は、図15では、“interpolation”が、“EASE IN QUAD”である場合を示している。
最終KeyFrame、この場合、keyframes[2]以降の時刻においては、最終KeyFrameの値が適用される。
このように、キーフレームにより、仮想キャラクタ20の位置(音像位置)が設定され、このような設定に基づき、音像の位置が動くことで、音像アニメーションが実現される。
図16を参照してさらに音像位置について説明を加える。図16の上図に示したグラフは、指定した動きを表すグラフであり、中図に示したグラフは、姿勢変化の補正量を表すグラフであり、下図に示したグラフは、相対的な動きを表すグラフである。
図16に示したグラフの横軸は、時間経過を表し、セリフAの再生区間を表している。縦軸は、仮想キャラクタ20の位置、換言すれば、音像が定位する位置を表し、左右方向の角度、上下方向の角度、距離などである。ここでは、左右方向の角度であるとして説明を続ける。
図16の上図を参照するに、指定した動きは、セリフAの再生開始時から、終了時にかけて徐々に+方向に移動するという動きである。この動きは、キーフレームにより指定されている。
仮想キャラクタ20の位置は、キーフレームで設定される位置だけではなく、ユーザの頭部の動きも考慮して、最終的な位置が設定される。図9、図10を参照して説明したように、情報処理装置1は、自己の移動量(ユーザAの移動量、主にここでは、頭部の左右方向の移動とする)を検知する。
図16の中図は、ユーザAの姿勢変化の補正量を表すグラフであり、情報処理装置1が、ユーザAの頭部の動きとして検出した動きの一例を示すグラフである。図16の中図に示した例では、ユーザAは、初めに左方向(-方向)を向き、次に、右方向(+方向)を向き、再度左方向(-方向)を向いたため、その補正量は、初めに+方向、次に-方向、再度+方向となっているグラフである。
仮想キャラクタ20の位置は、キーフレームで設定されている位置と、ユーザの姿勢変化の補正量(姿勢変化の正負を逆にした値)を加算した位置とされる。よって、セリフAが再生されている間の仮想キャラクタ20の位置、この場合、ユーザAとの相対的な位置(の動き)は、図16の下図に示したようになる。
次に、セリフAが再生され、次のノードに遷移し、セリフBが再生される場合(セリフAからセリフBに切り替えられる場合)を考える。このとき、“keyframes ref”のみが指定されている場合、“stream id ref”のみが指定されている場合、または、“keyframes ref”と“stream id ref”が指定されている場合のそれぞれにおいて、セリフBの再生が開始されるときの仮想キャラクタ20の位置や、開始後の位置が異なるため、そのことについて説明を加える。
<“keyframes ref”のみが指定されている場合>
まず、セリフBの再生を行うときのノードにおいて、“keyframes ref”のみが指定されている場合について説明を加える。
“keyframes ref”のみが指定されている場合とは、図12を参照して説明したノードの構成において、ノード(Node)の“element”というパラメータが、“DirectionalSoundElement”であり、“DirectionalSoundElement”の“keyframes ref”というパラメータに、アニメーションキーフレームのIDが記載されているが、“stream id ref”というパラメータは設定されていない場合である。
図17は、セリフAを発話させるノードからセリフBを発話させるノードに切り替わるとき(音声が切り替わるとき)、セリフBのノードに“keyframes ref”のみが指定されている場合の、仮想キャラクタ20のユーザAとの相対的な動きについて説明するための図である。
図17の左図は、図16の下図と同じであり、セリフAが生成されている区間における仮想キャラクタ20の相対的な動きを表したグラフである。セリフAの終了時tA1の相対位置を相対位置FA1とする。図17の右図は、図16の上図と同じく、セリフBが再生されている区間における仮想キャラクタ20の時間経過(横軸)と指定された動き(縦軸)を表したグラフであり、キーフレームで規定される動きの一例を表している。
セリフBの開始時tB0の相対位置は、時刻tB1に設定されている最初のキーフレームであるKeyFrame[0]により規定されている位置に設定される。この場合、セリフBのノードが、“DirectionalSoundElement”を参照し、この“DirectionalSoundElement”の“keyframes ref”というパラメータに、アニメーションキーフレームのIDが記載されているため、このIDのアニメーションキーフレームが参照される。
アニメーションキーフレームについては、図13を参照して説明したように、極座標またはデカルト座標(以下の説明では、座標と記述する)で規定される仮想キャラクタ20の位置が記載されている。
すなわちこの場合、セリフBの開始時tB0の相対位置は、アニメーションキーフレームで規定されている座標に設定される。図17の右図に示したように、時刻tB0の相対位置は、相対位置FB0に設定される。
この場合、セリフAの終了時の位置FA1と、セリフBの開始時の位置FB0は、図17に示したように、異なる場合がある。これは、図9を参照して説明したような場合であり、ユーザAと仮想キャラクタ20の相対的な位置関係において、作成者が意図した位置に仮想キャラクタ20が居るようにすることができる。
このように、“keyframes ref”という仮想キャラクタ20の音像の位置を設定するための音像位置情報が、ノードに含まれている場合、そのノードに含まれている音像位置情報に基づいて、音像の位置を設定することができる。また、このような設定ができるようにすることで、作成者の意図した位置に、仮想キャラクタ20の音像を設定することができる。
このように、セリフBの再生を行うときのノードにおいて、“keyframes ref”のみが指定されている場合、ユーザAと仮想キャラクタ20との相対位置が、作成者の意図通りになるように仮想キャラクタ20の位置を設定することができる。また、セリフBの再生後は、キーフレームに基づき、音像アニメーションが、ユーザAに提供される。
<“stream id ref”のみが指定されている場合>
次にセリフBの再生を行うときのノードにおいて、“stream id ref”のみが指定されている場合について説明を加える。
“stream id ref”のみが指定されている場合とは、図12を参照して説明したノードの構成において、ノード(Node)の“element”というパラメータが、“DirectionalSoundElement”であり、“DirectionalSoundElement”の“stream id ref”というパラメータに、別の“DirectionalSoundElement”に指定されたstream iDが記載されているが、“keyframes ref”というパラメータは設定されていない場合である。
図18は、セリフAを発話させるノードからセリフBを発話させるノードに切り替わるとき、セリフBのノードに“stream id ref”のみが指定されている場合の、ユーザAに対する仮想キャラクタ20の相対的な動きについて説明するための図である。図18の右図は、図16の上図と同じく、セリフBが再生されている区間における仮想キャラクタ20の時間経過(横軸)と指定された動き(縦軸)を表したグラフであり、キーフレームで規定される動きの一例を表している。
図18の左図は、図17の左図と同じであり、セリフAが生成されている区間における仮想キャラクタ20の相対的な動きを表したグラフである。セリフAの終了時tA1の相対位置を相対位置FA1とする。
セリフBの開始時tB0’の相対位置は、“DirectionalSoundElement”の“stream id ref”というパラメータに、別の“DirectionalSoundElement”に指定されたstream iDを有する“DirectionalSoundElement”が参照される。そして、その“DirectionalSoundElement”内の“keyframes”で指定されている位置と、ユーザAの移動量(姿勢変化)とから、セリフBの開始時の位置FB0’が設定される。
例えば、別の“DirectionalSoundElement”に指定されたstream iDが、セリフAを参照するIDであった場合、セリフBの開始時点での、ユーザAから見た仮想キャラクタ20の位置は、「セリフAで指定した動き(=keyframe)」と、「セリフAの姿勢変化」の結果得られる位置が、セリフBの開始時tB0’の位置FB0’として設定される。
より具体的には、「セリフAで指定した動き(=keyframe)」と、「セリフAの姿勢変化」の結果得られる「セリフA中のユーザAから見た相対的な音源位置」において、セリフBが開始した時点での位置を、時刻t=0の位置とするようなキーフレームが生成され、そのキーフレームに基づき、位置FB0’が設定される。「セリフAで指定した動き(=keyframe)」は、後述するように、保持部に保持させ、その保持されている情報を参照することで、取得することが可能である。
すなわち、セリフAの終了時の位置と、セリフAの終了時からセリフBの開始時までにユーザAが動いた量をキャンセルする位置が基づき、セリフAの終了時の位置が、セリフBの開始時の位置となるような相対位置が算出される。そして、その算出された位置情報を含むキーフレームが生成される。そして、その生成されたキーフレームに基づき、セリフBの開始時における位置FB0’が設定される。
このような設定がなされることで、セリフBの開始時FB0’の仮想キャラクタ20が位置FB0’は、セリフAの終了時tA1の仮想キャラクタ20の位置FA1と、同一位置となる。すなわち、図10を参照して説明したように、セリフAの終了時の仮想キャラクタ20の位置とセリフBの仮想キャラクタ20の位置が一致する。
このように、セリフBの再生を行うときのノードにおいて、“stream id ref”のみが指定されている場合、ユーザAと仮想キャラクタ20との絶対位置が、作成者の意図通りになるように仮想キャラクタ20の位置を設定することができる。換言すれば、セリフAからセリフBに切り替わるようなとき、ユーザAの移動量にかかわらず、仮想キャラクタ20が、現実空間で、移動せずに、同一位置からセリフを発するようにすることができる。
例えば、セリフAからセリフBに切り替わるような例として、ユーザからの指示により異なる処理がなされるときがある。例えば、図11を参照して説明した遷移条件が満たされるか否かの判定処理がなされるときであり、ユーザが右を向いたときにはノードN2による処理が実行され、ユーザが左を向いたときにはノードN3による処理が実行されるという場合であり、このような場合には、ユーザからの指示(動作)により、異なる処理(例えば、ノードN2またはノードN3に基づく処理)がなされる。
このようなときは、ユーザからの指示待ちの時間があり、セリフAとセリフBとの間に時間が空いてしまうときがある。このようなときに、セリフAが発せられた位置と、セリフBが発せられた位置が異なる場合、ユーザは、仮想キャラクタ20が急に移動したと感じ、違和感を生じる可能性がある。しかしながら、本実施の形態によれば、セリフAからセリフBに切り替わるようなとき、仮想キャラクタ20が、現実空間で、移動せずに、同一位置からセリフを発するようにすることができるため、ユーザが違和感を生じるようなことを防ぐことが可能となる。
換言すれば、セリフAからセリフBに切り替わるとき、セリフBの発話が開始される位置を、セリフAの発話がされた位置を引き継いだ位置に設定することができる。このような設定は、セリフBの再生を行うときのノードにおいて、“stream id ref”を指定することで可能となる。この“stream id ref”は、他のノードを参照し、そのノードに記載されている仮想キャラクタ20の位置情報(音像位置情報)を用いて、仮想キャラクタ20の位置を設定するときに、ノードに含まれる情報であり、このような情報をノードに含ませることで、上記したような処理を実行することが可能となる。
セリフBの再生後は、図18の右図に示したように、仮想キャラクタ20は、セリフBの開始位置から動くことなく、セリフBが再生される。この場合、“keyframes ref”というパラメータは設定されていないため、キーフレームに基づく音像アニメーションは実行されず、音像の位置は変化しない状態で、セリフBは再生される。
なお、セリフBの再生中も、ユーザAの姿勢変化は検出されており、その姿勢変化に応じて、仮想キャラクタ20の位置が設定されることで、現実空間では、仮想キャラクタ20が動いていないような音像アニメーションが実行される。
さらに、セリフBの再生中にも、仮想キャラクタ20が動いているような音像アニメーションを提供したい場合、“keyframes ref”も指定される。
<“keyframes ref”と“stream id ref”が指定されている場合>
次にセリフBの再生を行うときのノードにおいて、“keyframes ref”と“stream id ref”が指定されている場合について説明を加える。“keyframes ref”と“stream id ref”が指定されていることで、図10を参照して説明したような音像アニメ-ションが実現される。
“keyframes ref”と“stream id ref”が指定されている場合、まず、“keyframes ref”が指定されているため、図12を参照して説明したノードの構成において、ノード(Node)の“element”というパラメータが、“DirectionalSoundElement”であり、“DirectionalSoundElement”の“keyframes ref”というパラメータに、アニメーションキーフレームのIDが記載されている。
また、“keyframes ref”と“stream id ref”が指定されている場合、“stream id ref”が指定されているため、図12を参照して説明したノードの構成において、ノード(Node)の“element”というパラメータが、“DirectionalSoundElement”であり、“DirectionalSoundElement”の“stream id ref”というパラメータに、別の“DirectionalSoundElement”に指定されたstream iDが記載されている。
図19は、セリフAを発話させるノードからセリフBを発話させるノードに切り替わるとき、セリフBのノードに“keyframes ref”と“stream id ref”が指定されている場合の、ユーザAに対する仮想キャラクタ20の相対的な動きについて説明するための図である。
図19の左図は、図17の左図と同じであり、セリフAが生成されている区間における仮想キャラクタ20の相対的な動きを表したグラフである。セリフAの終了時tA1の相対位置を相対位置FA1とする。図19の右図は、図16の上図と同じく、セリフBが再生されている区間における仮想キャラクタ20の時間経過(横軸)と指定された動き(縦軸)を表したグラフであり、キーフレームで規定される動きの一例を表している。
セリフBの開始時tB0’の相対位置は、図18を参照して説明した場合、すなわち、“stream id ref”のみが指定されている場合と同様の設定が行われることで、設定される。すなわち、“DirectionalSoundElement”の“stream id ref”というパラメータに、別の“DirectionalSoundElement”に指定されたstream iDを有する“DirectionalSoundElement”が参照され、さらに、その“DirectionalSoundElement”内の“keyframes”で指定されている位置と、ユーザAの移動量(姿勢変化)とから、セリフBの開始時の位置FB0”が設定される。
よって、図19に示したように、セリフBの開始時tB0”の仮想キャラクタ20の位置FB0”は、セリフAの終了時tA1の仮想キャラクタ20の位置FA1と、同一位置となる。
その後、時刻tB1”に設定されているkeyframes[0]で設定されている位置と補間方法により、音像アニメーションが実行される。図17を参照して説明した場合と同様に、セリフBの時刻tB1”の相対位置FB1”は、時刻tB1”に設定されているキーフレームであるKeyFrame[0]により規定されている位置に設定される。
この場合、セリフBのノードが、“DirectionalSoundElement”を参照し、この“DirectionalSoundElement”の“keyframes ref”というパラメータに、アニメーションキーフレームのIDが記載されているため、このIDのアニメーションキーフレームが参照される。
時刻tB1”における仮想キャラクタ20の相対位置は、参照されたアニメーションキーフレームで設定されている座標に設定される。時刻tB1”以降は、キーフレームで規定されている位置が設定されることで、音像アニメーションが実行される。
時刻tb0”の仮想キャラクタ20の位置FB0”の設定についてさらに説明を加える。この位置FB0”の設定は、以下の2パターンある。1つ目のパターンは、keyframes[0]のtimeがtime=0の場合であり、2つめのパターンは、keyframes[0]のtimeがtime>0以降である場合である。
keyframes[0]のtimeがtime=0の場合、keyframes[0]で指定されていた位置自体が、位置FB0”に置き換えられる。keyframes[0]で指定されていた位置自体が、位置FB0”に置き換えられることで、上記したように、セリフBの開始時tB0’の仮想キャラクタ20の位置は、位置FB0”となる。
keyframes[0]のtimeがtime>0以降の場合、セリフBの開始時tB0’の仮想キャラクタ20の位置は、位置FB0”であるというキーフレームが、既に設定されているキーフレームの冒頭に挿入される。
すなわち、セリフBの開始時tB0’のkeyframes[0]として、仮想キャラクタ20の位置を位置FB0”に規定するkeyframes[0]が生成され、既に設定されているキーフレームの冒頭に挿入される。このように、位置FB0”に規定するkeyframes[0]が生成され、挿入されることで、上記したように、セリフBの開始時tB0’の仮想キャラクタ20の位置は、位置FB0”となる。
このように、冒頭にキーフレームが挿入された場合、既に設定されているkeyframes[n]は、keyframes[n+1]に変更される。
このように、“keyframes ref”と“stream id ref”が指定されている場合、まず、“stream id ref”に基づき、セリフの開始時における仮想キャラクタ20の位置が設定される。このとき、上記したように、キーフレームの書き換え、または新たなキーフレームが生成される。このキーフレームには、仮想キャラクタ20の位置だけでなく、“interpolation”で規定される次KeyFrameへの補間方法も設定される。図19に示した例では、“LINEAR”が設定されていた場合を示している。
その後、設定されているキーフレームに基づき、音像アニメーションが実行される。
<制御部の機能について>
このような処理を行う情報処理装置1の制御部10(図3)の機能について説明を加える。
図20は、上記した処理を行う情報処理装置1の制御部10の機能について説明するための図である。制御部10は、キーフレーム補間部101、音像位置保存部102、相対位置算出部103、姿勢変化量算出部104、音像定位サウンドプレイヤ105、およびノード情報解析部106を備える。
また、制御部10は、加速度センサ121、ジャイロセンサ122、GPS123、および音声ファイル記憶部124からの情報やファイルなどが供給されるように構成されている。また、制御部10で処理された音声信号は、スピーカ125で出力されるように構成されている。
キーフレーム補間部101は、キーフレーム情報(音像位置情報)に基づき、時刻tにおける音源位置を算出し、相対位置算出部103に供給する。相対位置算出部103には、音像位置保持部102からの位置情報と、姿勢変化量算出部104からの姿勢変化量も供給される。
音像位置保持部102は、“stream id ref”で参照される音像の現在位置の保持と更新を行う。この保持と更新は、図21、図22を参照して説明するフローチャートに基づく処理とは独立して、常に行われる。
姿勢変化量算出部104は、加速度センサ121、ジャイロセンサ122、GPS123などからの情報に基づき、情報処理装置1の姿勢、例えば傾きを推定し、所定の時刻t=0を基準とした相対的な姿勢変化量を算出する。加速度センサ121、ジャイロセンサ122、GPS123などは、9軸センサ14や位置測位部16(いずれも図3)を構成している。
相対位置算出部103は、キーフレーム補間部101からの時刻tにおける音像位置、音像位置保持部102からの音像の現在位置、および姿勢変化量算出部104からの情報処理装置1の姿勢情報に基づき、相対的な音源位置を算出し、算出結果を、音像定位サウンドプレイヤ105に供給する。
キーフレーム補間部101、相対位置算出部103、姿勢変化量算出部104は、図3に示した制御部10の状態・行動検出部10a、相対位置算出部10d、音像定位部10eを構成している。音像位置保持部102は、記憶部17(図3)とし、記憶部17に現時点での音像位置を保持し、更新する構成とすることができる。
音像定位サウンドプレイヤ105は、音声ファイル記憶部124に記憶されている音声ファイルを読み込み、特定の相対位置から音が鳴っているように聞こえるように、音声信号を加工したり、加工した音声信号の再生を制御したりする。
音像定位サウンドプレイヤ105は、図3の制御部10の音声出力制御部10fとすることができる。また、音声ファイル記憶部124は、記憶部17(図3)とし、記憶部17に記憶されている音声ファイルが読み出される構成とすることができる。
音像定位サウンドプレイヤ105による制御により、スピーカ125で音声が再生される。スピーカ125は、図3における情報処理装置1の構成においては、スピーカ15に該当する。
ノード情報解析部106は、供給されるノード内の情報を解析し、制御部10内の各部(この場合、主に音声を処理する部分)を制御する。
<制御部の動作について>
このような構成を有する情報処理装置1(制御部10)によれば、上記したように、セリフAやセリフBを再生することができる。図21、図22のフローチャートを参照し。そのような処理を行う図20に示した制御部10の動作について説明を加える。
図21、図22に示したフローチャートの処理は、所定のノードの処理が開始されるとき、換言すれば、処理中のノードから次のノードに処理対象が遷移したときに開始される処理である。またここでは、処理対象とされたノードは、音声を再生するノードである場合を例に挙げて説明する。
ステップS301において、処理対象とされたノードの“DirectionalSoundElement”に含まれている“sound id ref”というパラメータの値が参照され、その“sound id ref”に基づいた音声ファイルが、音声ファイル記憶部124から取得され、音像定位サウンドプレイヤ105に供給される。
ステップS302において、ノード情報解析部106は、処理対象とされたノードの“DirectionalSoundElement”は、“keyframe ref”のみが指定されているノードであるか否かを判定する。
ステップS302において、処理対象とされたノードの“DirectionalSoundElement”は、“keyframe ref”のみが指定されているノードであると判定された場合、ステップS303に処理が進められる。
ステップS303において、キーフレーム情報が取得される。このステップS302からステップS303の処理の流れは、図17を参照して説明した流れであり、詳細については既に説明したので、ここではその説明を省略する。
一方、ステップS302において、処理対象とされたノードの“DirectionalSoundElement”は、“keyframe ref”のみが指定されているノードではないと判定された場合、ステップS304に処理は進められる。
ステップS304において、ノード情報解析部106は、処理対象とされたノードの“DirectionalSoundElement”は、“stream id ref”のみが指定されているノードであるか否かが判定される。ステップS304において、処理対象とされたノードの“DirectionalSoundElement”は、“stream id ref”のみが指定されているノードであると判定された場合、ステップS305に処理は進められる。
ステップS305において、現時点における参照先の音源の音源位置が取得され、キーフレーム情報が取得される。相対位置算出部103は、音源位置保持部102から、現時点の音源の音源位置を取得し、キーフレーム補間部101からキーフレーム情報を取得する。
ステップS306において、相対位置算出部103は、参照先音源位置から、キーフレーム情報を生成する。
このステップS304からステップS306の処理の流れは、図18を参照して説明した流れであり、詳細については既に説明したので、ここではその説明を省略する。
一方、ステップS304において、処理対象とされたノードの“DirectionalSoundElement”は、“stream id ref”のみが指定されているノードではないと判定された場合、ステップS307に処理が進められる。
ステップS307に処理が来るのは、“DirectionalSoundElement”は、“keyframe ref”と“stream id ref”が指定されているノードであると判定されたときである。よって、処理は、図19を参照して説明したように進められる。
ステップS307において、キーフレーム情報が取得される。ステップS307における処理は、ステップS303における処理と同様に行われ、“DirectionalSoundElement”が、“keyframe ref”を指定しているときに行われる処理である。
ステップS308において、現時点における参照先の音源の音源位置が取得され、キーフレーム情報が取得される。ステップS308における処理は、ステップS305における処理と同様に行われ、“DirectionalSoundElement”が、“stream id ref”を指定しているときに行われる処理である。
ステップS309において、キーフレーム情報が、参照先音源位置が参照されて更新される。キーフレーム情報は、“keyframe ref”を参照して取得されているが、その取得されているキーフレーム情報を、“stream id ref”で参照されている音源位置などにより更新される。
このステップS307からステップS309の処理の流れは、図19を参照して説明した流れであり、詳細については既に説明したので、ここではその説明を省略する。
ステップS310において、姿勢変化量算出部104がリセットされる。そして、処理は、ステップS311(図22)に進められる。ステップS311において、音声の再生は終了したか否かが判定される。
ステップS311において、音声の再生は終了していないと判定された場合、ステップS312に処理は進められる。ステップS312において、キーフレーム補間により、現在時刻における音像位置が算出される。ステップS313において、姿勢変化量算出部104は、前回から今回の間の姿勢変化を姿勢変化量として、前回の姿勢変化量に加算することで、今回の姿勢変化量を算出する。
ステップS314において、相対位置算出部103は、相対音源位置を算出する。相対位置算出部103は、ステップS312において算出された音源位置と、ステップS313において算出された姿勢変化量に応じて、仮想キャラクタ20のユーザA(情報処理装置1)との相対位置を算出する。
ステップS315において、音像定位サウンドプレイヤ108は、相対位置算出部103により算出された相対位置を入力する。音像定位サウンドプレイヤ108は、入力した相対位置に、ステップS301で取得された音声ファイル(音声ファイルのうちの一部)に基づく音声を、スピーカ125で出力するための制御を行う。
ステップS315における処理が終了後、処理は、ステップS311に戻され、それ以降の処理が繰り返される。ステップS311において、再生は終了したと判定された場合、図21、図22に示したフローチャートの処理は終了される。
ステップS311乃至S315の処理が実行されることで、例えば、図15を参照して説明したように、キーフレームに基づく音像アニメーションの処理が実行される。
本技術によれば、音像アニメーションをユーザに提供することができるため、換言すれば、仮想キャラクタがユーザの周りを動いているような感覚を、ユーザに与えることができる処理を実行できるため、ユーザに音で提供されるエンタテイメントをより楽しませることができる。
また、ユーザが情報処理装置1で提供されるエンタテインメントを楽しむことができることで、例えば、情報処理装置1を装着して出かけたり、情報処理装置1から提供される情報を基に街中を探索したりする時間を増やすことが可能となる。
また、音像アニメーションを提供するとき、仮想キャラクタの位置を、作成者の意図した位置とすることができる。すなわち、上記した実施の形態のように、セリフAのあとにセリフBが再生されるとき、ユーザと仮想キャラクタとの相対位置が崩れること無く、セリフAからセリフBの再生が行われるようにすることができる。
また、ユーザと仮想キャラクタの絶対位置(現実空間におけるユーザと仮想キャラクタの相対位置)が崩れること無く、セリフAからセリフBの再生が行われるようにすることもできる。
さらに、セリフBの再生時に、作成者が意図した仮想キャラクタの位置から、再生を開始し、作成者が意図した仮想キャラクタの動きを再現しつつ、セリフBの再生を実行させることもできる。
このように、音像の位置を、作成者が意図した位置とすることができ、音像の位置の設定の自由度を増すことができる。
なお、上述した実施の形態においては、音声のみがユーザに提供される情報処理装置1を例に挙げて説明したが、音声と映像(画像)が提供されるような装置、例えば、AR(Augmented Reality :拡張現実)やVR(Virtual Reality:仮想現実)のヘッドマウトディスプレイに適用することもできる。
<記録媒体について>
上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図23は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。コンピュータにおいて、CPU(Central Processing Unit)1001、ROM(Read Only Memory)1002、RAM(Random Access Memory)1003は、バス1004により相互に接続されている。バス1004には、さらに、入出力インタフェース1005が接続されている。入出力インタフェース1005には、入力部1006、出力部1007、記憶部1008、通信部1009、及びドライブ1010が接続されている。
入力部1006は、キーボード、マウス、マイクロフォンなどよりなる。出力部1007は、ディスプレイ、スピーカなどよりなる。記憶部1008は、ハードディスクや不揮発性のメモリなどよりなる。通信部1009は、ネットワークインタフェースなどよりなる。ドライブ1010は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア1011を駆動する。
以上のように構成されるコンピュータでは、CPU1001が、例えば、記憶部1008に記憶されているプログラムを、入出力インタフェース1005及びバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU1001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア1011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア1011をドライブ1010に装着することにより、入出力インタフェース1005を介して、記憶部1008にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部1009で受信し、記憶部1008にインストールすることができる。その他、プログラムは、ROM1002や記憶部1008に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。
なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
なお、本技術は以下のような構成も取ることができる。
(1)
音像定位により現実空間に存在するよう知覚させる仮想物体の音像の位置と、ユーザの位置とに基づいて、前記ユーザに対する前記仮想物体の音源の相対的な位置を算出する算出部と、
前記算出された定位位置に音像を定位させるよう前記音源の音声信号処理を行う音像定位部と、
音像の位置を保持する音像位置保持部と
を備え、
前記算出部は、前記仮想物体が発する音声を切り替えるとき、切り替え後の音声の音像の位置を、切り替え前の音声の音像の位置を引き継いだ位置に設定する場合、前記音像位置保持部に保持されている音像の位置を参照して、前記音像の位置を算出する
情報処理装置。
(2)
前記ユーザの位置は、前記音声の切り替え前後に前記ユーザが移動した移動量であり、前記算出部は、前記仮想物体の音像の位置と、前記移動量とに基づいて、前記音源の位置を算出する
前記(1)に記載の情報処理装置。
(3)
前記算出部は、前記仮想物体の音声が切り替わるとき、切り替わる音声の発話を開始する位置を、切り替わる前の音声の発話が行われていた位置を引き継いだ位置に設定する場合、前記音像位置保持部に保持されている音像の位置を参照して、前記音像の位置を算出する
前記(1)または(2)に記載の情報処理装置。
(4)
前記現実空間に固定された座標上で前記音像の位置を設定する場合、前記音像位置保持部に保持されている前記音像の位置が参照される
前記(1)乃至(3)のいずれかに記載の情報処理装置。
(5)
前記算出部は、
音声再生処理における処理単位であるノードに、前記仮想物体の音像の位置に関する音像位置情報が含まれる場合、前記音像位置情報と、ユーザの位置とに基づいて、前記ユーザに対する前記仮想物体の音源の相対的な位置を算出し、
前記ノードに、他の音像位置情報を参照する指示が含まれている場合、前記音像位置保持部に保持されている音像の位置を参照し、前記音像位置情報を生成し、生成された音像位置情報と、ユーザの位置とに基づいて、前記ユーザに対する前記仮想物体の音源の相対的な位置を算出する
前記(1)乃至(4)のいずれかに記載の情報処理装置。
(6)
処理対処とされている前記ノードが他のノードに遷移するとき、前記他のノードに前記音像位置情報が含まれているか否かが判定される
前記(5)に記載の情報処理装置。
(7)
前記音声の切り替わりは、前記ユーザからの指示に応じて異なる処理が行われるときに発生する
前記(3)に記載の情報処理装置。
(8)
前記ユーザからの指示に応じて、遷移するノードを変更する
前記(7)に記載の情報処理装置。
(9)
前記仮想物体は、仮想キャラクタであり、前記音声は、前記仮想キャラクタのセリフであり、前記切り替わる前の音声と前記切り替わる音声は、前記仮想キャラクタの一連のセリフである
前記(3)に記載の情報処理装置。
(10)
音像定位の音声信号処理を施した音声を出力する複数のスピーカと、
前記複数のスピーカを搭載し、かつ前記ユーザの体に装着可能に構成された筐体を有する
前記(1)乃至(9)のいずれかに記載の情報処理装置。
(11)
音像定位により現実空間に存在するよう知覚させる仮想物体の音像の位置と、ユーザの位置とに基づいて、前記ユーザに対する前記仮想物体の音源の相対的な位置を算出し、
前記算出された定位位置に音像を定位させるよう前記音源の音声信号処理を行い、
保持されている音像の位置を更新する
ステップを含み、
前記仮想物体が発する音声を切り替えるとき、切り替え後の音声の音像の位置を、切り替え前の音声の音像の位置を引き継いだ位置に設定する場合、前記保持されている音像の位置が参照されて、前記音像の位置が算出される
情報処理方法。
(12)
コンピュータに、
音像定位により現実空間に存在するよう知覚させる仮想物体の音像の位置と、ユーザの位置とに基づいて、前記ユーザに対する前記仮想物体の音源の相対的な位置を算出し、
前記算出された定位位置に音像を定位させるよう前記音源の音声信号処理を行い、
保持されている音像の位置を更新する
ステップを含み、
前記仮想物体が発する音声を切り替えるとき、切り替え後の音声の音像の位置を、切り替え前の音声の音像の位置を引き継いだ位置に設定する場合、前記保持されている音像の位置が参照されて、前記音像の位置が算出される
処理を実行させるためのプログラム。
1 情報処理装置, 10 制御部, 10a 状態・行動検出部, 10b 仮想キャラクタ行動決定部, 10c シナリオ更新部, 10d 相対位置算出部, 10e 音像定位部, 10f 音声出力制御部, 10g 再生履歴・フィードバック記憶制御部, 11 通信部, 12 マイクロフォン, 13 カメラ, 14 9軸センサ, 15 スピーカ, 16 位置測位部, 17 記憶部, 20 仮想キャラクタ, 101 キーフレーム補間部, 102 音像位置保持部, 103 相対位置算出部, 104 姿勢変化量算出部, 105 音像定位サウンドプレイヤ, 106 ノード情報解析部

Claims (12)

  1. 音像定位により現実空間に存在するよう知覚させる仮想物体の音像の位置と、ユーザの位置とに基づいて、前記ユーザに対する前記仮想物体の音源の相対的な位置を算出する算出部と、
    前記算出された定位位置に音像を定位させるよう前記音源の音声信号処理を行う音像定位部と、
    音像の位置を保持する音像位置保持部と
    を備え、
    前記算出部は、前記仮想物体が発する音声を切り替えるとき、切り替え後の音声の音像の位置を、切り替え前の音声の音像の位置を引き継いだ位置に設定する場合、前記音像位置保持部に保持されている音像の位置を参照して、前記音像の位置を算出する
    情報処理装置。
  2. 前記ユーザの位置は、前記音声の切り替え前後に前記ユーザが移動した移動量であり、前記算出部は、前記仮想物体の音像の位置と、前記移動量とに基づいて、前記音源の位置を算出する
    請求項1に記載の情報処理装置。
  3. 前記算出部は、前記仮想物体の音声が切り替わるとき、切り替わる音声の発話を開始する位置を、切り替わる前の音声の発話が行われていた位置を引き継いだ位置に設定する場合、前記音像位置保持部に保持されている音像の位置を参照して、前記音像の位置を算出する
    請求項1に記載の情報処理装置。
  4. 前記現実空間に固定された座標上で前記音像の位置を設定する場合、前記音像位置保持部に保持されている前記音像の位置が参照される
    請求項1に記載の情報処理装置。
  5. 前記算出部は、
    音声再生処理における処理単位であるノードに、前記仮想物体の音像の位置に関する音像位置情報が含まれる場合、前記音像位置情報と、ユーザの位置とに基づいて、前記ユーザに対する前記仮想物体の音源の相対的な位置を算出し、
    前記ノードに、他の音像位置情報を参照する指示が含まれている場合、前記音像位置保持部に保持されている音像の位置を参照し、前記音像位置情報を生成し、生成された音像位置情報と、ユーザの位置とに基づいて、前記ユーザに対する前記仮想物体の音源の相対的な位置を算出する
    請求項1に記載の情報処理装置。
  6. 処理対処とされている前記ノードが他のノードに遷移するとき、前記他のノードに前記音像位置情報が含まれているか否かが判定される
    請求項5に記載の情報処理装置。
  7. 前記音声の切り替わりは、前記ユーザからの指示に応じて異なる処理が行われるときに発生する
    請求項3に記載の情報処理装置。
  8. 前記ユーザからの指示に応じて、遷移するノードを変更する
    請求項7に記載の情報処理装置。
  9. 前記仮想物体は、仮想キャラクタであり、前記音声は、前記仮想キャラクタのセリフであり、前記切り替わる前の音声と前記切り替わる音声は、前記仮想キャラクタの一連のセリフである
    請求項3に記載の情報処理装置。
  10. 音像定位の音声信号処理を施した音声を出力する複数のスピーカと、
    前記複数のスピーカを搭載し、かつ前記ユーザの体に装着可能に構成された筐体を有する
    請求項1に記載の情報処理装置。
  11. 音像定位により現実空間に存在するよう知覚させる仮想物体の音像の位置と、ユーザの位置とに基づいて、前記ユーザに対する前記仮想物体の音源の相対的な位置を算出し、
    前記算出された定位位置に音像を定位させるよう前記音源の音声信号処理を行い、
    保持されている音像の位置を更新する
    ステップを含み、
    前記仮想物体が発する音声を切り替えるとき、切り替え後の音声の音像の位置を、切り替え前の音声の音像の位置を引き継いだ位置に設定する場合、前記保持されている音像の位置が参照されて、前記音像の位置が算出される
    情報処理方法。
  12. コンピュータに、
    音像定位により現実空間に存在するよう知覚させる仮想物体の音像の位置と、ユーザの位置とに基づいて、前記ユーザに対する前記仮想物体の音源の相対的な位置を算出し、
    前記算出された定位位置に音像を定位させるよう前記音源の音声信号処理を行い、
    保持されている音像の位置を更新する
    ステップを含み、
    前記仮想物体が発する音声を切り替えるとき、切り替え後の音声の音像の位置を、切り替え前の音声の音像の位置を引き継いだ位置に設定する場合、前記保持されている音像の位置が参照されて、前記音像の位置が算出される
    処理を実行させるためのプログラム。
JP2019534016A 2017-07-31 2018-07-17 情報処理装置、情報処理方法、並びにプログラム Active JP7115480B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022120199A JP7456463B2 (ja) 2017-07-31 2022-07-28 情報処理装置、情報処理方法、並びにプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017147722 2017-07-31
JP2017147722 2017-07-31
PCT/JP2018/026655 WO2019026597A1 (ja) 2017-07-31 2018-07-17 情報処理装置、情報処理方法、並びにプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022120199A Division JP7456463B2 (ja) 2017-07-31 2022-07-28 情報処理装置、情報処理方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JPWO2019026597A1 JPWO2019026597A1 (ja) 2020-07-27
JP7115480B2 true JP7115480B2 (ja) 2022-08-09

Family

ID=65232757

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019534016A Active JP7115480B2 (ja) 2017-07-31 2018-07-17 情報処理装置、情報処理方法、並びにプログラム
JP2022120199A Active JP7456463B2 (ja) 2017-07-31 2022-07-28 情報処理装置、情報処理方法、並びにプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022120199A Active JP7456463B2 (ja) 2017-07-31 2022-07-28 情報処理装置、情報処理方法、並びにプログラム

Country Status (6)

Country Link
US (1) US11051120B2 (ja)
EP (1) EP3664476A4 (ja)
JP (2) JP7115480B2 (ja)
KR (1) KR20200034710A (ja)
CN (1) CN110999327B (ja)
WO (1) WO2019026597A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10973440B1 (en) * 2014-10-26 2021-04-13 David Martin Mobile control using gait velocity
JP2020161949A (ja) * 2019-03-26 2020-10-01 日本電気株式会社 聴覚ウェアラブルデバイス管理システム、聴覚ウェアラブルデバイス管理方法およびそのプログラム
JP7270154B2 (ja) * 2019-11-20 2023-05-10 ダイキン工業株式会社 遠隔作業支援システム
WO2021125081A1 (ja) * 2019-12-19 2021-06-24 日本電気株式会社 情報処理装置、制御方法及び非一時的なコンピュータ可読媒体
JPWO2022224586A1 (ja) * 2021-04-20 2022-10-27

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016185740A1 (ja) 2015-05-18 2016-11-24 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003305278A (ja) 2002-04-15 2003-10-28 Sony Corp 情報処理装置及び情報処理方法、記憶媒体、並びにコンピュータ・プログラム
JP4584203B2 (ja) 2006-07-31 2010-11-17 株式会社コナミデジタルエンタテインメント 音声シミュレーション装置、音声シミュレーション方法、ならびに、プログラム
US9122053B2 (en) * 2010-10-15 2015-09-01 Microsoft Technology Licensing, Llc Realistic occlusion for a head mounted augmented reality display
JP5821307B2 (ja) 2011-06-13 2015-11-24 ソニー株式会社 情報処理装置、情報処理方法及びプログラム
US9510126B2 (en) 2012-01-11 2016-11-29 Sony Corporation Sound field control device, sound field control method, program, sound control system and server
JP6065370B2 (ja) * 2012-02-03 2017-01-25 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
CN105745602B (zh) * 2013-11-05 2020-07-14 索尼公司 信息处理装置、信息处理方法和程序
JP6327417B2 (ja) * 2014-05-30 2018-05-23 任天堂株式会社 情報処理システム、情報処理装置、情報処理プログラム、および情報処理方法
EP3346729B1 (en) * 2017-01-04 2020-02-05 Harman Becker Automotive Systems GmbH Headphone for generating natural directional pinna cues

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016185740A1 (ja) 2015-05-18 2016-11-24 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム

Also Published As

Publication number Publication date
CN110999327B (zh) 2022-01-14
JP2022141942A (ja) 2022-09-29
EP3664476A1 (en) 2020-06-10
US20200221245A1 (en) 2020-07-09
EP3664476A4 (en) 2020-12-23
WO2019026597A1 (ja) 2019-02-07
KR20200034710A (ko) 2020-03-31
JP7456463B2 (ja) 2024-03-27
CN110999327A (zh) 2020-04-10
JPWO2019026597A1 (ja) 2020-07-27
US11051120B2 (en) 2021-06-29

Similar Documents

Publication Publication Date Title
JP7115480B2 (ja) 情報処理装置、情報処理方法、並びにプログラム
JP6673346B2 (ja) 情報処理装置、情報処理方法、およびプログラム
KR102545721B1 (ko) 공간적 오디오 내비게이션
WO2018186178A1 (ja) 情報処理装置、情報処理方法、並びにプログラム
EP2700907B1 (en) Acoustic Navigation Method
JP2019134441A (ja) 情報処理装置
JP2019527956A (ja) 仮想、拡張、および複合現実
JP6055657B2 (ja) ゲームシステム、ゲーム処理制御方法、ゲーム装置、および、ゲームプログラム
JP2014083205A (ja) 情報処理システム、情報処理プログラム、情報処理制御方法、および情報処理装置
JP2021131423A (ja) 音声再生装置、音声再生方法および音声再生プログラム
JP7243639B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP2008299135A (ja) 音声合成装置、音声合成方法、および音声合成用プログラム
US10820132B2 (en) Voice providing device and voice providing method
US11689878B2 (en) Audio adjustment based on user electrical signals
JP7484290B2 (ja) 移動体位置推定装置および移動体位置推定方法
US20240078732A1 (en) Avatar facial expressions based on semantical context
US20240078731A1 (en) Avatar representation and audio generation
WO2022149497A1 (ja) 情報処理装置、情報処理方法およびコンピュータプログラム
US20230036986A1 (en) Processing of audio signals from multiple microphones
JP2021156600A (ja) 移動体位置推定装置および移動体位置推定方法
KR20240040737A (ko) 다수의 마이크로폰들로부터의 오디오 신호들의 프로세싱
CN118020314A (en) Audio event data processing
CN118020313A (en) Processing audio signals from multiple microphones
KR20240040738A (ko) 오디오 이벤트 데이터 프로세싱

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210609

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220628

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220711

R151 Written notification of patent or utility model registration

Ref document number: 7115480

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151