JP2024059809A - 情報処理装置、情報処理方法、情報処理システム及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法、情報処理システム及び情報処理プログラム Download PDF

Info

Publication number
JP2024059809A
JP2024059809A JP2024025813A JP2024025813A JP2024059809A JP 2024059809 A JP2024059809 A JP 2024059809A JP 2024025813 A JP2024025813 A JP 2024025813A JP 2024025813 A JP2024025813 A JP 2024025813A JP 2024059809 A JP2024059809 A JP 2024059809A
Authority
JP
Japan
Prior art keywords
user
head
area
information processing
ear
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2024025813A
Other languages
English (en)
Inventor
洋 玉置
Hiroshi Tamaoki
幸央 磯野
Yukihisa Isono
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Group Corp
Original Assignee
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Group Corp filed Critical Sony Group Corp
Publication of JP2024059809A publication Critical patent/JP2024059809A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/64Computer-aided capture of images, e.g. transfer from script file into camera, check of taken image quality, advice or proposal for image composition or decision on when to take image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/61Control of cameras or camera modules based on recognised objects
    • H04N23/611Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • G06V40/165Detection; Localisation; Normalisation using facial parts and geometric relationships
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/633Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
    • H04N23/634Warning indications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N23/00Cameras or camera modules comprising electronic image sensors; Control thereof
    • H04N23/60Control of cameras or camera modules
    • H04N23/63Control of cameras or camera modules by using electronic viewfinders
    • H04N23/633Control of cameras or camera modules by using electronic viewfinders for displaying additional information relating to control or operation of the camera
    • H04N23/635Region indicators; Field of view indicators
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • Studio Devices (AREA)
  • User Interface Of Digital Computer (AREA)
  • Stereophonic System (AREA)
  • Image Analysis (AREA)

Abstract

【課題】頭部伝達関数を算出するために行われる撮影に関してユーザの利便性を向上させることができる情報処理装置、情報処理方法及び情報処理プログラムを提案する。【解決手段】本開示に係る情報処理装置は、撮影領域において、ユーザの頭部の少なくとも一部が占める領域の大きさが閾値内にあるか否かの判定を開始し、前記ユーザの頭部の少なくとも一部が占める領域の大きさが閾値内にあると判定された場合には、前記ユーザの頭部の少なくとも一部に対して、頭部伝達関数に関するデータの取得を行い、所定の期間内に前記ユーザの頭部の少なくとも一部に対する前記頭部伝達関数に関するデータの取得が行われなかった場合には、判定結果に基づく前記ユーザへの案内を出力する制御部を備える。【選択図】図3

Description

本開示は、情報処理装置、情報処理方法及び情報処理プログラムに関する。詳しくは、頭部伝達関数の利用に関する。
音源から耳への音の届き方を数学的に表す頭部伝達関数を用いることで、ヘッドホン等における音像を立体的に再現する技術が利用されている。
頭部伝達関数は個人差が大きいことから、その利用時には、個人ごとに生成された頭部伝達関数を用いることが望ましい。例えば、ユーザの耳介を撮影した画像に基づいて頭部の三次元デジタルモデル(以下では、3Dモデルと表記する場合がある)を生成し、かかる3Dモデルからユーザの頭部伝達関数を算出する技術が知られている。
米国特許第9544706号明細書
従来技術によれば、各々のユーザに合わせて個別に算出された頭部伝達関数を情報処理に用いることができるため、音像の定位感を高めることができる。
しかしながら、上記の従来技術では、ユーザの利便性を向上させることが難しい。例えば、従来技術では、ユーザの耳介を撮影した画像を利用して頭部伝達関数を算出するが、ユーザ自身が耳介を撮影することは困難なため、撮影に失敗したり、撮影した画像内に適切な大きさの耳介が含まれなかったりすることが想定される。この場合、ユーザは、何度も撮影のやり直しを要求されたり、精度よく算出された頭部伝達関数を得られなかったりするおそれがある。
そこで、本開示では、頭部伝達関数を算出するために行われる撮影に関してユーザの利便性を向上させることができる情報処理装置、情報処理方法及び情報処理プログラムを提案する。
上記の課題を解決するために、本開示の一形態に係る情報処理装置は、撮影領域において、ユーザの頭部の少なくとも一部が占める領域の大きさが閾値内にあるか否かの判定を開始し、前記ユーザの頭部の少なくとも一部が占める領域の大きさが閾値内にあると判定された場合には、前記ユーザの頭部の少なくとも一部に対して、頭部伝達関数に関するデータの取得を行い、所定の期間内に前記ユーザの頭部の少なくとも一部に対する前記頭部伝達関数に関するデータの取得が行われなかった場合には、判定結果に基づく前記ユーザへの案内を出力する制御部を備える。また、本開示の他の一形態に係る情報処理方法は、コンピュータが、撮影領域において、ユーザの頭部の少なくとも一部が占める領域の大きさが閾値内にあるか否かの判定を開始し、前記ユーザの頭部の少なくとも一部が占める領域の大きさが閾値内にあると判定された場合には、前記ユーザの頭部の少なくとも一部に対して、頭部伝達関数に関するデータの取得を行い、所定の期間内に前記ユーザの頭部の少なくとも一部に対する前記頭部伝達関数に関するデータの取得が行われなかった場合には、判定結果に基づく前記ユーザへの案内を出力する、ことを含む。さらに、本開示の他の一形態の情報処理プログラムは、コンピュータを、撮影領域において、ユーザの頭部の少なくとも一部が占める領域の大きさが閾値内にあるか否かの判定を開始し、前記ユーザの頭部の少なくとも一部が占める領域の大きさが閾値内にあると判定された場合には、前記ユーザの頭部の少なくとも一部に対して、頭部伝達関数に関するデータの取得を行い、所定の期間内に前記ユーザの頭部の少なくとも一部に対する前記頭部伝達関数に関するデータの取得が行われなかった場合には、判定結果に基づく前記ユーザへの案内を出力する制御部として機能させる。
本開示の実施形態に係る情報処理システムを示す図である。 実施形態に係る情報処理を示した概念図である。 実施形態に係るユーザ端末の構成例を示す図である。 実施形態に係る第1判定処理を説明する図である。 実施形態に係る第2判定処理を説明する図である。 実施形態に係るクラウドサーバの構成例を示す図である。 実施形態に係る情報処理の手順を示すフローチャート(1)である。 実施形態に係る情報処理の手順を示すフローチャート(2)である。 実施形態に係る情報処理の手順の変形例を示すフローチャート(1)である。 実施形態に係る情報処理の手順の変形例を示すフローチャート(2)である。 実施形態に係る情報処理の手順の変形例を示すフローチャート(3)である。 情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
以下に示す項目順序に従って本開示を説明する。
1.実施形態
1-1.実施形態に係る情報処理システムの構成と情報処理の一例
1-2.実施形態に係る情報処理装置の構成
1-3.実施形態に係るクラウドサーバの構成
1-4.実施形態に係る情報処理の手順
2.変形例
3.その他の実施形態
4.本開示に係る情報処理装置の効果
5.ハードウェア構成
(1.実施形態)
[1-1.実施形態に係る情報処理システムの構成と情報処理の一例]
まず、図1及び図2を用いて、本開示に係る情報処理システム1の構成、及び、情報処理システム1によって実行される情報処理の概要を説明する。図1は、本開示の実施形態に係る情報処理システム1を示す図である。本開示の実施形態に係る情報処理は、図1に示す情報処理システム1によって実現される。図1に示すように、情報処理システム1は、ユーザ端末10と、クラウドサーバ100とを含む。情報処理システム1に含まれる各装置は、図示しない有線又は無線ネットワークを用いて相互に通信を行う。なお、情報処理システム1を構成する各装置の台数は、図示したものに限られない。
ユーザ端末10は、本開示に係る情報処理装置の一例であり、頭部伝達関数(以下、HRTF(Head-Related Transfer Function)と表記する場合がある)を利用した情報処理を実行する情報処理端末である。具体的には、ユーザ端末10は、音楽や動画等の再生に際してHRTFを利用することで、臨場感の高い再生を行ったり、効果の高い3D音響を構築したりすることができる。ユーザ端末10は、例えば、撮影機能を有したスマートフォン等によって実現される。
クラウドサーバ100は、各ユーザに対応するHRTFを算出し、算出したHRTFをユーザ端末10に提供する。クラウドサーバ100は、ネットワークを介して、ユーザの耳を撮影した画像をユーザ端末10から取得し、取得した画像に基づいて当該ユーザのHRTFを算出する。
上記のように、ユーザ端末10は、HRTFを利用した情報処理を実行する。HRTFは、人間の耳介(耳殻)や頭部の形状等を含む周辺物によって生じる音の変化を伝達関数として表現するものである。一般に、HRTFを求めるための測定データは、人間が耳介内に装着したマイクロフォンやダミーヘッドマイクロホン等を用いて測定用の音響信号を測定することにより取得される。
例えば、3D音響等の技術で利用されるHRTFは、ダミーヘッドマイクロホン等で取得された測定データや、多数の人間から取得された測定データの平均値等を用いて算出されることが多い。しかしながら、HRTFは、個人差が大きいことから、より効果的な音響演出効果を実現するためには、ユーザ自身のHRTFを用いることが望ましい。すなわち、一般的なHRTFをユーザ自身のHRTFに置き換えることで、より臨場感のある音響体感をユーザに提供することができる。
従来、ユーザ個人のHRTFを算出する手法の一例として、ユーザの耳の形状を撮影した画像からユーザのHRTFを算出する手法がある。例えば、クラウドサーバ100は、ユーザ端末10によって撮影されたユーザの耳の形状を含む画像を取得し、取得した画像に基づいてユーザ個人のHRTFを算出する。そして、クラウドサーバ100は、算出したHRTFをユーザ端末10に送信する。これにより、ユーザ端末10は、ユーザ個人のHRTFを用いて3D音響が録音された音源を再生したり、臨場感のある動画再生を行ったりすることができる。
しかしながら、上記の手法の実現には、いくつかの課題が存在する。例えば、クラウドサーバ100は、ユーザの耳の形状が認識可能な画像を取得し、取得した画像に基づいてHRTFを算出する。この場合、ユーザは、自身の耳を含む画像を撮影し、撮影した画像をクラウドサーバ100にアップロードすることを要する。このとき、ユーザは撮影機能を有するユーザ端末10のようなスマートフォンを利用して撮影を行うと想定される。
ところが、ユーザ自身が側面を撮影する場合には、ユーザは撮影領域(すなわち、ユーザ端末10の画面)を確認できないため、適切に耳を撮影することが難しい。このため、ユーザが側面を撮影したとしても、耳が画像内に含まれなかったり、極端に耳が傾いていたりする画像が得られる可能性が高い。この場合、ユーザは、何度も撮影のやり直しを要求されたり、精度よく算出されたHRTFを得られなかったりする場合がある。また、ユーザは、ユーザ端末10の形状によっては、適切なタイミングでシャッターボタンを押すことが難しい場合もある。さらに、このような自撮りでは、ユーザ自身がユーザ端末10を手に持って撮影すると想定されるため、撮影画像にぶれが生じる可能性も高い。
上記のように、HRTFを算出するために行われる撮影に関して、種々の課題が存在する。実施形態に係るユーザ端末10は、以下に説明する本開示の情報処理により、上記の課題を解決する。以下、本開示に係る情報処理の概要について、図1及び図2を用いて流れに沿って説明する。
まず、図1を用いて、情報処理システム1によるHRTFの生成処理の流れについて概要を説明する。図1に示すように、ユーザは、自身の耳の映像を含む画像を取得するため、頭部側面から自身を撮影する(ステップS1)。
なお、ユーザ端末10による撮影処理の詳細な説明については、図2を用いて説明する。また、本開示において、画像とは、一般にユーザ端末10等で撮影可能な2次元カラー画像に限らず、モノクロ画像や、深度情報を含むデプス画像や、それらを任意に組み合わせたものであってもよい。また、本開示の処理に用いられる画像は、1枚でなく、複数の画像であってもよい。
ユーザ端末10は、ステップS1の撮影により、ユーザの頭部側面を撮影した画像であり、ユーザの耳の形状が認識可能な画像5を取得する(ステップS2)。
続けて、ユーザ端末10は、取得した画像5をクラウドサーバ100に送信する(ステップS3)。クラウドサーバ100は、ユーザ端末10から送信された画像を取得する。そして、クラウドサーバ100は、画像からユーザのHRTFを算出する(ステップS4)。
なお、クラウドサーバ100がHRTFを算出する手法には、種々の手法が採用されてもよい。例えば、クラウドサーバ100は、耳の映像を含む2次元の画像が入力された場合に、耳に対応するHRTFを出力するよう学習されたモデルを用いて、HRTFを算出してもよい。あるいは、クラウドサーバ100は、耳の映像を含む2次元の画像からユーザ頭部の3Dモデルを生成し、生成した3DモデルからHRTFを算出してもよい。また、以下では、ユーザ個人に応じて算出されたHRTFを個人化HRTF(personal HRTF)と表記し、一般的なHRTFと区別する場合がある。
また、クラウドサーバ100は、算出した個人化HRTFにRIR(空間インパルス応答(Room Impulse Response))を畳み込んで、BRIR(両耳空間インパルス応答(Binaural Room Impulse Response))を生成してもよい。本明細書では、HRTFと表記する場合には、HRTFのみならず、HRTFを利用して生成されたBRIR等の情報等も含むものとする。例えば、ユーザ端末10における音楽の再生時等に利用されるデータは、実際にはHRTFではなくBRIRである場合もあるが、以下では、両者を相互に読み替えてもよい。例えば、「算出したHRTFを送信する」といった記載は、算出したBRIRを送信する状況も含む。また、「HRTFを利用して再生する」といった記載は、BRIRを利用して再生する状況も含むものとする。
その後、クラウドサーバ100は、生成した個人化HRTFをユーザ端末10に送信する(ステップS5)。そして、ユーザ端末10は、個人化HRTFを取得する。このように、ユーザは、自身の横顔を撮影してクラウドサーバ100に画像を送信することにより、自身の個人化HRTFを取得する。こののち、ユーザ端末10は、例えば、3D音響や多チャンネル音源の再生に際して、ユーザに対応した個人化HRTFを利用することができる。
次に、図2を用いて、ユーザ端末10による本開示に係る情報処理(撮影処理)の概要について説明する。図2は、実施形態に係る情報処理を示した概念図である。図2では、ユーザが自撮りを行う際に、ユーザ端末10の画面に表示される画像を示す。言い換えれば、図2で示すユーザ端末10の画面とは、ユーザ端末10が撮影しようとする領域を示す。図2の説明では、ユーザ端末10の状態遷移を図示する場合、ユーザ端末10の画面表示状態について、第1状態、第2状態、・・・、第N状態(Nは任意の数)と表記する。また、以下に示す説明において、ユーザの正面や側面、ユーザの耳を認識する手法については、適宜、既知の画像認識手法が利用されてもよい。
ユーザは、個人化HRTFの生成を所望する場合、撮影機能を起動させ、自身の耳の撮影を行う。この撮影機能は、例えば、クラウドサーバ100を管理する事業者から提供されるアプリケーション(以下、単にアプリと表記する場合がある)により実現される。
ユーザがアプリを起動させた場合、ユーザ端末10は、第1状態に遷移する。図2に示す撮影領域21は、ユーザ端末10が撮影しようとする領域である。すなわち、撮影領域21は、ユーザ端末10が備えるカメラが捉えている空間を画面に表示したものである。図2に示すように、ユーザ端末10は、まずユーザの正面向きの画像を撮影するよう促す音声A01を出力する(ステップS11)。例えば、ユーザ端末10は、「顔を正面に向けて画面の枠内に収めてください。」といった内容の音声A01を出力する。このように、ユーザ端末10は、適宜、TTS(text-to-speech)による出力を行うことで、ユーザに適切な情報やフィードバックを与える。なお、このような応答処理は、音声に限らず、ユーザ端末10を振動させるバイブレーションや、画面に文字列を表示するといった手法により行われてもよい。また、ユーザ端末10は、音声として、TTSのみならず、シャッター音や、適切な撮影が行われたことを示す効果音等を出力してもよい。
すなわち、ユーザ端末10は、いきなり側面の撮影を促すのではなく、まずユーザの正面向きの位置を合わせるための応答を出力する。正面向きの画像であれば、ユーザは、自身の手にユーザ端末10を持ちつつ、自身の顔の位置や大きさを認識することができる。このように、ユーザ端末10は、まず正面向きのユーザの顔を画面に表示させ、撮影に適した位置にユーザが所在するよう調整を行う。これにより、ユーザ端末10は、この後に行う頭部側面の撮影が成功する確率を向上させることができる。
第1状態において、ユーザ端末10は、撮影領域21において、ユーザの顔の位置や大きさが撮影に適した位置に所在しているかを判定する。このとき、ユーザ端末10は、ユーザが正面顔の位置や大きさを合わせるためのガイド枠22を画面に表示してもよい。これにより、ユーザは、ガイド枠22を参照しつつ、自身の顔の位置や、手に持っているユーザ端末10の位置を調整することができる。
ユーザ端末10は、撮影領域21において、ユーザの正面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する。このとき、ユーザ端末10は、ユーザの顔の位置や大きさに合わせて、適宜、応答を出力してもよい。例えば、ユーザ端末10は、ユーザの顔の大きさが撮影領域21やガイド枠22に対して小さく表示されている場合、「カメラを近づけてください。」といった音声A02を出力し、顔やユーザ端末10を適切な位置に動かすよう、ユーザを促してもよい。
ユーザ端末10は、撮影領域21において、ユーザの正面向きの顔が占める領域の大きさが閾値内にあると判定した場合、第2状態に遷移する(ステップS12)。
第2状態では、ユーザ端末10は、例えばガイド枠22の色を変化させたり、「適切な位置になりました」といった音声A03を出力させたりして、ユーザの顔の位置が撮影に適した位置になったことをユーザに伝達する(ステップS13)。
続けて、ユーザ端末10は、「ゆっくりと右に向いてください」といった音声A04を出力し、ユーザがカメラ(すなわちユーザ端末10)に対して側面を向くよう促す。
音声A04を出力したのち、ユーザ端末10は、第3状態に遷移する(ステップS14)。第3状態では、ユーザ端末10は、ガイド枠22を消去し、新たに側面用のガイド枠23を撮影領域21内に表示する。
ユーザ端末10は、撮影領域21において、ユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する。より具体的には、ユーザ端末10は、ユーザの耳を含む領域が、撮影領域21に対して適切な位置にあるか否かを判定する。適切な位置とは、例えば、耳を含む領域の一部が撮影領域21の端部から外れていなかったり、撮影領域21に対して耳を含む領域の占める割合が閾値内にあったり、ユーザの頭部側面に対して耳を含む領域の占める割合が閾値内にあったりすることをいう。言い換えれば、適切な位置とは、ユーザの耳が、クラウドサーバ100がHRTFを生成するのに支障がない程度に撮影画像に含まれると推定される位置である。
ユーザ端末10は、ユーザの頭部側面や、耳の位置が適切でない場合、適宜、応答を出力してもよい。例えば、ユーザ端末10は、ユーザの耳を含む領域が撮影領域21やガイド枠23から外れている場合、「カメラを少し右に向けてください。」といった音声A05を出力し、顔やユーザ端末10を適切な位置に動かすよう、ユーザを促してもよい。
その後、ユーザ端末10は、撮影領域21において、ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定した場合、言い換えれば、ユーザの耳を含む領域が適切な位置になった場合、「耳を検出しました。」といった音声A06を出力する(ステップS15)。
さらに、ユーザ端末10は、ユーザ端末10の挙動量(例えば、ユーザ端末10自体の加速度や速度)が閾値内であるか否か、また、一度検出したユーザの耳の位置が次フレームにおいて閾値を超えて移動していないか等を判定する。そして、ユーザ端末10は、ユーザ端末10の挙動量や、ユーザの耳の位置の移動量が閾値内である場合に、ユーザの頭部側面を自動撮影する。なお、かかる処理は、撮影した画像にぶれが生じないようにするためである。
ユーザ端末10は、ユーザの側面向きの顔が正常に撮影されなかった場合に、手動で撮影する機能をユーザに提示してもよい。例えば、ユーザ端末10は、ユーザの正面向きの画像を撮影する判定処理又はユーザの側面向きの顔の画像を撮影する撮影処理を開始してから所定の期間内にユーザの側面向きの顔が正常に撮影されなかった場合に、手動で撮影する機能をユーザに提示する。そして、ユーザ端末10は、ユーザによる操作を受け付けることで、ユーザの側面向きの顔の画像を撮影する。その際、ユーザ端末10は、ガイド枠23を含む画面を表示し、ユーザの手動による撮影を受け付けてもよい。なお、ここでいう所定の期間とは、如何なる時間でもよく、例えば、60秒や、120秒等である。
また、ユーザ端末10は、ユーザによって手動で撮影されたユーザの側面向きの顔の画像の位置を調整するといったユーザによる操作を受け付けてもよい。例えば、ユーザ端末10は、ユーザによる操作として、ドラッグやピンチイン又はピンチアウト等の操作を受付けることで、撮影されたユーザの側面向きの顔の画像の位置や大きさ等を調整する。このように、ユーザ端末10は、ガイド枠23のうち、耳を含む所定の領域に合うようにユーザの側面向きの顔の画像の位置や大きさ等を調整するユーザの操作を受け付けてもよい。
さらに、ユーザ端末10は、ユーザによる如何なる操作を受け付けてもよい。例えば、ユーザ端末10は、ユーザによる操作として、回転操作を受付けることで、撮影されたユーザの側面向きの顔の画像の傾きを調整する。このように、ユーザ端末10は、耳を含む所定の領域に合うようにユーザの側面向きの顔の画像の傾きを調整するユーザの操作を受け付けてもよい。
また、ユーザ端末10は、ユーザによる操作や手動による撮像失敗の回数等に応じて、側面向きの顔のサンプル画像をユーザに提示してもよい。サンプル画像を提示することで、ユーザは、どのような側面向きの顔の画像を撮像すればよいかを容易に理解することができる。
ユーザ端末10は、ユーザによる所定の操作に応じて、所定の期間を調整してもよい。例えば、ユーザ端末10は、撮影処理の中断や撮像処理における前の手順へ戻る操作がユーザにより入力された場合等には、上記所定の期間を変更してもよい。具体例を挙げると、ユーザ端末10は、所定の期間が60秒である場合に、60秒の間に、戻るといった操作を受け付ける。そして、ユーザ端末10は、戻る操作を受け付けるまでの期間が30秒であった場合に、所定の期間を30秒と設定してもよい。なお、ユーザ端末10は、所定の操作を所定の回数以上受け付けた場合には、所定の操作の回数に応じて、所定の期間を短く設定してもよい。
上記のように、本開示に係る情報処理装置の一例であるユーザ端末10は、撮影領域21において、ユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定し、ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、ユーザの側面向きの顔を撮影する。そして、ユーザ端末10は、所定の期間内にユーザの側面向きの顔が撮影されなかった場合に、手動で撮影する機能をユーザに提示する。
このように、ユーザ端末10は、撮影領域21において、ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定できなかった場合に、頭部側面を手動で撮影するようにユーザに促すことができる。これにより、ユーザ端末10は、ユーザの側面向きの顔を判定できないために起こり得る撮影処理の最初の段階に戻り、再度ユーザの正面及び側面を判定するといった処理のループに陥ることを防ぐことができるため、ユーザの手間や負担を低減させることができる。このことから、ユーザ端末10は、頭部伝達関数を算出するために行われる撮影に関してユーザの利便性を向上させることができる。
以上、本開示に係る情報処理の全体の流れの概要を説明した。以下では、図3を用いてユーザ端末10の構成を説明するとともに、種々の処理の詳細を順に説明する。
[1-2.実施形態に係る情報処理装置の構成]
図3を用いて、本開示に係る情報処理装置の一例であるユーザ端末10の構成について説明する。図3は、実施形態に係るユーザ端末10の構成例を示す図である。図3に示すように、ユーザ端末10は、通信部11と、入力部12と、表示部13と、検知部14と、記憶部15と、制御部16とを有する。
通信部11は、例えば、NIC(Network Interface Card)等によって実現される。通信部11は、ネットワークN(インターネット等)と有線又は無線で接続され、ネットワークNを介して、クラウドサーバ100やサービスサーバ200、ヘッドホン50等との間で情報の送受信を行う。
入力部12は、ユーザから各種操作を受け付ける入力装置である。例えば、入力部12は、ユーザ端末10に備えられた操作キー等によって実現される。表示部13は、各種情報を表示するための表示装置である。例えば、表示部13は、液晶ディスプレイ等によって実現される。なお、ユーザ端末10にタッチパネルが採用される場合には、入力部12の一部と表示部13とは一体化される。
検知部14は、各種センサの総称であり、ユーザ端末10に関する各種情報を検知する。具体的には、検知部14は、ユーザ端末10に対するユーザの操作や、ユーザ端末10の所在する位置情報や、ユーザ端末10と接続されている機器に関する情報や、ユーザ端末10における環境等を検知する。
また、検知部14は、センサの一例として、撮影を行うためのレンズおよびイメージセンサを有する。すなわち、検知部14は、例えばユーザが撮影機能を動作させるアプリを起動させた場合、カメラとしての機能を発揮する。
また、検知部14は、ユーザ端末10に備えられた各種センサや機能を利用し、環境に関する情報を検知する。例えば、検知部14は、ユーザ端末10の周囲の音を収集するマイクロフォンや、ユーザ端末10の周囲の照度を検知する照度センサや、ユーザ端末10の物理的な動きを検知する加速度センサ(又は、ジャイロセンサなど)や速度センサ、ユーザ端末10の所在位置における磁場を検知する地磁気センサ等を利用する。そして、検知部14は、各種センサを用いて、種々の情報を検知する。
記憶部15は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部15は、情報処理に用いる各種データを記憶する。
例えば、記憶部15は、カメラ機能を利用して取得された撮影画像等を記憶する。また、記憶部15は、クラウドサーバ100によって生成されたHRTFに関する情報を記憶する。また、記憶部15は、ユーザの正面の顔を認識するための画像認識学習済みモデルや、ユーザの側面の顔や、ユーザの耳を認識するための画像認識学習済みモデル等を記憶してもよい。
制御部16は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)、GPU(Graphics Processing Unit)等によって、ユーザ端末10内部に記憶されたプログラム(例えば、本開示に係る情報処理プログラム)がRAM(Random Access Memory)等を作業領域として実行されることにより実現される。また、制御部16は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
図3に示すように、制御部16は、取得部161と、撮影処理部162と、送信部167と、受信部168とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部16の内部構成は、図3に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
取得部161は、各種情報を取得する。例えば、取得部161は、検知部14が検知した情報を取得する。取得部161は、取得した情報を適宜記憶部15に格納する。
撮影処理部162は、個人化HRTFの生成に用いられる画像の撮影処理を制御する。撮影処理部162は、第1判定部163と、第2判定部164(判定部に相当)と、撮影部165と、撮影制御部166とを含み、各処理部が協働して、画像の撮影処理を実行する。
第1判定部163は、撮影領域において、ユーザの正面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する。
なお、第1判定部163は、撮影領域の中に、ユーザの正面向きの顔が占める領域を特定するための第1ガイド領域を設定し、第1ガイド領域に対してユーザの正面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する。第1ガイド領域とは、例えば、図2に示したガイド枠22の内側部分に対応する。第1判定部163は、第1ガイド領域を設定することにより、ユーザに顔をどのような大きさや位置でカメラに写せばよいかを直感的に理解させることができる。
具体的には、第1判定部163は、ユーザの正面向きの顔として抽出した領域が撮影領域に含まれるか否かを判定する。ユーザの正面向きの顔として抽出した領域とは、例えば、任意の画像認識モデルを用いることにより、正面向きの顔として認識される領域である。ユーザの正面向きの顔として抽出した領域は、例えば、所定の大きさの矩形で示される。
例えば、第1判定部163は、ユーザの正面向きの顔として抽出した領域が撮影領域に含まれる割合に基づいて、ユーザの正面向きの顔として抽出した領域が撮影領域に含まれるか否かを判定する。
また、第1判定部163は、ユーザの正面向きの顔として抽出した領域の端部と、撮影領域の端部との距離に基づいて、ユーザの正面向きの顔として抽出した領域が撮影領域に含まれるか否かを判定してもよい。
第1判定部163が実行する処理について、図4を用いて説明する。図4は、実施形態に係る第1判定処理を説明する図である。
図4に示すように、第1判定部163は、ユーザの正面の顔を画像認識した場合、ユーザの正面向きの顔として領域25を抽出する。第1判定部163は、例えば、撮影領域21もしくは第1ガイド領域(ガイド枠22の内側部分)に対して、領域25が占める領域が閾値内(例えば、6割を超え9割を超えないだけの面積を占めるなど)であるか否かを判定し、ユーザの正面向きの顔が撮影領域21に含まれるか否かを判定する。なお、閾値は、例えばクラウドサーバ100からの要求に応じて、適宜、変更されてもよい。
また、第1判定部163は、領域25の端部と、撮影領域21の端部との距離を判定する。例えば、第1判定部163は、領域25の端部と撮影領域21の端部との間に含まれる画素数(ピクセル数)を検出し、所定数を超える画素数が存在する場合に、領域25が撮影領域21に含まれると判定する。
上記の処理により、第1判定部163は、ユーザの顔の大きさが極端に小さかったり大きかったりすることや、ユーザの顔の位置がカメラの撮影領域から外れていたりすることを判定することができる。
なお、図4では、ユーザの正面の顔として抽出した領域25を矩形で表現しているが、第1判定部163は、矩形に限らず、ユーザの正面の顔に沿った形状で領域25を抽出してもよい。また、領域25は、画面に表示してユーザに提示してもよいし、しなくてもよい。
第1判定部163は、ユーザの正面向きの顔が占める領域の大きさが閾値内にあると判定した場合に、ユーザの側面向きの顔の撮影に移行する旨の応答を出力する。これにより、第1判定部163は、ユーザとユーザ端末10(撮影装置)との位置関係を適切なものに調整したのちに、側面の撮影に移行することができる。
具体的には、第1判定部163は、応答として、音声、振動、もしくは文字列の表示の少なくともいずれかを出力する。例えば、第1判定部163は、TTS機能を利用して、側面の撮影を行うためユーザに右や左を向かせるよう促す音声を出力する。あるいは、第1判定部163は、正面の顔の判定が成功したことを示す効果音を出力したり、ユーザ端末10を振動させたりして、ユーザに正面の顔の判定が終了したことを通知してもよい。
また、第1判定部163は、ユーザの正面向きの顔が占める領域の大きさが閾値内にないと判定した場合に、ユーザの顔の位置を動かす旨の応答、又は、ユーザの撮影に用いられる装置の位置を動かす旨の応答を出力してもよい。
この場合も、第1判定部163は、応答として、音声、振動、もしくは文字列の表示の少なくともいずれかを出力する。例えば、第1判定部163は、TTS機能を利用して、ユーザとユーザ端末10までの距離を近づけたり話したり、ユーザやユーザ端末10の位置を右や左に動かしたりすることを促す音声を出力する。
第2判定部164は、第1判定部163によってユーザの正面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、撮影領域において、ユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する。
なお、第2判定部164は、撮影領域の中に、ユーザの側面向きの顔が占める領域を特定するための第2ガイド領域を設定し、第2ガイド領域に対してユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定してもよい。第2ガイド領域とは、例えば、図2に示したガイド枠23の内側部分に対応する。第2判定部164は、第2ガイド領域を設定することにより、ユーザに顔をどのような大きさや位置でカメラに写せばよいかを直感的に理解させることができる。
第2判定部164は、ユーザの側面向きの顔として抽出した領域のうち、ユーザの耳を含む領域が撮影領域に含まれるか否かを判定し、ユーザの耳を含む領域が撮影領域に含まれる場合に、ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定する。
具体的には、第2判定部164は、ユーザの耳を含む領域が撮影領域に含まれる割合に基づいて、ユーザの耳を含む領域が前記撮影領域に含まれるか否かを判定する。
また、第2判定部164は、ユーザの側面向きの顔が占める領域のうち、ユーザの耳を含む領域が占める割合に基づいて、ユーザの耳を含む領域が撮影領域に含まれるか否かを判定してもよい。
また、第2判定部164は、ユーザの耳を含む領域の端部と、撮影領域の端部との距離に基づいて、ユーザの耳を含む領域が撮影領域に含まれるか否かを判定してもよい。
第2判定部164が実行する処理について、図5を用いて説明する。図5は、実施形態に係る第2判定処理を説明する図である。
図5に示すように、第2判定部164は、ユーザの側面の顔を画像認識した場合、ユーザの側面向きの顔として領域26を抽出する。第2判定部164は、例えば、撮影領域21もしくは第2ガイド領域(ガイド枠23の内側部分)に対して、領域26が占める領域が閾値内であるか否かを判定し、ユーザの側面向きの顔が撮影領域21に含まれるか否かを判定する。なお、閾値は、例えばクラウドサーバ100からの要求に応じて、適宜、変更されてもよい。
また、第2判定部164は、ユーザの側面向きの顔が占める領域26と、ユーザの耳を含む領域27が占める割合に基づいて、ユーザの耳を含む領域が撮影領域に含まれるか否かを判定してもよい。これは、HRTFの生成に用いられる画像において、ユーザの側面の頭部の大きさと耳の大きさとの割合が、生成されるHRTFの精度に影響を与えることによる。かかる処理により、第2判定部164は、ユーザの頭部の大きさと、耳の大きさとが適切な関係性を持つ画像の撮影を行うことができる。
また、第2判定部164は、耳を示す領域27の端部と、撮影領域21の端部との距離を判定してもよい。例えば、第2判定部164は、領域27の端部と撮影領域21の端部との間に含まれる画素数(ピクセル数)を検出し、所定数を超える画素数が存在する場合に、領域27が撮影領域21に含まれると判定する。
上記の処理により、第2判定部164は、耳が含まれない画像が撮影されることを防止できるので、撮影のやり直し等に伴うユーザの負担を軽減することができる。
なお、図4では、ユーザの側面の顔として抽出した領域26や、耳を含む領域27を矩形で表現しているが、第2判定部164は、矩形に限らず、ユーザの側面の顔や耳に沿った形状で領域26や領域27を抽出してもよい。また、領域26や領域27は、画面に表示してユーザに提示してもよいし、しなくてもよい。
また、第2判定部164は、ユーザの側面向きの顔として抽出した領域のうち、ユーザの耳を含む領域が撮影領域に含まれないと判定した場合に、ユーザの顔の位置を動かす旨の応答、又は、ユーザの撮影に用いられる装置の位置を動かす旨の応答を出力してもよい。
具体的には、第2判定部164は、応答として、音声、振動、もしくは文字列の表示の少なくともいずれかを出力する。例えば、第2判定部164は、音声や振動など、ユーザが画面を見なくても理解しやすい態様の応答を行うことで、撮影が適切に行われているか否かをユーザにわかりやすく通知することができる。
撮影部165は、第2判定部164によってユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、ユーザの側面向きの顔を撮影する。撮影部165は、ユーザによるシャッターボタンの押下の判定を行わずとも、第2判定部164による判定結果を受けて自動的に撮影を行うことで、適切なタイミングで撮影を行うことができる。
また、撮影部165は、第2判定部164によってユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定されたのちに、ユーザの撮影に用いられる装置の挙動量が閾値内にあると判定した場合に、ユーザの側面向きの顔を撮影してもよい。実施形態ではユーザの撮影に用いられる装置とは、ユーザ端末10を指す。すなわち、撮影部165は、第2判定部164による判定結果を受け、かつ、ユーザ端末10の挙動量(加速度や速度等)が閾値内にあると判定した場合に、撮影を行う。これにより、撮影部165は、ぶれが生じるような撮影を防止することができる。
また、撮影部165は、第2判定部164によってユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定されたのちに、撮影領域におけるユーザの側面向きの顔の移動量が閾値内にあると判定した場合に、ユーザの側面向きの顔を撮影してもよい。
すなわち、撮影部165は、第2判定部164による判定結果を受けたタイミングの画像と、次の撮影間隔、例えば所定のフレーム数後の画像とを比較して、ユーザの顔や耳の移動量が閾値以下であることを判定する。かかる処理は、例えば、画像における物体のトラッキング処理等を適用することで可能となる。撮影部165は、ユーザの移動量が閾値内にあると判定した場合に撮影を行うことで、ぶれが生じるような撮影を防止することができる。
また、撮影部165は、撮影した画像を編集し、クラウドサーバ100に送信する前の前処理を行ってもよい。例えば、撮影部165は、ユーザの耳を含む領域が画像の中心にくるように編集してもよい。また、撮影部165は、ユーザの耳を含む領域を中心として、所定範囲外にある領域をトリミングしてもよい。
撮影制御部166は、所定の期間内に前記ユーザの側面向きの顔が撮影部165によって撮影されなかった場合に、手動で撮影する機能をユーザに提示する。具体的には、撮影制御部166は、ユーザの側面向きの顔が正常に撮影されなかった場合に、手動で撮影する機能をユーザに提示する。
例えば、撮影制御部166は、ユーザの正面向きの画像を撮影する判定処理又はユーザの側面向きの顔の画像を撮影する撮影処理を開始してから所定の期間内にユーザの側面向きの顔が正常に撮影されなかった場合に、手動で撮影する機能をユーザに提示する。そして、撮影制御部166は、ユーザによる操作を受け付けることで、ユーザの側面向きの顔の画像を撮影する。その際、撮影制御部166は、ガイド枠23を含む画面を表示し、ユーザの手動による撮影を受け付けてもよい。
送信部167は、各種情報を送信する。例えば、送信部167は、撮影部165及び撮影制御部166によって撮影された画像をクラウドサーバ100に送信する。
受信部168は、各種情報を受信する。例えば、受信部168は、クラウドサーバ100によって生成された個人化HRTFを受信する。
[1-3.実施形態に係るクラウドサーバの構成]
次に、図6を用いて、実施形態に係るクラウドサーバ100の構成について説明する。図6は、実施形態に係るクラウドサーバ100の構成例を示す図である。
図6に示すように、クラウドサーバ100は、通信部110と、記憶部120と、制御部130とを有する。なお、クラウドサーバ100は、クラウドサーバ100を管理する管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
通信部110は、例えば、NIC等によって実現される。通信部110は、ネットワークN(インターネット等)と有線又は無線で接続され、ネットワークNを介して、ユーザ端末10等との間で情報の送受信を行う。
記憶部120は、例えば、RAM、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。例えば、記憶部120は、ユーザ端末10から取得した画像や、HRTFの生成(算出)に用いるためのモデル(例えば、画像を入力として、HRTFを出力するよう学習された学習済みモデル)を記憶する。
制御部130は、例えば、CPUやMPU、GPU等によって、クラウドサーバ100内部に記憶されたプログラムがRAM等を作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASICやFPGA等の集積回路により実現されてもよい。
図6に示すように、制御部130は、受付部131と、生成部132と、提供部133とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図6に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
受付部131は、各種情報を受け付ける。例えば、受付部131は、HRTFの生成処理の要求をユーザ端末10から受け付ける。また、受付部131は、HRTFの生成処理に用いられる画像をユーザ端末10から受け付ける。
生成部132は、受付部131によって受け付けられた画像に基づいて、当該画像に対応する個人化HRTFを生成する。例えば、生成部132は、画像を入力として、HRTFを出力するよう学習された学習済みモデルを用いて、個人化HRTFを生成する。なお、学習済みモデルは何らかの種別に特定されず、例えば、生成部132は、ニューラルネットワーク、サポートベクターマシン(support vector machine)、クラスタリング、強化学習等の各種学習アルゴリズムを用いて生成された種々のモデルを用いて、個人化HRTFを生成してもよい。
なお、生成部132は、ユーザ端末10によって行われる撮影処理に関するパラメータをユーザ端末10に送信してもよい。例えば、生成部132は、画像に含まれる耳の大きさを指定した情報(例えば、「耳を含む領域が200×200ピクセル程度の大きさである画像」等)や、撮影において許容されるユーザ端末10の加速度や速度、ユーザの移動量等のパラメータを送信する。
また、生成部132は、学習アルゴリズムを用いて、所定の期間内にユーザの側面向きの顔がユーザ端末10によって撮影されなかった場合に手動で撮影された画像を正例として学習することで、学習済みモデルを生成してもよい。そして、生成部132は、かかる学習済みモデルを用いて、個人化HRTFを生成してもよい。このように、生成部132は、ユーザの側面向きの顔が自動で撮影されにくい画像を正例として学習することができるため、学習済みモデルの精度を向上させることができる。
提供部133は、生成部132によって生成された個人化HRTFをユーザ端末10に提供する。なお、提供部133は、ユーザ端末10から受け付けた画像に基づいて個人化HRTFが生成できなかった場合には、エラー情報等を提供してもよい。
[1-4.実施形態に係る情報処理の手順]
次に、図7及び図8を用いて、実施形態に係る情報処理の手順について説明する。図7では、ユーザ端末10が第1判定処理を実行する処理の手順について説明する。図7は、実施形態に係る情報処理の流れを示すフローチャート(1)である。
図7に示すように、ユーザ端末10は、カメラ機能の視野角内にユーザの正面顔を検知したか否かを判定する(ステップS21)。ユーザの正面顔を検知しない場合(ステップS21;No)、ユーザ端末10は、ユーザの正面顔を検知するまで待機する。
一方、ユーザの正面顔を検知した場合(ステップS21;Yes)、ユーザ端末10は、撮影領域において正面顔の大きさが適切か否かを判定する(ステップS22)。
正面顔の大きさが適切でない場合(ステップS22;No)、ユーザ端末10は、大きさの調整をユーザに促す音声案内等の応答を出力する(ステップS23)。
ユーザの正面顔の大きさが適切である場合(ステップS22;Yes)、ユーザ端末10は、画面に対して顔の位置が適切か否かを判定する(ステップS24)。
正面顔の位置が適切でない場合(ステップS24;No)、ユーザ端末10は、位置の調整をユーザに促す音声案内等の応答を出力する(ステップS25)。
ユーザの正面顔の位置が適切である場合(ステップS24;Yes)、ユーザ端末10は、ユーザの正面顔の認識に成功したと判定する(ステップS26)。そして、ユーザ端末10は、認識に成功したことを示すフィードバック(音声や振動等)を出力する(ステップS27)。
次に、図8を用いて、ユーザ端末10がユーザの耳を撮影する処理の手順について説明する。図8は、実施形態に係る情報処理の流れを示すフローチャート(2)である。
図8に示すように、ユーザ端末10は、カメラ機能の視野角内にユーザの耳(側面顔)を検知したか否かを判定する(ステップS31)。ユーザの耳を検知しない場合(ステップS31;No)、ユーザ端末10は、ユーザの耳を検知するまで待機する。
一方、ユーザの耳を検知した場合(ステップS31;Yes)、ユーザ端末10は、撮影領域において耳の大きさが適切か否かを判定する(ステップS32)。
耳の大きさが適切でない場合(ステップS32;No)、ユーザ端末10は、大きさの調整をユーザに促す音声案内等の応答を出力する(ステップS33)。
ユーザの耳の大きさが適切である場合(ステップS32;Yes)、ユーザ端末10は、画面に対して耳の位置が適切か否かを判定する(ステップS34)。
耳の位置が適切でない場合(ステップS34;No)、ユーザ端末10は、耳の位置の調整をユーザに促す音声案内等の応答を出力する(ステップS35)。
ユーザの耳の位置が適切である場合(ステップS34;Yes)、ユーザ端末10は、ユーザ端末10が閾値を超えて動いていないか否かを判定する(ステップS36)。
ユーザ端末10が閾値を超えて動いている場合(ステップS36;No)、ユーザ端末10は、ユーザ端末10を動かさないようユーザに促す音声案内等の応答を出力する(ステップS37)。
ユーザ端末10が閾値を超えて動いていない場合(ステップS36;Yes)、ユーザ端末10は、撮影しようとするフレーム間で、ユーザの耳や頭部の位置のずれが閾値内であるか否かを判定する(ステップS38)。
位置のずれが閾値内でない場合(ステップS38;No)、ユーザ端末10は、顔を動かさないようユーザに促す音声案内等の応答を出力する(ステップS39)。
位置のずれが閾値内である場合(ステップS38;Yes)、ユーザ端末10は、耳の認識に成功したと判定する(ステップS40)。そして、ユーザ端末10は、ユーザの耳を撮影し、撮影された画像を取得する(ステップS41)。
その後、ユーザ端末10は、耳を撮影したことを示すフィードバックをユーザに対して出力する(ステップS42)。そして、ユーザ端末10は、両耳の撮影が終了したか否かを判定する(ステップS43)。両耳を撮影していない場合、すなわち、片耳しか撮影が終了していない場合(ステップS43;No)、ユーザ端末10は、逆の耳を検知する処理を繰り返す(ステップS31)。一方、両耳の撮影が完了している場合(ステップS43;Yes)、ユーザ端末10は、撮影処理を終了する。
[1-4-1.情報処理の手順の変形例]
次に、図9~図11を用いて、実施形態に係る情報処理の手順の変形例について説明する。なお、本説明では、上述において図7及び図8を用いて説明した情報処理の手順と同一の手順については、それを引用することで、重複する説明を省略する。
図9は、ユーザ端末10が第1判定処理を実行する処理の手順の変形例について説明する。図9は、実施形態に係る情報処理の流れの変形例を示すフローチャート(1)である。
図9に示すように、本変形例では、ユーザ端末10は、図7に示す動作と同様の動作を実行するに先だって、本動作を開始してからの経過時間の計測を開始する(ステップS51)。そして、ユーザ端末10は、経過時間の計測を開始してから所定の期間内にユーザの正面顔を検知できなかった場合(ステップS21;No及びステップS52;Yes)、手動による撮像動作へ移行し(ステップS53)、本動作を終了する。言い換えれば、本変形例では、所定の期間内に耳の自動撮影を完了できなかった場合(ステップS52;Yes)、手動による撮像動作へ移行する。その他の動作は、図7に示す動作と同様であってよいため、ここでは説明を省略する。
次に、図10を用いて、ユーザ端末10がユーザの耳を撮影する処理の手順の変形例について説明する。図10は、実施形態に係る情報処理の流れの変形例を示すフローチャート(2)である。
図10に示すように、本変形例では、ユーザ端末10は、図8に示す動作と同様の動作において、図9のステップS51で経過時間の計測を開始してから所定の期間内にユーザの耳を検知できなかった場合(ステップS31;No及びステップS61;Yes)、手動による撮像動作へ移行し(ステップS62)、本動作を終了する。言い換えれば、本変形例では、所定の期間内に耳の自動撮影を完了できなかった場合(ステップS61;Yes)、手動による撮像動作へ移行する。
なお、手動による撮像動作への移行を判定するステップは、ステップS31で耳を検知できなかった場合(ステップS31;No)に限定されず、例えば、ステップS32で耳の大きさが適切でなかった場合(ステップS32;No)、ステップS34で画面に対して耳の位置が適切でなかった場合(ステップS34;No)、ステップS36で端末が動いていた場合(ステップS36;No)、ステップS38で位置のずれが閾値より大きい場合(ステップS38;No)、ステップS43で耳の撮影が終了していなかった場合(ステップS43;No)などに適宜設けられてもよい。その他の動作は、図8に示す動作と同様であってよいため、ここでは説明を省略する。
次に、図11を用いて、ユーザ端末10がユーザの手動により耳を撮影する処理の手順について説明する。図11は、実施形態に係る情報処理の流れの変形例を示すフローチャート(3)である。
図11に示すように、図9のステップS53、図10のステップS62等で手動による耳の撮影動作が起動されると、ユーザ端末10は、まず、手動による耳の撮影をユーザに促す音声案内等の応答を出力する(ステップS71)。
次に、ユーザ端末は、ユーザ端末10の撮影ボタンがユーザにより謳歌されるまで待機し(ステップS72;No)、ユーザが撮影ボタンを押下すると(ステップS72;Yes)、撮影した画像を画面に表示するとともに(ステップS73)、撮影した画像の確認をユーザに促す音声案内等の応答を出力する(ステップS74)。
次に、ユーザ端末10は、撮影した画像をユーザが確認した操作が入力されたか否かを判定する(ステップS75)。また、ユーザ端末10は、ユーザによる確認操作(ステップS75;No)が入力されるまでの間に、ユーザによる撮像画像の位置や大きさや傾きを編集する操作を受け付け(ステップS76)、その操作内容に応じて撮像画像を編集する(ステップS77)。
そして、ユーザによる確認操作が入力されると(ステップS75;Yes)、ユーザ端末10は、撮影処理を終了する。
図11に例示する手順では、例えば、ユーザ端末10は、ユーザによって手動で撮影されたユーザの耳の画像の大きさ又は位置を調整するといったユーザによる操作を受け付け(ステップS76)、撮影されたユーザの耳の画像の大きさ又は位置を調整する(ステップS77)。
この場合、ユーザ端末10は、ユーザ補助に関する情報を提供してもよい。例えば、ユーザ端末10は、予め適切な耳の画像をブラウザに表示されるウェブページやアプリケーション用のコンテンツ等のコンテンツとしてユーザに提供する。これにより、ユーザは、適切な耳の画像を参照することで、撮影されたユーザの耳の画像の大きさ又は位置を調整することができる。なお、ユーザ補助は、上記コンテンツを提供することに限定されなくともよく、例えば、音声によるユーザ補助等であってもよい。
そして、ユーザ端末10は、ユーザによる操作として、撮影終了に対応する操作を受け付けることで、撮影処理を終了する。なお、ここでいう撮影終了に対応する操作とは、如何なる操作でもよい。例えば、ユーザ端末10は、手動で撮影する機能に予め含まれる撮影終了ボタンがユーザによって押下された場合に、撮影処理を終了する。
(2.変形例)
上述した情報処理システム1は、上記実施形態以外にも種々の異なる形態にて実施されてよい。そこで、以下では、実施形態の変形例について説明する。
実施形態では、クラウドサーバ100が個人化HRTFを生成する例を示した。しかし、個人化HRTFは、クラウドサーバ100ではなく、ユーザ端末10が生成してもよい。この場合、ユーザ端末10は、図6に示す生成部132と同様の処理部を備える。
実施形態では、クラウドサーバ100は、クラウドネットワーク上に設置されることを前提としているが、この例に限られず、ユーザ端末10と通信可能であれば、クラウドサーバ100はLAN(Local Area Network)等のネットワーク上に設置されてもよい。
クラウドサーバ100は、個人化HRTFを生成する際に、ユーザの識別情報を取得し、識別情報と個人化HRTFとを対応付けて、個人化HRTFを保持するようにしてもよい。
実施形態では、クラウドサーバ100を1つのサーバとして記載したが、クラウドサーバ100は、複数台のサーバ装置から構成されてもよい。例えば、クラウドサーバ100は、個人化HRTFを生成する生成サーバと、個人化HRTFを提供する提供サーバとに分割されてもよい。
実施形態では、ユーザ端末10がユーザを撮影する例を示したが、撮影は、他の撮影装置により行われてもよい。この場合、撮影装置は、撮影しようとする画像の情報をユーザ端末10に順次送信する。そして、ユーザ端末10は、受信した画像においてユーザの顔や耳の位置を認識することで、実施形態に係る情報処理を実行する。また、実施形態では、ユーザ端末10がユーザの側面向きの顔の大きさを判定する処理を行うことを示したが、ユーザ端末10は、顔の大きさを判定する処理をスキップし、耳の大きさのみを判定してもよい。すなわち、ユーザ端末10は、必ずしもユーザの側面向きの顔の大きさを判定したのちに耳の大きさや位置を判定するのではなく、可能な場合には、直接的にユーザの耳の大きさや位置の適切性を判定してもよい。
ユーザ端末10は、クラウドサーバ100からの指定に従い、撮影する画像の光量や、耳の傾きの許容値等を設定してもよい。これにより、ユーザ端末10は、撮影画像から個人化HRTFが生成できないとしてクラウドサーバ100からエラーを返される確率を下げることができる。
(3.その他の実施形態)
上述した各実施形態に係る処理は、上記各実施形態以外にも種々の異なる形態にて実施されてよい。
また、上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
(4.本開示に係る情報処理装置の効果)
上述してきたように、本開示に係る情報処理装置(実施形態ではユーザ端末10)は、判定部(実施形態では第2判定部164)と、撮影部(実施形態では撮影部165)と、撮影制御部(実施形態では撮影制御部166)とを備える。判定部は、撮影領域において、ユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する。撮影部は、ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、ユーザの側面向きの顔を撮影する。撮影制御部は、所定の期間内にユーザの側面向きの顔が撮影されなかった場合に、手動で撮影する機能をユーザに提示する。
このように、本開示に係る情報処理装置は、撮影領域において、所定の期間内にユーザの側面向きの顔が撮影されなかった場合に、頭部側面を手動で撮影するようにユーザに促すことができる。これにより、情報処理装置は、ユーザの側面向きの顔を判定できないために起こり得る撮影処理の最初の段階に戻り、再度ユーザの正面及び側面を判定するといった処理のループに陥ることを防ぐことができるため、ユーザの手間や負担を低減させることができる。このことから、情報処理装置は、頭部伝達関数を算出するために行われる撮影に関してユーザの利便性を向上させることができる。
また、判定部は、撮影領域の中に、ユーザの側面向きの顔が占める領域を特定するための第2ガイド領域を設定し、第2ガイド領域に対してユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する。これにより、情報処理装置は、顔をどのような大きさや位置でカメラに写せばよいかを、ユーザに対して直感的に理解させることができる。
また、判定部は、ユーザの側面向きの顔として抽出した領域のうち、ユーザの耳を含む領域が撮影領域に含まれるか否かを判定し、ユーザの耳を含む領域が撮影領域に含まれる場合に、ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定する。これにより、情報処理装置は、撮影する画像に確実に耳を含ませることができるので、個人化HRTFの生成処理に適した画像を取得することができる。
また、判定部は、ユーザの耳を含む領域が撮影領域に含まれる割合に基づいて、ユーザの耳を含む領域が撮影領域に含まれるか否かを判定する。これにより、情報処理装置は、個人化HRTFの生成処理に適した大きさの耳を含む画像を取得することができる。
また、判定部は、ユーザの側面向きの顔が占める領域のうち、ユーザの耳を含む領域が占める割合に基づいて、ユーザの耳を含む領域が撮影領域に含まれるか否かを判定する。これにより、情報処理装置は、ユーザの頭部の大きさと耳の大きさとが、HRTF生成において適した関係性となる画像を取得することができる。
また、判定部は、ユーザの耳を含む領域の端部と、撮影領域の端部との距離に基づいて、ユーザの耳を含む領域が撮影領域に含まれるか否かを判定する。これにより、情報処理装置は、耳が画像の端部に所在するためにHRTF生成ができないような画像が撮影されることを防止できる。
また、判定部は、ユーザの側面向きの顔として抽出した領域のうち、ユーザの耳を含む領域が撮影領域に含まれないと判定した場合に、ユーザの顔の位置を動かす旨の応答、又は、ユーザの撮影に用いられる装置の位置を動かす旨の応答を出力する。これにより、情報処理装置は、ユーザに適切な応答を与えることができるので、撮影を正確に、かつ、迅速に行うことができる。
また、判定部は、応答として、音声、振動、もしくは文字列の表示の少なくともいずれかを出力する。これにより、情報処理装置は、ユーザが画面を視認できない状態であっても、ユーザに適切な応答を通知することができる。
また、撮影部は、ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定されたのちに、ユーザの撮影に用いられる装置の挙動量が閾値内にあると判定した場合に、ユーザの側面向きの顔を撮影する。これにより、情報処理装置は、ぶれが生じた画像が撮影されることを防止できる。
また、撮影部は、ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定されたのちに、撮影領域におけるユーザの側面向きの顔の移動量が閾値内にあると判定した場合に、ユーザの側面向きの顔を撮影する。これにより、情報処理装置は、ぶれが生じた画像が撮影されることを防止できる。
(5.ハードウェア構成)
上述してきた各実施形態に係るユーザ端末10やクラウドサーバ100等の情報機器は、例えば図12に示すような構成のコンピュータ1000によって実現される。以下、実施形態に係るユーザ端末10を例に挙げて説明する。図12は、ユーザ端末10の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係る情報処理プログラムを記録する記録媒体である。
通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
例えば、コンピュータ1000が実施形態に係るユーザ端末10として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた情報処理プログラムを実行することにより、制御部16等の機能を実現する。また、HDD1400には、本開示に係る情報処理プログラムや、記憶部15内のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
なお、本技術は以下のような構成も取ることができる。
(1)
撮影領域において、ユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する判定部と、
前記ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、当該ユーザの側面向きの顔を撮影する撮影部と、
所定の期間内に前記ユーザの側面向きの顔が撮影されなかった場合に、手動で撮影する機能を前記ユーザに提示する撮影制御部と
を備えた情報処理装置。
(2)
前記判定部は、
前記撮影領域の中に、前記ユーザの側面向きの顔が占める領域を特定するための第2ガイド領域を設定し、当該第2ガイド領域に対して当該ユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する
前記(1)に記載の情報処理装置。
(3)
前記判定部は、
前記ユーザの側面向きの顔として抽出した領域のうち、当該ユーザの耳を含む領域が前記撮影領域に含まれるか否かを判定し、当該ユーザの耳を含む領域が前記撮影領域に含まれる場合に、当該ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定する
前記(1)又は(2)に記載の情報処理装置。
(4)
前記判定部は、
前記ユーザの耳を含む領域が前記撮影領域に含まれる割合に基づいて、当該ユーザの耳を含む領域が前記撮影領域に含まれるか否かを判定する
前記(3)に記載の情報処理装置。
(5)
前記判定部は、
前記ユーザの側面向きの顔が占める領域のうち、当該ユーザの耳を含む領域が占める割合に基づいて、当該ユーザの耳を含む領域が前記撮影領域に含まれるか否かを判定する
前記(3)又は(4)に記載の情報処理装置。
(6)
前記判定部は、
前記ユーザの耳を含む領域の端部と、前記撮影領域の端部との距離に基づいて、当該ユーザの耳を含む領域が前記撮影領域に含まれるか否かを判定する
前記(3)~(5)のいずれかに記載の情報処理装置。
(7)
前記判定部は、
前記ユーザの側面向きの顔として抽出した領域のうち、当該ユーザの耳を含む領域が前記撮影領域に含まれないと判定した場合に、当該ユーザの顔の位置を動かす旨の応答、又は、当該ユーザの撮影に用いられる装置の位置を動かす旨の応答を出力する
前記(3)~(6)のいずれかに記載の情報処理装置。
(8)
前記判定部は、
前記応答として、音声、振動、もしくは文字列の表示の少なくともいずれかを出力する
前記(7)に記載の情報処理装置。
(9)
前記撮影部は、
前記ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定されたのちに、当該ユーザの撮影に用いられる装置の挙動量が閾値内にあると判定した場合に、当該ユーザの側面向きの顔を撮影する
前記(1)~(8)のいずれかに記載の情報処理装置。
(10)
前記撮影部は、
前記ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定されたのちに、前記撮影領域における当該ユーザの側面向きの顔の移動量が閾値内にあると判定した場合に、当該ユーザの側面向きの顔を撮影する
前記(1)~(9)のいずれかに記載の情報処理装置。
(11)
コンピュータが、
撮影領域において、ユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定し、
前記ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、当該ユーザの側面向きの顔を撮影し、
所定の期間内に前記ユーザの側面向きの顔が撮影されなかった場合に、手動で撮影する機能を前記ユーザに提示する
情報処理方法。
(12)
コンピュータを、
撮影領域において、ユーザの側面向きの顔が占める領域の大きさが閾値内にあるか否かを判定する判定部と、
前記ユーザの側面向きの顔が占める領域の大きさが閾値内にあると判定された場合に、当該ユーザの側面向きの顔を撮影する撮影部と、
所定の期間内に前記ユーザの側面向きの顔が撮影されなかった場合に、手動で撮影する機能を前記ユーザに提示する撮影制御部
として機能させるための情報処理プログラム。
1 情報処理システム
10 ユーザ端末
11 通信部
12 入力部
13 表示部
14 検知部
15 記憶部
16 制御部
161 取得部
162 撮影処理部
163 第1判定部
164 第2判定部
165 撮影部
166 撮影制御部
167 送信部
168 受信部
100 クラウドサーバ

Claims (16)

  1. 撮影領域において、ユーザの頭部の少なくとも一部が占める領域の大きさが閾値内にあるか否かの判定を開始し、
    前記ユーザの頭部の少なくとも一部が占める領域の大きさが閾値内にあると判定された場合には、前記ユーザの頭部の少なくとも一部に対して、頭部伝達関数に関するデータの取得を行い、
    所定の期間内に前記ユーザの頭部の少なくとも一部に対する前記頭部伝達関数に関するデータの取得が行われなかった場合には、判定結果に基づく前記ユーザへの案内を出力する制御部
    を備える、情報処理装置。
  2. 取得した前記ユーザの前記頭部伝達関数に関するデータをクラウドサーバに送信し、
    前記頭部伝達関数に関するデータの送信に応じて、前記クラウドサーバから前記ユーザの前記頭部伝達関数を受信する、
    請求項1に記載の情報処理装置。
  3. 前記ユーザの頭部の少なくとも一部に対応する前記頭部伝達関数に関するデータを取得したことを示すフィードバックを当該ユーザに対して出力する、
    請求項1に記載の情報処理装置。
  4. 前記ユーザの頭部の少なくとも一部は、当該ユーザの側面顔もしくは当該ユーザの耳を含む、請求項1~3のいずれか1項に記載の情報処理装置。
  5. 前記撮影領域において、前記ユーザの耳を検知したか否かを判定する、請求項4に記載の情報処理装置。
  6. 前記撮影領域の中に、前記ユーザの頭部の少なくとも一部が占める領域を特定するためのガイド領域を設定し、当該ガイド領域に対して前記ユーザの頭部の少なくとも一部が占める領域の大きさが閾値内にあるか否かを判定する、
    請求項1に記載の情報処理装置。
  7. 前記ユーザの頭部の少なくとも一部が占める領域として抽出した領域のうち、当該ユーザの耳を含む領域が前記撮影領域に含まれるか否かを判定し、前記ユーザの耳を含む領域が前記撮影領域に含まれる場合に、前記ユーザの頭部の少なくとも一部が占める領域の大きさが閾値内にあると判定する、
    請求項1に記載の情報処理装置。
  8. 前記ユーザの耳を含む領域が前記撮影領域に含まれる割合に基づいて、前記ユーザの耳を含む領域が前記撮影領域に含まれるか否かを判定する、
    請求項7に記載の情報処理装置。
  9. 前記ユーザの頭部の少なくとも一部が占める領域のうち、前記ユーザの耳を含む領域が占める割合に基づいて、前記ユーザの耳を含む領域が前記撮影領域に含まれるか否かを判定する、
    請求項7に記載の情報処理装置。
  10. 前記ユーザの耳を含む領域の端部と、前記撮影領域の端部との距離に基づいて、前記ユーザの耳を含む領域が前記撮影領域に含まれるか否かを判定する、
    請求項7に記載の情報処理装置。
  11. 前記ユーザの頭部の少なくとも一部が占める領域として抽出した領域のうち、前記ユーザの耳を含む領域が前記撮影領域に含まれないと判定した場合に、前記ユーザの顔の位置を動かす旨の応答、又は、前記ユーザの撮影に用いられる装置の位置を動かす旨の応答を出力する、
    請求項7に記載の情報処理装置。
  12. 前記応答として、音声、振動、もしくは文字列の表示の少なくともいずれかを出力する、
    請求項11に記載の情報処理装置。
  13. 前記制御部は、前記ユーザの頭部の少なくとも一部が占める領域の大きさが閾値内にあると判定し、且つ、当該ユーザの頭部伝達関数に関するデータの取得に用いられる撮影装置の挙動量が閾値内にあると判定した場合に、前記撮影装置に対して当該ユーザの頭部伝達関数に関するデータを取得するように制御する、
    請求項1に記載の情報処理装置。
  14. 前記制御部は、前記ユーザの頭部の少なくとも一部が占める領域の大きさが閾値内にあると判定し、且つ、前記撮影領域における当該ユーザの頭部の少なくとも一部が占める領域の移動量が閾値内にあると判定した場合に、撮影装置に対して当該ユーザの頭部伝達関数に関するデータを取得するように制御する、
    請求項1に記載の情報処理装置。
  15. コンピュータが、
    撮影領域において、ユーザの頭部の少なくとも一部が占める領域の大きさが閾値内にあるか否かの判定を開始し、
    前記ユーザの頭部の少なくとも一部が占める領域の大きさが閾値内にあると判定された場合には、前記ユーザの頭部の少なくとも一部に対して、頭部伝達関数に関するデータの取得を行い、
    所定の期間内に前記ユーザの頭部の少なくとも一部に対する前記頭部伝達関数に関するデータの取得が行われなかった場合には、判定結果に基づく前記ユーザへの案内を出力する、
    ことを含む、情報処理方法。
  16. コンピュータを、
    撮影領域において、ユーザの頭部の少なくとも一部が占める領域の大きさが閾値内にあるか否かの判定を開始し、
    前記ユーザの頭部の少なくとも一部が占める領域の大きさが閾値内にあると判定された場合には、前記ユーザの頭部の少なくとも一部に対して、頭部伝達関数に関するデータの取得を行い、
    所定の期間内に前記ユーザの頭部の少なくとも一部に対する前記頭部伝達関数に関するデータの取得が行われなかった場合には、判定結果に基づく前記ユーザへの案内を出力する制御部
    として機能させるための情報処理プログラム。
JP2024025813A 2019-09-06 2024-02-22 情報処理装置、情報処理方法、情報処理システム及び情報処理プログラム Pending JP2024059809A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2019162588 2019-09-06
JP2019162588 2019-09-06
JP2021543724A JP7444169B2 (ja) 2019-09-06 2020-08-27 情報処理装置、情報処理方法及び情報処理プログラム
PCT/JP2020/032355 WO2021044937A1 (ja) 2019-09-06 2020-08-27 情報処理装置、情報処理方法及び情報処理プログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2021543724A Division JP7444169B2 (ja) 2019-09-06 2020-08-27 情報処理装置、情報処理方法及び情報処理プログラム

Publications (1)

Publication Number Publication Date
JP2024059809A true JP2024059809A (ja) 2024-05-01

Family

ID=74852502

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021543724A Active JP7444169B2 (ja) 2019-09-06 2020-08-27 情報処理装置、情報処理方法及び情報処理プログラム
JP2024025813A Pending JP2024059809A (ja) 2019-09-06 2024-02-22 情報処理装置、情報処理方法、情報処理システム及び情報処理プログラム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2021543724A Active JP7444169B2 (ja) 2019-09-06 2020-08-27 情報処理装置、情報処理方法及び情報処理プログラム

Country Status (6)

Country Link
US (2) US11770604B2 (ja)
EP (1) EP4027633A4 (ja)
JP (2) JP7444169B2 (ja)
KR (1) KR20220052922A (ja)
CN (1) CN114303366A (ja)
WO (1) WO2021044937A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024131896A2 (en) * 2022-12-21 2024-06-27 Dolby Laboratories Licensing Corporation User interfaces for image capture

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4526639B2 (ja) * 2000-03-02 2010-08-18 本田技研工業株式会社 顔認識装置およびその方法
US6606458B2 (en) * 2001-09-05 2003-08-12 Nisca Corporation Automatic framing camera
JP2004354420A (ja) * 2003-05-27 2004-12-16 Fuji Photo Film Co Ltd 自動撮影システム
JP2008118276A (ja) * 2006-11-01 2008-05-22 Sony Ericsson Mobilecommunications Japan Inc カメラ付き移動機器およびその撮影支援方法
JP4396720B2 (ja) * 2007-03-26 2010-01-13 ソニー株式会社 画像処理装置、画像処理方法、およびプログラム
CN101216881B (zh) * 2007-12-28 2011-07-06 北京中星微电子有限公司 一种图像自动获取方法和装置
JP4911165B2 (ja) * 2008-12-12 2012-04-04 カシオ計算機株式会社 撮像装置、顔検出方法及びプログラム
KR20100075167A (ko) * 2008-12-24 2010-07-02 삼성전자주식회사 얼굴인식 기능을 이용한 디지털 영상 촬영 장치 및 방법
JP4577445B2 (ja) * 2009-05-19 2010-11-10 カシオ計算機株式会社 撮像装置、画像記録方法、および、プログラム
US20120183161A1 (en) * 2010-09-03 2012-07-19 Sony Ericsson Mobile Communications Ab Determining individualized head-related transfer functions
CN107105157B (zh) * 2010-11-29 2020-02-14 快图有限公司 从手持设备所捕获的多个图像进行肖像图像合成
US9596398B2 (en) * 2011-09-02 2017-03-14 Microsoft Technology Licensing, Llc Automatic image capture
JP6139984B2 (ja) * 2013-05-28 2017-05-31 オリンパス株式会社 撮像装置及び撮像方法
KR101821284B1 (ko) * 2013-08-22 2018-01-23 비스포크, 인코포레이티드 커스텀 제품을 생성하기 위한 방법 및 시스템
JP6056837B2 (ja) * 2013-11-25 2017-01-11 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、制御方法、及びプログラム
US9544706B1 (en) 2015-03-23 2017-01-10 Amazon Technologies, Inc. Customized head-related transfer functions
CN105227832B (zh) 2015-09-09 2018-08-10 厦门美图之家科技有限公司 一种基于关键点检测的自拍方法、自拍系统及拍摄终端
SG10201510822YA (en) * 2015-12-31 2017-07-28 Creative Tech Ltd A method for generating a customized/personalized head related transfer function
US10104491B2 (en) * 2016-11-13 2018-10-16 EmbodyVR, Inc. Audio based characterization of a human auditory system for personalized audio reproduction
KR101727615B1 (ko) * 2017-02-17 2017-04-17 주식회사 픽셀 디스플레이 시력 정보 결정을 위한 사용자 장치, 서버 및 컴퓨터 판독가능 저장 매체에 저장된 프로그램
JP6828974B2 (ja) * 2017-02-20 2021-02-10 富士通コネクテッドテクノロジーズ株式会社 表示制御装置、表示制御方法および表示制御プログラム
CN107547797A (zh) * 2017-07-27 2018-01-05 努比亚技术有限公司 一种拍摄方法、终端及计算机可读存储介质
CN107682632A (zh) * 2017-10-16 2018-02-09 河南腾龙信息工程有限公司 一种照相机自动拍照的方法及多功能相机
CN108965697A (zh) * 2018-06-28 2018-12-07 努比亚技术有限公司 一种拍摄控制方法、终端及计算机可读存储介质
CN109688325B (zh) * 2018-12-04 2020-08-14 维沃移动通信有限公司 一种图像显示方法及终端设备
WO2020167309A1 (en) * 2019-02-14 2020-08-20 Hewlett-Packard Development Company, L.P. Applying directionality to audio

Also Published As

Publication number Publication date
EP4027633A1 (en) 2022-07-13
CN114303366A (zh) 2022-04-08
US20230396875A1 (en) 2023-12-07
JP7444169B2 (ja) 2024-03-06
JPWO2021044937A1 (ja) 2021-03-11
US11770604B2 (en) 2023-09-26
WO2021044937A1 (ja) 2021-03-11
KR20220052922A (ko) 2022-04-28
EP4027633A4 (en) 2022-10-26
US20220294980A1 (en) 2022-09-15

Similar Documents

Publication Publication Date Title
JP6143975B1 (ja) 画像の取り込みを支援するためにハプティックフィードバックを提供するためのシステムおよび方法
JP6799660B2 (ja) 画像処理装置、画像処理方法、プログラム
US11562471B2 (en) Arrangement for generating head related transfer function filters
WO2021000708A1 (zh) 健身教学方法、装置、电子设备及存储介质
JP6400293B2 (ja) 電子装置でコンテンツを制御する装置及びその方法
JP2024059809A (ja) 情報処理装置、情報処理方法、情報処理システム及び情報処理プログラム
KR20090098505A (ko) 상태 정보를 이용하여 미디어 신호를 생성하는 방법 및장치
KR20180020899A (ko) 동영상을 처리하는 컴퓨팅 장치, 방법 및 컴퓨터 프로그램
US20180150722A1 (en) Photo synthesizing method, device, and medium
JP6165815B2 (ja) 学習システム、学習方法、プログラム、記録媒体
WO2020093798A1 (zh) 一种显示目标图像的方法、装置、终端及存储介质
JP2009210992A (ja) 撮影装置
KR101862128B1 (ko) 얼굴을 포함하는 영상 처리 방법 및 장치
CN104104987B (zh) 视频播放中画面与声音同步方法及装置
US12100229B2 (en) Object scanning for subsequent object detection
WO2020138258A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
JP2009177480A (ja) 撮影装置
US12126895B2 (en) Side-view head and ear image capturing for head related transfer functions
JP2009239349A (ja) 撮影装置
KR101598921B1 (ko) 공간 축척을 초월한 영상 촬영 시스템 및 방법
JP2010130403A (ja) 映像制御装置およびそれを備えた撮像装置、表示装置
KR102687922B1 (ko) 인터랙티브 포토 서비스 제공 방법, 장치 및 시스템
WO2021029294A1 (ja) データ作成方法及びデータ作成プログラム
JP2022110316A (ja) 撮像装置、その制御方法およびプログラム
JP2021120822A (ja) 画像処理装置、画像処理方法およびプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240322

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240322