JP2022546176A - ユーザの耳の識別された特徴を使用した音声出力の個人化された等化 - Google Patents

ユーザの耳の識別された特徴を使用した音声出力の個人化された等化 Download PDF

Info

Publication number
JP2022546176A
JP2022546176A JP2022500134A JP2022500134A JP2022546176A JP 2022546176 A JP2022546176 A JP 2022546176A JP 2022500134 A JP2022500134 A JP 2022500134A JP 2022500134 A JP2022500134 A JP 2022500134A JP 2022546176 A JP2022546176 A JP 2022546176A
Authority
JP
Japan
Prior art keywords
user
headset
ear
audio output
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022500134A
Other languages
English (en)
Inventor
ヴァムシ クリシュナ イサプ,
サンイク テリー チョ,
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Meta Platforms Technologies LLC
Original Assignee
Meta Platforms Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Meta Platforms Technologies LLC filed Critical Meta Platforms Technologies LLC
Publication of JP2022546176A publication Critical patent/JP2022546176A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/0093Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00 with means for monitoring data relating to the user, e.g. head-tracking, eye-tracking
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B27/0172Head mounted characterised by optical features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1058Manufacture or assembly
    • H04R1/1066Constructional aspects of the interconnection between earpiece and earpiece support
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1058Manufacture or assembly
    • H04R1/1075Mountings of transducers in earphones or headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/10Earpieces; Attachments therefor ; Earphones; Monophonic headphones
    • H04R1/1091Details not provided for in groups H04R1/1008 - H04R1/1083
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • G02B2027/0178Eyeglass type
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/653Three-dimensional objects by matching three-dimensional models, e.g. conformal mapping of Riemann surfaces
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Optics & Photonics (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Manufacturing & Machinery (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

機械学習モデルを使用したヘッドセットのための個人化された音声出力応答を生成するための方法。少なくともユーザの耳を含むユーザの頭部の一部分の1つまたは複数の画像が受信される。1つまたは複数の画像に基づいて、ユーザの耳を記述する1つまたは複数の特徴が識別される。特徴はモデルに入力され、モデルは、識別された1つまたは複数の特徴に基づいてユーザのための音声出力応答を決定するように構成される。音声出力応答は、ユーザによって知覚される1つまたは複数の音響パラメータを記述する。音声出力応答に基づいて、ユーザのために個人化された音声出力応答が生成され、個人化された音声出力応答は、ヘッドセットによってユーザに与えられる音声コンテンツの1つまたは複数の音響パラメータを調整するように構成される。【選択図】図7

Description

本開示は、一般に人工現実システムに関し、より詳細には、ユーザのための個別化された等化フィルタを生成することに関する。
人工現実(AR)および仮想現実(VR)ヘッドセットなど、既存のヘッドセットは、しばしば、複数のトランスデューサを使用して音声コンテンツをユーザに与える。しかしながら、トランスデューサからユーザの耳への音伝搬は、ユーザの耳および/または頭部の解剖学的特徴に基づいて変動し得る。たとえば、ユーザごとの耳のサイズおよび形状の差は、ヘッドセットによって生成され、ユーザによって知覚される音に影響を及ぼし得、そのことはユーザの音声エクスペリエンスに悪影響を及ぼし得る。現在の音声システムは、ユーザごとの解剖学的特徴のばらつき、およびユーザごとのヘッドセットのフィットメント(fitment)の不一致を考慮しないことがあるので、現在の音声システムは高忠実度音声コンテンツを供給するのに不十分である。したがって、ヘッドセットによって与えられる音声コンテンツがユーザに対してカスタマイズされるように、解剖学的特徴のばらつきおよびフィットメントの不一致を補償する、音声出力を調整するための方法が必要とされる。
機械学習モデルを使用した、ユーザの音声エクスペリエンスを向上させるための、個人化された等化フィルタを生成するためのシステムおよび方法が開示されている。少なくともユーザの耳を含む、ユーザの頭部の一部分の1つまたは複数の画像が受信される。画像は、ユーザの(たとえば、ユーザの頭部の、ユーザの耳の)画像、および/またはヘッドセットを着用しているユーザの画像を含み得る。ヘッドセットは、ユーザに音声コンテンツを与える複数のトランスデューサを含むことができる。ユーザの耳を記述する特徴が1つまたは複数の画像から抽出され、その特徴はモデルに入力される。モデルは、音声出力がユーザの耳においてどのように聞こえるかを予測するように構成される。ターゲット音声応答とユーザの耳における予測された音声出力との間の差に基づいて、ユーザのための等化フィルタが生成される。等化フィルタは、音声出力の作成者が音声出力が聞かれることを意図したようにユーザが音声出力を知覚するように、ユーザの耳におけるターゲット応答を生成するために、ユーザの耳に基づいて音声出力の1つまたは複数の音響パラメータ(たとえば、波長、周波数、音量、ピッチ、バランスなど)を調整する。等化フィルタは、ユーザに音声コンテンツを与えるためにヘッドセット中で使用され得る。等化フィルタはまた、ユーザのソーシャルネットワーキングプロファイルに付加され得る。
本発明の一実施形態によれば、ユーザの耳を含む1つまたは複数の画像を受信することと、1つまたは複数の画像からユーザの耳の1つまたは複数の特徴を識別することと、識別された1つまたは複数の特徴に基づいて、ユーザの耳の1つまたは複数の特徴を、ユーザの耳における音声出力を予測するように構成されたモデルに与えることと、ユーザの耳における音声出力に基づいて等化フィルタを生成することであって、等化フィルタが、ユーザに与えられる音声コンテンツの1つまたは複数の音響パラメータを調整するように構成された、等化フィルタを生成することとを含む方法が提供される。
いくつかの実施形態では、本方法は、生成された等化フィルタを、ユーザに音声コンテンツを与えるときに等化フィルタを使用するように構成されたヘッドセットに与えることをさらに含む。
いくつかの実施形態では、等化フィルタは、ユーザに与えられる音声コンテンツに適用されたとき、ユーザの耳における予測された音声出力に基づいてユーザのための音声コンテンツの1つまたは複数の音響パラメータを調整する。
いくつかの実施形態では、本方法は、ユーザユーザのプロファイルに関連する記憶のためのオンラインシステムに等化フィルタを与えることであって、等化フィルタが、ユーザにコンテンツを与える際に使用するためのユーザプロファイルへのアクセスを有するユーザに関連付けられた1つまたは複数のヘッドセットによって取出し可能である、等化フィルタを与えることをさらに含む。
いくつかの実施形態では、本方法は、複数のラベリングされた画像を使用してモデルをトレーニングすることであって、ラベリングされた画像がそれぞれ追加のユーザの耳の特徴を識別し、耳における音声出力が追加のユーザにとって既知である、モデルをトレーニングすることをさらに含む。
いくつかの実施形態では、1つまたは複数の画像中のユーザはヘッドセットを着用しており、1つまたは複数の特徴は、ユーザの耳に対するヘッドセットの位置に少なくとも部分的に基づいて識別される。
いくつかの実施形態では、ヘッドセットは、それぞれ眼鏡本体に結合した2つのアームをもつ眼鏡フレームを含み、1つまたは複数の画像は、複数のトランスデューサのうちの1つのトランスデューサを含む2つのアームのうちの1つの少なくとも一部分を含む。
いくつかの実施形態では、モデルは、ユーザの耳に対する複数のトランスデューサのうちの前記トランスデューサの位置に少なくとも部分的に基づいて音声出力応答を決定するように構成される。
いくつかの実施形態では、1つまたは複数の画像は、深度カメラアセンブリを使用してキャプチャされた深度画像である。
いくつかの実施形態では、識別された1つまたは複数の特徴は、ユーザの耳の寸法またはユーザの耳の形状を記述する人体測定的(anthropometric)特徴である。
いくつかの実施形態では、本方法は、ユーザの耳における決定された音声出力をユーザの耳における測定された音声出力と比較することと、比較に基づいてモデルを更新することとをさらに含む。
いくつかの実施形態では、測定された音声出力応答は、ヘッドセットを介してユーザに音声コンテンツを与えることと、ユーザの耳の近くに配置された1つまたは複数のマイクロフォンを使用してユーザの耳における音声出力を分析することとによって測定される。
本発明のいくつかの実施形態によれば、命令をその上に記憶する非一時的コンピュータ可読記憶媒体であって、命令は、プロセッサによって実行されたとき、プロセッサに、ユーザの耳を含む1つまたは複数の画像を受信することと、1つまたは複数の画像に基づいてユーザの耳の1つまたは複数の特徴を識別することと、識別された1つまたは複数の特徴に基づいて、1つまたは複数の特徴を、ユーザの耳における音声出力を決定するように構成されたモデルに与えることと、ユーザの耳における音声出力に基づいて等化フィルタを生成することであって、等化フィルタが、ユーザに与えられる音声コンテンツの1つまたは複数の音響パラメータを調整するように構成された、等化フィルタを生成することとを含むステップを実行させる命令である、非一時的コンピュータ可読記憶媒体が提供される。
いくつかの実施形態では、命令は、プロセッサによって実行されたとき、プロセッサに、複数のラベリングされた画像を使用してモデルをトレーニングすることであって、ラベリングされた画像がそれぞれ追加のユーザの耳の特徴を識別し、音声出力応答が追加のユーザにとって既知である、モデルをトレーニングすることを含むステップをさらに実行させる。
いくつかの実施形態では、等化フィルタは、ユーザに与えられる音声コンテンツに適用されたとき、ユーザの耳における予測された音声出力に基づいてユーザのための音声コンテンツの1つまたは複数の音響パラメータを調整する。
いくつかの実施形態では、1つまたは複数の画像は、深度カメラアセンブリを使用してキャプチャされた深度画像である。
いくつかの実施形態では、1つまたは複数の画像中のユーザはヘッドセットを着用しており、1つまたは複数の特徴が、ユーザの耳に対するヘッドセットの位置に少なくとも部分的に基づいて識別される。
いくつかの実施形態では、識別された1つまたは複数の特徴は、ユーザの耳の寸法またはユーザの耳の形状を記述する人体測定的特徴である。
いくつかの実施形態では、ヘッドセットは、それぞれ眼鏡本体に結合した2つのアームをもつ眼鏡フレームを含み、1つまたは複数の画像は、複数のトランスデューサのうちの1つのトランスデューサを含む2つのアームのうちの1つの少なくとも一部分を含む。
いくつかの実施形態では、モデルは、ユーザの耳に対する複数のトランスデューサのうちの前記トランスデューサの位置に少なくとも部分的に基づいてユーザの耳における音声出力を決定するように構成される。
1つまたは複数の実施形態による、ヘッドセットの第1の実施形態の斜視図である。 1つまたは複数の実施形態による、ヘッドセットの第2の実施形態の斜視図である。 1つまたは複数の実施形態による、デバイスに音声コンテンツを与えるためのシステム環境を示す図である。 1つまたは複数の実施形態による、等化システムを示す図である。 1つまたは複数の実施形態による、ユーザの頭部の画像をキャプチャする撮像デバイスの例示的なビューである。 1つまたは複数の実施形態による、図4Aにおける撮像デバイスによってキャプチャされたユーザの頭部の一部分の画像を示す図である。 1つまたは複数の実施形態による、ヘッドセットを着用しているユーザの頭部の画像をキャプチャする撮像デバイスの例示的なビューである。 1つまたは複数の実施形態による、図5Aにおける撮像デバイスによってキャプチャされたユーザの頭部の一部分の画像を示す図である。 1つまたは複数の実施形態による、視覚マーカーをもつヘッドセットを着用しているユーザの頭部の画像をキャプチャする撮像デバイスの例示的なビューである。 1つまたは複数の実施形態による、図6Aにおける撮像デバイスによってキャプチャされたユーザの頭部の一部分の画像を示す図である。 1つまたは複数の実施形態による、シミュレーションに基づいてユーザのための個別化された等化フィルタを生成する方法を示す図である。 1つまたは複数の実施形態による、機械学習モデルを使用してユーザの耳の表現を生成する例示的なフローを示す図である。 1つまたは複数の実施形態による、PCAモデルを決定することの流れ図である。 1つまたは複数の実施形態による、ユーザの耳における音声出力を予測するための機械学習モデルを示す図である。 1つまたは複数の実施形態による、機械学習モデルを使用して個別化された等化フィルタを生成する方法を示す図である。 1つまたは複数の実施形態による、音声システムのブロック図である。 一実施形態による、ユーザに音声コンテンツを与えるためのシステム環境である。
図は、単に例示の目的で様々な実施形態を示す。本明細書で示す構造および方法の代替実施形態が、本明細書で説明する原理から逸脱することなく採用され得ることを当業者は以下の説明から容易に認識しよう。
概観
人工現実(AR)ヘッドセットなど、ヘッドセットは、ユーザに音声コンテンツを与えるための1つまたは複数のトランスデューサ(たとえば、スピーカー)を含む。トランスデューサからユーザの耳への音伝搬は、しかしながら、ユーザごとおよびデバイスごとに変動し得る。特に、ユーザの耳における音声出力は、ユーザの耳および/または頭部の人体測定的特徴に基づいて変動し得る。人体測定的特徴はユーザの物理的特性(たとえば、耳の形状、耳のサイズ、頭部に対する耳の向き/位置、頭部のサイズなど)。さらに、ヘッドセットのフィット感は、人体測定的特徴に基づいて変動し得、音声出力応答にも影響を及ぼす。したがって、ユーザエクスペリエンスを向上させ、ユーザに高い品質のコンテンツを与えるために、ユーザが個人化された音声出力応答を体験するように、ヘッドセットによってユーザに与えられる音声コンテンツを調整することは有用であり得る。したがって、音声出力の1つまたは複数の音響パラメータ(たとえば、波長、周波数、音量、ピッチ、バランス、他のスペクトル成分、音響時間遅延など)を調整する等化フィルタがユーザの耳に基づいて生成される。等化フィルタは、音声コンテンツに適用されたとき、音声コンテンツの作成者が音声コンテンツが聞かれることを意図したようにユーザが音声コンテンツを知覚するように、音声コンテンツをユーザの耳におけるターゲット応答に対して調整する。一実施形態では、ターゲット応答は、音響パラメータのセットの各々についての所定の値(または許容できる値の範囲)に関連付けられる。音響パラメータのセットの各々についての所定の値(または許容できる値の範囲)は、コンテンツ作成者が、音声コンテンツがユーザによって知覚されることを意図した、音質の比較的高い許容できるしきい値に対応する。
一実施形態では、撮像システム(たとえば、ユーザのモバイルデバイスなど)が、ユーザに関連付けられた人体測定情報を収集するためにヘッドセットのユーザの1つまたは複数の画像をキャプチャする。撮像システムは、ユーザの耳、ユーザの頭部、および/またはヘッドセットを着用しているユーザの画像データ(たとえば、静止画像データまたはビデオ画像データ)をキャプチャし得る。一実施形態では、1つまたは複数の画像はそれぞれ、ユーザの耳、ユーザの頭部、および/またはヘッドセットを着用しているユーザのキャプチャされたビデオからのフレームである。ヘッドセットは、ユーザに音声コンテンツを与えるように構成された仮想現実(VR)ヘッドセット、ARヘッドセット、またはいくつかの他のヘッドセットであり得る。ヘッドセットは、音声コンテンツを与えるための複数のトランスデューサを含むことができ、トランスデューサの位置は既知であり得る。ヘッドセットの寸法も既知であり得る。いくつかの実施形態では、ヘッドセットは、ユーザの頭部に対する位置情報を決定するための1つまたは複数の視覚マーカーを含む。たとえば、ヘッドセットは、ヘッドセットのフレームに沿って(たとえば、各テンプルアームに沿って)配置されたマーカーを含むことができる。他のマーカーとヘッドセットとに対する各マーカーの位置は既知である。いくつかの実施形態では、各マーカーは一意のサイズおよび/または形状である。
等化システムは、ユーザのためのカスタマイズされた等化フィルタを生成するために(たとえば、撮像システムから、ヘッドセットからなど)ユーザの1つまたは複数の画像を受信する。一実施形態では、撮像システムは1つまたは複数の画像をヘッドセットに与え、ヘッドセットは1つまたは複数の画像を等化システムに与える。等化システムは、受信された画像に基づいてユーザの耳の特徴(たとえば、形状、寸法)を識別する。いくつかの実施形態では、等化システムは、画像に関連付けられた深度情報を抽出し、抽出された深度情報と識別された特徴とに基づいてユーザの耳の3D表現を生成する。等化システムは、機械学習されたモデルを使用して3D表現を生成することができ、いくつかの実施形態では、3D表現はヘッドセットの表現を含む。等化システムは、音声ソース(たとえば、ヘッドセットのトランスデューサアレイ)からユーザの耳の3D表現への音声伝搬のシミュレーションを実行する。シミュレーションに基づいて、等化システムはユーザの耳における音声出力を予測することができる。ターゲット音声応答とユーザの耳における予測された音声出力との間の差に基づいて、ユーザのための等化フィルタが生成される。一実施形態では、等化フィルタは、2つの複素周波数応答(すなわち、ターゲット応答と予測された応答と)の間の比としての伝達関数に基づいて生成される。等化フィルタは、音声出力の作成者が音声出力が聞かれることを意図したようにユーザが音声出力を知覚するように、ユーザの耳におけるターゲット応答を生成するために、ユーザの耳に基づいて音声出力の1つまたは複数の音響パラメータ(たとえば、波長、周波数、音量、ピッチ、バランス、他のスペクトル成分、音響時間遅延など)を調整する。いくつかの実施形態では、等化システムは、等化フィルタに基づいて1つまたは複数の音響パラメータの補償の量を規定する、ユーザのための音声プロファイルを生成する。
別の実施形態では、等化システムは、ユーザの耳における音声出力を予測するために機械学習モデルを使用する。等化システムは、(たとえば、撮像システムから)1つまたは複数の画像を受信し、画像に基づいてユーザの耳を記述する1つまたは複数の特徴を抽出する。等化システムは、画像に基づいてユーザの耳の特徴を抽出するための、機械学習技法、撮像技法、アルゴリズム、または任意の他のモデルを使用することができる。等化システムは、抽出された1つまたは複数の特徴に基づいてユーザの耳における音声出力を決定するために、機械学習されたモデルを使用する。一実施形態では、モデルは、前に識別された(たとえば、モデルによって、人間によって識別された)特徴と、各ユーザについての耳における既知の音声出力とを用いて、他のユーザの耳/頭部の画像を使用してトレーニングされる。ターゲット音声応答とユーザの耳における予測された音声出力との間の差に基づいて、ユーザのための等化フィルタが生成される。等化フィルタは、音声出力の作成者が音声出力が聞かれることを意図したようにユーザが音声出力を知覚するように、ユーザの耳におけるターゲット応答を生成するために、ユーザの耳に基づいて音声出力の1つまたは複数の音響パラメータ(たとえば、波長、周波数、音量、ピッチ、バランス、他のスペクトル成分、音響時間遅延など)を調整する。
等化システムは、生成された個人化された等化フィルタをヘッドセットに与えることができる。したがって、個人化された等化フィルタは、ヘッドセットによってユーザに与えられる音声コンテンツがユーザに対してカスタマイズされるように、音声コンテンツの1つまたは複数の音響パラメータを修正することができる。個人化された等化フィルタは、ユーザごとおよびデバイスごとの差による音声出力における変動を低減することによって音声エクスペリエンスを改善する。さらに、ユーザが後続の使用中にデバイスの較正を再実行する必要がないように、個人化された等化フィルタは、ユーザのプロファイル(たとえば、ソーシャルネットワーキングプロファイル)に付加され得る。
本発明の実施形態は、人工現実システムを含み得るか、または人工現実システムとともに実装される。人工現実は、たとえば、仮想現実(VR)、拡張現実(AR)、混合現実(MR)、ハイブリッド現実、またはそれらの何らかの組合せおよび/または派生物を含み得る、ユーザへの提示の前に何らかの様式で調整された現実の形態である。人工現実コンテンツは、完全に生成されたコンテンツ、またはキャプチャされた(たとえば、現実世界の)コンテンツと組み合わせられた生成されたコンテンツを含み得る。人工現実コンテンツは、ビデオ、音声、ハプティックフィードバック、またはそれらの何らかの組合せを含み得、それらのいずれかは、単一のチャネルで、または(閲覧者に対して3次元効果を生成するステレオビデオなど)複数のチャネルで提示され得る。さらに、いくつかの実施形態では、人工現実はまた、人工現実においてコンテンツを作成するために使用される、および/または、さもなければ人工現実において使用される、アプリケーション、製品、アクセサリ、サービス、またはそれらの何らかの組合せに関連付けられ得る。人工現実コンテンツを与える人工現実システムは、ホストコンピュータシステムに接続されたウェアラブルデバイス(たとえば、ヘッドセット)、スタンドアロンウェアラブルデバイス(たとえば、ヘッドセット)、モバイルデバイスまたは計算システム、あるいは1人または複数の閲覧者に人工現実コンテンツを与えることが可能な任意の他のハードウェアプラットフォームを含む、様々なプラットフォーム上で実装され得る。
例示的なヘッドセット
図1Aは、1つまたは複数の実施形態による、ヘッドセットの第1の実施形態の斜視図である。いくつかの実施形態では、ヘッドセットはニアアイディスプレイ(near eye display)(NED)またはアイウェアデバイスである。一般に、ヘッドセット100は、コンテンツ(たとえば、メディアコンテンツ)がディスプレイアセンブリおよび/または音声システムを使用して提示されるように、ユーザの顔面に着用され得る。しかしながら、ヘッドセット100は、メディアコンテンツが異なる様式でユーザに提示されるようにも使用され得る。ヘッドセット100によって提示されるメディアコンテンツの例は、1つまたは複数の画像、ビデオ、音声、またはそれらの何らかの組合せを含む。ヘッドセット100は、フレームを含み、構成要素の中でも、1つまたは複数のディスプレイ要素120を含むディスプレイアセンブリと、深度カメラアセンブリ(DCA)と、音声システムと、位置センサー190とを含み得る。図1Aは、ヘッドセット100上の例示的な場所にあるヘッドセット100の構成要素を示すが、構成要素は、ヘッドセット100上、ヘッドセット100と対にされた周辺デバイス上、またはそれらの何らかの組合せの、他の場所に配置され得る。同様に、ヘッドセット100上には、図1Aに示されているものよりも多いまたは少ない構成要素があり得る。
フレーム110はヘッドセット100の他の構成要素を保持する。フレーム110は、1つまたは複数のディスプレイ要素120を保持する前部と、ユーザの頭部に取り付けるエンドピース(たとえば、テンプル)とを含む。フレーム110の前部はユーザの鼻の上部をまたぐ。エンドピースの長さは、異なるユーザにフィットするように調整可能であり得る(たとえば、調整可能なテンプルの長さ)。エンドピースは、ユーザの耳の後ろの丸くなっている部分(たとえば、テンプル先端、イヤホン)をも含み得る。いくつかの実施形態では、フレーム110は、図6A~図6Bに関して以下でより詳細に説明する1つまたは複数の視覚マーカーを含む。
1つまたは複数のディスプレイ要素120は、ヘッドセット100を着用しているユーザに光を与える。図示のように、ヘッドセットはユーザの各目のためのディスプレイ要素120を含む。いくつかの実施形態では、ディスプレイ要素120は、ヘッドセット100のアイボックス(eyebox)に与えられる画像光を生成する。アイボックスは、ヘッドセット100を着用している間にユーザの目が占有する空間における場所である。たとえば、ディスプレイ要素120は導波路ディスプレイであり得る。導波路ディスプレイは、光源(たとえば、2次元光源、1つまたは複数の線光源、1つまたは複数の点光源など)と、1つまたは複数の導波路とを含む。光源からの光は、ヘッドセット100のアイボックス中に瞳孔複製があるような様式で光を出力する、1つまたは複数の導波路に内結合(in-couple)される。1つまたは複数の導波路からの光の内結合(in-coupling)および/または外結合(outcoupling)は、1つまたは複数の回折格子を使用して行われ得る。いくつかの実施形態では、導波路ディスプレイは、光源からの光が1つまたは複数の導波路に内結合された際に光源からの光を走査する走査要素(たとえば、導波路、ミラーなど)を含む。いくつかの実施形態では、ディスプレイ要素120の一方または両方は不透明であり、ヘッドセット100の周りの局所領域からの光を透過しないことに留意されたい。局所領域は、ヘッドセット100を囲む領域である。たとえば、局所領域は、ヘッドセット100を着用しているユーザが内側にいる室内であることがあるか、またはヘッドセット100を着用しているユーザは外側にいることがあり、局所領域は外側領域である。このコンテキストにおいて、ヘッドセット100はVRコンテンツを生成する。代替的に、いくつかの実施形態では、ARコンテンツおよび/またはMRコンテンツを生成するために、局所領域からの光が1つまたは複数のディスプレイ要素からの光と組み合わせられ得るように、ディスプレイ要素120の一方または両方は少なくとも部分的に透明である。
いくつかの実施形態では、ディスプレイ要素120は画像光を生成せず、代わりに、局所領域からの光をアイボックスに透過するレンズである。たとえば、ディスプレイ要素120の一方または両方は、補正なし(非処方)のレンズ、またはユーザの視力の障害を補正するのを助ける(たとえば、単焦点、2焦点および3焦点、または累進多焦点(progressive))処方レンズであり得る。いくつかの実施形態では、ディスプレイ要素120は、太陽からユーザの目を保護するために偏光および/または着色され得る。
いくつかの実施形態では、ディスプレイ要素120は追加の光学ブロック(図示せず)を含み得ることに留意されたい。光学ブロックは、ディスプレイ要素120からの光をアイボックスに導く1つまたは複数の光学要素(たとえば、レンズ、フレネルレンズなど)を含み得る。光学ブロックは、たとえば、画像コンテンツの一部または全部における収差を補正するか、画像の一部または全部を拡大するか、またはそれらの何らかの組合せであり得る。
DCAは、ヘッドセット100を囲む局所領域の一部分についての深度情報を決定する。DCAは、1つまたは複数の撮像デバイス130と、(図1Aに示されていない)DCAコントローラとを含み、照明器140をも含み得る。いくつかの実施形態では、照明器140は局所領域の一部分を光で照明する。光は、たとえば、赤外(IR)における構造化光(たとえば、ドットパターン、バーなど)、飛行時間のためのIRフラッシュなどであり得る。いくつかの実施形態では、1つまたは複数の撮像デバイス130は、照明器140からの光を含む、局所領域の部分の画像をキャプチャする。図示のように、図1Aは単一の照明器140と2つの撮像デバイス130とを示す。代替実施形態では、照明器140はなく、少なくとも2つの撮像デバイス130がある。
DCAコントローラは、キャプチャされた画像と、1つまたは複数の深度決定技法とを使用して局所領域の部分についての深度情報を計算する。深度決定技法は、たとえば、直接飛行時間(ToF)深度検知、間接ToF深度検知、構造化光、受動的立体解析、能動的立体解析(照明器140からの光によってシーンに追加されるテクスチャを使用する)、シーンの深度を決定するための何らかの他の技法、またはそれらの何らかの組合せであり得る。
音声システムは音声コンテンツを与える。音声システムは、トランスデューサアレイと、センサーアレイと、音声コントローラ150とを含む。しかしながら、他の実施形態では、音声システムは異なる構成要素および/または追加の構成要素を含み得る。同様に、場合によっては、音声システムの構成要素に関して説明した機能は、ここで説明する様式とは異なる様式で構成要素間に配分され得る。たとえば、音声コントローラの機能のいくつかまたはすべてはリモートサーバによって実行され得る。
トランスデューサアレイはユーザに音を提示する。トランスデューサアレイは複数のトランスデューサを含む。トランスデューサはスピーカー160または組織トランスデューサ170(たとえば、骨伝導トランスデューサまたは軟骨伝導トランスデューサ)であり得る。スピーカー160はフレーム110の外側に示されているが、スピーカー160はフレーム110中に収納され得る。いくつかの実施形態では、各耳のための個々のスピーカーの代わりに、ヘッドセット100は、提示された音声コンテンツの指向性を改善するために、フレーム110に一体化された複数のスピーカーを含むスピーカーアレイを含む。組織トランスデューサ170は、ユーザの頭部に結合し、音を生成するためにユーザの組織(たとえば、骨または軟骨)を直接振動させる。トランスデューサの数および/または場所は、図1Aに示されているものとは異なり得る。
センサーアレイはヘッドセット100の局所領域内で音を検出する。センサーアレイは複数の音響センサー180を含む。音響センサー180は、局所領域(たとえば、室内)における1つまたは複数の音源から放出される音をキャプチャする。各音響センサーは、音を検出し、検出された音を電子フォーマット(アナログまたはデジタル)に変換するように構成される。音響センサー180は、音響波センサー、マイクロフォン、音トランスデューサ、または音を検出するために好適である同様のセンサーであり得る。
いくつかの実施形態では、1つまたは複数の音響センサー180が各耳の外耳道に配置され得る(たとえば、バイノーラルマイクロフォンとして働く)。いくつかの実施形態では、音響センサー180は、ヘッドセット100の外面に配置されるか、ヘッドセット100の内面に配置されるか、ヘッドセット100とは別個(たとえば、何らかの他のデバイスの一部)であるか、またはそれらの何らかの組合せであり得る。音響センサー180の数および/または場所は、図1Aに示されているものとは異なり得る。たとえば、音響検出場所の数は、収集される音声情報の量を増加させ、情報の感度および/または正確さを高めるために増加させられ得る。音響検出場所は、マイクロフォンが、ヘッドセット100を着用しているユーザを囲む広範囲な方向における音を検出することが可能であるように配向させられ得る。
音声コントローラ150は、センサーアレイによって検出された音を記述する、センサーアレイからの情報を処理する。音声コントローラ150はプロセッサとコンピュータ可読記憶媒体とを備え得る。音声コントローラ150は、到来方向(DOA)推定値を生成すること、音響伝達関数(たとえば、アレイ伝達関数および/または頭部伝達関数)を生成すること、音源の場所を追跡する、音源の方向にビームを形成すること、音源を分類すること、スピーカー160のための音フィルタを生成すること、またはそれらの何らかの組合せを行うように構成され得る。
位置センサー190は、ヘッドセット100の動きに応答して1つまたは複数の測定信号を生成する。位置センサー190はヘッドセット100のフレーム110の一部分上に位置し得る。位置センサー190は慣性測定ユニット(IMU)を含み得る。位置センサー190の例は、1つまたは複数の加速度計、1つまたは複数のジャイロスコープ、1つまたは複数の磁力計、動きを検出する別の好適なタイプのセンサー、IMUの誤り訂正のために使用されるタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー190は、IMUの外部に、IMUの内部に、またはそれらの何らかの組合せに位置し得る。
いくつかの実施形態では、ヘッドセット100は、ヘッドセット100の位置に対する同時位置特定およびマッピング(simultaneous localization and mapping)(SLAM)と、局所領域のモデルの更新とを行い得る。たとえば、ヘッドセット100は、カラー画像データを生成するパッシブカメラアセンブリ(PCA)を含み得る。PCAは、局所領域のいくつかのまたはすべての画像をキャプチャする1つまたは複数の赤、緑、青(RGB)カメラを含み得る。いくつかの実施形態では、DCAの撮像デバイス130のいくつかのまたはすべてはPCAとしても機能し得る。PCAによってキャプチャされた画像およびDCAによって決定された深度情報は、局所領域のパラメータを決定すること、局所領域のモデルを生成すること、局所領域のモデルを更新すること、またはそれらの何らかの組合せを行うために使用され得る。さらに、位置センサー190は室内のヘッドセット100の位置(たとえば、場所および姿勢)を追跡する。ヘッドセット100の構成要素に関する追加の詳細について以下で図10とともに説明する。
図1Bは、1つまたは複数の実施形態による、ヘッドマウントディスプレイ(HMD)として実装されたヘッドセットの第2の実施形態の斜視図である。ARシステムおよび/またはMRシステムについて説明する実施形態では、HMDの前側の部分は可視帯域(約380nm~750nm)において少なくとも部分的に透明であり、HMDの前側とユーザの目との間にあるHMDの部分は少なくとも部分的に透明である(たとえば、部分的に透明な電子ディスプレイ)。HMDは前面剛体115とバンド175とを含む。ヘッドセット105は、図1Aを参照しながら上記で説明した同じ構成要素の多くを含むが、HMDフォームファクタと一体化するために改変される。たとえば、HMDは、ディスプレイアセンブリと、DCAと、音声システムと、位置センサー190とを含む。図1Bは、照明器140と、複数のスピーカー160と、複数の撮像デバイス130と、複数の音響センサー180と、位置センサー190とを示す。
個人化された音声コンテンツを与えるためのシステム環境
図2は、1つまたは複数の実施形態による、ヘッドセットを介してユーザに個人化された音声コンテンツを与えるためのシステム環境を示す。システム環境200は、ネットワーク250を介して接続された、ヘッドセット210と、撮像システム220と、等化システム230と、オンラインシステム240とを含む。システム環境200は、本明細書で説明するよりも少ないまたは追加の構成要素を含むことができる。さらに、構成要素の構造および/または機能は、本明細書で説明するものとは異なり得る。
ヘッドセット210は、ユーザの頭部領域においてユーザによって着用されるように構成されたデバイス(たとえば、ヘッドセット100、ヘッドセット105)である。ヘッドセット210は、ヘッドセット210を着用しているユーザに音声コンテンツを送信するように構成された音声システム215を含む。音声システム215は、ユーザに音声コンテンツを与えるための1つまたは複数のトランスデューサ(たとえば、スピーカー)を含むことができる。音声システム215については図10に関して以下でより詳細に説明する。いくつかの実施形態では、ヘッドセット210は、ユーザに他のタイプのコンテンツ(たとえば、デジタルコンテンツ、ハプティックコンテンツ)を与えるための追加の構成要素(たとえば、ディスプレイシステム、ハプティックフィードバックシステム)を含む。さらに、ヘッドセット210は、デバイスを着用しているユーザに対するヘッドセット210の位置を決定するための1つまたは複数の視覚マーカーを含むことができる。マーカーはヘッドセット210のフレーム(たとえば、フレーム110)に沿って配置され得る。他のマーカーとヘッドセット210とに対するマーカーの位置は既知である。マーカーについては図6A~図6Bに関して以下でより詳細に説明する。
撮像システム220は、ユーザの頭部の少なくとも一部分、ヘッドセット210、および/またはヘッドセット210を着用しているユーザの1つまたは複数の画像をキャプチャするように構成された撮像デバイス225を含む。撮像デバイス225は、マルチスペクトルカメラ、ステレオカメラ、CCDカメラ、単レンズカメラ、ハイパースペクトル撮像システム、LIDARシステム(光検出および測距システム)、DCA、動力計(dyanmometer)、IRカメラ、いくつかの他の撮像デバイス、またはそれらの何らかの組合せなど、任意の好適なタイプのセンサーであり得る。したがって、撮像デバイス225は、RGB画像、深度画像(たとえば、構造化光カメラ、立体カメラなどを使用してキャプチャされた3D画像)、または何らかの他の好適なタイプの画像をキャプチャすることができる。一実施形態では、撮像デバイス225は、画像キャプチャ機能をもつユーザデバイス(たとえば、スマートフォン、タブレット、ラップトップ)である。撮像デバイス225は、追加または代替として、ビデオをキャプチャすることができる。図2では、撮像システム220はヘッドセット210とは別個として示されているが、代替実施形態では、撮像システム220はヘッドセット210中に含まれる。たとえば、撮像デバイス225は、ヘッドセット210に結合されたカメラ、またはヘッドセット210中に組み込まれたカメラ(たとえば、撮像デバイス130)であり得る。
いくつかの実施形態では、撮像システム220は、撮像デバイス225によってキャプチャされた画像に関連付けられた深度情報を決定するために、1つまたは複数の撮像技法(たとえば、ステレオ三角測量、シートオブライト(sheet of light)三角測量、構造化光解析、飛行時間解析、干渉法)を適用することができる。特定の実施形態では、撮像システム220は、ユーザの画像をキャプチャするDCAを含み、DCAは、キャプチャされた画像を使用してユーザの頭部についての深度情報を決定する。深度情報は、キャプチャされた画像中の面とDCAとの間の距離を記述する。DCAは、立体視と、フォトメトリック(photometric)ステレオと、飛行時間(ToF)と、構造化光(SL)とのうちの1つまたは複数を使用して深度情報を決定し得る。DCAは、キャプチャされた画像から深度情報を計算するか、または深度情報を抽出するためにキャプチャされた画像を別の構成要素(たとえば、等化システム230)に送ることができる。撮像システム220がDCAを含まない実施形態では、撮像システム220は、深度情報を決定するために、キャプチャされた画像を等化システム230または何らかの他のデバイスおよび/またはコンソールに与え得る。
等化システム230は、ヘッドセット210の音声出力がユーザの耳におけるターゲット応答に一致するように、ヘッドセット210を介してユーザに与えられる音声コンテンツの1つまたは複数の音響パラメータを調整する、ユーザのための等化フィルタを生成する。一実施形態では、等化フィルタは、耳入口点(ear entrance point)(EEP)または鼓膜基準点(drum reference point)(DRP)における音声出力とターゲット応答との間の差に基づいて生成される。この実施形態では、EEPは外耳道の入口位置を指し、DRPは鼓膜の場所を指す。ターゲット応答、およびターゲット応答がどこで物理的に定義されるかは、提示された音声材料のタイプによって異なり得る。一実施形態では、ターゲット応答は、EEPにおいて測定されるフラットな周波数応答であり得る。一実施形態では、等化フィルタは、2つの複素周波数応答(すなわち、ターゲット応答と予測された応答と)の間の比としての伝達関数に基づいて生成される。
したがって、等化フィルタは、コンテンツ作成者が音声出力が聞かれることを意図したようにユーザが音声出力を聞くように、ユーザの耳に基づいて音声出力を調整する。図2では、等化システム230はヘッドセット210とは別個として示されているが、いくつかの実施形態では、等化システム230はヘッドセット210中に含まれ得る。いくつかの実施形態では、等化システム230は、撮像システム220から受信された画像および/またはビデオに基づいてユーザの頭部(たとえば、耳)の少なくとも一部分の表現を生成する。等化システム230は、表現に基づいてユーザの耳における(たとえば、ヘッドセット210からの)音声出力をシミュレートし、ユーザの耳における音声出力とターゲット応答との間の差に基づいてユーザのための等化フィルタを決定することができる。ターゲット応答は、耳の形状とフィットメントとにおける差がなければ標準となるであろう、コンテンツ作成者が音がユーザによって聞かれることをどのように意図するかである。ターゲット応答は、その場合、最も高い達成可能な音質の音声出力の理想的なバージョンである。したがって、ユーザが、合理的に可能な限りターゲット応答に近い音声出力のバージョンを聞くように、等化フィルタは、耳の形状とフィットメントとにおける差を考慮するために、ヘッドセット210を介してユーザに与えられる音声コンテンツの1つまたは複数の音響パラメータの補償の量を規定する。等化システム230については図3に関して以下でより詳細に説明する。
オンラインシステム240は、ユーザプロファイル情報と、ユーザに提示されるべきコンテンツとを維持する。たとえば、オンラインシステム240はソーシャルネットワーキングシステムであり得る。いくつかの実施形態では、オンラインシステム240はヘッドセット210のユーザのプロファイルを記憶する。したがって、等化システム230は、1つまたは複数の等化フィルタを含む音声プロファイルをオンラインシステム240に送信することができ、オンラインシステム240は、ユーザのオンラインプロファイルとともに等化フィルタをもつ音声プロファイルを記憶することができる。オンラインシステム140は、シングルユーザのための1つまたは複数のデバイスに対応する個人化された等化フィルタを記憶することができる。たとえば、オンラインシステム140は、ヘッドセット100のための個人化された等化フィルタと、ユーザのためのヘッドセット105のための別の個人化された等化フィルタとを記憶することができる。したがって、各デバイスのための等化フィルタは、ユーザにコンテンツを与えるときに等化フィルタを取り出し、使用することができる、ヘッドセット100とヘッドセット105とによって取出し可能である。したがって、ユーザは、個人化された等化フィルタを生成するためのプロセスを再実行することなしにヘッドセット210を使用することができる。
ネットワーク250は、データ送信のための好適な任意の通信ネットワークであり得る。ネットワーク250は、一般に、インターネットであるが、限定はしないが、ローカルエリアネットワーク(LAN)、メトロポリタンエリアネットワーク(MAN)、ワイドエリアネットワーク(WAN)、モバイルワイヤードまたはワイヤレスネットワーク、プライベートネットワーク、または仮想プライベートネットワークを含む、任意のネットワークであり得る。いくつかの例示的な実施形態では、ネットワーク250は、インターネットであり、標準の通信技術および/またはプロトコルを使用する。したがって、ネットワーク250は、イーサネット、802.11、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス(WiMAX)、3G、4G、デジタル加入者回線(DSL)、非同期転送モード(ATM)、InfiniBand、PCI express Advanced Switchingなどの技術を使用するリンクを含むことができる。いくつかの例示的な実施形態では、それらのエンティティは、上記で説明した技術の代わりにまたはそれらに加えてカスタムおよび/または専用データ通信技術を使用する。
等化システム
上記で説明したように、等化システム230は、ヘッドセット210のユーザのための個人化された等化フィルタを生成するように構成される。等化システム230は画像分析モジュール305と音声カスタマイズモデル325とを含む。他の実施形態では、等化システム230は、本明細書で説明するよりも少ないまたは大きい構成要素を含むことができる。さらに、構成要素の機能は、以下で説明するものとは異なって配分され得る。
画像分析モジュール305は、ユーザの頭部および/または耳の、ユーザによってキャプチャされた1つまたは複数の画像から情報を抽出するように構成された特徴抽出モジュール310を含む。特徴抽出モジュール310は、システム環境200の1つまたは複数の構成要素(たとえば、ヘッドセット210、撮像システム220)から画像を受信する。画像は、ユーザの頭部の一部分(たとえば、耳)、ユーザがヘッドセット(たとえば、ヘッドセット100)またはヘッドマウントディスプレイ(たとえば、ヘッドセット105)を着用している間のユーザの頭部の一部分であり得る。特徴抽出モジュール310は、画像から情報(たとえば、深度情報、色情報)を抽出し、ユーザの耳および/または頭部を記述する特徴(たとえば、寸法、形状)を決定するために1つまたは複数の技法および/またはモデルを適用することができる。例としては、範囲撮像技法、機械学習モデル(たとえば、特徴識別モデル)、アルゴリズムなどがある。一実施形態では、特徴抽出モジュール310は、ユーザの物理的特性を記述する人体測定的特徴(たとえば、耳の寸法、耳の形状、頭部のサイズなど)を抽出する。
いくつかの実施形態では、特徴抽出モジュール310は、機械学習モデルを使用してトレーニングされる。特徴抽出モジュール310は、前に識別された特徴をもつ他のユーザの画像を使用してトレーニングされ得る。たとえば、複数の画像は、ユーザの耳および/または頭部の識別された特徴(たとえば、耳たぶのサイズおよび形状、頭部上の耳の位置など)を用いて(たとえば、人間によって、別のモデルによって)ラベリングされ得る。画像分析モジュール305は、特徴抽出モジュール310をトレーニングするために、画像と、関連付けられた特徴とを使用することができる。
画像分析モジュール305は、特徴抽出モジュール310によって抽出された情報(たとえば、深度情報)に基づいて1つまたは複数の深度マップを生成するように構成された深度マップ生成器315をさらに含む。深度マップ生成器315は、ユーザの頭部の少なくとも一部分の深度マップを作成し、ユーザの特徴の相対位置を識別することができる。深度マップは、ユーザの頭部の画像からの当該の特徴(たとえば、耳)間の位置または空間関係を示す。たとえば、深度マップは、ユーザの左耳と右耳との間の距離、または目および肩など、他の特徴に対するユーザの耳の位置を示し得る。同様に、深度マップ生成器315は、ヘッドセットを着用している頭部の画像から、ヘッドセットを着用しているユーザの頭部の深度マップを作成するために使用され得る。いくつかの実施形態では、深度マップ生成器315は、単独の(すなわち、ユーザによって着用されていない)ヘッドセットの受信された画像を使用してヘッドセットの深度マップを作成するために使用され得る。
再構成モジュール320は、特徴抽出モジュール310によって抽出された特徴、および/または深度マップ生成器315によって生成された深度マップに基づいて、ユーザの頭部の少なくとも一部分の3D表現を生成する。より詳細には、再構成モジュール320はユーザの耳の一方または両方の表現を生成し得る。一例では、再構成モジュール320は、一方の耳(たとえば、左耳)の表現を生成し、他方の耳(たとえば、右耳)の鏡像表現を生成する。さらに、または代替的に、再構成モジュール320は、たとえば、目、耳、首、および肩など、ユーザの頭部の特徴の位置を記述する、ユーザの頭部の3次元メッシュ表現を生成することができる。再構成モジュール320は、ヘッドセットを着用しているユーザの頭部の表現を取得するためにユーザの頭部の特徴をヘッドセット210の特徴と組み合わせ得る。いくつかの実施形態では、ユーザによって着用されているヘッドセット210は、デバイスを識別するための一意の既知の識別子を有し得るので、ヘッドセット210の表現は事前決定され得る。いくつかの実施形態では、ユーザによって着用されているヘッドセット210は、着用されているときに撮像デバイス225を使用して撮影されたデバイスの画像から識別され得る。
いくつかの実施形態では、再構成モジュール320は、テストヘッドセットを着用している被験者の頭部画像と、被験者の耳における測定された音声出力とに基づいて、ユーザのPCAベースの表現を生成する。PCAベース表現では、ユーザの頭部またはユーザの頭部の特徴(たとえば、耳の形状)は、主成分と対応するPCA係数との積の線形結合として表される。この目的で、再構成モジュール320は、データベースから、たとえば、テストトランスデューサのセット(たとえば、スピーカーアレイ)から画像とユーザの耳における測定された音声出力とを受信する。被験者(たとえば、500-215被験者)の受信された画像に基づいて、再構成モジュール320は、線形無相関主成分のセットを決定するために直交変換を使用する主成分分析(PCA)を実行する。たとえば、被験者の耳の上のヘッドセットの向きはPCAの焦点であり得る。
再構成モジュール320は、図8A~図8Bに関して以下で説明するPCAベースのジオメトリを決定するためにPCAモデルを生成することができる。PCAモデルは、等化システム230において生成され、実行されるとして説明したが、PCAモデルは別個の計算デバイス上で実行され得る。そのようなケースでは、PCAの結果は、処理され、ユーザのPCAベース表現を処理するために再構成モジュール320に与えられる。
音声カスタマイズモデル325は、ユーザのための耳における音声出力を予測し、耳における音声出力とターゲット応答との間の差に基づいてユーザのための個別化された等化フィルタを生成するように構成される。音声カスタマイズモデル325は、音シミュレーションモジュール330と、音声予測モジュール335と、等化フィルタ生成器345とを含む。他の実施形態では、音声カスタマイズモデル325は、本明細書で説明しない追加の構成要素を含むことができる。
音シミュレーションモジュール330は、再構成モジュール320によって生成された表現を使用して、ユーザの耳における音声ソース(たとえば、スピーカー、スピーカーアレイ、ヘッドセットのトランスデューサなど)からの音声出力をシミュレートする。一例では、音シミュレーションモジュール330は、ユーザの頭部の少なくとも一部分の表現に基づいて、ユーザの耳におけるシミュレートされた音声出力を生成する。別の例では、音シミュレーションモジュール330は、ヘッドセット210(たとえば、ヘッドセット100、ヘッドセット105)を着用しているユーザの頭部の少なくとも一部分の表現に基づいて、ユーザの耳におけるシミュレートされた音声出力を生成する。さらに、表現中のヘッドセット210は複数のトランスデューサ(たとえば、スピーカー)を含み得、表現中のトランスデューサ(またはそれの何らかのサブセット)について、音シミュレーションモジュール330はトランスデューサからユーザの耳への音の伝搬をシミュレートする。音シミュレーションモジュール330はまた、ユーザの耳の一方または両方における音声出力をシミュレートし得る。
一実施形態では、音シミュレーションモジュール330は数値シミュレーションエンジンである。耳におけるシミュレートされた音声出力を取得するために、音シミュレーションモジュール330は、(i)たとえば、Carlos A.Brebbiaら、「Boundary Element Methods in Acoustics」、Springer;1 ed.,ISBN 1851666796(1991)、およびGumerov N.A.ら、「A broadband fast multipole accelerated boundary element method for three dimensional Helmholtz equation」、J. Acoust. Soc. Am.,vol.125,issue 1,191~205ページ(2009)に記載されている境界要素法(BEM)、(ii)たとえば、Thompson、L.L.、「A review of finite-element methods for time-harmonic acoustics」、J. Acoust. Soc. Am.,vol.119,issue 3,1315~1330ページ(2006)に記載されている有限要素法(FEM)、(iii)たとえば、Taflove、Aら「Computational Electrodynamics: The Finite-Difference Time-Domain Method」、Third Edition;chap.1,4.,Artech House Publishers(2005)、およびYee、K.、「Numerical solution of initial boundary value problems involving Maxwell’s equations in isotropic media」、IEEE Transactions on Antennas and Propagation,vol.14,issue 3,302~307ページ(1966)に記載されている有限差時間領域(FDTD)方法、(iv)たとえば、Sakamoto、S.ら「Numerical analysis of sound propagation in rooms using the finite difference time domain method」、J.Acoust.Soc.Am.、vol.120、issue 5、3008(2006)、およびSakamoto、S.ら「Calculation of impulse responses and acoustic parameters in a hall by finite-difference time-domain method」、Acoustical Science and Technology,vol.29,issue 4(2008)に記載されているフーリエ擬スペクトル時間領域(PSTD)方法など、様々なシミュレーション方式を使用し得る。
音声予測モジュール335は、スペクトル成分および音響群遅延など、ヘッドセット210のユーザの耳における音声出力の特徴を予測するように構成される。音声予測モジュール335は、特徴抽出モジュール310によって抽出された特徴、再構成モジュール320によって生成されたユーザの頭部の少なくとも一部分の表現、および/または音シミュレーションモジュール330によって実行されたシミュレーションに基づいて、耳における予測された音声出力を決定することができる。耳における予測された音声出力は、音シミュレーションモジュール330によって生成された、耳におけるシミュレートされた音声出力であり得る。代替的に、音声予測モジュール335は、図9A~図9Bに関して以下でより詳細に説明する、機械学習モデルを使用して耳における予測された音声出力を決定する。たとえば、音声予測モジュール335は、特徴抽出モジュール310によって抽出された特徴を、特徴に基づいて耳における音声出力を決定するように構成された機械学習モデルに入力することができる。
音声予測モジュール335は、頭部と耳のジオメトリとの画像とビデオとの入力データから直接、1つまたは複数の機械学習技法を使用してトレーニングされ得る。一実施形態では、音声予測モジュール335は、決定された頻度で定期的に再トレーニングされる。音声予測モジュール335は、入力として働く正のトレーニングセットと負のトレーニングセットとの特徴ベクトルを使用してトレーニングされ得る。線形サポートベクターマシン(線形SVM)、他のアルゴリズムのためのブースティング(たとえば、AdaBoost)、ニューラルネットワーク、ロジスティック回帰、ナイーブベイズ(naive Bayes)、メモリベース学習、ランダムフォレスト、バッギング木、決定木、ブースト木、ブーストスタンプ(boosted stump)、近傍法、k近傍法、カーネルマシン、確率モデル、条件付き確率場(conditional random field)、マルコフ確率場、マニホールド学習、一般化線形モデル、一般化インデックスモデル、カーネル回帰、またはベイジアン回帰など、異なる機械学習技法が異なる実施形態において使用され得る。音声予測モジュール335をトレーニングすることについては図9Aに関して以下でより詳細に説明する。
等化フィルタ生成器345は、ユーザに対してカスタマイズされた等化フィルタを生成する。一実施形態では、等化フィルタ生成器345は、音声予測モジュール335によって予測されたユーザの耳における予測された音声出力に基づいて等化フィルタを生成する。別の実施形態では、等化フィルタ生成器345は、音シミュレーションモジュール330によってシミュレートされたユーザの耳における音声出力に基づいて等化フィルタを生成する。本明細書の他の箇所で説明したように、等化フィルタは、ヘッドセット210によって音声出力に適用されたとき、ユーザのために音声出力の1つまたは複数の音響パラメータを調整するように構成される。たとえば、等化フィルタは、ピッチ、ダイナミクス、音色など、他の音響パラメータを調整するように構成され得る。等化フィルタは、ハイパスフィルタ、ローパスフィルタ、パラメトリック個別化等化フィルタ、グラフィック等化フィルタ、または任意の他の好適なタイプの個別化された等化フィルタであり得る。いくつかの実施形態では、等化フィルタ生成器345は、既存の等化フィルタのグループから等化フィルタを選択するか、既存の等化フィルタのパラメータを調整するか、新しい等化フィルタを生成するか、またはユーザの耳における予測された音声出力に基づいて等化フィルタ生成器345によって前に生成された等化フィルタを調整する。等化フィルタ生成器345は等化フィルタをヘッドセット210に与えることができ、ヘッドセット210は、ユーザに個別化された音声コンテンツを与えるために等化フィルタを採用することができる。さらに、または代替的に、等化フィルタ生成器345は、オンラインシステム240のユーザのプロファイルに関連する等化フィルタを記憶するためにオンラインシステム240に等化フィルタを与えることができる。
例示的な方法
図4Aは、1つまたは複数の実施形態による、ユーザ405の頭部の画像をキャプチャする撮像デバイス225の例示的なビューである。図4Aの実施形態では、撮像デバイス225は、少なくともユーザの耳を含む画像をキャプチャする。撮像デバイス225は、さらに、異なる角度と向きにおいてユーザの頭部の画像をキャプチャすることができる。たとえば、ユーザ405(または何らかの他の当事者)は、キャプチャされた画像がユーザ405の頭部の異なる部分をカバーするように、撮像デバイス225を彼/彼女の頭部に対する異なるロケーションに配置することができる。さらに、ユーザ405は、撮像デバイス225をユーザ405に対して異なる角度および/または距離に保持し得る。たとえば、ユーザ405は、ユーザ405の顔の正面の腕を伸ばした距離に撮像デバイス225を保持し、ユーザ405の顔の画像をキャプチャするために撮像デバイス225を使用し得る。ユーザ405はまた、ユーザ405の耳および/または肩の画像をキャプチャするために、撮像デバイス225がユーザ405の頭部の側面のほうに向けられた状態で、撮像デバイス225を腕を伸ばした距離よりも短い距離に保持し得る。いくつかの実施形態では、撮像デバイス225は、ユーザの左耳の画像とユーザの右耳の両方をキャプチャするように配置される。代替的に、撮像デバイス225は、両方の耳が単一の画像またはビデオ中にキャプチャされるように、ユーザの頭部の180度パノラマビューをキャプチャすることができる。
いくつかの実施形態では、撮像デバイス225は、特徴認識ソフトウェアを使用し、当該の特徴(たとえば、耳、肩)が認識されたときに画像を自動的にキャプチャする。さらに、または代替的に、撮像デバイス225は、当該の特徴が撮像デバイス225の視界中にあるときに、画像をキャプチャするようにユーザにプロンプトすることができる。いくつかの実施形態では、撮像デバイス225は、ユーザ405に対する特定の角度および/または距離からユーザ405の頭部の複数の画像をキャプチャするようにユーザ405を導くグラフィカルユーザインターフェース(GUI)を有するアプリケーションを含む。たとえば、GUIは、ユーザ405の顔の前向き画像と、ユーザ405の右耳の画像と、ユーザ405の左耳の画像とを要求し得る。撮像デバイス225はまた、(たとえば、画像品質、画像中にキャプチャされた特徴に基づいて)画像が等化システム230による使用のために好適であるかどうかを決定することができる。
図4Bは、1つまたは複数の実施形態による、図4Aにおける撮像デバイス225によってキャプチャされたユーザ405の画像の側面図を示す。キャプチャされた画像の焦点はユーザの耳407である。いくつかの実施形態では、等化システム230は、ユーザの耳407および/またはユーザの頭部に関連付けられた特徴を決定するために、図4Bに示された画像を使用することができる。撮像デバイス225は、ユーザの頭部に関連付けられた追加の特徴を決定するために追加の画像をキャプチャすることができる。
図4Aは、ユーザ405の頭部の画像をキャプチャする撮像デバイス225を示すが、撮像デバイス225は、ヘッドセット(たとえば、ヘッドセット100、ヘッドセット105)を着用しているユーザの画像をキャプチャすることもできる。
図5Aは、1つまたは複数の実施形態による、ヘッドセット510を着用しているユーザ405の画像をキャプチャしている撮像デバイス225の例示的なビューである。ヘッドセット510は、ヘッドセット210、音声出力(たとえば、スピーカー)を含む何らかのニアアイディスプレイ、または音声出力を含む何らかの他のヘッドマウントディスプレイの実施形態であり得る。
図5Bは、1つまたは複数の実施形態による、図5Aにおける撮像デバイス225によってキャプチャされた、ヘッドセット510を着用しているユーザ405の画像の側面図を示す。等化システム230は、以下でより詳細に説明する、ヘッドセット510の位置に対するユーザの耳407に関連付けられた特徴を決定することができる。一実施形態では、ヘッドセット510は1つまたは複数のトランスデューサを含み、1つまたは複数のトランスデューサのうちの少なくとも1つが、図5Aに示された画像においてキャプチャされている。したがって、等化システム230はユーザの耳407と1つまたは複数のトランスデューサとの間の距離を決定することができる。
視覚モデルは、動作するためのスケールおよび向き情報から利益を得る。スケールまたは向き情報が符号化され得るいくつかのシナリオがあるが、これらのシナリオは、通常、自明でない。したがって、別の実施形態では、ヘッドセット(たとえば、ヘッドセット210)は、ユーザがヘッドセットを着用しているときの、ユーザの耳に対するヘッドセットの位置を決定するための1つまたは複数の視覚マーカーを含む。上記でおよび本明細書の他の箇所で説明したように、機械学習ベース予測エンジンは、ユーザの耳において測定されるヘッドセットからの個人化された音響伝達関数を予測するために、人間の頭部と耳との画像とビデオとを使用する。したがって、視覚的にキャプチャされた人体測定的特徴のサイズと向きとの正確な情報が、画像とビデオとがモデルのために有用であるための重要な要件である。この情報を与えるために、特徴の相対的距離がキャプチャされた画像およびビデオ中でルーラーを用いて測定される、耳および眼鏡フレームなどの当該の特徴上に描かれた既知の寸法をもつ基準視覚物体(たとえばコイン)またはマーカー(たとえば複数のドット)を含めることなど、様々な方法が考案され得る。しかしながら、これらの方法は、製品アプリケーションのために適切であるためには厄介であり、および/または信頼できない。
人体測定的特徴のサイズおよび向きの曖昧さを取り除くための1つの方法は、データ中に視覚的基準を与える明確な目的のためにヘッドセット中にデザインされたマーカーを使用することである。したがって、一実施形態では、画像および/またはビデオは、ヘッドセットが通常ユーザにフィットするようにユーザがヘッドセットを着用している間に撮影される。これらのマーカーの寸法は設計によって知られており、頭部と耳とに対するマーカーの向きは、各ユーザで変わらないことが予想されるので、マーカーは、画像の内側の信頼できる視覚的基準のための所望の特性を達成することができる。また、各ヘッドセットモデルの工業デザインの厳密な情報がそれから推測され得る画像中の製品モデルを識別するために、一意の寸法の各ヘッドセットモデルに関連付けられた一意のマーカー設計が使用され得る。
図6Aは、1つまたは複数の実施形態による、複数のマーカー615を含むヘッドセット610を着用しているユーザ405の画像をキャプチャする撮像デバイス225の例示的なビューである。ヘッドセット610は、ヘッドセット210、音声出力(たとえば、スピーカー)を含む何らかのニアアイディスプレイ、または音声出力を含む何らかのヘッドマウントディスプレイの実施形態であり得る。
図6Bは、1つまたは複数の実施形態による、図6Aにおける撮像デバイス225によってキャプチャされたユーザの頭部の一部分の画像を示す。画像中でキャプチャされたヘッドセット610は、それの右テンプルアーム612に沿って4つのマーカー615a、615b、615c、および615dを含む。ヘッドセット610は、ヘッドセット610が、左テンプルアーム(図示せず)上の対応する位置に同等のマーカーを含むように対称であり得る。他の実施形態では、ヘッドセット610は、右テンプルアーム、左テンプルアーム、および/またはフレームの前部に沿って任意の他の好適な数(たとえば、1つ、3つ、10個)のマーカーを含み得る。図6Bの実施形態では、各マーカー615が等化システム230によって容易に識別され得るように、マーカー615はそれぞれ一意の形状およびサイズを有する。代替的に、マーカー615は実質的に同じサイズおよび/または形状であり得る。さらに、ヘッドセット610の寸法、およびヘッドセット610に対するマーカー615の位置は既知である。等化システム230は、ヘッドセット610に対するユーザの耳407に関する情報を決定するために、図6Bに示された画像を使用することができる。たとえば、等化システム230は各マーカーとユーザの耳407上の点との間の距離を決定することができる。
撮像システム220は、ユーザ405のための等化フィルタを生成するために、図4B、図5Bおよび図6Bに示された画像など、1つまたは複数の画像をキャプチャし、等化システム230に与えることができる。等化システム230はまた、ユーザの耳および/または頭部の他のビューの撮像デバイス225から追加の画像を受信することができる。等化システム230は、画像に基づいてユーザの耳における音声出力を決定することができる。さらに、画像は、以下でより詳細に説明する、等化システム230の1つまたは複数の構成要素をトレーニングするために使用され得る。
シミュレーションに基づいて等化フィルタを決定すること
ヘッドセットからの高忠実度音声エクスペリエンスは、音声出力のスペクトル成分と音響時間遅延とに関して、ヘッドセットの音声出力がユーザの耳における一貫したターゲット応答に一致することを必要とする。デバイスフレームにビルトインされた出力モジュールの場合、各ユーザによって聞かれる音声は、ユーザの人体測定的特徴(たとえば耳介サイズおよび形状)、フィットメントの不一致、環境要因に対するトランスデューサ構成要素感度、製造許容差など、変動の複数のソースの影響を受けるので、マネキンおよび/または耳カプラ上で調整された静的な非個人化されたEQは、この高忠実度音声出力を供給するためには不十分である。これらのうち、人ごとおよびフィット感ごとの変動は、音声出力の変動性の最も大きい部分の原因であり、ユーザの頭部および/または耳の形状と、ヘッドセット上の音声出力モジュールとユーザの耳との間の相対位置とによって決定される。
テンプルアームに埋め込まれたスピーカーモジュールをもつフレームからなるオープンイヤー音声出力をもつヘッドセットの場合、ユーザのフィッティング状態がデバイスの通常使用全体にわたって再現可能で、安定しており、それによって音声出力のフィット感ごとの変動を最小にするように、工業デザイン業務が採用され得る。しかしながら、人ごとの変動を除去するには、本明細書で説明するように、個別化された逆等化フィルタを適用することによって変動を補償するために使用され得る、ユーザの耳における音声出力の知識が必要である。この知識を取得するための1つの方法は、音声出力の未加工応答を測定するために、外耳道ロケーションへの入口にマイクロフォンを配置することである。この手法の実際の適用は、快適さと審美性に関する工業デザインにおいて、また、使いやすさに関するユーザエクスペリエンスにおいて課題をもたらす。したがって、着用者の耳における音声出力を測定または予測するための代替方法が望まれる。
一実施形態では、そのような目標を達成するための方法は、ヘッドセットを着用している被験者の画像とビデオとからなるデータセットと、対応するユーザの頭部および耳の高品質3D走査メッシュとを用いてトレーニングされた、ビデオと画像とに基づいてヘッドセットを着用している人間の頭部および/または耳の3Dジオメトリを再構成することが可能な、機械学習モデルを構築することを含む。再構成された3Dジオメトリは、次いで、ユーザの耳において観測される音声出力を予測する、ヘッドセット出力の耳への音響伝搬のための数値シミュレーションエンジンへの入力として使用される。この予測された応答は、ユーザの音声のためのデバイス固有の個人化された等化フィルタを生成するために使用され得る。
図7は、一実施形態による、ユーザの耳の表現に基づいてユーザのための等化フィルタを生成する例示的な方法を示す。ステップは、図2に示されたシステム200の1つまたは複数の構成要素(たとえば等化システム230)によって実行され得る。他の実施形態では、ステップは、本明細書で説明する順序とは異なる順序で実行され得る。
等化システム230は、ユーザの頭部の少なくとも一部分の1つまたは複数の画像を受信する710。一実施形態では、等化システム230は、ユーザの耳、ユーザの頭部、および/またはヘッドセット210を着用しているユーザの1つまたは複数の画像を受信する。たとえば、等化システム230は、図4Bに示された画像を受信する。画像は、ユーザデバイス(たとえばセルフォン)に関連付けられた撮像デバイス225を使用してキャプチャされ得る。
等化システム230は、1つまたは複数の画像に基づいてユーザの頭部の少なくとも一部分の表現を生成する720。いくつかの実施形態では、等化システム230はユーザの耳の一方または両方の表現を生成する。代替的に、等化システム230は、ユーザの耳の一方または両方を含むユーザの頭部の表現を生成することができる。生成された表現は、ユーザの耳および/もしくは頭部を表す3Dメッシュ、または図8A~8Bに関して以下でより詳細に説明するPCAベースの表現であり得る。
等化システム230は、ユーザの耳の表現に基づいて、ヘッドセット中に含まれる音声システムからユーザの耳への音声伝搬のシミュレーションを実行する730。音声システムは、ヘッドセット210の左側および/または右側テンプルアーム(temple arm)に結合されたトランスデューサのアレイであり得る。等化システム230は、シミュレーションに基づいて、予測される音声出力応答を決定する。たとえば、等化システム230は、シミュレーションに基づいて、ユーザによって知覚される1つまたは複数の音響パラメータ(たとえば、ピッチ、周波数、音量、バランスなど)を決定することができる。
等化システム230は、予測される音声出力応答に基づいて等化フィルタを生成する740。したがって、ユーザは、ヘッドセット210によって与えられるカスタム音声環境を経験することができる。たとえば、予測される音声出力応答は、ユーザの人体測定的特徴により、平均よりも高い周波数を有し得、等化システム230は、ユーザに与えられる音声コンテンツの周波数を低減する等化フィルタを生成する。いくつかの実施形態では、等化システム230は、ヘッドセット210が、ユーザに与えられる音声コンテンツを調整するために等化フィルタを使用することができるように、ヘッドセット210に等化フィルタを与える。さらに、等化システム230はオンラインシステム240に等化フィルタを与えることができ、オンラインシステム240は、オンラインシステム240に関連付けられたユーザのプロファイル(たとえばソーシャルネットワーキングプロファイル)に対する等化フィルタを記憶することができる。
いくつかの実施形態では、上記で説明したユーザの耳の表現は、トレーニングされたモデル(たとえばPCAモデル)を使用して生成される。機械学習技法を採用することにより、再構成モジュール320はユーザの耳および/または頭部のより正確な表現を生成することが可能になる。図8Aは、1つまたは複数の実施形態による、PCAモデル860のトレーニングのブロック図である。機械学習プロセスは、ユーザの耳のPCAベースの表現を生成し、ユーザのための音声出力応答を決定するために使用され得る。
再構成モジュール320は、特徴抽出モジュール310および/または深度マップ生成器315からの情報(たとえば、ユーザの頭部の画像からの特徴)を受信する。その情報に基づいて、再構成モジュール320は、PCAモデル860を使用してユーザの頭部のPCAベースの表現を生成する。一実施形態では、PCAベースの表現はヘッドセットの表現をも含む。したがって、再構成モジュール320は、ヘッドセットを着用している人間の頭部または人間の頭部の形状(たとえば耳形状)が、ヘッドセットを着用している代表的なテスト対象の頭部または頭部特徴の3次元形状の線形結合として表される、PCAベースの表現を生成するようにトレーニングされたPCAモデル860を使用することができる。他の実施形態では、PCAモデル860は、ヘッドセットの代表的な画像の3次元形状の線形結合として表される、ヘッドセット(たとえばヘッドセット210)のPCAベースの表現を生成するようにトレーニングされる。PCAモデル860はまた、人間の頭部または人間の頭部特徴の形状(たとえば耳形状)が、代表的なテスト対象の頭部または頭部特徴の3次元形状の線形結合として表される、PCAベースの表現を生成するようにトレーニングされ得る。他の実施形態では、PCAモデル860は、ヘッドセットを着用している頭部のPCAベースの表現を取得するために、頭部のPCAベースの表現をヘッドセットのPCAベースの表現と組み合わせ得る。代替的に、PCAモデル860は、ヘッドセット(たとえばヘッドセット210)を着用している人間の頭部または人間の頭部特徴の形状(たとえば耳形状)が、ヘッドセットを着用している間の代表的なテスト対象の頭部または頭部特徴の3次元形状の線形結合として表される、PCAベースの表現を生成するようにトレーニングされ得る。
ヘッドセットを着用している頭部の耳の形状に関するPCA分析を使用する一例を挙げると、ランダムな耳形状の3次元形状Eは以下のように表され得る。
E=Σ(α×ε) (1)
ここで、αはi番目の主成分(すなわち、3次元のi番目の代表的な耳形状)を表し、εはi番目の主成分のPCA係数を表す。主成分の数(「i」の数)は、その数が、それらの測定された音声出力応答を与えられたテスト対象の総数よりも小さくなるように選択される。一例では、主成分の数は5~10個である。
いくつかの実施形態では、PCAベースの表現は、ヘッドセットを着用している同じユーザの頭部の3次元メッシュジオメトリに関するシミュレーションを実行することと比較して、PCAモデル860から取得されたPCAベースの表現の使用がシミュレーションによってより正確な等化フィルタをもたらし得るように、ヘッドセットを着用しているテスト対象の頭部形状の表現と、それらの測定された音声出力応答とを使用して生成される。本明細書で説明するテスト対象は、それらの頭部形状ジオメトリ(または頭部形状画像)および音声出力応答がすでに知られている(すなわち「測定された音声出力応答」である)、人間、または人間の物理モデルを指す。音声出力応答を取得するために、テスト対象は、無響室(anechoic chamber)中に配置され、テスト対象の耳に配置されたマイクロフォンを用いて1つまたは複数のトランスデューサからの音にさらされ得る。いくつかの実施形態では、テスト対象によって着用された(テストトランスデューサアレイを含む)テストヘッドセットについて音声出力応答が測定される。テストヘッドセットは、ユーザによって着用されたヘッドセットと実質的に同じである。
図8Aに示されているように、PCAモデル860は音シミュレーションモジュール330にPCAベースの表現を与え、音シミュレーションモジュール330は、PCAベースの表現を使用して、シミュレートされた音声出力応答を実行する。等化システム230は、図8Bに関して以下でより詳細に説明する、PCAモデル860を更新するために、テスト対象の測定された音声出力応答とシミュレートされた音声出力応答とを比較することができる。PCAモデルが決定および/または更新された後に、PCAモデル860は、PCAモデル860に従って、ヘッドセットを着用しているテスト対象の頭部の画像と、それらのPCAベースの表現とを使用してトレーニングされる。トレーニングされたPCAモデル860は、ヘッドセットを着用しているユーザの頭部の画像から、ヘッドセットを着用しているユーザの頭部のPCAベースの表現を予測または推論することができる。いくつかの実施形態では、トレーニングされたPCAモデル860は、ユーザの頭部の画像およびヘッドセットの他の画像から、ヘッドセットを着用しているユーザの頭部のPCAベースの表現を予測または推論することができる。
いくつかの実施形態では、PCAモデル860の生成およびPCAモデル860のトレーニングはオフラインで実行され得る。その場合、トレーニングされたPCAモデル860は等化システム230の再構成モジュール320中に配備され得る。トレーニングされたPCAモデル860を使用することにより、再構成モジュール320は、ロバストで効率的な様式でユーザのPCAベースの表現を生成することが可能になる。
図8Bは、1つまたは複数の実施形態による、PCAモデル860を生成し、更新することの流れ図である。一実施形態では、図8Bのプロセスは等化システム230の構成要素によって実行される。他のエンティティは、他の実施形態におけるプロセスのいくつかまたはすべてのステップを実行し得る。同様に、実施形態は、異なるステップおよび/もしくは追加のステップを含むか、または異なる順序でステップを実行し得る。
等化システム230は初期PCAモデルを決定する810。いくつかの実施形態では、等化システム230は、ランダムな頭部形状またはその頭部形状の特徴を表すための主成分としてテスト対象の頭部のサブセット(またはそれの一部分)を選択することによって、初期PCAモデルを決定する。
等化システム230は、現在のPCAモデルを使用してテスト画像のPCAベースの表現を決定する820。たとえば、初期PCAモデルは、テストヘッドセットを着用している間のテスト対象の頭部またはテスト対象の頭部の部分(たとえば耳)のPCAベースの表現を決定するために、テストトランスデューサアレイを含むテストヘッドセットを着用しているテスト対象の頭部の画像を処理する。すなわち、ヘッドセットを着用しているすべてのテスト対象の頭部形状(または頭部の部分の形状)が、式(1)を参照しながら上記で説明したように、テスト対象の頭部形状のサブセットの線形結合と対応するPC係数との積として表される。テストヘッドセットは、ユーザによって着用されたヘッドセットと実質的に同じであることに留意されたい。
等化システム230は、シミュレートされた音声出力応答を生成するために、PCAベースの表現を使用して1つまたは複数のシミュレーションを実行する830。1つまたは複数のシミュレーションは、図3を参照しながら上記で説明したように、BEM、FEM、FDTD方法、またはPSTD方法のうちの1つまたは複数を使用して、PCAベースの表現に対して実行される。シミュレーションの結果として、等化システム230は、現在のPCAモデルに基づくテスト対象のシミュレートされた音声出力応答を取得する。
等化システム230は、テスト対象の測定された音声出力応答とシミュレートされた音声出力応答との間の差がしきい値よりも大きいかどうかを決定する840。差は、テスト対象の各々についての測定された音声出力応答とシミュレートされた音声出力応答との間の差の大きさの和であり得る。
差がしきい値よりも大きい場合、等化システム230はPCAモデルを新しい現在のPCAモデルに更新する850。PCAモデルの更新は、主成分の数を加算または減算すること、PC係数値を更新すること、または代表的な形状を更新することを含み得る。次いで、プロセスは、更新された現在のPCAモデルに基づいてPCAベースの表現の新しいセットを決定すること820に戻り、後続のステップを繰り返す。
等化システム230が、差がしきい値以下であることを決定した840場合、現在のPCAモデルが、配備のための(すなわち、図7に関して上記で説明した等化システム230による使用のための)PCAモデルとして確定される860。
トレーニングされたモデルを使用して音声出力応答を決定する
別の実施形態では、等化システム230は、機械学習モデルを使用して音声出力応答を決定する。機械学習モデルは、ヘッドセットを着用している被験者(human subject)の画像およびビデオと、対応する対象の耳において測定された音声出力応答とからなるデータセットを用いてトレーニングされ得、それにより、それらの頭部および耳のジオメトリの画像およびビデオに基づいて新しいユーザへの音声出力応答を予測することが可能になる。したがって、この実施形態では、機械学習モデルは、画像およびビデオから視覚的に抽出された人体測定的特徴から直接、等化フィルタを計算する。
図9Aは、一実施形態による、音声出力応答を予測するための機械学習プロセスを示す。特徴抽出モジュール310は、少なくともユーザの耳を含む、ユーザの頭部の画像を受信する。特徴抽出モジュール310は、ユーザの耳を記述する特徴を抽出し、抽出された特徴を音声予測モジュール335に与える。音声予測モジュール335は、応答モデル970(すなわち機械学習モデル)を使用してユーザの耳の特徴に基づいて音声出力応答を予測する。応答モデル970は、追加のユーザの画像と、それらの関連付けられた特徴と、測定された音声応答プロファイルとを使用して生成され、トレーニングされる。いくつかの実施形態では、応答モデル970は、追加のユーザの予測された音声出力応答を追加のユーザの測定された音声出力応答と比較することによって更新され得る。本明細書で説明する追加のユーザは、それらの人体測定的特徴および音声出力応答がすでに知られている、人間、または人間の物理モデルを指す。人体測定的特徴は、人間、または別のモデルによって決定され得る。音声出力応答を取得するために、追加のユーザは、無響室中に配置され、追加のユーザの耳に配置されたマイクロフォンを用いて1つまたは複数のトランスデューサからの音にさらされ得る。いくつかの実施形態では、追加のユーザによって着用された(テストトランスデューサアレイを含む)テストヘッドセットについて音声出力応答が測定される。テストヘッドセットは、ユーザによって着用されたヘッドセットと実質的に同じである。トレーニングされた応答モデル970は、図9Bに関して以下でより詳細に説明する、音声出力応答を予測するために使用され得る。
図9Bは、一実施形態による、応答モデル970を使用して決定されたユーザの耳における音声出力に基づいて等化フィルタを生成する方法を示す。ステップは、図2に示されたシステム環境200の1つまたは複数の構成要素(たとえば等化システム230)によって実行され得る。一実施形態では、プロセスは、図9Aに関して上記で説明した機械学習応答モデル970を使用して実行される。方法900は、本明細書で説明するステップよりも少ないまたは多いステップを含むことができる。
等化システム230はユーザの耳および/または頭部の1つまたは複数の画像を受信する910。一実施形態では、等化システム230は、ユーザの耳、ユーザの頭部、および/またはヘッドセット210を着用しているユーザの1つまたは複数の画像(たとえば、図4B、図5B、および図6Bに示された画像)を受信する。画像は、撮像デバイス225(たとえばセルフォン)を使用してキャプチャされ得る。
等化システム230は、ユーザの耳を記述する画像から1つまたは複数の特徴を識別する920。特徴は、ユーザの耳および/または頭部に関係する人体測定的情報(たとえば、寸法、位置、形状)を記述し得る。特徴は、画像からの抽出された情報(たとえば、深度情報、色情報)に基づき得る。いくつかの実施形態では、特徴はヘッドセットに対して識別され得る。たとえば、図6Bの実施形態では、等化システムは、耳の特徴を決定するために、マーカー615に基づいてユーザの耳407に対するヘッドセット510の位置に関係する情報を抽出する。
等化システム230は特徴をモデル(たとえば応答モデル970)に入力として与える930。モデルは、特徴に基づいて音声出力応答を決定するように構成される。モデルは、各追加のユーザの音声出力応答が既知である、追加のユーザの耳の画像と、それらの画像から抽出された特徴とを使用してトレーニングされる。等化システム230は、ユーザのための音声出力応答を予測するために、モデルを周期的に再トレーニングし、トレーニングされたモデルを使用することができる。
等化システム230は、ユーザの耳における予測された音声出力に基づいて等化フィルタを生成する940。等化フィルタは、ヘッドセットによってユーザに与えられる音声コンテンツの1つまたは複数の音響パラメータを調整するように構成される。等化システム230は、ヘッドセット(たとえばヘッドセット610)が、ユーザに音声コンテンツを与えるために等化フィルタを使用することができるように、ヘッドセットに等化フィルタを与えることができる。さらに、等化システム230は、等化フィルタをユーザのオンラインプロファイルに関連付けるために、オンラインシステム240に等化フィルタを与えることができる。
トレーニングされた応答モデル970により、等化システム230は、ユーザの画像に基づいてユーザの耳における音声出力を迅速に効率的に予測することが可能になる。したがって、等化システム230は、ユーザのために音声コンテンツをカスタマイズし、それによりユーザの音声エクスペリエンスを向上させるように構成された、等化フィルタを生成することができる。いくつかの実施形態では、応答モデル970は複数のユーザおよび複数のデバイスのために使用され得る。代替的に、応答モデル970は、ユーザとデバイスとの特定の組合せについての音声出力を調整するための特定のデバイスに対してカスタマイズされ得る。たとえば、等化フィルタ生成器345は、それぞれのデバイスを着用しているユーザの画像と、そのデバイスについてのユーザの耳におけるユーザの測定された音声出力とに基づいて生成される、ヘッドセットデバイス100のためのモデルと、ヘッドセットデバイス105のための別のモデルとを生成することができる。等化システム230は、このようにして、ユーザの各デバイスに固有の個別化された等化フィルタを生成することができる。
いくつかの実施形態では、図7および図8A~図8Bに示されたプロセスの態様は、ユーザ音声エクスペリエンスを向上させるために、図9A~図9Bに示されたプロセスの態様と組み合わせられ得る。たとえば、図9Bの実施形態では、等化システム230は、さらに、図7に関して説明したように、ユーザの耳の3D表現を生成することができ、3D表現は、シミュレーションを実行することなしに、予測される音声出力応答を生成するためにモデルに入力され得る。等化システム230は、さらに、モデルおよび/またはプロセスの組合せに基づいて等化フィルタを生成することができる。等化システム230は、以下でより詳細に説明する、ヘッドセット210の音声システム215に等化システム230を与えることができる。
音声システム
図10は、1つまたは複数の実施形態による、音声システム215のブロック図である。図1A中または図1B中の音声システムは音声システム215の一実施形態であり得る。いくつかの実施形態では、音声システム215は、ユーザのための音声コンテンツを生成および/または修正するために、等化システム230によって生成された個別化された音声出力応答を採用する。図2の実施形態では、音声システム215は、トランスデューサアレイ1010と、センサーアレイ1020と、音声コントローラ1030とを含む。音声システム215のいくつかの実施形態は、本明細書で説明する構成要素とは異なる構成要素を有する。同様に、場合によっては、機能は、本明細書で説明する様式とは異なる様式で構成要素間に配分され得る。
トランスデューサアレイ1010は、音声コンテンツを提示するように構成される。トランスデューサアレイ1010は複数のトランスデューサを含む。トランスデューサは、音声コンテンツを与えるデバイスである。トランスデューサは、たとえば、スピーカー(たとえばスピーカー160)、組織トランスデューサ(たとえば組織トランスデューサ170)、音声コンテンツを与える何らかの他のデバイス、またはそれらの何らかの組合せであり得る。組織トランスデューサは、骨伝導トランスデューサまたは軟骨伝導トランスデューサとして機能するように構成され得る。トランスデューサアレイ1010は、気導(air conduction)を介して(たとえば1つまたは複数のスピーカーを介して)、骨伝導を介して(1つまたは複数の骨伝導トランスデューサを介して)、軟骨伝導音声システムを介して(1つまたは複数の軟骨伝導トランスデューサを介して)、またはそれらの何らかの組合せを介して音声コンテンツを提示し得る。いくつかの実施形態では、トランスデューサアレイ1010は、周波数範囲の異なる一部をカバーするために1つまたは複数のトランスデューサを含み得る。たとえば、圧電トランスデューサは、周波数範囲の第1の一部をカバーするために使用され得、可動コイルトランスデューサは、周波数範囲の第2の一部をカバーするために使用され得る。
骨伝導トランスデューサは、ユーザの頭部中の骨/組織を振動させることによって音圧波を生成する。骨伝導トランスデューサは、ヘッドセットの一部分に結合され得、ユーザの頭蓋骨の一部分に外耳の後方で結合されるように構成され得る。骨伝導トランスデューサは、音声コントローラ1030からの振動命令を受信し、受信された命令に基づいてユーザの頭蓋骨の一部分を振動させる。骨伝導トランスデューサからの振動は、鼓膜を迂回してユーザの蝸牛(cochlea)に向かって伝搬する、組織伝搬(tissue-borne)音圧波を生成する。
軟骨伝導トランスデューサは、ユーザの耳の耳介軟骨(auricular cartilage)の1つまたは複数の部分を振動させることによって音圧波を生成する。軟骨伝導トランスデューサは、ヘッドセットの一部分に結合され得、耳の耳介軟骨の1つまたは複数の部分に結合されるように構成され得る。たとえば、軟骨伝導トランスデューサはユーザの耳の外耳の後部に結合し得る。軟骨伝導トランスデューサは、外耳(たとえば、耳介、耳珠(tragus)、耳介軟骨の何らかの他の部分、またはそれらの何らかの組合せ)の周囲の耳介軟骨に沿ってどこにでも位置し得る。耳介軟骨の1つまたは複数の部分を振動させることにより、外耳道の外側の空中音圧波、外耳道のいくつかの部分を振動させ、それにより外耳道内に空中音圧波を発生させる組織伝搬音圧波、またはそれらの何らかの組合せが生成され得る。発生した空中音圧波は鼓膜に向かって外耳道を伝搬する。
トランスデューサアレイ1010は音声コントローラ1030からの命令に従って音声コンテンツを生成する。いくつかの実施形態では、音声コンテンツは空間化(spatialize)される。空間化された音声コンテンツは、特定の方向および/またはターゲット領域(たとえば、局所領域中の対象および/または仮想対象)から発生するように思われる音声コンテンツである。たとえば、空間化された音声コンテンツは、音が、音声システム215のユーザから見て部屋の向こう側の仮想の歌手から発生しているように思わせることができる。トランスデューサアレイ1010はウェアラブルデバイス(たとえばヘッドセット100またはヘッドセット105)に結合され得る。代替実施形態では、トランスデューサアレイ1010は、(たとえば、外部コンソールに結合された)ウェアラブルデバイスとは別個の複数のスピーカーであり得る。
一実施形態では、トランスデューサアレイ1010は、ユーザに音声コンテンツを与えるために、等化システム230によって生成された1つまたは複数の個別化された音声出力応答を使用する。トランスデューサアレイ1010中のトランスデューサの各々は、同じ個別化された音声出力応答を使用することができるか、または各トランスデューサは一意の個別化された音声出力応答に対応し得る。1つまたは複数の個別化された音声出力応答が等化システム230および/または音フィルタモジュール1080から受信され得る。
センサーアレイ1020は、センサーアレイ1020の周囲の局所領域内で音を検出する。センサーアレイ1020は、それぞれ、音波の空気圧変動を検出し、検出された音を電子フォーマット(アナログまたはデジタル)に変換する、複数の音響センサーを含み得る。複数の音響センサーは、ヘッドセット(たとえばヘッドセット100および/またはヘッドセット105)上、ユーザ上(たとえば、ユーザの外耳道中)、ネックバンド上、またはそれらの何らかの組合せに配置され得る。音響センサーは、たとえば、マイクロフォン、振動センサー、加速度計、またはそれらの任意の組合せであり得る。いくつかの実施形態では、センサーアレイ1020は、複数の音響センサーのうちの少なくともいくつかを使用して、トランスデューサアレイ1010によって生成された音声コンテンツを監視するように構成される。センサーの数を増加させることにより、トランスデューサアレイ1010によって生成される音場および/または局所領域からの音を記述する情報(たとえば指向性(directionality))の精度が改善され得る。
音声コントローラ1030は音声システム215の動作を制御する。図10の実施形態では、音声コントローラ1030は、データストア1035と、DOA推定モジュール1040と、伝達関数モジュール1050と、追跡モジュール1060と、ビームフォーミングモジュール1070と、音フィルタモジュール1080とを含む。音声コントローラ1030は、いくつかの実施形態では、ヘッドセットの内部に位置し得る。音声コントローラ1030のいくつかの実施形態は、本明細書で説明する構成要素とは異なる構成要素を有する。同様に、機能は、本明細書で説明する様式とは異なる様式で構成要素間に配分され得る。たとえば、コントローラのいくつかの機能はヘッドセットの外部で実行され得る。
データストア1035は、音声システム215による使用のための等化フィルタおよび他のデータを記憶する。データストア1035中のデータは、音声システム215の局所領域中に記録された音、音声コンテンツ、頭部伝達関数(HRTF)、1つまたは複数のセンサーのための伝達関数、1つまたは複数の音響センサーのためのアレイ伝達関数(ATF)、個別化された音声出力応答、音声プロファイル、音源ロケーション、局所領域の仮想モデル、到来方向推定値、音フィルタ、および音声システム215による使用に関連がある他のデータ、またはそれらの任意の組合せを含み得る。
DOA推定モジュール1040は、センサーアレイ1020からの情報に部分的に基づいて局所領域中の音源の位置を特定するように構成される。位置特定は、音源が音声システム215のユーザに対してどこに位置するかを決定するプロセスである。DOA推定モジュール1040は、局所領域内の1つまたは複数の音源の位置を特定するためにDOA分析を実行する。DOA分析は、音がそこから発生した方向を決定するために、センサーアレイ1020における各音の強度、スペクトル、および/または到着時間を分析することを含み得る。場合によっては、DOA分析は、音声システム215がそれの中に位置する周囲音響環境を分析するための任意の好適なアルゴリズムを含み得る。
たとえば、DOA分析は、センサーアレイ1020からの入力信号を受信し、到来方向を推定するために入力信号にデジタル信号処理アルゴリズムを適用するように設計され得る。これらのアルゴリズムは、たとえば、入力信号がそこでサンプリングされる、遅延アルゴリズムおよび加算アルゴリズムを含み得、サンプリングされた信号の得られた加重バージョンおよび遅延バージョンは、DOAを決定するためにまとめて平均化される。最小2乗平均(LMS)アルゴリズムも、適応フィルタを作成するために実装され得る。この適応フィルタは、その場合、たとえば信号強度の差、または到着時間の差を識別するために使用され得る。これらの差は、次いで、DOAを推定するために使用され得る。別の実施形態では、DOAは、入力信号を周波数領域に変換し、処理すべき時間周波数(TF)領域内の特定のビンを選択することによって決定され得る。各選択されたTFビンは、そのビンが、直接経路音声信号をもつ音声スペクトルの一部分を含むかどうかを決定するために処理され得る。直接経路信号の一部分を有するビンは、次いで、センサーアレイ1020が直接経路音声信号を受信した際の角度を識別するために分析され得る。決定された角度は、次いで、受信された入力信号についてのDOAを識別するために使用され得る。上記に記載していない他のアルゴリズムも、DOAを決定するために、単独で、または上記のアルゴリズムと組み合わせて使用され得る。
いくつかの実施形態では、DOA推定モジュール1040はまた、局所領域内の音声システム215の絶対位置に対するDOAを決定し得る。センサーアレイ1020の位置は、外部システム(たとえば、ヘッドセットの何らかの他の構成要素、人工現実コンソール、マッピングサーバ、位置センサー(たとえば位置センサー190)など)から受信され得る。外部システムは、音声システム215の局所領域および位置がそれの中でマッピングされる、局所領域の仮想モデルを作成し得る。受信された位置情報は、(たとえばセンサーアレイ1020の)音声システム215の一部または全部のロケーションおよび/または方位を含み得る。DOA推定モジュール1040は、受信された位置情報に基づいて、推定されたDOAを更新し得る。
伝達関数モジュール1050は、1つまたは複数の音響伝達関数を生成するように構成される。一般に、伝達関数は、各可能な入力値についての対応する出力値を与える数学関数である。検出された音のパラメータに基づいて、伝達関数モジュール1050は、音声システムに関連付けられた1つまたは複数の音響伝達関数を生成する。音響伝達関数は、アレイ伝達関数(ATF)、頭部伝達関数(HRTF)、他のタイプの音響伝達関数、またはそれらの何らかの組合せであり得る。ATFは、マイクロフォンが空間中のポイントからの音をどのように受信するかを特徴づける。
ATFは、音音とセンサーアレイ1020中の音響センサーによって受信された対応する音との間の関係を特徴づけるいくつかの伝達関数を含む。したがって、1つの音源について、センサーアレイ1020中の音響センサーの各々についての対応する伝達関数がある。総じて、伝達関数のセットはATFと呼ばれる。したがって、各音源について、対応するATFがある。音源は、たとえば、局所領域中で音を発生する誰かまたは何か、ユーザ、またはトランスデューサアレイ1010のうちの1つもしくは複数のトランスデューサであり得ることに留意されたい。センサーアレイ1020に対する特定の音源ロケーションのためのATFは、音が人間の耳に向かって進行する際にその音に影響を及ぼす人間の解剖学的構造(たとえば、耳形状、肩など)により、ユーザごとに異なり得る。したがって、センサーアレイ1020のATFは、音声システム215の各ユーザについて個人化される。
いくつかの実施形態では、伝達関数モジュール1050は音声システム215のユーザのための1つまたは複数のHRTFを決定する。HRTFは、耳が空間中のポイントからの音をどのように受け取るかを特徴づける。人間に対する特定のソースロケーションのためのHRTFは、音が人間の耳に向かって進行する際にその音に影響を及ぼす人間の解剖学的構造(たとえば、耳形状、肩など)により、その人間の各耳に対して一意である(また、その人間に対して一意である)。いくつかの実施形態では、伝達関数モジュール1050は、較正プロセスを使用してユーザのためのHRTFを決定し得る。いくつかの実施形態では、伝達関数モジュール1050はユーザについての情報をリモートシステムに与え得る。リモートシステムは、たとえば、機械学習を使用してユーザに対してカスタマイズされたHRTFのセットを決定し、HRTFのカスタマイズされたセットを音声システム215に与える。
追跡モジュール1060は、1つまたは複数の音源のロケーションを追跡するように構成される。追跡モジュール1060は、現在のDOA推定値を比較し、それらを前のDOA推定値の記憶された履歴と比較し得る。いくつかの実施形態では、音声システム215は、1秒に1回、または1ミリ秒に1回など、周期的なスケジュールでDOA推定値を再計算し得る。追跡モジュールは現在のDOA推定値を前のDOA推定値と比較し得、音源についてのDOA推定値の変化に応答して、追跡モジュール1060は、音源が移動したことを決定し得る。いくつかの実施形態では、追跡モジュール1060は、ヘッドセットまたは何らかの他の外部ソースから受信された視覚情報に基づいてロケーションの変化を検出し得る。追跡モジュール1060は経時的な1つまたは複数の音源の動きを追跡し得る。追跡モジュール1060は、各時点における音源の数および各音源のロケーションについての値を記憶し得る。音源の数またはロケーションの値の変化に応答して、追跡モジュール1060は、音源が移動したことを決定し得る。追跡モジュール1060は位置特定分散の推定値を計算し得る。位置特定分散は動きの変化の各決定についての信頼水準として使用され得る。
ビームフォーミングモジュール1070は、他のエリアからの音をデエンファサイズしながら、あるエリア内の音源からの音を選択的にエンファサイズするために1つまたは複数のATFを処理するように構成される。センサーアレイ1020によって検出された音を分析する際に、ビームフォーミングモジュール1070は、局所領域の特定の領域の外側からのものである音をデエンファサイズしながら、その領域からの関連付けられた音をエンファサイズするために、異なる音響センサーからの情報を組み合わせ得る。ビームフォーミングモジュール1070は、たとえば、DOA推定モジュール1040および追跡モジュール1060からの異なるDOA推定値に基づいて、特定の音源からの音に関連付けられた音声信号を局所領域中の他の音源から分離し得る。ビームフォーミングモジュール1070は、このようにして、局所領域中の個別音源を選択的に分析し得る。いくつかの実施形態では、ビームフォーミングモジュール1070は音源からの信号を増強し得る。たとえば、ビームフォーミングモジュール1070は、一定の周波数を上回る信号、一定の周波数を下回る信号、または一定の周波数間の信号を消去する、音フィルタを適用し得る。信号増強は、センサーアレイ1020によって検出された他の音に対して、所与の識別された音源に関連付けられた音を増強するように作用する。
音フィルタモジュール1080は、トランスデューサアレイ1010のための等化フィルタなど、音フィルタを決定する。いくつかの実施形態では、音フィルタは、音声コンテンツがターゲット領域から発生するように思われるように、音声コンテンツを空間化させる。音フィルタモジュール1080は、音フィルタを生成するためにHRTFおよび/または音響パラメータを使用し得る。音響パラメータは局所領域の音響特性を記述する。音響パラメータは、たとえば、残響時間、残響レベル、室内インパルス応答などを含み得る。いくつかの実施形態では、音フィルタモジュール1080は音響パラメータのうちの1つまたは複数を計算する。いくつかの実施形態では、音フィルタモジュール1080は、(たとえば、図11に関して以下で説明するように)マッピングサーバに音響パラメータを要求する。ある実施形態では、音フィルタモジュール1080は、1つまたは複数の等化フィルタ、等化システム230からの個別化された等化フィルタを受信する。音フィルタモジュール1080は音フィルタ(たとえば個別化された等化フィルタ)をトランスデューサアレイ1010に与える。いくつかの実施形態では、音フィルタは、周波数に応じて音の正または負の増幅を生じさせ得る。
図11は、1つまたは複数の実施形態による、ヘッドセット1105を含むシステム1100である。いくつかの実施形態では、ヘッドセット1105は図1Aのヘッドセット100または図1Bのヘッドセット105であり得る。システム1100は、人工現実環境(たとえば、仮想現実環境、拡張現実環境、複合現実環境、またはそれらの何らかの組合せ)中で動作し得る。図11によって示されているシステム1100は、ヘッドセット1105と、コンソール1115に結合された入出力(I/O)インターフェース1110と、ネットワーク1120と、マッピングサーバ1125とを含む。図11は、1つのヘッドセット1105と1つのI/Oインターフェース1110とを含む例示的なシステム1100を示しているが、他の実施形態では、任意の数のこれらの構成要素がシステム1100中に含まれ得る。たとえば、それぞれ、関連付けられたI/Oインターフェース1110を有する複数のヘッドセットがあり得、各ヘッドセットおよびI/Oインターフェース1110はコンソール1115と通信している。代替構成では、異なる構成要素および/または追加の構成要素がシステム1100中に含まれ得る。さらに、図11に示された構成要素のうちの1つまたは複数に関して説明した機能は、いくつかの実施形態では、図11に関して説明した様式とは異なる様式で構成要素間に配分され得る。たとえば、コンソール1115の機能の一部または全部がヘッドセット1105によって与えられ得る。
ヘッドセット1105は、ディスプレイアセンブリ1130と、光学ブロック1135と、1つまたは複数の位置センサー1140と、DCA1145とを含む。ヘッドセット1105のいくつかの実施形態は、図11に関して説明した構成要素とは異なる構成要素を有する。さらに、図11に関して説明した様々な構成要素によって与えられる機能は、他の実施形態におけるヘッドセット1105の構成要素間に異なって配分されるか、またはヘッドセット1105から離れた別個のアセンブリ中に取り込まれ得る。
ディスプレイアセンブリ1130は、コンソール1115から受信されたデータに従って、ユーザにコンテンツを表示する。ディスプレイアセンブリ1130は、1つまたは複数の表示要素(たとえば表示要素120)を使用してコンテンツを表示する。表示要素は、たとえば電子ディスプレイであり得る。様々な実施形態では、ディスプレイアセンブリ1130は、単一のディスプレイ要素、または複数のディスプレイ要素(たとえば、ユーザの各目のためのディスプレイ)を含む。電子ディスプレイの例は、液晶ディスプレイ(LCD)、有機発光ダイオード(OLED)ディスプレイ、アクティブマトリックス有機発光ダイオードディスプレイ(AMOLED)、導波路ディスプレイ、何らかの他のディスプレイ、またはそれらの何らかの組合せを含む。いくつかの実施形態では、表示要素120は光学ブロック1135の機能の一部または全部をも含み得ることに留意されたい。
光学ブロック1135は、電子ディスプレイから受信された画像光を拡大し、画像光に関連する光学誤差を補正し、補正された画像光をヘッドセット1105の一方または両方のアイボックスに提示し得る。様々な実施形態では、光学ブロック1135は1つまたは複数の光学要素を含む。光学ブロック1135中に含まれる例示的な光学要素は、アパーチャ、フレネルレンズ、凸レンズ、凹レンズ、フィルタ、反射面、または画像光に影響を及ぼす任意の他の好適な光学要素を含む。その上、光学ブロック1135は異なる光学要素の組合せを含み得る。いくつかの実施形態では、光学ブロック1135中の光学要素のうちの1つまたは複数は、部分反射または反射防止コーティングなど、1つまたは複数のコーティングを有し得る。
光学ブロック1135による画像光の拡大および集束により、電子ディスプレイは、より大きいディスプレイよりも物理的に小さく、重量が軽く、消費する電力が少なくなることが可能になる。さらに、拡大により、電子ディスプレイによって提示されるコンテンツの視界が増加し得る。たとえば、表示されたコンテンツの視界は、表示されたコンテンツが、ユーザの視界のほとんど全部(たとえば対角約110度)、場合によっては全部を使用して提示されるようなものである。さらに、いくつかの実施形態では、拡大の量は、光学要素を追加または除去することによって調整され得る。
いくつかの実施形態では、光学ブロック1135は、1つまたは複数のタイプの光学誤差を補正するように設計され得る。光学誤差の例は、樽型歪みまたは糸巻き形歪み、縦色収差、または横色収差を含む。他のタイプの光学誤差は、球面収差、色収差、またはレンズ像面湾曲(field curvature)による誤差、非点収差、またはいずれかの他のタイプの光学誤差をさらに含み得る。いくつかの実施形態では、表示のために電子ディスプレイに与えられるコンテンツは予歪され、光学ブロック1135が、コンテンツに基づいて生成された電子ディスプレイからの画像光を受信したとき、光学ブロック1135はその歪みを補正する。
位置センサー1140は、ヘッドセット1105の位置を示すデータを生成する電子デバイスである。位置センサー1140は、ヘッドセット1105の動きに応答して1つまたは複数の測定信号を生成する。位置センサー190は位置センサー1140の一実施形態である。位置センサー1140の例は、1つまたは複数のIMU、1つまたは複数の加速度計、1つまたは複数のジャイロスコープ、1つまたは複数の磁力計、動きを検出する別の好適なタイプのセンサー、またはそれらの何らかの組合せを含む。位置センサー1140は、並進運動(前/後、上/下、左/右)を測定するための複数の加速度計と、回転運動(たとえば、ピッチ、ヨー、ロール)を測定するための複数のジャイロスコープとを含み得る。いくつかの実施形態では、IMUは、迅速に測定信号をサンプリングし、サンプリングされたデータからヘッドセット1105の推定位置を計算する。たとえば、IMUは、速度ベクトルを推定するために、加速度計から受信された測定信号を時間の経過につれて積分し、ヘッドセット1105上の基準点の推定位置を決定するために、速度ベクトルを時間の経過につれて積分する。基準点は、ヘッドセット1105の位置を記述するために使用され得る点である。基準点は、一般に、空間中の点として定義され得るが、しかしながら、実際には、基準点はヘッドセット1105内の点として定義される。
DCA1145は局所領域の一部分についての深度情報を生成する。DCAは、1つまたは複数の撮像デバイスと、DCAコントローラとを含む。DCA1145は照明器をも含み得る。DCA1145の動作および構造は図1Aに関して上記で説明した。
音声システム1150はヘッドセット1105のユーザに音声コンテンツを与える。音声システム1150は、上記で説明した音声システム215と実質的に同じである。音声システム1150は、1つまたは複数の音響センサーと、1つまたは複数のトランスデューサと、音声コントローラとを備え得る。ある実施形態では、音声システム1150は、等化システム230から1つまたは複数の等化フィルタを受信し、等化フィルタを1つまたは複数のトランスデューサに適用する。音声システム1150は、ユーザに空間化された音声コンテンツを与え得る。いくつかの実施形態では、音声システム1150は、ネットワーク1120を介してマッピングサーバ1125に音響パラメータを要求し得る。音響パラメータは、局所領域の1つまたは複数の音響特性(たとえば、室内インパルス応答、残響時間、残響レベルなど)を記述する。音声システム1150は、たとえば、DC1145からの局所領域の少なくとも一部分を記述する情報、および/または位置センサー1140からのヘッドセット1105についてのロケーション情報を与え得る。音声システム1150は、マッピングサーバ1125から受信された音響パラメータのうちの1つまたは複数を使用して1つまたは複数の音フィルタを生成し、ユーザに音声コンテンツを与えるために音フィルタを使用し得る。
I/Oインターフェース1110は、ユーザが、アクション要求を送り、コンソール1115からの応答を受信することを可能にするデバイスである。アクション要求は、特定のアクションを実行する要求である。たとえば、アクション要求は、画像もしくはビデオデータのキャプチャを開始もしくは終了するための命令、またはアプリケーション内で特定のアクションを実行するための命令であり得る。I/Oインターフェース1110は1つまたは複数の入力デバイスを含み得る。例示的な入力デバイスは、キーボード、マウス、ゲームコントローラ、または、アクション要求を受信し、そのアクション要求をコンソール1115に通信するための任意の他の好適なデバイスを含む。I/Oインターフェース1110によって受信されたアクション要求はコンソール1115に通信され、コンソール1115は、そのアクション要求に対応するアクションを実行する。いくつかの実施形態では、I/Oインターフェース1110は、I/Oインターフェース1110の初期位置に対するI/Oインターフェース1110の推定位置を示す較正データをキャプチャするIMUを含む。いくつかの実施形態では、I/Oインターフェース1110は、コンソール1115から受信された命令に従ってユーザに触覚フィードバックを与え得る。たとえば、触覚フィードバックは、アクション要求が受信されたときに与えられるか、または、コンソール1115は、コンソール1115がアクションを実行したときにI/Oインターフェース1110に触覚フィードバックを生成させる命令をI/Oインターフェース1110に通信する。
コンソール1115は、DCA1145、ヘッドセット1105、およびI/Oインターフェース1110のうちの1つまたは複数から受信された情報に従って処理するためのコンテンツをヘッドセット1105に与える。図11に示された例では、コンソール1115は、アプリケーションストア1155と、追跡モジュール1160と、エンジン1165とを含む。コンソール1115のいくつかの実施形態は、図11に関して説明したモジュールまたは構成要素とは異なるモジュールまたは構成要素を有する。同様に、以下でさらに説明する機能は、図11に関して説明した様式とは異なる様式でコンソール1115の構成要素間に配分され得る。いくつかの実施形態では、コンソール1115に関して本明細書で説明した機能はヘッドセット1105またはリモートシステムにおいて実装され得る。
アプリケーションストア1155は、コンソール1115による実行のための1つまたは複数のアプリケーションを記憶する。アプリケーションは、プロセッサによって実行されたとき、ユーザへの提示のためのコンテンツを生成する命令のグループである。アプリケーションによって生成されるコンテンツは、ヘッドセット1105またはI/Oインターフェース1110の動きを介してユーザから受信された入力に応答するものであり得る。アプリケーションの例は、ゲームアプリケーション、会議アプリケーション、ビデオ再生アプリケーション、または他の好適なアプリケーションを含む。
追跡モジュール1160は、DCA1145、1つまたは複数の位置センサー1140、またはそれらの何らかの組合せからの情報を使用して、ヘッドセット1105またはI/Oインターフェース1110の動きを追跡する。たとえば、追跡モジュール1160は、ヘッドセット1105からの情報に基づいて局所領域のマッピングにおけるヘッドセット1105の基準点の位置を決定する。追跡モジュール1160はまた、対象または仮想対象の位置を決定し得る。さらに、いくつかの実施形態では、追跡モジュール1160は、ヘッドセット1105の将来のロケーションを予測するために、位置センサー1140からのヘッドセット1105の位置を示すデータの部分、ならびにDCA1145からの局所領域の表現を使用し得る。追跡モジュール1160は、ヘッドセット1105またはI/Oインターフェース1110の推定または予測された将来の位置をエンジン1165に与える。
エンジン1165は、アプリケーションを実行し、追跡モジュール1160からのヘッドセット1105の位置情報、加速度情報、速度情報、予測される将来の位置、またはそれらの何らかの組合せを受信する。受信された情報に基づいて、エンジン1165は、ユーザへの提示のためにヘッドセット1105に与えるためのコンテンツを決定する。たとえば、受信された情報が、ユーザが左を向いたことを示す場合、エンジン1165は、仮想局所領域中または局所領域中のユーザの動きを反映するヘッドセット1105のためのコンテンツを生成し、それにより、追加のコンテンツを用いて局所領域を拡大する。さらに、エンジン1165は、I/Oインターフェース1110から受信されたアクション要求に応答して、コンソール1115上で実行しているアプリケーション内でアクションを実行し、そのアクションが実行されたというフィードバックをユーザに与える。与えられるフィードバックは、ヘッドセット1105を介した視覚または聴覚フィードバックであるか、またはI/Oインターフェース1110を介した触覚フィードバックであり得る。
ネットワーク1120はヘッドセット1105および/またはコンソール1115をマッピングサーバ1125に結合する。ネットワーク1120は、両方のワイヤレス通信システムおよび/またはワイヤード通信システムを使用するローカルエリアネットワークおよび/またはワイドエリアネットワークの任意の組合せを含み得る。たとえば、ネットワーク1120はインターネットならびに携帯電話ネットワークを含み得る。一実施形態では、ネットワーク1120は標準的な通信技術および/またはプロトコルを使用する。したがって、ネットワーク1120は、イーサネット、802.11、ワールドワイドインターオペラビリティフォーマイクロウェーブアクセス(WiMAX)、2G/3G/4Gモバイル通信プロトコル、デジタル加入者回線(DSL)、非同期転送モード(ATM)、InfiniBand、PCIエクスプレスアドバンストスイッチングなどの技術を使用するリンクを含み得る。同様に、ネットワーク1120上で使用されるネットワーキングプロトコルは、マルチプロトコルラベルスイッチング(MPLS)、伝送制御プロトコル/インターネットプロトコル(TCP/IP)、ユーザデータグラムプロトコル(UDP)、ハイパーテキストトランスポートプロトコル(HTTP)、簡易メール転送プロトコル(SMTP)、ファイル転送プロトコル(FTP)などを含むことができる。ネットワーク1120を介して交換されるデータは、バイナリ形式(たとえばポータブルネットワークグラフィックス(PNG))、ハイパーテキストマークアップ言語(HTML)、拡張可能マークアップ言語(XML)などでの画像データを含む、技術および/またはフォーマットを使用して表され得る。さらに、リンクの全部または一部は、セキュアソケットレイヤ(SSL)、トランスポートレイヤセキュリティ(TLS)、仮想プライベートネットワーク(VPN)、インターネットプロトコルセキュリティ(IPsec)など、従来の暗号化技術を使用して暗号化され得る。
マッピングサーバ1125は、複数の空間を記述する仮想モデルを記憶するデータベースを含み得、仮想モデル中の1つのロケーションがヘッドセット1105の局所領域の現在の構成に対応する。マッピングサーバ1125は、ネットワーク1120を介してヘッドセット1105から、局所領域の少なくとも一部分を記述する情報、および/または局所領域についてのロケーション情報を受信する。マッピングサーバ1125は、受信された情報および/またはロケーション情報に基づいて、ヘッドセット1105の局所領域に関連付けられた仮想モデル中のロケーションを決定する。マッピングサーバ1125は、仮想モデル中の決定されたロケーション、および決定されたロケーションに関連付けられた任意の音響パラメータに部分的に基づいて、局所領域に関連付けられる1つまたは複数の音響パラメータを決定する(たとえば取り出す)。マッピングサーバ1125は、局所領域のロケーションと、局所領域に関連付けられた音響パラメータの任意の値とをヘッドセット1105に送信し得る。
追加の構成情報
実施形態の上記説明は例示のために提示したが、実施形態の上記説明は、網羅的なものでも、特許権を開示されている厳密な形態に限定するものでもない。当業者は、上記の開示を検討して、多くの改変および変形が可能であることを諒解し得る。
この説明のいくつかの部分では、情報に対する動作のアルゴリズムと記号表現とに関して実施形態について説明した。これらのアルゴリズムの説明および表現は、データ処理分野における当業者の仕事の本質を他の当業者に効果的に伝達するために、それらの当業者によって共通に使用される。これらの動作は、機能的、計算的、または論理的に説明されているが、コンピュータプログラムまたは等価な電気回路、マイクロコードなどによって実装されることが理解される。さらに、一般性の喪失なしに、動作のこれらの構成をモジュールと呼ぶことが時々便利であることも証明されている。説明した動作およびそれらの関連するモジュールは、ソフトウェア、ファームウェア、ハードウェア、またはそれらの任意の組合せにおいて実施され得る。
本明細書で説明したステップ、動作、またはプロセスのいずれも、1つまたは複数のハードウェアまたはソフトウェアモジュールを用いて、単独で、または他のデバイスと組み合わせて実行または実装され得る。一実施形態では、ソフトウェアモジュールは、いずれかまたはすべての説明したステップ、動作、またはプロセスを実行するためにコンピュータプロセッサによって実行され得る、コンピュータプログラムコードを含んでいるコンピュータ可読媒体を含むコンピュータプログラム製品を用いて実装される。
実施形態はまた、本明細書中の動作を実行するための装置に関し得る。この装置は、必要とされる目的のために特別に構築され得、および/または、この装置は、コンピュータ中に記憶されたコンピュータプログラムによって選択的にアクティブ化または再構成される汎用計算デバイスを備え得る。そのようなコンピュータプログラムは、コンピュータシステムバスに結合され得る、非一時的有形コンピュータ可読記憶媒体、または電子命令を記憶するために好適な任意のタイプの媒体に記憶され得る。さらに、本明細書中で言及したいずれの計算システムも、単一のプロセッサを含み得るか、または、計算能力の向上のために複数のプロセッサ設計を採用するアーキテクチャであり得る。
実施形態はまた、本明細書で説明した計算プロセスによって生成される生成物に関し得る。そのような生成物は、計算プロセスから得られる情報を含み得、その情報は非一時的有形コンピュータ可読記憶媒体上に記憶され、本明細書で説明したコンピュータプログラム製品または他のデータ組合せの任意の実施形態を含み得る。
最後に、本明細書で使用した文言は、主に、読みやすさおよび教示目的のために選択されており、文言は、特許権を詳述または限定するためには選択されていないことがある。したがって、特許権の範囲は、この発明を実施するための形態によってではなく、むしろ、本明細書に基づく出願時に発行されるいずれかの請求項によって限定されることが意図される。したがって、実施形態の開示は、以下の特許請求の範囲に記載されている特許権の範囲を例示するものであるが、限定するものではない。

Claims (15)

  1. ユーザの耳を含む1つまたは複数の画像を受信することと、
    前記1つまたは複数の画像から前記ユーザの前記耳の1つまたは複数の特徴を識別することと、
    前記識別された1つまたは複数の特徴に基づいて、前記ユーザの前記耳の前記1つまたは複数の特徴を、前記ユーザの前記耳における音声出力を予測するように構成されたモデルに与えることと、
    前記ユーザの前記耳における前記音声出力に基づいて等化フィルタを生成することであって、前記等化フィルタが、前記ユーザに与えられる音声コンテンツの1つまたは複数の音響パラメータを調整するように構成された、等化フィルタを生成することと
    を含む方法。
  2. 前記生成された等化フィルタを、前記ユーザに音声コンテンツを与えるときに前記等化フィルタを使用するように構成されたヘッドセットに与えること
    をさらに含む、請求項1に記載の方法。
  3. 前記等化フィルタが、前記ユーザに与えられる音声コンテンツに適用されたとき、前記ユーザの前記耳における前記予測された音声出力に基づいて前記ユーザのための前記音声コンテンツの1つまたは複数の音響パラメータを調整する、請求項1または請求項2に記載の方法。
  4. 前記ユーザのユーザプロファイルに関連する記憶のためのオンラインシステムに前記等化フィルタを与えることであって、前記等化フィルタが、前記ユーザにコンテンツを与える際に使用するための前記ユーザプロファイルへのアクセスを有する前記ユーザに関連付けられた1つまたは複数のヘッドセットによって取出し可能である、前記等化フィルタを与えること
    をさらに含む、請求項1から3のいずれか一項に記載の方法。
  5. 複数のラベリングされた画像を使用して前記モデルをトレーニングすることであって、前記ラベリングされた画像がそれぞれ追加のユーザの耳の特徴を識別し、前記耳における前記音声出力が前記追加のユーザにとって既知である、前記モデルをトレーニングすること
    をさらに含む、請求項1から4のいずれか一項に記載の方法。
  6. 前記1つまたは複数の画像中の前記ユーザがヘッドセットを着用しており、前記1つまたは複数の特徴が、前記ユーザの前記耳に対する前記ヘッドセットの位置に少なくとも部分的に基づいて識別され、好ましくは、前記ヘッドセットが、眼鏡本体にそれぞれ結合した2つのアームをもつ眼鏡フレームを含み、前記1つまたは複数の画像が、複数のトランスデューサのうちの1つのトランスデューサを含む前記2つのアームのうちの1つの少なくとも一部分を含み、かつ/または、好ましくは、前記モデルが、前記ユーザの前記耳に対する前記複数のトランスデューサのうちの前記トランスデューサの位置に少なくとも部分的に基づいて音声出力応答を決定するように構成された、請求項1から5のいずれか一項に記載の方法。
  7. 前記1つまたは複数の画像が、深度カメラアセンブリを使用してキャプチャされた深度画像である、請求項1から6のいずれか一項に記載の方法。
  8. 前記識別された1つまたは複数の特徴が、前記ユーザの前記耳の寸法または前記ユーザの前記耳の形状を記述する人体測定的特徴である、請求項1から7のいずれか一項に記載の方法。
  9. 前記ユーザの前記耳における前記決定された音声出力を前記ユーザの前記耳における測定された音声出力と比較することと、
    前記比較に基づいて前記モデルを更新することと
    をさらに含み、好ましくは、前記測定された音声出力応答が、
    ヘッドセットを介して前記ユーザに音声コンテンツを与えることと、
    前記ユーザの前記耳の近くに配置された1つまたは複数のマイクロフォンを使用して前記ユーザの前記耳における前記音声出力を分析することと
    によって測定される、
    請求項1から8のいずれか一項に記載の方法。
  10. 命令を記憶した非一時的コンピュータ可読記憶媒体であって、前記命令が、プロセッサによって実行されたとき、前記プロセッサに、
    ユーザの耳を含む1つまたは複数の画像を受信するステップと、
    前記1つまたは複数の画像に基づいて前記ユーザの前記耳の1つまたは複数の特徴を識別するステップと、
    前記識別された1つまたは複数の特徴に基づいて、前記1つまたは複数の特徴を、前記ユーザの前記耳における音声出力を決定するように構成されたモデルに与えるステップと、
    前記ユーザの前記耳における前記音声出力に基づいて等化フィルタを生成することであって、前記等化フィルタが、前記ユーザに与えられる音声コンテンツの1つまたは複数の音響パラメータを調整するように構成された、等化フィルタを生成するステップと
    を含むステップを実行させる、非一時的コンピュータ可読記憶媒体。
  11. 前記命令が、プロセッサによって実行されたとき、前記プロセッサに、
    複数のラベリングされた画像を使用して前記モデルをトレーニングすることであって、前記ラベリングされた画像がそれぞれ追加のユーザの耳の特徴を識別し、音声出力応答が前記追加のユーザにとって既知である、前記モデルをトレーニングするステップを含むステップをさらに実行させる、請求項10に記載の非一時的コンピュータ可読記憶媒体。
  12. 前記等化フィルタが、前記ユーザに与えられる音声コンテンツに適用されたとき、前記ユーザの前記耳における予測された音声出力に基づいて前記ユーザのための前記音声コンテンツの1つまたは複数の音響パラメータを調整し、かつ/または、好ましくは、前記1つまたは複数の画像が、深度カメラアセンブリを使用してキャプチャされた深度画像である、請求項10または請求項11に記載の非一時的コンピュータ可読記憶媒体。
  13. 前記1つまたは複数の画像中の前記ユーザがヘッドセットを着用しており、前記1つまたは複数の特徴が、前記ユーザの前記耳に対する前記ヘッドセットの位置に少なくとも部分的に基づいて識別される、請求項10から12のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
  14. 前記識別された1つまたは複数の特徴が、前記ユーザの前記耳の寸法または前記ユーザの前記耳の形状を記述する人体測定的特徴である、請求項13に記載の非一時的コンピュータ可読記憶媒体。
  15. 前記ヘッドセットが、眼鏡本体にそれぞれ結合した2つのアームをもつ眼鏡フレームを含み、前記1つまたは複数の画像が、複数のトランスデューサのうちの1つのトランスデューサを含む前記2つのアームのうちの1つの少なくとも一部分を含み、好ましくは、前記モデルが、前記ユーザの前記耳に対する前記複数のトランスデューサのうちの前記トランスデューサの位置に少なくとも部分的に基づいて前記ユーザの前記耳における前記音声出力を決定するように構成された、請求項13または請求項14に記載の非一時的コンピュータ可読記憶媒体。
JP2022500134A 2019-09-04 2020-08-15 ユーザの耳の識別された特徴を使用した音声出力の個人化された等化 Pending JP2022546176A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/560,894 US10823960B1 (en) 2019-09-04 2019-09-04 Personalized equalization of audio output using machine learning
US16/560,894 2019-09-04
PCT/US2020/046575 WO2021045892A1 (en) 2019-09-04 2020-08-15 Personalized equalization of audio output using identified features of an ear of the user

Publications (1)

Publication Number Publication Date
JP2022546176A true JP2022546176A (ja) 2022-11-04

Family

ID=72243269

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022500134A Pending JP2022546176A (ja) 2019-09-04 2020-08-15 ユーザの耳の識別された特徴を使用した音声出力の個人化された等化

Country Status (6)

Country Link
US (1) US10823960B1 (ja)
EP (1) EP4026350A1 (ja)
JP (1) JP2022546176A (ja)
KR (1) KR20220060535A (ja)
CN (1) CN114303388A (ja)
WO (1) WO2021045892A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021216050A1 (en) * 2020-04-21 2021-10-28 Hewlett-Packard Development Company, L.P. Audio output adjustment

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012028906A1 (en) * 2010-09-03 2012-03-08 Sony Ericsson Mobile Communications Ab Determining individualized head-related transfer functions
WO2016089133A1 (ko) * 2014-12-04 2016-06-09 가우디오디오랩 주식회사 개인 특징을 반영한 바이노럴 오디오 신호 처리 방법 및 장치
US9544706B1 (en) * 2015-03-23 2017-01-10 Amazon Technologies, Inc. Customized head-related transfer functions
US10038966B1 (en) * 2016-10-20 2018-07-31 Oculus Vr, Llc Head-related transfer function (HRTF) personalization based on captured images of user
US10917735B2 (en) * 2018-05-11 2021-02-09 Facebook Technologies, Llc Head-related transfer function personalization using simulation

Also Published As

Publication number Publication date
KR20220060535A (ko) 2022-05-11
CN114303388A (zh) 2022-04-08
WO2021045892A1 (en) 2021-03-11
US10823960B1 (en) 2020-11-03
EP4026350A1 (en) 2022-07-13

Similar Documents

Publication Publication Date Title
US10880667B1 (en) Personalized equalization of audio output using 3D reconstruction of an ear of a user
US11622223B2 (en) Dynamic customization of head related transfer functions for presentation of audio content
US11523240B2 (en) Selecting spatial locations for audio personalization
CN113366863B (zh) 补偿头戴式装置对头部相关传递函数的影响
US11246002B1 (en) Determination of composite acoustic parameter value for presentation of audio content
JP2022546161A (ja) 個別化された空間オーディオを作り出すためにビームフォーミングを介して耳殻情報を推論すること
US10823960B1 (en) Personalized equalization of audio output using machine learning
US11445318B2 (en) Head-related transfer function determination using cartilage conduction
US11671756B2 (en) Audio source localization
US11171621B2 (en) Personalized equalization of audio output based on ambient noise detection
US10976543B1 (en) Personalized equalization of audio output using visual markers for scale and orientation disambiguation
US20220322028A1 (en) Head-related transfer function determination using reflected ultrasonic signal

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230721