CN113825055A - 空间音频应用中的头部姿态跟踪的头部到头戴式受话器旋转变换估计 - Google Patents
空间音频应用中的头部姿态跟踪的头部到头戴式受话器旋转变换估计 Download PDFInfo
- Publication number
- CN113825055A CN113825055A CN202110679631.0A CN202110679631A CN113825055A CN 113825055 A CN113825055 A CN 113825055A CN 202110679631 A CN202110679631 A CN 202110679631A CN 113825055 A CN113825055 A CN 113825055A
- Authority
- CN
- China
- Prior art keywords
- coordinate system
- source device
- estimating
- camera
- headphone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000033001 locomotion Effects 0.000 claims abstract description 54
- 230000009466 transformation Effects 0.000 claims abstract description 50
- 230000005484 gravity Effects 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000009877 rendering Methods 0.000 claims abstract description 7
- 239000013598 vector Substances 0.000 claims description 61
- 238000005259 measurement Methods 0.000 claims description 58
- 230000001815 facial effect Effects 0.000 claims description 16
- 230000000007 visual effect Effects 0.000 claims description 16
- 230000003068 static effect Effects 0.000 claims description 14
- 230000006854 communication Effects 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 12
- 230000007704 transition Effects 0.000 claims description 5
- 210000003128 head Anatomy 0.000 description 43
- 230000001133 acceleration Effects 0.000 description 30
- 238000012937 correction Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 17
- 230000006870 function Effects 0.000 description 14
- 239000011159 matrix material Substances 0.000 description 13
- 238000012545 processing Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 9
- 230000002093 peripheral effect Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000002596 correlated effect Effects 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000009795 derivation Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 229910000831 Steel Inorganic materials 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003825 pressing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 239000010959 steel Substances 0.000 description 2
- 238000000844 transformation Methods 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 210000000883 ear external Anatomy 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001012 protector Effects 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/10—Earpieces; Attachments therefor ; Earphones; Monophonic headphones
- H04R1/1008—Earpieces of the supra-aural or circum-aural type
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01C—MEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
- G01C21/00—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
- G01C21/10—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration
- G01C21/12—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning
- G01C21/16—Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 by using measurements of speed or acceleration executed aboard the object being navigated; Dead reckoning by integrating acceleration or speed, i.e. inertial navigation
- G01C21/18—Stabilised platforms, e.g. by gyroscope
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/0346—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/02—Constructional features of telephone sets
- H04M1/04—Supports for telephone transmitters or receivers
- H04M1/05—Supports for telephone transmitters or receivers specially adapted for use on head, throat or breast
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/033—Headphones for stereophonic communication
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
- H04S3/004—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/10—Details of earpieces, attachments therefor, earphones or monophonic headphones covered by H04R1/10 but not provided for in any of its subgroups
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Automation & Control Theory (AREA)
- Otolaryngology (AREA)
- User Interface Of Digital Computer (AREA)
- Stereophonic System (AREA)
Abstract
本公开涉及空间音频应用中的头部姿态跟踪的头部到头戴式受话器旋转变换估计。在实施方案中,方法包括:估计源设备的源设备参考坐标系中的第一重力方向;估计头戴式受话器的头戴式受话器参考坐标系中的第二重力方向;使用估计的第一重力方向和第二重力方向估计从该头戴式受话器坐标系到面部参考坐标系的旋转变换、从相机参考坐标系到该源设备参考坐标系的旋转变换以及从该面部参考坐标系到该相机参考坐标系的旋转变换;使用源设备运动数据、头戴式受话器运动数据和从该头戴式受话器坐标系到该面部参考坐标系的旋转变换估计相对位置和姿态;使用该相对位置和姿态估计头部姿态;以及使用估计的头部姿态渲染空间音频以在该头戴式受话器上回放。
Description
技术领域
本公开整体涉及空间音频应用。
背景技术
空间音频创建了三维(3D)虚拟听觉空间,该三维虚拟听觉空间允许佩戴头戴式受话器的用户在观看电影、玩视频游戏或与源设备(例如,计算机屏幕)上显示的增强现实(AR)内容交互的同时,精确定位声源位于3D虚拟听觉空间中的位置。现有空间音频平台包括头部姿态跟踪器,该头部姿态跟踪器使用摄像机来跟踪用户的头部姿态。如果源设备是移动设备(例如,智能电话、平板电脑),则源设备和头戴式受话器相对于彼此自由移动,这可能不利地影响用户对3D空间音频的感知。
发明内容
本发明公开了用于在空间音频应用中估计用于头部姿态跟踪的头部到头戴式受话器旋转变换的实施方案。在一个实施方案中,一种方法包括:估计用于源设备的源设备参考坐标系中的第一重力方向;估计用于头戴式受话器的头戴式受话器参考坐标系中的第二重力方向;使用所估计的第一重力方向和所估计的第二重力方向来估计从该头戴式受话器坐标系到面部参考坐标系的旋转变换、从相机参考坐标系到该源设备参考坐标系的旋转变换,以及从该面部参考坐标系到该相机参考坐标系的旋转变换;使用源设备运动数据、头戴式受话器运动数据和从该头戴式受话器坐标系到该面部参考坐标系的旋转变换来估计相对位置和姿态;
使用该相对位置和姿态来估计头部姿态;以及使用所估计的头部姿态来渲染空间音频以用于在该头戴式受话器上回放。
其他实施方案可以包括装置、计算设备和非暂态计算机可读存储介质。
本文所公开的特定实施方案提供了下列优点中的一个或多个优点。用户可在佩戴其头戴式受话器时在其头部上的不同位置处(诸如向前或向后倾斜)感知空间音频。
在以下附图和描述中阐述了该主题的一个或多个具体实施的细节。根据说明书、附图及权利要求,本主题的其他特征、方面和优点将变得显而易见。
附图说明
图1示出了根据一个实施方案的示例性用户姿势变化场景。
图2示出了根据一个实施方案的居中且惯性稳定的3D虚拟听觉空间。
图3示出了根据一个实施方案的用于估计头部到头戴式受话器旋转变换听觉空间的几何形状。
图4是根据一个实施方案的用于估计头部到头戴式受话器旋转变换的系统的框图。
图5是根据一个实施方案的估计头部到头戴式受话器旋转变换的过程的流程图。
图6是实现参考图1至图5描述的特征和操作的源设备软件/硬件架构的概念框图。
图7是实现参考图1至图5所述的特征和操作的头戴式受话器软件/硬件架构的概念框图。
图8示出了根据一个实施方案的用于相对姿态跟踪的各种参考坐标系和符号。
图9示出了根据一个实施方案的在头部跟踪中使用的相对运动模型的几何形状。
具体实施方式
示例性系统
图1是示出根据一个实施方案的使用相关运动来选择运动跟踪状态的概念图。在所示的示例性场景中,用户正在查看在源设备101上显示的音频/视觉(AV)内容,同时佩戴有线或无线耦接到源设备101的头戴式受话器102。
源设备103包括能够播放AV内容并且可以有线或无线耦接到头戴式受话器102的任何设备,包括但不限于智能电话、平板电脑、膝上型计算机、可穿戴计算机、游戏机、电视等。在一个实施方案中,源设备101包括参考图6所述的架构600。架构600包括惯性测量单元(IMU)607,该惯性测量单元包括各种运动传感器,包括但不限于角速率传感器(例如,三轴MEMS陀螺仪)和加速度计(例如,三轴MEMS加速度计)。当移动或旋转源设备103时,运动传感器检测运动。IMU 607的输出在惯性参考坐标系中被处理成旋转和加速度数据。在一个实施方案中,源设备101输出AV内容,包括但不限于增强现实(AR)、虚拟现实(VR)和沉浸式视频内容。源设备101还包括模拟人类用于定位声音的主音频提示的音频渲染引擎(例如,双耳渲染引擎),包括耳间时间差、耳间水平差和由外耳完成的频谱滤波。
头戴式受话器102是包括用于投影声学音频的扬声器的任何设备,包括但不限于:头戴式受话器、耳塞、耳机和扬声器(例如,智能扬声器)。在一个实施方案中,头戴式受话器102包括参考图7所述的架构700。该架构包括IMU 711,该IMU包括各种运动传感器,包括但不限于角速率传感器(例如,三轴MEMS陀螺仪)和加速度计(例如,三轴MEMS加速度计)。当用户101平移或旋转其头部时,IMU 711中的运动传感器检测运动。头戴式受话器运动传感器的输出在与由源设备101的IMU 607输出的旋转和加速度相同的惯性参考坐标系中被处理成旋转和加速度数据。
在一个实施方案中,头戴式受话器运动数据通过短程无线通信信道(例如,蓝牙信道)传输到源设备101。在源设备101处,相关性运动检测器101确定头戴式受话器运动数据与源设备运动数据之间的类似性(例如,类似的姿态和重力特征)。如果头戴式受话器数据和源设备运动数据被确定为不相关,则头部跟踪器转变到1-IMU跟踪状态104,其中头部跟踪仅使用头戴式受话器运动数据来执行。如果确定头戴式受话器运动数据和源设备运动数据相关,则头部跟踪器转变到2-IMU融合跟踪状态105,其中使用从头戴式受话器运动数据和源设备运动数据计算的相对运动数据来执行头部跟踪。在2-IMU融合跟踪状态105中,使用相对运动模型来计算相对位置和相对姿态,如在本文所附附录A中所述。头部跟踪器使用所估计的相对运动(视轴矢量)来跟踪用户的头部姿态并保持空间音频相对于所估计的重力方向居中且稳定。每当相对运动改变时,视轴矢量估计被更新,并且因此可能导致虚拟听觉空间变得不居中。由于所估计的视轴矢量受到漂移误差的影响,因此需要周期性地或响应于触发事件(例如,大的用户姿势变化)来校正视轴矢量,如附录A所述。
图2示出了根据一个实施方案的居中且惯性稳定的3D虚拟听觉空间200。虚拟听觉空间200包括使用已知的空间音频技术诸如双耳渲染在环境床202中渲染的虚拟声源或“虚拟扬声器”(例如,中央(C)、左(L)、右(R)、左环绕(L-S)和右环绕(R-S))。为了保持期望的3D空间音频效果,期望中央声道(C)与视轴矢量203对准。视轴矢量203源自头戴式受话器参考坐标系并终止于源设备参考坐标系。当首次初始化虚拟听觉环境时,通过旋转用于环境床202的参考坐标系(XA,YA,ZA)以使中央声道与视轴矢量203对准来使中央通道与视轴矢量203对准,如图2所示。
当空间音频居中时,用户将来自中央声道的音频(例如,语音对话)感知为直接来自源设备101的显示器。使用扩展卡尔曼滤波器(EKF)跟踪系统,通过跟踪视轴矢量203从头部参考坐标系到源设备101的位置来实现居中,如附录A所述。估计视轴矢量203仅确定中央声道的位置。第二跟踪器获取所估计的视轴矢量203作为输入并提供环境床202的输出取向,该输出取向确定除了中央声道之外的用户周围的L/L-S和R/R-S环绕声道的位置。将环境床202的中央声道与视轴矢量203对准允许渲染源设备101的所估计位置处的中央声道以供用户感知。
如果视轴矢量203不在源设备101上居中(例如,由于跟踪误差),则对准环境床202的中央声道将不使音频“居中”,因为中央声道将仍然呈现在源设备101的错误估计位置处。需注意,每当用户的头部相对于源设备101旋转时,诸如当源设备101在用户前方静止并且用户的头部旋转时,视轴矢量203改变。在这种情况下,随着头部旋转,准确地跟踪用户头部的运动,使得即使当视轴矢量203改变时,音频也保持居中在源设备101的所估计位置上,因为EKF提供了对真实视轴矢量203如何改变的准确跟踪。还需注意,当所估计的视轴矢量203不是源设备101的真实位置时,由于跟踪误差(其可来自随时间的漂移,诸如来自陀螺仪偏置等的IMU传播误差,或其他误差源),空间音频变得不居中。在一个实施方案中,当用户静止或检测到复杂过渡时,使用泄放至零(BTZ)过程来校正跟踪误差,如附录A中所述。
需注意,图2所示的环境床202用于5.1音频格式,其中所有音频声道均位于环境床202的XAYA平面中(ZA=0),其中XA向前朝向中央声道,YA向右并且ZA向下。其他实施方案可具有更多或更少的音频声道,并且这些音频声道可任意地在任何平面中放置在3D虚拟听觉空间中的不同位置处。
图3示出了根据一个实施方案的用于估计头部到头戴式受话器旋转变换的几何结构。示出了三个参考坐标系:源设备IMU参考坐标系301(s)、面部参考坐标系302(f)和头戴式受话器参考坐标系303(b)。期望估计从面部坐标系到头戴式受话器坐标系的旋转变换,由Rb←f给出。假设面部参考坐标系与头部参考坐标系对准,其中原点位于用户头部的中央,X轴朝向用户的鼻部,Y轴朝向用户的右耳,并且Z轴朝向用户的下巴,如图2所示。
图4是根据一个实施方案的用于估计面部到头戴式受话器旋转变换的系统400的框图。系统400包括头部到头戴式受话器变换估计器401和头部跟踪融合模型402。变换估计器401接收来自IMU 607的源设备运动数据、来自面部检测器的相机面部姿态测量结果和来自IMU 711的头戴式受话器运动数据作为输入。在假设源设备101是静态的情况下,估计问题被视为手眼校准问题,其中由在两个不同时间t0和t1捕获的两个不同头部姿态生成的来自头戴式受话器IMU 711的Δ相机面部姿态测量结果和Δ(六轴)姿态之间的对应关系由下式给出:
ΔRf←cRf←b=Rf←bΔRi←b, [3]
其中
上面的公式[1]-[3]给出了规范的手眼校准形式AX=XB,其中X可用各种方法估计。
然而,上述方法要求在校准阶段期间,当用户在相机视图中移动头部时,源设备保持静止。为了避免这种情况,可利用源设备IMU数据,这将允许至少在尖端倾斜方向上利用相机进行Rf←b的估计,而无需用户移动。当源设备或头戴式受话器中的任一者或两者移动时,可估计更多角度。例如,关于两个IMU的重力估计可用于估计中。旋转变换Rf←b的估计可使用以四元数qf←b为状态的扩展卡尔曼滤波器来计算,并且测量结果更新由下式给出:
其中和分别是源设备坐标系和头戴式受话器坐标系中的重力矢量,并且在静态条件下可观察到,并且Rs←c和Rc←f分别是从相机坐标系到源坐标系的转换和从面部坐标系到相机坐标系的转换。另选地,可使用来自源设备和头戴式受话器IMU的六轴Δ测量的重力估计。测量结果更新和卡尔曼矩阵在附录A中更完整地描述。在使用公式[4]估计了旋转变换Rf←b之后,将其输入头部跟踪融合模型402中以估计视轴,如参考图2所述。
图5是估计头部到头戴式受话器旋转变换的过程500的流程图。过程500可使用例如图6所示的源设备架构来实现。
过程500开始于估计源设备参考坐标系中的第一重力方向(501),估计头戴式受话器参考坐标系中的第二重力方向(502),使用所估计的第一重力方向和所估计的第二重力方向来估计从头戴式受话器坐标系到面部参考坐标系的旋转变换、从相机参考坐标系到源设备参考坐标系的旋转变换,以及从面部参考坐标系到相机参考坐标系的旋转变换(503),使用源设备运动数据、头戴式受话器运动数据和从头戴式受话器坐标系到面部参考坐标系的旋转变换来估计视轴矢量(504),使用所估计的视轴矢量来估计用户的头部姿态(505),以及使用所估计的头部姿态来渲染空间音频以用于在头戴式受话器上回放(506)。
示例性软件/硬件架构
图6是实现参考图1至图5描述的特征和操作的源设备软件/硬件架构600的概念框图。架构600可包括存储器接口621、一个或多个数据处理器、数字信号处理器(DSP)、图像处理器和/或中央处理单元(CPU)622以及外围设备接口620。存储器接口621、一个或多个处理器622和/或外围设备接口620可为独立部件,或者可集成到一个或多个集成电路中。
可将传感器、设备和子系统耦接到外围设备接口620以提供多个功能。例如,IMU607、光传感器608和接近传感器609可以耦接到外围设备接口620,以促进可穿戴式计算机的运动感测(例如,加速、旋转速率)、照明和接近功能。可将位置处理器610连接到外围设备接口620以提供地理定位。在一些具体实施中,位置处理器610可以是GNSS接收器,诸如全球定位系统(GPS)接收器。也可将电子磁力计611(如集成电路芯片)连接到外围设备接口620以提供可用于确定磁北方向的数据。电子磁力计611可以向电子罗盘应用程序提供数据。IMU 607可包括被配置为确定源设备的速度和移动方向的变化的一个或多个加速度计和/或陀螺仪(例如,三轴MEMS加速度计和三轴MEMS陀螺仪)。气压计606可以被配置为测量移动设备周围的大气压力。
相机/3D深度传感器602捕获数字图像和视频,并且可包括前向相机和后向相机两者。3D深度传感器可以是能够捕获3D数据或点云的任何传感器,诸如飞行时间(TOF)传感器或LiDAR。
可通过无线通信子系统612来促进通信功能,这些无线通信子系统可包括射频(RF)接收器和发射器(或收发器)和/或光学(例如,红外)接收器和发射器。无线通信子系统612的具体设计与实现可取决于移动设备打算通过其操作的通信网络。例如,架构600可包括设计用于通过GSM网络、GPRS网络、EDGE网络、Wi-FiTM网络以及BluetoothTM网络操作的通信子系统612。具体地讲,无线通信子系统612可包括主机协议,使得移动设备可被配置为其他无线设备的基站。
可将音频子系统605耦接到扬声器603和一个或多个麦克风604以促进支持语音的功能,诸如语音识别、语音复制、数字记录和电话功能。音频子系统605可以被配置为从用户处接收语音命令。
I/O子系统613可包括触摸表面控制器617和/或其他输入控制器615。可以将触摸表面控制器617耦接到触摸表面618。触摸表面618和触摸表面控制器617例如能够利用多种触敏技术中的任一个检测接触和运动或其中断,触敏技术包括但不限于电容性、电阻性、红外和表面声波技术,以及用于确定与接触表面646接触的一个或多个点的其他接近传感器阵列或其他元件。触摸表面618可包括例如触摸屏或智能手表的数字表冠。I/O子系统613可以包括触觉引擎或设备,以用于响应于来自处理器或数字信号处理器(DSP)622的命令而提供触觉反馈(例如,振动)。在一个实施方案中,触摸表面618可以是压敏表面。
可将其他输入控制器615耦接到其他输入/控制设备616,诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口和USB端口。该一个或多个按钮(未示出)可包括用于扬声器603和/或麦克风604的音量控制的增大/减小按钮。触摸表面618或其他输入控制设备616(例如,按钮)可以包括或耦接到指纹识别电路,以与指纹认证应用程序一起使用,从而基于用户的指纹来认证用户。
在一个具体实施中,将按钮按下第一持续时间可以解开触摸表面618的锁定;并且将按钮按下持续比第一持续时间长的第二持续时间可打开或关闭移动设备的电源。用户能够对一个或多个按钮的功能进行自定义。例如,还可以使用触摸表面618实现虚拟或软按钮。
在一些具体实施中,计算设备可呈现记录的音频文件和/或视频文件,诸如MP3、AAC和MPEG文件。在一些具体实施中,移动设备可包括MP3播放器的功能。也可使用其他输入/输出以及控制设备。
存储器接口621可以耦接到存储器623。存储器623可包括高速随机存取存储器和/或非易失性存储器,诸如一个或多个磁盘存储设备、一个或多个光学存储设备和/或闪存存储器(例如,NAND、NOR)。存储器623可以存储操作系统624,诸如由加利福尼亚州库比蒂诺的Apple公司开发的iOS操作系统。操作系统624可包括用于处理基础系统服务以及用于执行硬件相关任务的指令。在一些具体实施中,操作系统624可以包括内核(如UNIX内核)。
存储器623还可以存储通信指令625,以促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信诸如,例如,用于实现与其他设备的有线或无线通信的软件栈的指令。存储器623可以包括图形用户界面指令626,以方便图形用户界面处理;促进与传感器相关的处理及功能的传感器处理指令627;促进与电话相关的过程及功能的电话指令628;促进与电子消息处理相关的过程及功能的电子消息处理指令629;促进与网页浏览相关的过程及功能的网页浏览指令630;促进与媒体处理相关的过程及功能的媒体处理指令631;促进通用GNSS和与定位有关的进程的GNSS/位置指令632;以及用于捕获图像(例如,视频、静止图像)和深度数据(例如,点云)的相机/3D深度传感器指令633。存储器623还包括用于空间音频应用(包括但不限于AR和沉浸式视频应用)的空间音频指令634。
上面所识别的指令和应用程序中的每一者可对应于用于执行上述一个或多个功能的指令集。这些指令不需要作为独立软件程序、进程或模块来实现。存储器623可包括附加的指令或更少的指令。此外,可在硬件和/或软件中,包括在一个或多个信号处理和/或专用集成电路中,执行移动设备的各种功能。
图7是实现参考图1至图5所述的特征和操作的头戴式受话器软件/硬件架构700的概念框图。在一个实施方案中,架构700可以包括片上系统(SoC)701、立体声扬声器702a、702b(例如,耳塞、听筒、耳机)、电池保护器703、可充电电池704、天线705、滤波器706、LED707、麦克风708、存储器709(例如,闪存存储器)、I/O/充电端口710、IMU 711和用于打开和关闭头戴式受话器、调节音量、静音的按钮712等。先前参考图1至图5描述了IMU 711,并且包括例如三轴MEMS陀螺仪和三轴MEMS加速度计。
SoC 701还包括各种模块,诸如用于与其他设备诸如源设备103进行无线双向通信的射频(RF)无线电(无线收发器),如参考图1至图5所述。SoC 701还包括用于运行特定应用的应用处理器(AP)、存储器(例如,闪存存储器)、用于管理头戴式受话器的各种功能的中央处理单元(CPU)、用于编码/解码音频的音频编解码器,用于对可再充电电池704进行充电/再充电的电池充电器、用于驱动I/O和充电端口710(例如,微型USB端口)的I/O驱动器、将数字音频转换成模拟音频的数模转换器(DAC)以及用于驱动LED 707的LED驱动器。其他实施方案可具有更多或更少的部件。
图8示出了根据一个实施方案的用于相对姿态跟踪的各种参考坐标系系和符号,如在本文所附附录A中更全面描述的。
图9示出了根据一个实施方案的在头部跟踪中使用的相对运动模型的几何形状,如在本文所附附录A中更全面描述的。
所描述的特征可有利地在能够在可编程系统上执行的一个或多个计算机程序中实现,该可编程系统包括至少一个输入设备、至少一个输出设备以及被耦接以从数据存储系统接收数据和指令并且将数据和指令发送到数据存储系统的至少一个可编程处理器。计算机程序是在计算机中可以直接或间接使用以执行某种活动或者产生某种结果的指令集。计算机程序可以包括编译和解释语言在内的任何形式的编程语言(例如,SWIFT、Objective-C、C#、Java)来编写,并且其可以任何形式部署,包括作为独立程序或者作为模块、部件、子例程、基于浏览器的网页应用程序、或适于在计算环境中使用的其他单元。
虽然本说明书包含许多具体实施细节,但是这些具体实施细节不应被理解为是对任何发明或可能要求保护的内容的范围的限制,而应被理解为对特定于特定发明的特定实施方案的特征的描述。本说明书中在不同实施方案的上下文中描述的某些特征也可以在单个实施方案中组合地实现。相反,在单个实施方案的上下文中描述的各种特征也可单独地或者以任何合适的子组合的形式在多个实施方案中实现。此外,虽然某些特征可能在上面被描述为以某些组合来起作用并且甚至最初也这样地来要求保护,但是要求保护的组合的一个或多个特征在某些情况下可从该组合去除,并且要求保护的组合可涉及子组合或子组合的变型。
类似地,虽然操作在附图中以特定次序示出,但不应将此理解为要求以相继次序或所示的特定次序来执行此类操作,或者要求执行所有所示的操作以实现期望的结果。在某些情况中,多任务和并行处理可能是有利的。此外,上述实施方案中各个系统部件的划分不应被理解为在所有实施方式中都要求此类划分,并且应当理解,所述程序部件和系统可一般性地一起整合在单个软件产品中或者封装到多个软件产品中。
如上所述,本说明书的主题的一些方面包括来自各种来源的数据的采集和使用以改善移动设备可向用户提供的服务。本公开预期,在一些情况下,该采集到的数据可基于设备使用情况来识别特定位置或地址。此类个人信息数据可包括基于位置的数据、地址、订阅者账户标识符或其他标识信息。
本公开还设想负责此类个人信息数据的收集、分析、公开、传输、存储或其他用途的实体将遵守已确立的隐私政策和/或隐私做法。具体地,此类实体应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。例如,来自用户的个人信息应当被收集用于实体的合法且合理的用途,并且不在这些合法用途之外共享或出售。另外,此类收集应当仅在用户知情同意之后进行。另外,此类实体应采取任何所需的步骤,以保障和保护对此类个人信息数据的访问,并且确保能够访问个人信息数据的其他人遵守他们的隐私政策和程序。另外,这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。
就广告递送服务而言,本公开还预期用户选择性地阻止使用或访问个人信息数据的实施方案。即本公开预期可提供硬件元件和/或软件元件,以防止或阻止对此类个人信息数据的访问。例如,就广告递送服务而言,本发明的技术可被配置为在注册服务期间允许用户选择“加入”或“退出”参与对个人信息数据的收集。
因此,虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的实施方案,但本公开还预期各种实施方案也可在无需访问此类个人信息数据的情况下被实现。即,本发明技术的各种实施方案不会由于缺少此类个人信息数据的全部或一部分而无法正常进行。例如,可通过基于非个人信息数据或绝对最低数量的个人信息诸如与用户相关联的设备所请求的内容、对内容递送服务可用的其他非个人信息或公开可用的信息来推断偏好,从而选择内容并将该内容递送至用户。
附录A
相对姿态建模
背景
利用向用户显示/呈现AV内容的源设备(例如,iPhone、iPad),并且用户佩戴具有IMU的头戴式受话器,空间音频使得用户能够移动他或她的头部并且听到音频内容就好像它总是来自源设备一样。主要应用领域是丰富的电影观看或游戏体验和AR。
算法挑战
·低延迟、准确估计头戴式受话器设备与源设备的相对位置(即,源设备在头部设备的参考坐标系中的位置),其中在传感器数据中存在延迟和可能的间隙。用户可从头部运动中感知任何大于50ms的音频延迟
·通过BT链路向源设备发送头戴式受话器IMU数据的延迟
·只能通过BT从头戴式受话器获得较低速率的IMU数据,约50Hz
·可能丢弃的分组在来自头戴式受话器的传感器数据中产生间隙
·相机测量结果延迟(即测量结果是在过去进行的)
·当需要将空间音频发送到头戴式受话器播放时,返回路径上的BT延迟,这意味着需要对相对姿态进行前向预测
·出于功耗原因,相机测量处于低赫兹(例如1Hz),并且相机的面部跟踪在许多情况下可能会失败(例如,人脸不在视野中,RGB模式下的低光)
·可能存在长时间段的缺失锚点信号,在不减轻的情况下,来自IMU的姿态估计(尤其是位置)将在没有边界的情况下二次漂移
·当相机坐标系中的面部位置从一个坐标系大幅移动到下一坐标系时,FaceKit的面部姿态误差很大,这意味着我们的算法需要在两个坐标系之间出现较大的面部位置跳跃时丢弃任何锚点测量结果。这种效果在低Hz锚点时更加明显,因为受试者有更多的时间在下一坐标系之前移动。在应用这些门控条件之后所得的锚点校正率将更低。
·相机锚点测量跟踪相对于相机坐标系的面部坐标系,这与源设备和头戴式受话器设备上的IMU坐标系不匹配
·锚点测量需要转换才能在IMU坐标系中使用
·头戴式受话器位置在由不同用户佩戴时变化,或者可在使用期间移位。这要求在头部跟踪会话中主动估计面部坐标系到头戴式受话器IMU坐标系变换qf<-b
·空间音频需要将声源放置在相对于用户头部的位置,这与相机锚点测量跟踪的面部坐标系不匹配
·面部坐标系到头部坐标系的变换是不可观察的,并引入了静态视线/相对位置误差
·对于给定用户,面部到头部的变换不会改变,但根据对象的面部几何形状而因对象而异。面部坐标系相对于头部的倾斜取决于用户眼睛相对于他们嘴部的嵌入程度。
·这可通过“居中”过程来减轻,其中每当用户直接在设备前方并查看屏幕时,我们校准面部到头部变换。可基于面部姿态阈值来对居中会话进行门控。
·当估计的姿态或位置发生较大的修正时,需要专门过滤修正以实现平滑的用户感知
·空间音频需要相对于用户的头部放置声源,这与相机锚点测量所跟踪的面部坐标系不匹配
·面部坐标系到头部坐标系的变换是不可观察的,并引入了静态视线/相对位置误差
·对于给定用户,面部到头部的变换不会改变,但根据对象的面部几何形状而因对象而异。面部坐标系相对于头部的倾斜取决于用户眼睛相对于他们嘴部的嵌入程度。
·这可通过“居中”过程来减轻,其中每当用户直接在设备前方并查看屏幕时,我们校准面部到头部变换。可基于面部姿态阈值来对居中会话进行门控。
·当估计的姿态或位置发生较大的修正时,需要专门过滤修正以实现平滑的用户感知
对于这些推导,存在定义如下的若干坐标系:
·C:附接到源设备的相机坐标系
·F:相机生成的面部坐标系
·H:头部坐标系居中在用户头部中,在耳朵之间
·B:头戴式受话器的主体坐标系
·S:源设备的主体坐标系
·I:惯性参考坐标系
符号
角加速度:αb/a表示坐标系b相对于坐标系a的角加速度
取向:Rb←a表示从坐标系a到坐标系b的旋转,使得坐标系b中表示的坐标系a中的点pa为:pb=Rb←apa使用四元数表达式的相同旋转为qb←a。
可用的运动学
此处为用于以下推导的一些运动学等式:
为了将在坐标系a中获取的向量r的导数与在坐标系b中获取的导数相关联,使用下面给出的传输等式:
通过使用传输等式两次来将对象P的位置相对于旋转坐标系b中的位置0双重微分,得到以下惯性坐标系i中加速度的等式:
基本设置
根据我们对空间音频跟踪的当前理解,目标是跟踪从头部坐标系到源设备(的中心)的“视线”向量,即设备在头部参考坐标系中的相对位置。现在我们假设源设备的中心在设备传感器坐标系s的原点处。那么,感兴趣的相对位置向量为其为从h坐标系的原点到s坐标系的原点的向量,在h坐标系中解析。
以及h坐标系与f坐标系之间的刚
以及h坐标系与b坐标系之间的刚
从s和b处的IMU,我们获得以下传感器输出:源设备相对于惯性坐标系的旋转源设备在s坐标系中的惯性加速度B515相对于惯性坐标系的旋转以及B515设备在b坐标系中的惯性加速度需注意,这些ω表示偏置补偿角速率,而不是原始陀螺仪输出。
估计的量(即,EKF状态向量):
估计的量是从s坐标系的角度来看b坐标系的相对位置、速度和取向。我们选择估计这些量,因为IMU输出在s坐标系和b坐标系中。
由于摄像机测量是在c坐标系中进行的,因此将需要将它们转换成s坐标系以进行测量更新:
·变换相机旋转:
Rs←b(t)=Rs←cRc←f(t)Rf←b (3)
其中Rc←f(t)为在时间t处测量的相机相对旋转。
·变换相机位置:
相对位置
通过应用两次传输规则,可将相对于s坐标系的加速度与惯性加速度相关联(参见等式2):
如每个项右侧的上标s所示,所有量均以s坐标系坐标表示。
相对加速度的最终表达式为:
相对姿态
b坐标系与s坐标系之间的相对姿态可类似地根据相对于惯性坐标系的姿态来表示
可通过获取时间导数来导出相对姿态动力学
状态和状态传播
调用状态向量为
状态传播等式
为:
其中αk∈[0 1]为旨在抑制所跟踪位置的潜在漂移的缩放因数。
其值应基于相对加速度的大小。
误差传播
Δx=[Δr Δv Δq]T
项nb和nw为陀螺仪偏置过程噪声和陀螺仪传感器噪声,它们为0均值高斯随机变量。
将加速度计误差定义如下:
鉴于上述情况,我们得到:
其中Q为过程噪声协方差,并且w-N(0,Q)。
为了便于下面的推导,我们可以通过四元数的向量和标量部分来表示四元数:
其中e为旋转的特征轴,并且Θ为旋转的特征角。如下面将看到的,假设Θ较小,我们将误差状态下的Δq替换为Δqv。跟踪Δqv允许下一部分中相对四元数的乘法测量更新。
得自等式:(10),我们得到:
将上文代入等式(14)中,我们得到
使用等式(11),等式(15)变为以下内容:
假设姿态误差小,我们将有||Δqv||≈0和Δqs≈1,则等式(16)可通过如下丢弃高阶项来简化:
现在让我们导出r和v的误差状态:
接下来,我们将根据Δx线性化等式(19)。
我们可将等式(19)与等式(19a)以及等式(11)、等式(12)扩展成以下内容:
我们可用以下等式线性化Δv中的R(q)相关项:
R(Δq)=((Δqs 2-Δqv TΔqv)I3×3-2Δqs[Δqv×]+2ΔqvΔqv T)≈I3×3-2[Δqv×]
将等式(19b)中的R(q)替换为上文所述,我们得到:
我们将需要根据Δx线性化等式(17),这将允许我们写下状态误差动力学模型Δx=FΔx中的F矩阵。使用x处的1级泰勒级数来线性化f(x):令
收集等式(15)至(17)并重写Δx=[Δr Δv Δqv]T,准备写出线性状态误差动力学模型中的矩阵F:
xk+1=Φkxk+Lkw
最后,根据下式传播误差协方差P:
对于误差传播,我们将根据乘法扩展卡尔曼滤波器公式跟踪相对姿态的吉布斯向量表示的变化Δg,而不是使用相对四元数。注意-对所估计的四元数的附加更新将更快地违反单位范数约束,这就是我们选择使用乘法姿态更新代替的原因。查看乘法更新到四元数状态的测量更新部分。
吉布斯向量姿态表示为:
g=e tan(θ/2) (11)
其中e为旋转的特征轴,并且Θ为旋转的特征角。由于四元数由下式给出:
q=[qv qs]T=[e sin(θ/2) cos(θ/2)]T (12)
吉布斯向量通过以下关系与四元数相关:
取吉布斯向量的导数,得到:
将等式(15)和来自等式(8)的相对状态动力学组合,得到:
其中w(t)为状态中的误差,其被建模为w(t)~N(0,Q(t)),其中Q(t)为捕获由于外部干扰和未建模动态导致的状态中的不确定性的过程噪声。
由此,我们得到:
通过在x处取泰勒级数展开并忽略高阶项来线性化,我们得到:
将F表示为f相对于状态的导数,得到:
协方差根据以下公式传播:
从锚点更新测量结果
相机提供面部坐标系和相机坐标系中的相对位置和姿态的测量结果。通过应用上面等式3和等式4中的变换以便在与源设备的IMU坐标系中获得这些测量结果,我们在每个测量时间戳tk处获得和的测量结果。每当我们获得相机测量结果时,相对位置残差由下式给出:
其中Λ表示估计的量,并且-表示测量的量。残差是测量量与估计量之间的差值。
为了约束速度漂移,我们还可以根据相机测量的相对位置提供速度更新:
误差四元数Δq由下式给出:
状态校正向量为:
其中卡尔曼
增益K9x9由
下式给出:
其中Rk为测量噪声协方差矩阵。
灵敏度矩阵H将测量结果yk映射到状态,其中测量结果由下式给出:
测量误差v(f)被建模为零均值高斯噪声:v(t)-N(0,R)。R为测量结果误差的协方差。灵敏度矩阵由下式给出:
根据下式更新所估计的相对位置:
根据下式更新所估计的相对速度:
并且根据下式更新所估计的相对姿态:
在静止条件下伺机校正
零速度更新
在静态的某些门控条件下,例如当具有接近单位的量值和低方差,并且量值低于某个最大阈值(这可能不是必需的)时,我们可以假设相对速度$\mathbf{v}$接近0。该校正的增益将取决于测量噪声项Rzv,该测量噪声项将取决于源设备和B515设备上的相应加速度计的噪声,并且可能更适当地,取决于我们用于测试静态条件的加速度计量值缓冲器的方差。
Δvk,对vk的校正以及状态校正向量为:
其中灵敏度矩阵Hzv和卡尔曼增益Kzv由下式给出:
其中Rzv为用于该零速度更新的测量噪声项。然后根据等式(28)应用速度状态更新,并根据等式(30)更新状态协方差。
相对重力更新
当源和IMU两者均处于静态条件下时,归一化加速度计读数近似于其相应坐标系中的局部重力向量。我们可使用这些近似的重力向量来提供对相对姿态估计R(q)的校正。这也可扩展到仅设备中的一个设备处于静态条件的场景。在这种情况下,我们可使用来自移动设备的六轴DM的重力估计。
Hrg为该测量更新的灵敏度矩阵,并且Crg为加速度计测量误差wa的成形矩阵。现在我们对状态向量进行以下测量更新:
车辆和行人条件下的测量更新
当源设备和头部设备(例如,在车辆中或行走时手持源设备的用户)之间存在相关运动时,我们也应当进行零速度测量更新和相对重力更新。
车辆和行人相关运动检测
我们可以利用iOS源设备上车辆和行走的活动检测作为相关运动的先验。在此类现有条件下,我们可进一步检查相对旋转的量值和相对加速度的量值是低的:
另外,还可以对两个设备发出的lpf加速度信号的量值进行进一步检查,使其接近统一。
零速度更新
在相关运动的条件下,我们可以根据等式(40)和(41)进行相同的零速度测量更新,测量噪声应基于相关运动检测的置信度或质量度量。
相对重力更新
我们可以根据等式(44)和(45)进行类似的相对重力更新,其中根据源设备和头部设备的低通加速度读数计算得出(*)和(*)。我们不应使用瞬时归一化加速度测量的原因在于,相关运动在它们之间可能具有非常好的相位滞后,这将在相对重力更新中引入不良误差。
无锚点测量更新(Bleed-to-Zero)
在不存在相机锚点的情况下,我们将需要作出一些假设以便馈送校正以抑制估计漂移。
假设
相对姿态:
存在相对偏航角为180°的默认姿态。我们希望保持相对俯仰和翻滚,并且仅更新偏航。尚不立即清楚我们如何通过线性化更新来实现这一点。因此,我们可以将此视为一个2步过程:
步骤1为相对重力更新。
步骤2得自下文:
相对位置:
相对位置默认为沿+z轴距源设备1米(即,s坐标系):
·在源设备和附件设备均在某个时间阈值之外为静态的条件下,我们假设用户正以默认姿势面向源设备。此时,可将当前姿态估计与默认姿态进行比较以生成校正,从而使姿态估计朝向默认姿态。
测量更新
·通过使用等式(50)并计算残差Δd并用(*)更新所估计的相对姿态(*)并将其与R和R相关联。
由于我们不具有Bleed-to-Zero的真实测量模型,因此我们可手动控制收敛速度。此类“输入成形”理想地应通过提供中间虚拟视轴锚点而与视轴向量一起发生。
收集等式(52)和等式(53)中的更新,我们得到以下测量更新:
上述更新的测量噪声nb0~N(0,Rb0)可被设计为将收敛速度调制到默认姿态。可能的是,校正可能较大,这将违反我们对正确校正的假设(即Δq较小),应过滤残差(Δqk和Δrk)以产生较小且感知上有效的校正。
卡尔曼滤波器设置(伪代码)
相关矩阵汇总
Lk=GkΔt
σr,Cam以及σq,Cam分别为相对位置和相对取向(作为3d向量)的相机测量中的不确定性。
初始化
如果我们在初始化滤波器时未启动相机,则我们可以猜测初始相对位置和取向,并设定一些较大的初始不确定性。例如,我们可以假设设备一开始是对齐的,这样用户就可以看到与用户相距约一臂的源设备。需注意,然而,如果我们对初始姿势/位置的假设是严重错误的,则滤波器可发散。
传播
随时间传播状态和误差协方差矩阵前向Δt。
计算校正
更新状态
更新协方差
估计Rf←b:f坐标系与b坐标系之间的旋转变换
由于旋转变换Rf←b用于变换相机姿态测量结果,以及将我们的估计变换为rs/f(或rs/h)的最终目标,因此重要的是我们要有相当准确的估计。
因为用户有可能将他们的头戴式受话器佩戴在他们的头部上的不同位置,例如向前或向后倾斜等,所以我们最好的办法是为会话中的每个用户估计它。
在假设源设备是静态的情况下,我们可将估计问题视为手眼校准问题,其中Δ相机面部姿态测量结果与来自头戴式受话器IMU的Δ(6轴)姿态之间的对应关系由2个不同的头部姿态生成:
上文给出了规范的手眼校准形式AX=XB,其中X可用各种方法估计。然而,以上意味着我们将很可能需要校准阶段,其中源设备在用户在相机视图中移动他们的头部时保持静止,这是不期望的。然而,我们确实可以从源设备IMU获得更多信息,这将允许我们至少在尖端倾斜方向上利用相机来估计Rf←b,而无需用户移动。当源设备或头戴式受话器设备中的任一者或两者移动时,可估计更多。这些基于2个IMU上的重力估计。此外,Rf←b的估计可简单地用另一个EKI(其中qf←b为状态)来完成,并且测量更新基于以下各项:
Claims (14)
1.一种方法,包括:
估计源设备的源设备参考坐标系中的第一重力方向;
估计头戴式受话器的头戴式受话器参考坐标系中的第二重力方向;
使用所估计的第一重力方向和所估计的第二重力方向来估计从所述头戴式受话器坐标系到面部参考坐标系的第一旋转变换、从相机参考坐标系到所述源设备参考坐标系的第二旋转变换以及从所述面部参考坐标系到所述相机参考坐标系的第三旋转变换;
使用源设备运动数据、头戴式受话器运动数据和从所述头戴式受话器坐标系到所述面部参考坐标系的所述第一旋转变换来估计相对位置和姿态;
使用所述相对位置和姿态来估计头部姿态;以及
使用所估计的头部姿态来渲染空间音频以用于在所述头戴式受话器上回放。
2.根据权利要求1所述的方法,其中使用第一卡尔曼滤波器来估计所述第一旋转变换。
3.根据权利要求1所述的方法,其中估计所述头部姿态包括估计源自头戴式受话器参考坐标系并终止于源设备参考坐标系的视轴矢量。
4.根据权利要求3所述的方法,所述方法还包括:
基于所估计的视轴矢量生成环境床取向,所述环境床取向确定三维(3D)虚拟听觉空间中的至少环绕声道和中央声道的位置。
5.根据权利要求1所述的方法,其中所述头戴式受话器运动数据通过短程无线通信信道从所述头戴式受话器传输至所述源设备。
6.根据权利要求1所述的方法,其中所述源设备是具有显示器、前向相机和面部跟踪器的计算机,所述面部跟踪器被配置为基于由所述前向相机捕获的用户面部的相机图像来生成所述第二旋转变换。
8.一种系统,包括:
源设备,所述源设备包括第一运动传感器和相机,所述第一运动传感器和所述相机被配置为分别捕获源设备运动数据和面部姿态测量结果;
头戴式受话器,所述头戴式受话器包括被配置为捕获头戴式受话器运动数据的第二运动传感器;
头部到头戴式受话器转换估计器,所述头部到头戴式受话器转换估计器被配置为:
估计所述源设备的源设备参考坐标系中的第一重力方向;
估计所述头戴式受话器的头戴式受话器参考坐标系中的第二重力方向;
使用所估计的第一重力方向和所估计的第二重力方向来估计从所述头戴式受话器坐标系到面部参考坐标系的第一旋转变换;
估计从相机参考坐标系到所述源设备参考坐标系的第二旋转变换;
估计从所述面部参考坐标系到所述相机参考坐标系的第三旋转变换;
使用所述源设备运动数据、所述头戴式受话器运动数据和从所述头戴式受话器坐标系到所述面部参考坐标系的所述旋转变换来估计所述源设备和所述头戴式受话器之间的相对位置和姿态;
基于所述相对位置和姿态来估计头部姿态;以及
音频渲染器,所述音频渲染器被配置为基于所估计的头部姿态来渲染空间音频以用于在所述头戴式受话器上回放。
9.根据权利要求8所述的系统,其中使用第一卡尔曼滤波器来估计所述第一旋转变换。
10.根据权利要求8所述的系统,其中估计所述头部姿态包括估计源自头戴式受话器参考坐标系并终止于源设备参考坐标系的视轴矢量。
11.根据权利要求10所述的系统,还包括:
基于所估计的视轴矢量生成环境床取向,所述环境床取向确定三维(3D)虚拟听觉空间中的至少环绕声道和中央声道的位置。
12.根据权利要求8所述的系统,其中所述头戴式受话器运动数据通过短程无线通信信道从所述头戴式受话器传输至所述源设备。
13.根据权利要求8所述的系统,其中所述源设备是具有显示器、前向相机和面部跟踪器的计算机,所述面部跟踪器被配置为基于由所述前向相机捕获的用户面部的相机图像来生成所述第二旋转变换。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063041909P | 2020-06-20 | 2020-06-20 | |
US63/041,909 | 2020-06-20 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113825055A true CN113825055A (zh) | 2021-12-21 |
CN113825055B CN113825055B (zh) | 2024-05-03 |
Family
ID=78912591
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110679631.0A Active CN113825055B (zh) | 2020-06-20 | 2021-06-18 | 空间音频应用中的头部姿态跟踪的头部到头戴式受话器旋转变换估计 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11647352B2 (zh) |
CN (1) | CN113825055B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023122282A1 (en) * | 2021-12-23 | 2023-06-29 | Dolby Laboratories Licensing Corporation | Determination of movement direction |
CN116700659A (zh) * | 2022-09-02 | 2023-09-05 | 荣耀终端有限公司 | 一种界面交互方法及电子设备 |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10976989B2 (en) * | 2018-09-26 | 2021-04-13 | Apple Inc. | Spatial management of audio |
US11675423B2 (en) | 2020-06-19 | 2023-06-13 | Apple Inc. | User posture change detection for head pose tracking in spatial audio applications |
US11586280B2 (en) | 2020-06-19 | 2023-02-21 | Apple Inc. | Head motion prediction for spatial audio applications |
US11582573B2 (en) | 2020-09-25 | 2023-02-14 | Apple Inc. | Disabling/re-enabling head tracking for distracted user of spatial audio application |
CN114401341B (zh) * | 2022-01-12 | 2023-08-29 | Oppo广东移动通信有限公司 | 摄像头的控制方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120050493A1 (en) * | 2010-08-24 | 2012-03-01 | Siemens Corporation | Geometric calibration of head-worn multi-camera eye tracking system |
US20150193014A1 (en) * | 2014-01-08 | 2015-07-09 | Fujitsu Limited | Input device that is worn by user and input method |
CN109146965A (zh) * | 2017-06-16 | 2019-01-04 | 精工爱普生株式会社 | 信息处理装置和计算机程序 |
CN109644317A (zh) * | 2016-09-23 | 2019-04-16 | 苹果公司 | 用于双耳音频渲染的协调跟踪 |
CN111149369A (zh) * | 2017-10-10 | 2020-05-12 | 思睿逻辑国际半导体有限公司 | 头戴式受话器耳上状态检测 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2414369B (en) * | 2004-05-21 | 2007-08-01 | Hewlett Packard Development Co | Processing audio data |
CN104205880B (zh) | 2012-03-29 | 2019-06-11 | 英特尔公司 | 基于取向的音频控制 |
WO2016065137A1 (en) | 2014-10-22 | 2016-04-28 | Small Signals, Llc | Information processing system, apparatus and method for measuring a head-related transfer function |
EP3269150A1 (en) | 2015-03-10 | 2018-01-17 | Ossic Corporation | Calibrating listening devices |
KR102354330B1 (ko) | 2015-07-31 | 2022-01-21 | 삼성전자주식회사 | 스마트 디바이스 및 그 동작 방법 |
GB2542609A (en) | 2015-09-25 | 2017-03-29 | Nokia Technologies Oy | Differential headtracking apparatus |
US9459692B1 (en) * | 2016-03-29 | 2016-10-04 | Ariadne's Thread (Usa), Inc. | Virtual reality headset with relative motion head tracker |
US10979843B2 (en) | 2016-04-08 | 2021-04-13 | Qualcomm Incorporated | Spatialized audio output based on predicted position data |
EP3535988A4 (en) | 2016-11-04 | 2020-06-10 | Dirac Research AB | CONSTRUCTION OF A SOUND FILTER DATABASE USING HEAD TRACKING DATA |
US10390171B2 (en) | 2018-01-07 | 2019-08-20 | Creative Technology Ltd | Method for generating customized spatial audio with head tracking |
US11617050B2 (en) | 2018-04-04 | 2023-03-28 | Bose Corporation | Systems and methods for sound source virtualization |
US20190313201A1 (en) | 2018-04-04 | 2019-10-10 | Bose Corporation | Systems and methods for sound externalization over headphones |
CN116528141A (zh) * | 2018-07-25 | 2023-08-01 | 杜比实验室特许公司 | 经由光学捕获的个性化hrtfs |
TWM579049U (zh) | 2018-11-23 | 2019-06-11 | 建菱科技股份有限公司 | 結合於耳機外之追蹤頭部定位立體音源裝置 |
US11586280B2 (en) | 2020-06-19 | 2023-02-21 | Apple Inc. | Head motion prediction for spatial audio applications |
US11675423B2 (en) | 2020-06-19 | 2023-06-13 | Apple Inc. | User posture change detection for head pose tracking in spatial audio applications |
US11589183B2 (en) | 2020-06-20 | 2023-02-21 | Apple Inc. | Inertially stable virtual auditory space for spatial audio applications |
US20210396779A1 (en) | 2020-06-20 | 2021-12-23 | Apple Inc. | User posture transition detection and classification |
US20210400414A1 (en) | 2020-06-20 | 2021-12-23 | Apple Inc. | Head tracking correlated motion detection for spatial audio applications |
US20210400419A1 (en) | 2020-06-20 | 2021-12-23 | Apple Inc. | Head dimension estimation for spatial audio applications |
US20220103965A1 (en) | 2020-09-25 | 2022-03-31 | Apple Inc. | Adaptive Audio Centering for Head Tracking in Spatial Audio Applications |
US11582573B2 (en) | 2020-09-25 | 2023-02-14 | Apple Inc. | Disabling/re-enabling head tracking for distracted user of spatial audio application |
-
2021
- 2021-06-16 US US17/349,907 patent/US11647352B2/en active Active
- 2021-06-18 CN CN202110679631.0A patent/CN113825055B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120050493A1 (en) * | 2010-08-24 | 2012-03-01 | Siemens Corporation | Geometric calibration of head-worn multi-camera eye tracking system |
US20150193014A1 (en) * | 2014-01-08 | 2015-07-09 | Fujitsu Limited | Input device that is worn by user and input method |
CN109644317A (zh) * | 2016-09-23 | 2019-04-16 | 苹果公司 | 用于双耳音频渲染的协调跟踪 |
CN109146965A (zh) * | 2017-06-16 | 2019-01-04 | 精工爱普生株式会社 | 信息处理装置和计算机程序 |
CN111149369A (zh) * | 2017-10-10 | 2020-05-12 | 思睿逻辑国际半导体有限公司 | 头戴式受话器耳上状态检测 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023122282A1 (en) * | 2021-12-23 | 2023-06-29 | Dolby Laboratories Licensing Corporation | Determination of movement direction |
CN116700659A (zh) * | 2022-09-02 | 2023-09-05 | 荣耀终端有限公司 | 一种界面交互方法及电子设备 |
CN116700659B (zh) * | 2022-09-02 | 2024-03-08 | 荣耀终端有限公司 | 一种界面交互方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113825055B (zh) | 2024-05-03 |
US20210400418A1 (en) | 2021-12-23 |
US11647352B2 (en) | 2023-05-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113825055B (zh) | 空间音频应用中的头部姿态跟踪的头部到头戴式受话器旋转变换估计 | |
CN108734736B (zh) | 相机姿态追踪方法、装置、设备及存储介质 | |
US11589183B2 (en) | Inertially stable virtual auditory space for spatial audio applications | |
US20210400414A1 (en) | Head tracking correlated motion detection for spatial audio applications | |
US11675423B2 (en) | User posture change detection for head pose tracking in spatial audio applications | |
WO2017077918A1 (ja) | 情報処理装置、情報処理システム、および情報処理方法 | |
US11586280B2 (en) | Head motion prediction for spatial audio applications | |
US10007349B2 (en) | Multiple sensor gesture recognition | |
US9311883B2 (en) | Recalibration of a flexible mixed reality device | |
US9271103B2 (en) | Audio control based on orientation | |
WO2019203189A1 (ja) | プログラム、情報処理装置、及び情報処理方法 | |
JP2017037554A (ja) | 画像表示装置、コンピュータープログラム、および画像表示システム | |
US20220103965A1 (en) | Adaptive Audio Centering for Head Tracking in Spatial Audio Applications | |
US20210400419A1 (en) | Head dimension estimation for spatial audio applications | |
US11582573B2 (en) | Disabling/re-enabling head tracking for distracted user of spatial audio application | |
US9916004B2 (en) | Display device | |
WO2022100189A1 (zh) | 视觉惯性系统的参数标定方法及装置、电子设备和介质 | |
WO2018146922A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
US11514604B2 (en) | Information processing device and information processing method | |
US11599189B2 (en) | Head orientation tracking | |
CN116601514A (zh) | 用于使用声信标来确定设备的位置和取向的方法和系统 | |
CN115859181A (zh) | 使用关联生物力学模型的姿势转变检测和分类 | |
US20230045721A1 (en) | Audio signal processing method, electronic apparatus, and storage medium | |
US20230096949A1 (en) | Posture and motion monitoring using mobile devices | |
WO2020087041A1 (en) | Mixed reality device tracking |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |