CN108346432B - 虚拟现实vr音频的处理方法及相应设备 - Google Patents
虚拟现实vr音频的处理方法及相应设备 Download PDFInfo
- Publication number
- CN108346432B CN108346432B CN201710056192.1A CN201710056192A CN108346432B CN 108346432 B CN108346432 B CN 108346432B CN 201710056192 A CN201710056192 A CN 201710056192A CN 108346432 B CN108346432 B CN 108346432B
- Authority
- CN
- China
- Prior art keywords
- audio
- rotation angle
- information
- signal
- equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 15
- 238000012545 processing Methods 0.000 claims description 62
- 238000000034 method Methods 0.000 claims description 60
- 230000005540 biological transmission Effects 0.000 claims description 52
- 239000000284 extract Substances 0.000 claims description 22
- 230000002194 synthesizing effect Effects 0.000 claims description 10
- 230000015654 memory Effects 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 230000002829 reductive effect Effects 0.000 description 33
- 238000009499 grossing Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 21
- 230000007613 environmental effect Effects 0.000 description 13
- 230000008859 change Effects 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 7
- 230000003247 decreasing effect Effects 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 238000009877 rendering Methods 0.000 description 4
- 210000005069 ears Anatomy 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 210000003128 head Anatomy 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004886 head movement Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
- H04S3/004—For headphones
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/012—Head tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/003—Navigation within 3D models or images
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
- H04S7/303—Tracking of listener position or orientation
- H04S7/304—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2201/00—Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
- H04R2201/40—Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
- H04R2201/401—2D or 3D arrays of transducers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/20—Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
- H04R2430/21—Direction finding using differential microphone array [DMA]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2460/00—Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
- H04R2460/07—Use of position data from wide-area or local-area positioning systems in hearing devices, e.g. program or information selection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R5/00—Stereophonic arrangements
- H04R5/04—Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/11—Positioning of individual sound objects, e.g. moving airplane, within a sound field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/15—Aspects of sound capture and related signal processing for recording or reproduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Radar, Positioning & Navigation (AREA)
- Remote Sensing (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Stereophonic System (AREA)
Abstract
本发明提供了一种虚拟现实VR音频处理的方法及相应设备,包括VR音频的发送端获取高保真立体声Ambisonics信号旋转角度,其中,Ambisonics信号旋转角度是根据VR音频的接收端对应的第一设备旋转角度确定出的,然后根据获取的Ambisonics信号旋转角度,对Ambisonics信号进行旋转,和/或,VR音频的发送端获取根据VR音频的相关信息确定的混合阶高保真立体声MOA信号的阶数,然后依据MOA信号的阶数,从高保真立体声Ambisonics信号中提取出MOA信号。本发明实施例适用于根据设备的旋转角度确定Ambisonics信号旋转角度,进行旋转,并提取出MOA信号。
Description
技术领域
本发明涉及虚拟现实VR音频技术领域,具体而言,本发明涉及一种VR音频的处理方法及相应设备。
背景技术
随着人们对VR(Virtual Reality,虚拟现实)产品的关注,许多公司和组织都专注于发展VR技术。VR音频是VR领域中的一个关键技术,VR音频能够为用户提供带有空间分辨率的听觉内容,使用户能够有身临其境的VR应用体验。只有视觉和听觉都和真实世界的感受一致才会给人带来沉浸感,如图1所示。
VR内容源是现在很多用户关注的问题,为了让用户能够体验丰富的VR应用和VR内容,在线虚拟内容平台是一个将来的发展趋势,用户可以使用VR设备从在线虚拟内容平台实时浏览VR内容,那么浏览过程中的带宽使用是需要考虑的一个问题。
Ambisonics(高保真立体声)技术是现有的VR音频的关键技术,它采用声场谐波分解并逐级逼近的方法,录制并恢复物理声场。Ambisonics采用空间谐波作为独立信号,对于L阶的空间Ambisonics,它需要(L+1)2独立空间谐波信号,至少需要(L+1)2个传声器组成的阵列捡拾和至少(L+1)2扬声器重放。Ambisonics信号的阶数越高,对空间声场的逼近效果越好,因此,高阶的Ambisonics信号具有更好的空间分辨率,但是带宽占用随着阶数的增加而急剧增加。其中,图2是不同阶数Ambisonics声场空间分辨率的示意图,图3a是3阶Ambisonics声场的示意图,它需要16个独立信号。
为了解决Ambisonics技术带宽占用随着阶数的增加而急剧增大的问题,MOA(Mixed order ambisonics,混合阶高保真立体声)技术被提出,MOA技术对水平和竖直方向的声场采用不同的阶数。当用户注视水平面时,人耳对水平方向和竖直方向声音的敏感度是不同的,对水平方向的声音敏感度更高,因此使用较高的阶数传输水平方向的内容,使水平方向的内容具有高空间分辨率,同时使用较低的阶数传输竖直方向的内容,从而降低了带宽占用。其中,图3b是MOA声场的示意图,其中,水平方向是3阶(水平方向使用3阶2维Ambisonic信号),竖直方向是1阶(竖直方向使用1阶3维Ambisonic信号),使用MOA技术,只需8个独立信号,带宽占用相当于Ambisonics技术的1/2。
但是现在的MOA技术仍然存在空间分辨率精度不够高以及带宽占用过高的问题。
发明内容
为克服上述技术问题或者至少部分地解决上述技术问题,特提出以下技术方案:
本发明的实施例提供了一种VR音频处理的方法,包括:
VR音频的发送端获取高保真立体声Ambisonics信号旋转角度,所述Ambisonics信号旋转角度是根据VR音频的接收端对应的第一设备旋转角度确定出的;
根据获取的所述Ambisonics信号旋转角度,对Ambisonics信号进行旋转。
本发明的实施例提供了一种VR音频的发送端设备,包括:
获取模块,用于获取高保真立体声Ambisonics信号旋转角度,所述Ambisonics信号旋转角度是根据VR音频的接收端对应的第一设备旋转角度确定出的;
旋转模块,用于根据所述Ambisonics信号旋转角度,对Ambisonics信号进行旋转。
本发明的实施例提供了另一种VR音频处理的方法,包括:
VR音频的接收端获取对应的第一设备旋转角度;
将获取的所述第一设备旋转角度发送给VR音频的发送端,
和/或
根据对应的第一设备旋转角度以及当前网络时延信息预测第二设备旋转角度,并将第二设备旋转角度发送给所述VR音频的发送端。
本发明的实施例提供了一种VR音频的接收端设备,包括:
获取模块,用于获取对应的第一设备旋转角度;
处理模块,用于将获取的第一设备旋转角度发送给VR音频的发送端,和/或根据第一设备旋转角度以及当前网络时延信息预测第二设备旋转角度,并将第二设备旋转角度发送给所述VR音频的发送端。
本发明的实施例提供了又一种VR音频处理的方法,包括:
VR音频的发送端获取根据VR音频的相关信息确定的混合阶高保真立体声MOA信号的阶数,所述相关信息包括下述至少一项:VR音频的内容相关信息、VR音频的播放相关信息、VR音频的传输相关信息;
所述VR音频的发送端依据所述MOA信号的阶数,从高保真立体声Ambisonics信号中提取出MOA信号。
本发明的实施例提供了另一种VR音频的发送端设备,包括:
获取模块,用于获取根据VR音频的相关信息确定的混合阶高保真立体声MOA信号的阶数,所述相关信息包括下述至少一项:VR音频的内容相关信息、VR音频的播放相关信息、VR音频的传输相关信息;
提取模块,用于依据所述MOA信号的阶数,从高保真立体声Ambisonics信号中提取出MOA信号。
本发明的实施例提供了又一种VR音频处理的方法,包括:
VR音频的接收端获取VR音频的相关信息,所述相关信息包括下述至少一项:VR音频的内容相关信息、VR音频的播放相关信息以及VR音频的传输相关信息;
所述VR音频的接收端将获取的VR音频的相关信息发送给VR音频的发送端,或者根据获取的VR音频的相关信息确定出MOA信号的阶数,并将确定出的MOA信号的阶数发送给所述VR音频的发送端。
本发明的实施例提供了另一种VR音频的接收端设备,包括:
获取模块,用于获取VR音频的相关信息,所述相关信息包括下述至少一项:VR音频的内容相关信息、VR音频的播放相关信息以及VR音频的传输相关信息;
处理模块,用于将获取的VR音频的相关信息发送给VR音频的发送端,或者根据获取的VR音频的相关信息确定出MOA信号的阶数,并将确定出的MOA信号的阶数发送给所述VR音频的发送端。
本发明提供了一种VR音频处理的方法及相应设备,与现有技术相比,能够根据VR音频的接收端对应的设备旋转角度的变化,确定出Ambisonics信号旋转角度,并对Ambisonics信号进行旋转,从而可以使播放VR音频内容的终端设备或播放对应VR视频内容的终端设备非水平放置时,仍然具有很高的音频空间分辨率。
此外,本发明技术方案中,可以获取根据VR音频的相关信息确定出的MOA信号的阶数,并依据该MOA信号的阶数提取MOA信号,从而可以提高空间分辨率的精度和/或降低带宽的占用。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为虚拟现实VR音频体验示意图;
图2为不同阶数Ambisonics声场空间分辨率示意图;
图3a为Ambisonics声场示意图;
图3b为MOA声场示意图;
图4为本发明实施例的虚拟现实VR音频处理的方法流程示意图;
图5为用户注视平面示意图;
图6为用户注视平面旋转角度示意图;
图7为另一种本发明实施例的虚拟现实VR音频处理的方法流程示意图;
图8为用户注视平面旋转角度预测示意图;
图9为平滑滤波结果示意图;
图10为又一种本发明实施例的虚拟现实VR音频处理的方法流程示意图;
图11为又一种本发明实施例的虚拟现实VR音频处理的方法流程示意图;
图12为又一种本发明实施例的虚拟现实VR音频处理的方法流程示意图;
图13为一种确定第二用户旋转角度的流程示意图;
图14为优选的一种本发明实施例的虚拟现实VR音频处理的方法流程示意图;
图15为另一种确定第二用户旋转角度的流程示意图;
图16又一种本发明实施例的虚拟现实VR音频处理的方法流程示意图;
图17为根据用户注视平面旋转之后的示意图;
图18为当前用户注视方向的示意图;
图19为水平方向虚拟扬声器个数示意图;
图20为3阶Ambisonics第一方向、第二方向信号示意图;
图21为第一方向信号以及第二方向信号的示意图;
图22为提取低阶信号的示意图;
图23为残余信号与提前发送的信号组合成MOA信号的示意图;
图24为本发明实施例中一种VR音频的发送端设备的装置结构示意图;
图25为本发明实施例中一种VR音频的接收端设备的装置结构示意图;
图26为本发明实施例中另一种VR音频的发送端设备的装置结构示意图;
图27为本发明实施例中另一种VR音频的接收端设备的装置结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
实施例一
本发明实施例提供了一种VR音频处理的方法,如图4所示,包括:
步骤401,VR音频的发送端获取Ambisonics信号旋转角度,获取的Ambisonics信号旋转角度是根据VR音频的接收端对应的第一设备旋转角度确定出的。
本发明实施例一提出,VR音频的接收端为接收VR音频内容的终端设备。VR音频的接收端可以包含HMD(Head Mount Display,头戴式显示器)设备和/或能够播放立体音频的耳机设备。
VR音频的接收端可以只接收VR音频内容,将接收到的VR音频内容渲染播放给用户;此外,VR音频的接收端除了接收VR音频内容之外,还可以接收与上述VR音频内容对应的VR视频内容,并同步播放VR音频内容和VR视频内容给用户。
VR音频的发送端为发送VR音频内容的设备。VR音频的发送端可以为存储有VR音频内容的服务器,也可以为与上述VR音频的接收端不同的、且存储有VR音频内容的终端设备。
上述发送端和上述接收端设备之间可以是有线连接,也可以是无线连接。
无线连接可以是下述至少一种连接方式:蓝牙、超宽带、ZigBee、WiFi(WirelessFidelity,无线保真)网络、GPRS(General Packet Radio Service,通用分组无线服务)网络、3G(3rd-Generation wireless telephone technology,第三代无线电话技术)网络、LTE(Long Term Evolution,长期演进)网络等。
本发明实施例一提出,VR音频的接收端对应的第一设备旋转角度可以为播放VR音频内容的终端设备的设备旋转角度(如能够播放立体音频的耳机设备的旋转角度),或播放与VR音频内容对应的VR视频内容的终端设备的设备旋转角度(如用户佩戴的HMD设备的设备旋转角度)。
上述第一设备旋转角度可以通过传感器(如惯性测量单元)来测量得到,如可以根据惯性测量单元的测量结果得到旋转角度信息;上述第一设备旋转角度也可以通过设备的摄像装置拍摄的图像分析计算得到。上述第一设备旋转角度可以是绝对值,也可以是相对于系统初始化后初始角度的变化值,如果使用相对于初始角度的变化值,则该初始角度可以为绝对值,并且可以将该值发送给VR音频的发送端,以便VR音频的发送端根据该初始角度计算得到第一设备旋转角度。其中,可以将设备(播放VR音频内容的终端设备或播放对应VR视频内容的终端设备)水平放置时测量得到的角度作为上述系统初始化后的初始角度。
对于本发明实施例一,上述第一设备旋转角度表征了用户在收听VR音频内容(此时用户也可以同步观看与VR音频内容对应的VR视频内容)时的注视平面的旋转角度。如图5所示,当用户正常竖直站立时,用户双眼注视水平方向时的视线所在直线和人的双眼共同确定的平面可以称为注视平面,或者也可以将和前述平面平行,且经过双耳的平面称为注视平面。具体使用哪种设定可依实际情况决定,如图5所示,当用户头部转动时,用户注视平面也会随之变化。
对于本发明实施例,第一设备旋转角度θ,ω即设备沿x,y,z轴的旋转角度,x,y,z轴是以用户头部为中心的空间坐标系。Ambisonics信号的x,y,z轴的方向与该坐标系的方向相同,如图6所示。其中,z轴指向竖直方向,x,y轴在水平面上。
在本发明实施例下述描述中,用户注视平面的旋转角度与设备旋转角度一致。
步骤402,VR音频的发送端根据获取的Ambisonics信号旋转角度,对Ambisonics信号进行旋转。
VR音频的发送端从旋转后的Ambisonics信号中提取MOA信号,并将MOA信号发送给VR音频的接收端,VR音频的接收端通过自身或连接的其他设备,将接收到的MOA信号渲染播放给用户。其中,可以按照现有技术中的阶数确定方式确定MOA信号的阶数,例如VR音频的发送端根据预先设定好的水平和竖直阶数(如水平3阶,竖直1阶)提取MOA信号。
现有MOA技术的高空间分辨率方向是固定的水平方向,不能随着用户头部的动作而变化,在用户进行抬头等动作时,播放VR音频内容的终端设备或播放对应VR视频内容的终端设备并不是水平放置,用户的注视平面并不是水平面,那么按照现有MOA技术仍然高阶传输水平方向的内容会降低声音的空间分辨率。
本发明实施例一提出的VR音频处理的方法,能够根据VR音频的接收端对应的设备旋转角度的变化(设备旋转角度的变化表征了用户注视平面旋转角度的变化),确定出Ambisonics信号旋转角度,并对Ambisonics信号进行旋转,从而可以使播放VR音频内容的终端设备或播放对应VR视频内容的终端设备非水平放置(用户的注视平面非水平)时,仍然具有很高的音频空间分辨率。
实施例二
本发明实施例二是本发明实施例一的一种可能的实现方式,在本发明实施例一的基础上,可以由VR音频的接收端将第一设备旋转角度发送给VR音频的发送端,由发送端根据第一设备旋转角度确定Ambisonics信号旋转角度,如图7所示,该方法包括下述步骤:
步骤701,VR音频的接收端获取对应的第一设备旋转角度。
步骤702,VR音频的接收端将第一设备旋转角度发送给VR音频的发送端。
VR音频的接收端可以将第一设备旋转角度的原始数据发送到VR音频的发送端,上述原始数据可以为设备沿x,y,z轴的旋转角度θ,ω。根据需要,VR音频的接收端还可以将角速度,角加速度等信息发送给VR音频的发送端。角速度,角加速度等信息可以通过估计得到,也可以通过设备测量获得。
VR音频的发送端接收到第一设备旋转角度信息后,如果遇到丢包,则可以使用差错隐藏技术降低网络丢包的影响。差错隐藏即由于网络丢包或错误的存在,如果当前时刻未收到设备旋转角度数据,则使用历史时刻接收到的数据来估计当前时刻的数据。例如,使用上一时刻的值作为当前时刻的值,或者使用预测算法来预测丢失的设备旋转角度数据。差错隐藏步骤为可选步骤,可以降低网络丢包的影响。
步骤703,VR音频的发送端根据接收到的第一设备旋转角度以及当前网络时延信息,预测第二设备旋转角度。
对于本发明实施例,由于网络延时的存在,VR音频的发送端接收到的第一设备旋转角度(即注视平面旋转角度)并不是未来时刻(Tdelay时刻之后)的设备旋转角度θ’,ω’,因此需要根据当前时刻接收到的第一设备旋转角度以及当前网络时延信息来预测网络延时预设时间之后(Tdelay时刻之后)的设备旋转角度,即第二设备旋转角度,如图8所示。
本发明实施例中的网络时延Tdelay可以为VR音频的接收端发送相关数据到VR音频的发送端的传输时间与VR音频的发送端发送相关数据到VR音频的接收端的传输时间之和。
其中,线性预测根据过去的p个时刻接收到的第一设备旋转角度中的θ1,θ2,…θp(即注视平面绕x轴的旋转角度),预测当前时刻第一设备旋转角度中的旋转角度θ’(即当前时刻注视平面绕x轴的旋转角度),ω的处理方法同θ。预测公式为
方式二、如果VR音频的发送端可以获得第一设备旋转角度的角速度vθ,vω与角加速度eθ,eω,则可以根据计算延时Tdelay后的第一设备旋转角度,vθ,vω分别表示注视平面绕x,y,z轴旋转的角速度,eθ,eω分别表示注视平面绕x,y,z轴旋转的角加速度,φ,ω的处理方法与θ的处理方法一致。
对于本发明实施例,步骤703可以在存在网络延时的情况下,使得到的设备旋转角度以及Ambisonics信号旋转角度更接近于真实,空间分辨率不因网络延时而下降。
步骤704,VR音频的发送端根据预测得到的第二设备旋转角度确定Ambisonics信号旋转角度。
本发明实施例中,可以将第二设备旋转角度对应的反向角度确定为Ambisonics信号旋转角度。例如,若第二设备旋转角度为设备沿x,y,z轴的旋转角度θ,ω,最终的Ambisonics信号旋转角度可以为-θ,-ω。
步骤705,VR音频的发送端根据Ambisonics信号旋转角度,对Ambisonics信号进行旋转。
对于本发明实施例二,VR音频的发送端根据得到的Ambisonics信号绕x,y,z轴的旋转角度,即Ambisonics信号旋转角度,对Ambisonics信号进行旋转,以保证在注视平面非水平时,仍具有很高的空间分辨率。
例如,如果是1阶Ambisonic信号,其4个录音声道信号分别为W,X,Y,Z,其中,W为全向录音声道信号,X,Y,Z分别指向x,y,z轴,则旋转公式为
[X′ Y′ Z′]=[X Y Z]J
其中,
被称为旋转矩阵,X’,Y’,Z’分别为旋转后的X,Y,Z声道信号。
VR音频的发送端从旋转后的Ambisonics信号中提取MOA信号,并将MOA信号发送给VR音频的接收端,VR音频的接收端通过自身或连接的其他设备,将接收到的MOA信号渲染播放给用户。其中,可以按照现有技术中的阶数确定方式确定MOA信号的阶数,例如VR音频的发送端根据预先设定好的水平和竖直阶数(如水平3阶,竖直1阶)提取MOA信号。
实施例三
本发明实施例三为本发明实施例一的另一种可能的实现方式,在实施例二所示的基础上,进一步包括步骤702a、步骤703a中的至少一个步骤,下面对各步骤进行详细说明。
步骤702a,在步骤702之前,VR音频的接收端对获取的第一设备旋转角度进行平滑处理。
对于本发明实施例三,接收端对第一设备旋转角度进行平滑,以消除用户的微小抖动,平滑可以采用平滑滤波的方式实现。其中,平滑滤波可以使用低通滤波器来实现。
对于本发明实施例三,可以根据公式确定平滑处理后的第一设备旋转角度。其中,ak表示滤波器系数,例如,K=3,a0=a1=a2=1/3;其中θ(n)表示n时刻,设备绕x轴的旋转角度,表示平滑后的第一旋转角度,其结果的示意图如图9所示,并且ω的处理方式均可以通过上述公式确定。
此时对于步骤702,VR音频的接收端将平滑处理后的第一设备旋转角度发送给VR音频的发送端。也就是说,VR音频的发送端接收的第一设备旋转角度是平滑处理后的第一设备旋转角度。
在本发明实施例三中,由于对第一设备旋转角度进行了平滑处理,可以去除抖动噪声的影响,从而可以进一步提高后续确定出的Ambisonics信号旋转角度的准确性,当去除噪声后发现第一设备旋转角度无变化时,接收端可以省略向发送端发送第一设备旋转角度的步骤,从而降低运算量。
步骤703a,在步骤703之前,VR音频的发送端对接收的第一设备旋转角度进行平滑处理。
具体的平滑方式和步骤702a类似,这里不再赘述。
此时对于步骤703,VR音频的发送端根据平滑处理后的第一设备旋转角度以及当前网络时延信息,预测第二设备旋转角度。
当去除噪声后发现第一设备旋转角度无变化时,发送端可以省略预测第二设备旋转角度的步骤,从而降低运算量。
由本发明实施例三可知,平滑处理的步骤可以由接收端执行,也可以由发送端执行,还可以发送端和接收端均执行。
实施例四
本发明实施例四为本发明实施例一的另一种可能的实现方式,在实施例二或实施例三所示的基础上,步骤704(VR音频的发送端根据预测得到的第二设备旋转角度确定Ambisonics信号旋转角度)进一步包括步骤7041和步骤7042,下面对各步骤进行详细说明。
步骤7041,VR音频的发送端根据预测得到的第二设备旋转角度以及第一设备旋转角度分别对应的权重进行合成,得到合成后的第二设备旋转角度。
本发明实施例四中,第二设备旋转角度和第一设备旋转角度分别对应各自的权重,VR音频的发送端可以基于权重进行合成,得到合成后的第二设备旋转角度。
此外,也可以根据预测错误率调整第一设备旋转角度θ1和第二设备旋转角度θ′分别对应的权重,其中,设w1表示θ′对应的权重(也称为合成权重),w2表示θ1对应的合成权重,0≤w1≤1,w2=1-w1。
其中,预测错误率越小,合成权重w1越大,合成的目的是减小由于预测模型不符合实际情况,而带来的预测误差的影响。预测错误率的计算公式为其中,B是预设门限,A表示预测窗口的大小,A和B可以是固定值,可以依据经验确定,也可以实时调整。
其中,合成权重的计算公式为w1=i/r,其中i为常数系数,r为预测错误率。φ,ω也做相似处理。
对于本发明实施例,步骤7041可以减小由于预测模型不符合实际情况,而带来的预测误差的影响。
对于本发明实施例四,在步骤7041中,第一设备旋转角度可以为未进行平滑处理的第一设备旋转角度,也可以为VR音频的接收端平滑处理后的第一设备旋转角度,还为VR音频的发送端平滑处理后的第一设备旋转角度,在本发明实施例中不做限定。
步骤7042,VR音频的发送端根据合成得到的第二设备旋转角度确定Ambisonics信号旋转角度。
实施例五
本发明实施例五是本发明实施例一的另一种可能的实现方式,在本发明实施例一的基础上,可以由VR音频的接收端根据第一设备旋转角度预测第二设备旋转角度后发送给VR音频的发送端,如图10所示,该方法包括下述步骤:
步骤1001,VR音频的接收端获取对应的第一设备旋转角度。
步骤1002,VR音频的接收端根据对应的第一设备旋转角度以及当前网络时延信息预测得到的第二设备旋转角度。
其中,VR音频的接收端根据第一设备旋转角度以及当前网络时延信息预测第二设备旋转角度的具体方式与步骤703中发送端预测第二设备旋转角度的方式一致,这里不再赘述。
步骤1003,VR音频的接收端将第二设备旋转角度发送给VR音频的发送端。
步骤1004,VR音频的发送端根据接收到的第二设备旋转角度确定Ambisonics信号旋转角度。
步骤1005,VR音频的发送端根据Ambisonics信号旋转角度,对Ambisonics信号进行旋转。
VR音频的发送端接收到第二设备旋转角度后,如果遇到丢包,则可以使用差错隐藏技术降低网络丢包的影响。差错隐藏即由于网络丢包或错误的存在,如果当前时刻未收到第二设备旋转角度数据,则使用历史时刻接收到的数据来估计当前时刻的数据。例如,使用上一时刻的值作为当前时刻的值,或者使用预测算法来预测丢失的第二设备旋转角度数据。差错隐藏步骤为可选步骤,可以降低网络丢包的影响。
对于本发明实施例五,VR音频的发送端根据确定出的Ambisonics信号旋转角度,对Ambisonics信号进行旋转,以保证在注视平面非水平时,仍具有很高的空间分辨率。
VR音频的发送端从旋转后的Ambisonics信号中提取MOA信号,并将MOA信号发送给VR音频的接收端,VR音频的接收端通过自身或连接的其他设备,将接收到的MOA信号渲染播放给用户。其中,可以按照现有技术中的阶数确定方式确定MOA信号的阶数,例如VR音频的发送端根据预先设定好的水平和竖直阶数(如水平3阶,竖直1阶)提取MOA信号。
实施例六
本发明实施例六为本发明实施例一的另一种可能的实现方式,在实施例五所示的基础上,在步骤1002之前还包括步骤1002a,步骤1003之前还包括步骤1003a,下面对各步骤进行详细说明。
步骤1002a,VR音频的接收端对获取的第一设备旋转角度进行平滑处理。
对于本发明实施例,VR音频的接收端对获取的第一设备旋转角度进行平滑处理的方式与步骤702a中对第一设备旋转角度进行平滑处理的方式相同,在此不再赘述。
由于对第一设备旋转角度进行了平滑处理,可以去除抖动噪声的影响,从而可以进一步提高后续确定出的第二设备旋转角度及Ambisonics信号旋转角度的准确性,当去除噪声后发现第一设备旋转角度无变化时,接收端可以省略预测第二设备旋转角度的步骤,从而降低运算量。
步骤1003a,VR音频的接收端根据预测得到的第二设备旋转角度以及第一设备旋转角度分别对应的权重进行合成,得到合成后的第二设备旋转角度。
对于本发明实施例,VR音频的接收端合成第二设备旋转角度的方式与步骤7041中VR音频的发送端合成第二设备旋转角度的方式相同,在此不再赘述。
此时对于步骤1003,VR音频的接收端将合成得到的第二设备旋转角度发送给VR音频的发送端。
对于本发明实施例,VR音频的接收端合成得到第二设备旋转角度可以减小由于预测模型不符合实际情况,而带来的预测误差的影响。
实施例七
本发明实施例七是本发明实施例一的另一种可能的实现方式,在本发明实施例一的基础上,如图11所示,该方法包括下述步骤:
步骤1101,VR音频的接收端获取对应的第一设备旋转角度。
步骤1102,VR音频的接收端根据对应的第一设备旋转角度以及当前网络时延信息预测得到的第二设备旋转角度。
其中,VR音频的接收端根据第一设备旋转角度以及当前网络时延信息预测第二设备旋转角度的具体方式与步骤703中发送端预测第二设备旋转角度的方式一致,这里不再赘述。
步骤1103,VR音频的接收端将第一设备旋转角度和第二设备旋转角度发送给VR音频的发送端。
步骤1104,VR音频的发送端根据接收的第一设备旋转角度以及当前网络时延信息预测第二设备旋转角度。
步骤1105,VR音频的发送端根据接收到的第二设备旋转角度以及自身预测的第二设备旋转角度,确定Ambisonics信号旋转角度。
步骤1106,VR音频的发送端根据确定出的Ambisonics信号旋转角度,对Ambisonics信号进行旋转。
VR音频的发送端接收到第一设备旋转角度和第二设备旋转角度后,如果遇到丢包,则可以使用差错隐藏技术降低网络丢包的影响。差错隐藏即由于网络丢包或错误的存在,如果当前时刻未收到设备旋转角度数据,则使用历史时刻接收到的数据来估计当前时刻的数据。例如,使用上一时刻的值作为当前时刻的值,或者使用预测算法来预测丢失的设备旋转角度数据。差错隐藏步骤为可选步骤,可以降低网络丢包的影响。
对于本发明实施例,VR音频的发送端根据确定出的Ambisonics信号旋转角度,对Ambisonics信号进行旋转,以保证在注视平面非水平时,仍具有很高的空间分辨率。
VR音频的发送端从旋转后的Ambisonics信号中提取MOA信号,并将MOA信号发送给VR音频的接收端,VR音频的接收端通过自身或连接的其他设备,将接收到的MOA信号渲染播放给用户。其中,可以按照现有技术中的阶数确定方式确定MOA信号的阶数,例如VR音频的发送端根据预先设定好的水平和竖直阶数(如水平3阶,竖直1阶)提取MOA信号。
本发明实施例中,在执行步骤1105时,VR音频的发送端根据下述信息中的至少一种,确定Ambisonics信号旋转角度:
第二设备旋转角度在所述发送端和所述接收端之间的传输情况;
第一设备旋转角度在所述发送端和所述接收端之间的传输情况;
所述发送端和所述接收端之间的网络状况;
所述发送端和/或所述接收端的处理能力。
对于本发明实施例,VR音频的发送端和VR音频的接收端之间的网络状况可能不稳定,即VR音频的发送端和VR音频的接收端在进行信号传输时,可能存在丢包的情况。
在本发明实施例中,VR音频的接收端将第一设备旋转角度以及第二设备旋转角度发送至VR音频的发送端,当VR音频的发送端成功接收到第一设备旋转角度,但未成功接收到接收端预测的第二设备旋转角度时,VR音频的发送端可以根据自身预测的第二设备旋转角度,确定Ambisonics信号旋转角度;当VR音频的发送端成功接收到接收端预测的第二设备旋转角度,但未成功接收到第一设备旋转角度时,VR音频的发送端根据接收端预测的第二设备旋转角度确定Ambisonics信号旋转角度;当VR音频的发送端成功接收到第一设备旋转角度以及接收端预测的第二设备旋转角度时,则根据VR音频的发送端和/或VR音频的接收端的处理能力,确定Ambisonics信号旋转角度。
对于本发明实施例,若VR音频的发送端的处理能力高于VR音频接收端的处理能力,则VR音频的发送端可以根据自身预测的第二设备旋转角度确定Ambisonics信号旋转角度;反之,则VR音频的发送端根据接收端预测的第二设备旋转角度确定Ambisonics信号旋转角度。
由上可见,对于本发明实施例,VR音频的发送端和接收端各自分别预测第二设备旋转角度,然后VR音频的发送端通过预置判决条件确定出最终的Ambisonics信号旋转角度。
其中预置判决条件为:如果VR音频的接收端的预测结果由于网络丢包而VR音频的发送端接收失败,而VR音频的接收端发送的未预测的旋转角度数据(原始数据)被VR音频的发送端正确接收,则使用VR音频的发送端的预测结果;如果VR音频的接收端发送的未预测的旋转角度数据(原始数据)由于网络丢包而VR音频的发送端接收失败,而VR音频的接收端的预测结果被VR音频的发送端正确接收,则使用VR音频的接收端的预测结果;在网络没有丢包时,如果VR音频的发送端的算法更复杂更稳定,则使用VR音频的发送端的预测结果。
本发明实施例中,在步骤1102之前还可以进一步包括步骤1102a。
步骤1102a,VR音频的接收端对获取的第一设备旋转角度进行平滑处理。
对于本发明实施例,VR音频的接收端对获取的第一设备旋转角度进行平滑处理的方式与步骤702a中对第一设备旋转角度进行平滑处理的方式相同,在此不再赘述。
由于对第一设备旋转角度进行了平滑处理,可以去除抖动噪声的影响,从而可以进一步提高后续确定出的第二设备旋转角度及Ambisonics信号旋转角度的准确性,当去除噪声后发现第一设备旋转角度无变化时,接收端可以省略预测第二设备旋转角度的步骤,从而降低运算量。
本发明实施例中,步骤1103之前还包括步骤1103a。
步骤1103a,VR音频的接收端根据预测得到的第二设备旋转角度以及第一设备旋转角度分别对应的权重进行合成,得到合成后的第二设备旋转角度。
对于本发明实施例,VR音频的接收端合成第二设备旋转角度的方式与步骤7041中VR音频的发送端合成第二设备旋转角度的方式相同,在此不再赘述。
此时对于步骤1103,VR音频的接收端将合成得到的第二设备旋转角度以及第一设备旋转角度发送给VR音频的发送端。
对于本发明实施例,VR音频的接收端合成得到第二设备旋转角度可以减小由于预测模型不符合实际情况,而带来的预测误差的影响。
本发明实施例中,步骤1105之前还包括步骤1105a。
步骤1105a,VR音频的发送端根据自身预测得到的第二设备旋转角度以及接收到的第一设备旋转角度分别对应的权重进行合成,得到合成后的第二设备旋转角度。
对于本发明实施例,VR音频的发送端合成第二设备旋转角度的方式与步骤7041中VR音频的发送端合成第二设备旋转角度的方式相同,在此不再赘述。
此时对于步骤1105,VR音频的发送端根据接收到的第二设备旋转角度以及合成得到的第二设备旋转角度,确定Ambisonics信号旋转角度。
实施例八
本发明实施例为本发明的优选实施例,如图12所示,其中,
步骤1201,VR音频的发送端获取第一设备旋转角度,并发送给VR音频的发送端。
步骤1202,VR音频的发送端进行差错隐藏处理。
步骤1203,VR音频的发送端根据第一设备旋转角度和当前网络时延信息,确定第二设备旋转角度。
步骤1204,VR音频的发送端根据第二设备旋转角度,确定Ambisonics信号旋转角度。
步骤1205,VR音频的发送端根据Ambisonics信号旋转角度对Ambisonics信号进行旋转。
步骤1206,VR音频的发送端从旋转后的Ambisonics信号中提取MOA信号。
步骤1207,VR音频的发送端将提取的MOA信号发送给VR音频的接收端。
其中,步骤1203的具体流程如图13所示,包括:
步骤1301,VR音频的发送端对第一设备旋转角度进行平滑处理,得到平滑后的第一设备旋转角度。
步骤1302,VR音频的发送端根据网络时延信息对预测器的参数进行调整。
步骤1303,VR音频的发送端根据平滑后的第一设备旋转角度以及调整参数后的预测器,预测第二设备旋转角度。
步骤1304,VR音频的发送端根据预测错误率,对平滑后的第一设备旋转角度和预测的第二设备旋转角度进行合成,得到合成后的第二设备旋转角度。
本发明实施例的另一种优选实施例,如图14所示,其中,
步骤1401,VR音频的接收端获取对应的第一设备旋转角度。
步骤1402,VR音频的接收端根据第一设备旋转角度和当前网络时延信息,确定第二设备旋转角度。
步骤1403,VR音频的接收端将确定的第二设备旋转角度发送给VR音频的发送端。
步骤1404,VR音频的发送端进行差错隐藏处理。
步骤1405,VR音频的发送端根据第二设备旋转角度,确定Ambisonics信号旋转角度。
步骤1406,VR音频的发送端根据Ambisonics信号旋转角度对Ambisonics信号进行旋转。
步骤1407,VR音频的发送端从旋转后的Ambisonics信号中提取MOA信号。
步骤1408,VR音频的发送端将提取的MOA信号发送给VR音频的接收端。
其中,步骤1402的具体流程如图15所示,包括:
步骤1501,VR音频的接收端对第一设备旋转角度进行平滑处理,得到平滑后的第一设备旋转角度。
步骤1502,VR音频的接收端根据根据网络时延信息对预测器的参数进行调整。
步骤1503,VR音频的接收端根据平滑后的第一设备旋转角度以及调整参数后的预测器,预测第二设备旋转角度。
步骤1504,VR音频的接收端根据预测错误率,对平滑后的第一设备旋转角度和预测的第二设备旋转角度进行合成,得到合成后的第二设备旋转角度。
实施例九
本发明实施例的另一种可能的实现方式,如图16所示,包括步骤:
步骤1601,VR音频的发送端获取根据VR音频的相关信息确定的MOA信号的阶数。
其中,VR音频的相关信息包括下述至少一项:VR音频的内容相关信息、VR音频的播放相关信息以及VR音频的传输相关信息。
其中,VR音频的内容相关信息包括VR音频的内容相关性信息、VR音频内容的声源方向信息以及VR内容所属类型信息中的至少一种;
VR音频的播放相关信息包括播放环境噪声信息、VR音频的接收端的虚拟扬声器数量信息;
VR音频的传输相关信息包括传输网络带宽信息、传输网络延时信息中的至少一种。
步骤1602,VR音频的发送端依据获取的MOA信号的阶数,从Ambisonics信号中提取出MOA信号。
对于本发明实施例九,Ambisonics信号可以为进行旋转之后的Ambisonics信号,也可以不进行旋转,并且VR音频的发送端可以获取到MOA信号的阶数之后,直接根据MOA信号的阶数从未进行旋转的Ambisonics信号中提取出MOA信号。
对于本发明实施例,实施例九可以不在实施例一至实施例八的任一实施例的基础上执行,即实施例九可以单独执行。在此不做限定。
现有的MOA技术的带宽占用虽然较Ambisonics技术有所降低,但是在实际应用中MOA技术的带宽仍然过高,空间分辨率仍需提高。
本发明实施例九提出了一种VR音频处理的方法,与现有技术相比,本发明实施例中VR音频的接收端获取根据VR音频的相关信息确定出的MOA信号的阶数,并依据该MOA信号的阶数提取MOA信号,从而可以提高空间分辨率的精度和/或降低带宽的占用。
实施例十
本发明实施例的另一种可能的实现方式,在实施例九所示的基础上,步骤1602,VR音频的发送端获取根据VR音频的相关信息确定的MOA信号的阶数,包括实施例十所示的步骤16021-16022。
步骤16021,VR音频的发送端获取VR音频的相关信息。
其中,步骤16022之前还包括步骤16021a-16021b,其中,
步骤16021a,VR音频的接收端获取VR音频的相关信息。
其中,步骤16021a中的相关信息包括下述至少一项:VR音频的内容相关信息、VR音频的播放相关信息以及VR音频的传输相关信息。
步骤16021b,VR音频的接收端将获取的VR音频的相关信息发送给VR音频的发送端。
步骤16022,VR音频的发送端根据获取到的相关信息确定MOA信号的阶数。
其中,步骤16022包括步骤16022b1、16022b2或者16022b3中的至少一个步骤,其中,
步骤16022b1、VR音频的发送端根据VR内容所属类型信息、传输网络带宽信息、传输网络延时信息、播放环境噪声信息、接收端的虚拟扬声器数量信息中的至少一种,确定MOA信号的总阶数。
VR音频的发送端可以根据确定出的MOA信号的总阶数,确定当前MOA信号在第一方向上对应的阶数和/或在第二方向上对应的阶数,然后按照第一方向的阶数和/或第二方向的阶数提取MOA信号。
其中,VR音频的发送端可以按照预先设定的第一方向和第二方向的阶数分配原则,确定第一方向的阶数和第二方向的阶数。此外,其中VR音频的发送端也可以采用下述实施例中确定当前MOA信号在第一方向上对应的阶数和/或在第二方向上对应的阶数的方式,在此不再赘述。
其中,第一方向可以但不限于为水平/竖直方向,第二方向可以但不限于为竖直/水平方向。
对于本发明实施例,VR音频的发送端可以接收VR音频的接收端发送的当前的播放环境噪声信息,并根据当前的播放环境噪声信息,确定MOA信号的总阶数。对于本发明实施例,播放环境噪声信息可以由VR音频的接收端获取。例如,环境噪声信息可以使用手机或耳机上的麦克风来获取。
对于本发明实施例,VR音频的接收端对当前播放环境噪声进行采样,确定各个采样点分别对应的采样信号,然后根据各个采样点分别对应的采样信号,确定当前播放环境噪声的能量,VR音频的发送端根据当前播放环境噪声的能量,确定MOA信号的总阶数。在本发明实施例中,VR音频的接收端可以根据公式确定当前播放环境噪声的能量,其中,N表示计算能量所需的采样点数,s(n)表示噪声信号。
对于本发明实施例,如果VR音频的接收端将播放环境噪声的能量发送给VR音频的发送端,VR音频的发送端根据播放环境噪声的能量判断MOA信号的总阶数。由于在播放环境噪声大于阈值C的情况下,用户很难清晰的分辨出声源的位置,因此在大环境噪声时,可以降低MOA信号的总阶数,从而降低带宽占用。
对于本发明实施例,VR音频的发送端接收VR音频的接收端发送的虚拟扬声器的数量信息,并根据虚拟扬声器的数量信息,确定MOA信号的总阶数。若VR音频的接收端的虚拟扬声器的数量较少,则可以适当降低MOA信号的总阶数,从而降低带宽占用。
对于本发明实施例,VR音频的接收端可以根据当前用户注视方向、VR音频的接收端当前电量、VR音频的接收端的计算能力中的至少一项,调整接收端的虚拟扬声器的数量。
对于本发明实施例,用户视线与半径为R的球体的交点的含义如图17所示。其中,对原坐标系分别沿x轴和y轴旋转,旋转后的x,y轴所确定的平面为用户的注视平面所在的平面,图17中的A点表示视线与半径为R的球体的交点,设在初始坐标系中A点的坐标为则坐标轴旋转后,A点在新坐标系下的坐标为
对于本发明实施例,VR音频的接收端根据人耳对左右及后方的声音不如前方敏感,竖直方向不如水平方向敏感的特点,可以降低左右、后方、竖直方向中至少一个方向的虚拟扬声器个数,其中,双耳渲染的公式如下:
其中,hl表示第l个虚拟扬声器所对应的HRTF函数,*表示卷积,sl表示第l个虚拟扬声器的信号。
其中,由上式可知,虚拟扬声器越少,则计算量越低,图19是水平方向虚拟扬声器个数的示意图。
对于本发明实施例,VR音频的接收端获取VR音频的接收端设备当前的电量和/或计算能力,并根据当前的电量和/或计算能力,进一步地调整虚拟扬声器的个数。在本发明实施例中,如果设备电量不足,则需要按照人耳对左右及后方的声音不如前方敏感的原则进一步降低虚拟扬声器的个数。在本发明实施例中,如果虚拟扬声器的个数超出了VR音频的接收端设备的运算能力,则需要进一步降低虚拟扬声器的个数。
对于本发明实施例,MOA技术在客户端具有很高的渲染功耗,这是由于双耳渲染的计算量正比于虚拟扬声器的个数,而在渲染时,一般需要较多的虚拟扬声器,VR音频的接收端通过上述方式可以减少虚拟扬声器的个数,从而降低VR音频的接收端的功耗。
对于本发明实施例,VR音频的接收端将调整后的虚拟扬声器的个数发送至VR音频的发送端,以使得VR音频的发送端根据虚拟扬声器的数量信息确定MOA信号的总阶数。
对于本发明实施例,VR音频的发送端根据VR内容所属类型信息、传输网络带宽信息、传输网络延时信息、播放环境噪声信息、接收端的虚拟扬声器数量信息中的至少一种以及每种信息分别对应的权重,确定MOA信号的总阶数。
对于本发明实施例,每种信息分别对应的权重可以根据经验预先确定,也可以进行调整。例如,对于流畅性要求高的VR内容所属类型,比如体育比赛节目内容,网络带宽的权重可能更大,当网络带宽不足时,可以降低总阶数,以此保证内容传输的实时性;对于音乐类节目内容,网络带宽的权重可能更小,可以尽可能使用较多的阶数,以保证音频质量。
对于同一VR音频内容,假设只使用下述的条件i,ii,iv来判断MOA信号的总阶数,根据经验或内容提供者的设定,条件i的权重可以为Ui=5,条件ii的权重可以为Uii=3,条件iv的权重可以为Uiv=1,则:
如果该内容是音乐类内容,假设根据条件i的判断,总阶数为Pi=10阶。此时网络可用带宽较低,根据条件ii判断,总阶数为Pii=3阶。此时噪声很小,根据条件iv的判断,总阶数为Piv=9阶,则总阶数P为
如果该内容不是音乐类内容,且条件ii和iv的判决结果上述结果相同,则总阶数P为
对于本发明实施例,判决分为总阶数判决部分和第一方向阶数和/或第二方向阶数判决部分,对应不同的输入条件。其中,
总阶数判决对应的输入条件有:
i.是否是设定类型的音频内容,该设定类型可以为音乐等,VR音频的发送端根据内容标签判断是否是音乐类的信号,如果内容是音乐类内容,则尽量增大总阶数以提高空间分辨率;
ii.传输网络带宽,如果网络带宽变小,则降低总阶数;否则,提高总阶数;
iii.传输网络时延,如果网络延时非常大,则可以提高总阶数。
对于本发明实施例,因为当网络延时非常大时,方向预测误差会变大,此时可以增大阶数以补偿预测误差带来的影响;
iv.播放环境噪声,当播放环境噪声较大时(或者大于预置阈值时),可以降低总阶数。
步骤16022b2、VR音频的发送端根据VR音频的内容相关性信息、VR音频内容的声源方向信息中的至少一种,确定MOA信号中第一方向和/或第二方向的阶数。
对于本发明实施例,VR音频的发送端分别确定Ambisonics信号在第一方向上的相关性信息和/或第二方向上的相关性信息,根据Ambisonics信号在第一方向上的相关性信息和/或第二方向上的相关性信息,确定MOA信号中第一方向和/或第二方向的阶数。
对于本发明实施例,步骤16022b2之前可以先按照实施例一至实施例八中的步骤确定最终的Ambisonics信号的旋转方向,并按照该旋转方向对当前Ambisonics信号进行旋转,并分别确定旋转之后的Ambisonics信号在第一方向上的相关性信息和/或第二方向上的相关性信息,
例如,以3阶Ambisonics信号为例,本发明实施例确定相关性信息所使用的第一信号以及第二信号如图20所示。
对于本发明实施例,该实施例的应用场景为第一方向以及第二方向的声源的方向性很弱的情况,例如电视节目的背景音。
其中,确定Ambisonics信号在第一方向上的相关性信息和/或第二方向上的相关性信息的方式,如下所示:
对于本发明实施例,VR音频的发送端根据第一方向上的声道,确定Ambisonics信息在第一方向上的相关性信息。
具体地,Ambisonics信息在第一方向上的相关性信息和/或在第二方向上的相关性信息的公式可以使用下式的例子:X和Y声道的相关系数为
在本发明实施例中,若Ambisonics信号在第一方向上的相关性大于Ambisonics信号在第二方向上的相关性,则VR音频的发送端调整MOA信号在第一方向上对应的阶数大于在第二方向上对应的阶数;若Ambisonics信号在第一方向上的相关性小于Ambisonics信号在第二方向上的相关性,则VR音频的发送端调整MOA信号在第一方向上对应的阶数小于在第二方向上对应的阶数。
对于本发明实施例,如果第一方向的相关性强,说明第一方向信号具有较弱的方向性,此时可以分配较少的阶数;如果第二方向的相关性强,说明第二方向信号具有较弱的方向性,此时可以分配较少的阶数。
对于本发明实施例,对于相关性强的方向,分配较少的阶数;对于相关性弱的方向,分配较多的阶数,从而实现降低带宽,以及提高空间分辨率,具体的,可以在保证空间分辨率不变的条件下降低带宽占用,也可以在带宽不变的情况下,提高空间分辨率,还可以在带宽降低的同时,提高空间分辨率。
例如,水平方向分配5阶,竖直方向分配3阶的MOA信号(共20路信号),则当水平方向相关性弱,而竖直方向相关性强时(竖直方向使用1阶来表达就足够),可以分配水平方向6阶,竖直方向1阶(共14路信号),这样可以在降低带宽占用的同时,提高空间分辨率(水平方向分辨率提高,竖直方向分辨率不变,总体空间分辨率提高);当水平方向相关性强时,可分配水平方向4阶(水平方向使用4阶来表达就足够),竖直方向3阶(共18路信号),这样可以在空间分辨率不变的情况下,降低带宽占用。
对于本发明实施例,VR音频的发送端分别确定Ambisonics信号在第一方向的声源能量和/或在第二方向上的声源能量;根据Ambisonics信号在第一方向的声源能量和/或在第二方向上的声源能量,确定MOA信号中第一方向和/或第二方向的阶数。
对于本发明实施例,VR音频的发送端分别获取多个第一方向上的声音信号,然后根据多个第一方向上的声音信号以及当前时刻MOA信号在第一方向上对应的阶数,确定当前Ambisonics信号在第一方向的声源能量;和/或,VR音频的发送端分别获取多个第二方向上的声音信号,然后根据多个第二方向上的声音信号以及当前时刻MOA信号在第二方向上对应的阶数,确定当前Ambisonics信号在第二方向的声源能量。
在本发明实施例中,当Ambisonics信号在第一方向的声源能量小于Ambisonics信号在第二方向上的声源能量时,增大MOA信号在第二方向上对应的阶数,并降低MOA信号在第一方向上对应的阶数,这样可以在带宽不提高的情况下提高空间分辨率,此时也可以进一步减少第一方向上对应的阶数,从而在降低带宽的情况下提高空间分辨率,或者保持第二方向的阶数不变,降低第一方向的阶数,从而在空间分辨率的情况下降低带宽占用;当Ambisonics信号在第一方向的能量大于Ambisonics信号在第二方向上的能量时,降低MOA信号在第二方向上对应的阶数,并增大MOA信号在第一方向上对应的阶数,这样可以在带宽不提高的情况下提高空间分辨率。
步骤16022b3、VR音频的发送端根据VR内容所属类型信息、传输网络带宽信息、传输网络延时信息、播放环境噪声信息、接收端的虚拟扬声器数量信息中的至少一种,确定MOA信号的总阶数,根据VR音频的内容相关性信息、VR音频内容的声源方向信息中的至少一种,确定MOA信号中第一方向和/或第二方向的阶数。
第一方向和/或第二方向的阶数判决对应的输入条件有:
v.Ambisonics信号在第一方向上的相关性信息和/或第二方向上的相关性。
vi.Ambisonics信号在第一方向的声源能量和/或在第二方向上的声源能量。
对于本发明实施例,在实际使用中可以根据实际情况自由组合各判决条件,例如,根据前述的条件调整总阶数,以及在第一方向上的阶数以及第二方向上的阶数,可以先调整总阶数,再调整第一方向上的阶数以及第二方向上的阶数。其步骤具体为:
a)根据参数i,ii,iii,iv判决总阶数,假设判决结果(MOA信号的总阶数)为z’阶;
b)根据参数v,vi判决第一方向阶数与第二方向阶数的比例,假设比例为f/g;
其中,对x’和y’进行取整处理,保证其和为z’。
其中,也可以先计算第一方向和第二方向的阶数比例,再判决总阶数,然后计算第一方向上的阶数和第二方向上的阶数,其步骤为:
a)根据参数v,vi判决在第一方向上阶数与在第二方向上阶数的比例,假设比例为f/g;
b)根据参数i,ii,iii,iv判决总阶数,假设判决结果为z’阶;
c)根据以下公式计算水平x’与竖直的阶数y’
d)对x’和y’进行取整处理,保证其和为z’。
本发明实施例中,根据上述的条件综合判断阶数,可以实现在保证空间分辨率不变的条件下降低带宽占用,或者在带宽不变的情况下,提高空间分辨率,或者在带宽降低的同时,提高空间分辨率的效果。
实施例十一
本发明实施例的另一种可能的实现方式,在实施例九的基础上,步骤1602,VR音频的发送端获取根据VR音频的相关信息确定的MOA信号的阶数,包括实施例十所示的步骤16023-16024。
步骤16023、VR音频的发送端接收VR音频的接收端根据VR音频的相关信息确定的MOA信号的阶数。
对于本发明实施例,VR音频的接收端可以根据播放环境的噪声和/或VR音频的接收端的虚拟扬声器数量信息确定MOA信号的总阶数,具体方式不再赘述。
步骤16024、VR音频的发送端根据接收到的MOA信号的阶数确定最终的MOA信号的阶数。
其中,步骤16024包括步骤16024b1或者16024b2,其中,
步骤16024b1、VR音频的发送端将接收到的MOA信号的阶数确定为最终的MOA信号的阶数。
步骤16024b2、VR音频的发送端根据接收到的MOA信号的阶数以及VR音频的相关信息,确定最终的MOA信号的阶数。
VR音频的发送端可以根据VR音频的相关信息中除播放环境的噪声、虚拟扬声器数量信息之外的其他至少一种相关信息,确定最终的MOA信号的阶数。
对于本发明实施例,MOA技术的带宽占用虽然较Ambisonics技术有所降低,但是在实时在线浏览的场景下,MOA技术的带宽依然过高。在本发明实施例中,通过VR音频的内容相关信息、播放相关信息、传输相关信息,可以调整MOA信号的阶数,从而可以降低带宽占用和/或提高空间分辨率。
实施例十二
本发明实施例的另一种可能的实现方式,在实施例九的基础上,还包括步骤1603-步骤1604,其中,
步骤1603、VR音频的发送端根据当前网络状态,确定预设时刻的Ambisonics信号需要提前发送的阶数。
对于本发明实施例,VR音频的发送端根据当前的网络状态对未来第d时刻的Ambisonics信号提前发送的阶数进行判断,其中,当网络状态好时,分配更多的提前发送的阶数,否则,减少提前发送的阶数。
步骤1604、VR音频的发送端根据确定的预设时刻的Ambisonics信号需要提前发送的阶数,从预设时刻的Ambisonics信号中,按照阶数由低到高的顺序以及确定出的需要提前发送的阶数提取信号。
对于本发明实施例,VR音频的发送端根据确定的预设时刻的Ambisonics信号需要提前发送的阶数,从预设时刻的Ambisonics信号中提取低阶信号,并将提取到的低阶信号发送至VR音频的接收端。
其中,低阶是指提前传输的阶数,该阶数比原始ambisonics信号的阶数低。如,原始ambisonics信号的阶数为3阶,则0~2阶均属于低阶,低阶的具体数值M和可用带宽有关,可用带宽越大,M的值越大。
对于本发明实施例,VR音频的发送端对未来第d时刻Ambisonic信号的低阶信号进行提取,并发送到VR音频的接收端。其中,提取低阶信号的方法如图22所示的3阶Ambisonic信号,只提取信号1,2,3,4,5,6,7,8,9,作为提前发送的低阶(2阶)Ambisonic信号。
步骤1605、VR音频的发送端将提取到的信号发送至VR音频的接收端。
步骤1606、当到达预设时刻时,VR音频的发送端将预设时刻的MOA信号中除提取到的信号之外的残余信号发送给VR音频的接收端。
其中,预设时刻为上文的第d时刻。
对于本发明实施例,当到达预设时刻时,VR音频的发送端可以将预设时刻的MOA信号按照最终的Ambisonics信号旋转角度进行旋转,然后提取除已提取到的信号之外的残余信号,并将该残余信号以及最终的Ambisonics信号旋转角度发送至VR音频的接收端;或者当到达预设时刻时,VR音频的发送端提取除提取到的信号之外的残余信号,并将残余信号发送至VR音频的接收端。
对于本发明实施例,当到达预设时刻时,VR音频的发送端根据当前Ambisonics信号在第一方向以及第二方向上的相关性信息、所述当前Ambisonics信号在第一方向的声源能量以及在第二方向上的声源能量、当前环境噪声的能量、当前Ambisonic信号中内容所属的类型信息、当前网络的时延信息、当前网络的带宽信息以及当前环境噪声的能量信息,虚拟扬声器的个数中的至少一种,调整当前MOA信号在第一方向上的阶数以及在第二方向上的阶数,具体的调整MOA在第一方向上的阶数以及第二方向上的阶数的具体方式详见前述实施例,在此不再赘述。
对于本发明实施例,VR音频的发送端将提取后的MOA信号中不包括之前发送的低阶信号的残余信号发送给VR音频的接收端。
例如,提前发送的是2阶信号,而提取后的MOA信号是水平3阶,竖直2阶,则残余信号如图23所示。
步骤1607、当到达预设时刻时,VR音频的接收端将提前发送的信号和残余信号进行合并。
对于本发明实施例,若VR音频的接收端接收VR音频的发送端发送的残余信号之外还接收到预设时刻的最终的Ambisonics信号旋转角度,则对之前接收到的预设时刻的低阶Ambisonics信号按照该最终的Ambisonics信号旋转角度,进行旋转,然后再将旋转之后的预设时刻的低阶Ambisonics信号以及残余信号进行合并;若VR音频的接收端仅接收到预设时刻的MOA信号中除需要提前发送的信号之外的残余信号,则直接将需要提前发送信号与残余信号进行合并。
对于本发明实施例,当到达预设时刻时,VR音频的发送端将预设时刻的Ambisonics信号按照最终的Ambisonics信号的旋转角度进行旋转,并根据已确定的第一方向阶数和/或第二方向阶数,从旋转后的Ambisonics信号中提取MOA信号。在本发明实施例中,确定第一方向阶数和/或第二方向阶数的方式和前述实施例描述的方式相同,在此不再赘述。
对于本发明实施例,由于MOA技术不能在网络不稳定的情况下,保证在接受端获得稳定的音频信号,因此VR音频的发送端根据网络状态,提前将预设时刻的MOA信号的低阶信号发送至VR音频的接收端,当到达预置时刻时,将除已发送的低阶信号之外的残余信号发送至VR音频的接收端,即在网络状态良好时,先将预设时刻的Ambisonics信号中提取低阶信号,并发送至VR音频的接收端,从而在网络不稳定的情况下,保证在客户端获得稳定的音频信号。
本发明实施例提供了一种VR音频的发送端设备,如图24所示,该VR音频的发送端设备包括:第一获取模块2401、旋转模块2402。
第一获取模块2401,用于获取高保真立体声Ambisonics信号旋转角度。
其中,Ambisonics信号旋转角度是根据VR音频的接收端对应的第一设备旋转角度确定出的。
旋转模块2402,用于根据Ambisonics信号旋转角度,对Ambisonics信号进行旋转。
本发明实施例提供了一种VR音频处理的发送端设备,与现有技术相比,能够根据VR音频的接收端对应的设备旋转角度的变化,确定出Ambisonics信号旋转角度,并对Ambisonics信号进行旋转,从而可以使播放VR音频内容的终端设备或播放对应VR视频内容的终端设备非水平放置时,仍然具有很高的音频空间分辨率。
本发明实施例提供了一种VR音频的接收端设备,如图25所示,该VR音频的接收端设备包括:第二获取模块2501、第一处理模块2502,其中,
第二获取模块2501,用于获取对应的第一设备旋转角度。
第一处理模块2502,用于将获取的第一设备旋转角度发送给VR音频的发送端,和/或根据第一设备旋转角度以及当前网络时延信息预测第二设备旋转角度,并将第二设备旋转角度发送给VR音频的发送端。
本发明实施例提供了一种VR音频处理的接收端设备,与现有技术相比,能够根据VR音频的接收端对应的设备旋转角度的变化,确定出Ambisonics信号旋转角度,并对Ambisonics信号进行旋转,从而可以使播放VR音频内容的终端设备或播放对应VR视频内容的终端设备非水平放置时,仍然具有很高的音频空间分辨率。
本发明实施例提供了另一种VR音频的发送端设备,如图26所示,该VR音频的发送端设备包括:第三获取模块2601、提取模块2602。
第三获取模块2601,用于获取根据VR音频的相关信息确定的混合阶高保真立体声MOA信号的阶数。
其中,相关信息包括下述至少一项:VR音频的内容相关信息、VR音频的播放相关信息、VR音频的传输相关信息。
提取模块2602,用于依据MOA信号的阶数,从高保真立体声Ambisonics信号中提取出MOA信号。
本发明实施例提供了一种虚拟现实VR音频的发送端设备,与现有技术相比,可以获取根据VR音频的相关信息确定出的MOA信号的阶数,并依据该MOA信号的阶数提取MOA信号,从而可以提高空间分辨率的精度和/或降低带宽的占用。
本发明实施例提供了另一种VR音频的接收端设备,如图27所示,该VR音频的接收端设备包括:包括:第四获取模块2701、第二处理模块2702,其中,
第四获取模块2701,用于获取VR音频的相关信息。
其中,相关信息包括下述至少一项:VR音频的内容相关信息、VR音频的播放相关信息以及VR音频的传输相关信息。
第二处理模块2702,用于将获取的VR音频的相关信息发送给VR音频的发送端,或者根据获取的VR音频的相关信息确定出MOA信号的阶数,并将确定出的MOA信号的阶数发送给VR音频的发送端。
本发明实施例提供了一种虚拟现实VR音频的接收端设备,与现有技术相比,可以获取根据VR音频的相关信息确定出的MOA信号的阶数,并依据该MOA信号的阶数提取MOA信号,从而可以提高空间分辨率的精度和/或降低带宽的占用。
本发明实施例提供的VR音频的发送端以及VR音频的接收端以实现上述提供的方法实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。本发明实施例提供的虚拟现实VR音频处理的方法及相应设备可以适用于将当前Ambisonics信号按照当前用户注视平面的旋转角度进行旋转,并且将旋转后的Ambisonics信号按照确定的MOA信号的阶数,提取MOA信号。但不仅限于此。
本技术领域技术人员可以理解,本发明包括涉及用于执行本申请中所述操作中的一项或多项的设备。这些设备可以为所需的目的而专门设计和制造,或者也可以包括通用计算机中的已知设备。这些设备具有存储在其内的计算机程序,这些计算机程序选择性地激活或重构。这样的计算机程序可以被存储在设备(例如,计算机)可读介质中或者存储在适于存储电子指令并分别耦联到总线的任何类型的介质中,所述计算机可读介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、CD-ROM、和磁光盘)、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随即存储器)、EPROM(Erasable ProgrammableRead-Only Memory,可擦写可编程只读存储器)、EEPROM(Electrically ErasableProgrammable Read-Only Memory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,可读介质包括由设备(例如,计算机)以能够读的形式存储或传输信息的任何介质。
本技术领域技术人员可以理解,可以用计算机程序指令来实现这些结构图和/或框图和/或流图中的每个框以及这些结构图和/或框图和/或流图中的框的组合。本技术领域技术人员可以理解,可以将这些计算机程序指令提供给通用计算机、专业计算机或其他可编程数据处理方法的处理器来实现,从而通过计算机或其他可编程数据处理方法的处理器来执行本发明公开的结构图和/或框图和/或流图的框或多个框中指定的方案。
本技术领域技术人员可以理解,本发明中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本发明中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本发明中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (33)
1.一种虚拟现实VR音频处理的方法,其特征在于,包括:
VR音频的发送端获取高保真立体声Ambisonics信号旋转角度,所述Ambisonics信号旋转角度是根据VR音频的接收端对应的设备第一旋转角度确定出的;
根据获取的所述Ambisonics信号旋转角度,对Ambisonics信号进行旋转;
将旋转后的Ambisonics信号发送至所述VR音频的接收端;
所述VR音频的发送端获取Ambisonics信号旋转角度,具体包括:
所述VR音频的发送端接收所述VR音频的接收端发送的设备第一旋转角度、和/或所述VR音频的接收端根据对应的设备第一旋转角度以及当前网络时延信息预测得到的设备第二旋转角度,所述VR音频的发送端根据接收到的设备第一旋转角度以及当前网络时延信息,预测设备第二旋转角度;所述VR音频的发送端根据接收到的设备第二旋转角度和/或自身预测的设备第二旋转角度确定Ambisonics信号旋转角度。
2.根据权利要求1所述的虚拟现实VR音频处理的方法,其特征在于,所述发送端接收到的设备第二旋转角度是所述接收端根据预测得到的设备第二旋转角度以及设备第一旋转角度分别对应的权重合成得到的;
所述发送端根据预测得到的设备第二旋转角度确定Ambisonics信号旋转角度,具体包括:
所述发送端根据预测得到的设备第二旋转角度以及设备第一旋转角度分别对应的权重进行合成,根据合成得到的设备第二旋转角度确定Ambisonics信号旋转角度;
所述发送端根据接收到的设备第二旋转角度以及自身预测的设备第二旋转角度,确定Ambisonics信号旋转角度,具体包括:
所述发送端根据自身预测得到的设备第二旋转角度以及接收到的设备第一旋转角度分别对应的权重进行合成,根据接收到的设备第二旋转角度以及合成得到的设备第二旋转角度,确定Ambisonics信号旋转角度。
3.根据权利要求1所述的虚拟现实VR音频处理的方法,其特征在于,所述发送端根据接收到的设备第二旋转角度以及自身预测的设备第二旋转角度,确定Ambisonics信号旋转角度,具体包括:
所述发送端根据下述信息中的至少一种,确定Ambisonics信号旋转角度:
设备第二旋转角度在所述发送端和所述接收端之间的传输情况;
设备第一旋转角度在所述发送端和所述接收端之间的传输情况;
所述发送端和所述接收端之间的网络状况;
所述发送端和/或所述接收端的处理能力。
4.根据权利要求1-3任一项所述的虚拟现实VR音频处理的方法,其特征在于,还包括:
所述VR音频的发送端获取根据VR音频的相关信息确定的混合阶高保真立体声MOA信号的阶数,所述相关信息包括下述至少一项:VR音频的内容相关信息、VR音频的播放相关信息以及VR音频的传输相关信息;
所述VR音频的发送端依据所述MOA信号的阶数,从旋转后的Ambisonics信号中提取出MOA信号。
5.根据权利要求4所述的虚拟现实VR音频处理的方法,其特征在于,所述VR音频的内容相关信息包括内容相关性信息、声源方向信息以及VR内容所属类型信息中的至少一种;
所述VR音频的播放相关信息包括播放环境噪声信息、接收端的虚拟扬声器数量信息;
所述VR音频的传输相关信息包括传输网络带宽信息、传输网络延时信息中的至少一种。
6.根据权利要求5所述的虚拟现实VR音频处理的方法,其特征在于,VR音频的发送端获取根据VR音频的相关信息确定的MOA信号的阶数,具体包括:
所述VR音频的发送端根据VR内容所属类型信息、传输网络带宽信息、传输网络延时信息、播放环境噪声信息、接收端的虚拟扬声器数量信息中的至少一种,确定MOA信号的总阶数;
或者,根据VR音频的内容相关性信息、VR音频内容的声源方向信息中的至少一种,确定MOA信号中第一方向和/或第二方向的阶数。
7.根据权利要求6所述的虚拟现实VR音频处理的方法,其特征在于,根据VR音频的内容相关性信息,确定MOA信号中第一方向和/或第二方向的阶数,具体包括:
根据VR音频的内容相关性信息,分别确定Ambisonics信号在第一方向上的相关性信息和/或第二方向上的相关性信息;根据所述Ambisonics信号在第一方向上的相关性信息和/或第二方向上的相关性信息,确定MOA信号中第一方向和/或第二方向的阶数;
根据VR音频内容的声源方向信息,确定MOA信号中第一方向和/或第二方向的阶数,具体包括:
根据VR音频内容的声源方向信息,分别确定Ambisonics信号在第一方向的声源能量和/或在第二方向上的声源能量;根据所述Ambisonics信号在第一方向的声源能量和/或在第二方向上的声源能量,确定MOA信号中第一方向和/或第二方向的阶数。
8.根据权利要求6所述的虚拟现实VR音频处理的方法,其特征在于,根据VR内容所属类型信息、传输网络带宽信息、传输网络延时信息、播放环境噪声信息、接收端的虚拟扬声器数量信息中的至少一种,确定MOA信号的总阶数,具体包括:
根据VR内容所属类型信息、传输网络带宽信息、传输网络时延信息、播放环境噪声信息、接收端的虚拟扬声器数量信息中的至少一种以及每种信息分别对应的权重,确定MOA信号的总阶数。
9.根据权利要求4所述的虚拟现实VR音频处理的方法,其特征在于,VR音频的发送端获取根据VR音频的相关信息确定的MOA信号的阶数,具体包括:
所述VR音频的发送端接收所述VR音频的接收端根据所述VR音频的相关信息确定的MOA信号的阶数,所述发送端根据接收到的MOA信号的阶数确定最终的MOA信号的阶数。
10.根据权利要求4所述的虚拟现实VR音频处理的方法,其特征在于,所述方法还包括:
所述VR音频的发送端根据当前网络状态,确定预设时刻的Ambisonics信号需要提前发送的阶数;
所述VR音频的发送端根据确定的预设时刻的Ambisonics信号需要提前发送的阶数,从预设时刻的Ambisonics信号中,按照阶数由低到高的顺序以及确定出的需要提前发送的阶数提取信号,并将提取到的信号发送至所述VR音频的接收端;
当到达所述预设时刻时,将所述预设时刻的MOA信号中除提取到的信号之外的残余信号发送给所述VR音频的接收端。
11.一种VR音频的发送端设备,其特征在于,包括:
第一获取模块,用于获取高保真立体声Ambisonics信号旋转角度,所述Ambisonics信号旋转角度是根据VR音频的接收端对应的设备第一旋转角度确定出的;
旋转模块,用于根据所述Ambisonics信号旋转角度,对Ambisonics信号进行旋转;
处理模块,将旋转后的Ambisonics信号发送至所述VR音频的接收端;
所述第一获取模块在用于获取Ambisonics信号旋转角度时,具体用于:
接收所述VR音频的接收端发送的设备第一旋转角度、和/或所述VR音频的接收端根据对应的设备第一旋转角度以及当前网络时延信息预测得到的设备第二旋转角度,所述VR音频的发送端根据接收到的设备第一旋转角度以及当前网络时延信息,预测设备第二旋转角度;所述VR音频的发送端根据接收到的设备第二旋转角度和/或自身预测的设备第二旋转角度确定Ambisonics信号旋转角度。
12.根据权利要求11所述的VR音频的发送端设备,其特征在于,所述第一获取模块接收到的设备第二旋转角度是所述接收端根据预测得到的设备第二旋转角度以及设备第一旋转角度分别对应的权重合成得到的;
所述第一获取模块在根据预测得到的设备第二旋转角度确定Ambisonics信号旋转角度时,具体用于:
根据预测得到的设备第二旋转角度以及设备第一旋转角度分别对应的权重进行合成,根据合成得到的设备第二旋转角度确定Ambisonics信号旋转角度;
所述第一获取模块在根据接收到的设备第二旋转角度以及自身预测的设备第二旋转角度,确定Ambisonics信号旋转角度时,具体用于:
根据自身预测得到的设备第二旋转角度以及接收到的设备第一旋转角度分别对应的权重进行合成,根据接收到的设备第二旋转角度以及合成得到的设备第二旋转角度,确定Ambisonics信号旋转角度。
13.根据权利要求11所述的VR音频的发送端设备,其特征在于,所述第一获取模块在根据接收到的设备第二旋转角度以及自身预测的设备第二旋转角度,确定Ambisonics信号旋转角度时,具体用于根据下述信息中的至少一种,确定Ambisonics信号旋转角度:
设备第二旋转角度在所述发送端和所述接收端之间的传输情况;
设备第一旋转角度在所述发送端和所述接收端之间的传输情况;
所述发送端和所述接收端之间的网络状况;
所述发送端和/或所述接收端的处理能力。
14.根据权利要求11-13任一项所述的VR音频的发送端设备,其特征在于,所述VR音频的发送端设备还包括第三获取模块以及提取模块,其中,
所述第三获取模块,用于获取根据VR音频的相关信息确定的混合阶高保真立体声MOA信号的阶数,所述相关信息包括下述至少一项:VR音频的内容相关信息、VR音频的播放相关信息以及VR音频的传输相关信息;
所述提取模块,用于依据所述MOA信号的阶数,从旋转后的Ambisonics信号中提取出MOA信号。
15.根据权利要求14所述的VR音频的发送端设备,其特征在于,所述VR音频的内容相关信息包括内容相关性信息、声源方向信息以及VR内容所属类型信息中的至少一种;
所述VR音频的播放相关信息包括播放环境噪声信息、接收端的虚拟扬声器数量信息;
所述VR音频的传输相关信息包括传输网络带宽信息、传输网络延时信息中的至少一种。
16.根据权利要求15所述的VR音频的发送端设备,其特征在于,所述第三获取模块具体用于:
根据VR内容所属类型信息、传输网络带宽信息、传输网络延时信息、播放环境噪声信息、接收端的虚拟扬声器数量信息中的至少一种,确定MOA信号的总阶数;
或者,根据VR音频的内容相关性信息、VR音频内容的声源方向信息中的至少一种,确定MOA信号中第一方向和/或第二方向的阶数。
17.根据权利要求16所述的VR音频的发送端设备,其特征在于,所述第三获取模块在根据VR音频的内容相关性信息,确定MOA信号中第一方向和/或第二方向的阶数时,具体用于:
根据VR音频的内容相关性信息,分别确定Ambisonics信号在第一方向上的相关性信息和/或第二方向上的相关性信息;根据所述Ambisonics信号在第一方向上的相关性信息和/或第二方向上的相关性信息,确定MOA信号中第一方向和/或第二方向的阶数;
所述第三获取模块在根据VR音频内容的声源方向信息,确定MOA信号中第一方向和/或第二方向的阶数时,具体用于:
根据VR音频内容的声源方向信息,分别确定Ambisonics信号在第一方向的声源能量和/或在第二方向上的声源能量;根据所述Ambisonics信号在第一方向的声源能量和/或在第二方向上的声源能量,确定MOA信号中第一方向和/或第二方向的阶数。
18.根据权利要求16所述的VR音频的发送端设备,其特征在于,所述第三获取模块在根据VR内容所属类型信息、传输网络带宽信息、传输网络延时信息、播放环境噪声信息、接收端的虚拟扬声器数量信息中的至少一种,确定MOA信号的总阶数时,具体用于:
根据VR内容所属类型信息、传输网络带宽信息、传输网络时延信息、播放环境噪声信息、接收端的虚拟扬声器数量信息中的至少一种以及每种信息分别对应的权重,确定MOA信号的总阶数。
19.根据权利要求14所述的VR音频的发送端设备,其特征在于,所述第三获取模块具体用于:
接收所述VR音频的接收端根据所述VR音频的相关信息确定的MOA信号的阶数,根据接收到的MOA信号的阶数确定最终的MOA信号的阶数。
20.根据权利要求14所述的VR音频的发送端设备,其特征在于,所述处理模块还用于:
根据当前网络状态,确定预设时刻的Ambisonics信号需要提前发送的阶数;
根据确定的预设时刻的Ambisonics信号需要提前发送的阶数,从预设时刻的Ambisonics信号中,按照阶数由低到高的顺序以及确定出的需要提前发送的阶数提取信号,并将提取到的信号发送至所述VR音频的接收端;
当到达所述预设时刻时,将所述预设时刻的MOA信号中除提取到的信号之外的残余信号发送给所述VR音频的接收端。
21.一种虚拟现实VR音频处理的方法,其特征在于,包括:
VR音频的接收端获取对应的设备第一旋转角度;
将获取的所述设备第一旋转角度发送给VR音频的发送端,和/或根据对应的设备第一旋转角度以及当前网络时延信息预测设备第二旋转角度,并将所述VR音频的接收端预测的设备第二旋转角度发送给所述VR音频的发送端;
从所述VR音频的发送端接收基于所述VR音频的接收端预测的设备第二旋转角度和/或所述VR音频的发送端预测的设备第二旋转角度确定的Ambisonics信号旋转角度,其中,所述VR音频的发送端预测的设备第二旋转角度是所述VR音频的发送端根据所述设备第一旋转角度以及当前网络时延信息预测的。
22.根据权利要求21所述的虚拟现实VR音频处理的方法,其特征在于,将设备第二旋转角度发送给所述VR音频的发送端,具体包括:
所述接收端根据预测得到的设备第二旋转角度以及设备第一旋转角度分别对应的权重进行合成,将合成得到的设备第二旋转角度发送给所述VR音频的发送端。
23.根据权利要求21或22所述的虚拟现实VR音频处理的方法,其特征在于,所述方法还包括:
所述VR音频的接收端获取VR音频的相关信息,所述相关信息包括下述至少一项:VR音频的内容相关信息、VR音频的播放相关信息以及VR音频的传输相关信息;
所述VR音频的接收端将获取的VR音频的相关信息发送给所述VR音频的发送端,或者根据获取的VR音频的相关信息确定出MOA信号的阶数,并将确定出的MOA信号的阶数发送给所述VR音频的发送端。
24.根据权利要求23所述虚拟现实VR音频处理的方法,其特征在于,所述方法还包括:
所述VR音频的接收端接收所述发送端发送的、预设时刻的Ambisonics信号需要提前发送的信号;
当到达所述预设时刻时,接收所述预设时刻的MOA信号中除所述需要提前发送的信号之外的残余信号,并将所述需要提前发送的信号和所述残余信号进行合并。
25.根据权利要求23所述虚拟现实VR音频处理的方法,其特征在于,所述方法还包括:
根据当前用户注视方向、所述VR音频的接收端当前电量、所述VR音频的接收端的计算能力中的至少一项,调整所述接收端的虚拟扬声器的数量。
26.一种VR音频的接收端设备,其特征在于,包括:
第二获取模块,用于获取对应的设备第一旋转角度;
第一处理模块,用于将获取的设备第一旋转角度发送给VR音频的发送端,和/或根据设备第一旋转角度以及当前网络时延信息预测设备第二旋转角度,并将所述VR音频的接收端预测的设备第二旋转角度发送给所述VR音频的发送端;
获取模块,用于从所述VR音频的发送端接收基于所述VR音频的接收端预测的设备第二旋转角度和/或所述VR音频的发送端预测的设备第二旋转角度确定的Ambisonics信号旋转角度,其中,所述VR音频的发送端预测的设备第二旋转角度是所述VR音频的发送端根据所述设备第一旋转角度以及当前网络时延信息预测的。
27.根据权利要求26所述的VR音频的接收端设备,其特征在于,所述第一处理模块在将设备第二旋转角度发送给所述VR音频的发送端时,具体用于:
根据预测得到的设备第二旋转角度以及设备第一旋转角度分别对应的权重进行合成,将合成得到的设备第二旋转角度发送给所述VR音频的发送端。
28.根据权利要求26或27所述的VR音频的接收端设备,其特征在于,所述VR音频的接收端设备还包括第四获取模块以及第二处理模块,其中,
所述第四获取模块,用于获取VR音频的相关信息,所述相关信息包括下述至少一项:VR音频的内容相关信息、VR音频的播放相关信息以及VR音频的传输相关信息;
所述第二处理模块,用于将获取的VR音频的相关信息发送给所述VR音频的发送端,或者根据获取的VR音频的相关信息确定出MOA信号的阶数,并将确定出的MOA信号的阶数发送给所述VR音频的发送端。
29.根据权利要求28所述的VR音频的接收端设备,其特征在于,所述VR音频的接收端设备还包括第三处理模块,其中,所述第三处理模块用于:
接收所述发送端发送的、预设时刻的Ambisonics信号需要提前发送的信号;
当到达所述预设时刻时,接收所述预设时刻的MOA信号中除所述需要提前发送的信号之外的残余信号,并将所述需要提前发送的信号和所述残余信号进行合并。
30.根据权利要求28所述的VR音频的接收端设备,其特征在于,所述VR音频的接收端设备还包括第四处理模块,其中,所述第四处理模块用于:
根据当前用户注视方向、所述VR音频的接收端当前电量、所述VR音频的接收端的计算能力中的至少一项,调整所述接收端的虚拟扬声器的数量。
31.一种VR音频的发送端设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1~10中任一项所述的虚拟现实VR音频处理的方法。
32.一种VR音频的接收端设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求21~25中任一项所述的虚拟现实VR音频处理的方法。
33.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~10以及权利要求21~25中任一项所述的虚拟现实VR音频处理的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710056192.1A CN108346432B (zh) | 2017-01-25 | 2017-01-25 | 虚拟现实vr音频的处理方法及相应设备 |
EP18744776.8A EP3569001A4 (en) | 2017-01-25 | 2018-01-25 | METHOD FOR PROCESSING VR AUDIO AND APPROPRIATE EQUIPMENT |
KR1020180009650A KR102462067B1 (ko) | 2017-01-25 | 2018-01-25 | Vr 오디오 처리 방법 및 대응하는 장치 |
PCT/KR2018/001140 WO2018139884A1 (en) | 2017-01-25 | 2018-01-25 | Method for processing vr audio and corresponding equipment |
US15/879,901 US10750305B2 (en) | 2017-01-25 | 2018-01-25 | Method for processing VR audio and corresponding equipment |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710056192.1A CN108346432B (zh) | 2017-01-25 | 2017-01-25 | 虚拟现实vr音频的处理方法及相应设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108346432A CN108346432A (zh) | 2018-07-31 |
CN108346432B true CN108346432B (zh) | 2022-09-09 |
Family
ID=62906823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710056192.1A Active CN108346432B (zh) | 2017-01-25 | 2017-01-25 | 虚拟现实vr音频的处理方法及相应设备 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10750305B2 (zh) |
EP (1) | EP3569001A4 (zh) |
KR (1) | KR102462067B1 (zh) |
CN (1) | CN108346432B (zh) |
WO (1) | WO2018139884A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111681467B (zh) * | 2020-06-01 | 2022-09-23 | 广东小天才科技有限公司 | 一种词汇学习方法及电子设备、存储介质 |
CN111935396A (zh) * | 2020-07-01 | 2020-11-13 | 青岛小鸟看看科技有限公司 | VR一体机的6DoF数据处理方法和装置 |
EP4258686A4 (en) * | 2021-01-13 | 2024-06-05 | Samsung Electronics Co Ltd | ELECTRONIC DEVICE FOR MEASURING THE POSTURE OF A USER AND METHOD THEREFOR |
WO2022175056A2 (en) * | 2021-02-17 | 2022-08-25 | Nokia Technologies Oy | Method, apparatus and computer program product providing quality of service management for extended reality applications |
CN114442980B (zh) * | 2022-01-21 | 2024-01-30 | 珠海格力电器股份有限公司 | 影音设备的控制方法、控制装置、存储介质及电子装置 |
WO2023212883A1 (zh) * | 2022-05-05 | 2023-11-09 | 北京小米移动软件有限公司 | 音频输出方法和装置、通信装置和存储介质 |
WO2024059458A1 (en) * | 2022-09-14 | 2024-03-21 | Dolby Laboratories Licensing Corporation | Synchronization of head tracking data |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1253464A (zh) * | 1998-10-15 | 2000-05-17 | 三星电子株式会社 | 针对多个收听者的三维声音再生设备及其方法 |
CN102124513A (zh) * | 2008-08-13 | 2011-07-13 | 弗朗霍夫应用科学研究促进协会 | 用于确定转换的空间音频信号的装置 |
CN105376690A (zh) * | 2015-11-04 | 2016-03-02 | 北京时代拓灵科技有限公司 | 生成虚拟环绕声的方法和装置 |
CN105872940A (zh) * | 2016-06-08 | 2016-08-17 | 北京时代拓灵科技有限公司 | 一种虚拟现实声场生成方法及系统 |
CN106210990A (zh) * | 2016-07-13 | 2016-12-07 | 北京时代拓灵科技有限公司 | 一种全景声音频处理方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10129682B2 (en) * | 2012-01-06 | 2018-11-13 | Bacch Laboratories, Inc. | Method and apparatus to provide a virtualized audio file |
EP3515055A1 (en) * | 2013-03-15 | 2019-07-24 | Dolby Laboratories Licensing Corp. | Normalization of soundfield orientations based on auditory scene analysis |
JP6646659B2 (ja) | 2014-06-14 | 2020-02-14 | マジック リープ, インコーポレイテッドMagic Leap,Inc. | 仮想および拡張現実を作成する方法およびシステム |
US9940937B2 (en) * | 2014-10-10 | 2018-04-10 | Qualcomm Incorporated | Screen related adaptation of HOA content |
US9767618B2 (en) * | 2015-01-28 | 2017-09-19 | Samsung Electronics Co., Ltd. | Adaptive ambisonic binaural rendering |
US9712936B2 (en) * | 2015-02-03 | 2017-07-18 | Qualcomm Incorporated | Coding higher-order ambisonic audio data with motion stabilization |
US10979843B2 (en) * | 2016-04-08 | 2021-04-13 | Qualcomm Incorporated | Spatialized audio output based on predicted position data |
US11202164B2 (en) | 2017-09-27 | 2021-12-14 | Apple Inc. | Predictive head-tracked binaural audio rendering |
-
2017
- 2017-01-25 CN CN201710056192.1A patent/CN108346432B/zh active Active
-
2018
- 2018-01-25 WO PCT/KR2018/001140 patent/WO2018139884A1/en unknown
- 2018-01-25 US US15/879,901 patent/US10750305B2/en active Active
- 2018-01-25 KR KR1020180009650A patent/KR102462067B1/ko active IP Right Grant
- 2018-01-25 EP EP18744776.8A patent/EP3569001A4/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1253464A (zh) * | 1998-10-15 | 2000-05-17 | 三星电子株式会社 | 针对多个收听者的三维声音再生设备及其方法 |
CN102124513A (zh) * | 2008-08-13 | 2011-07-13 | 弗朗霍夫应用科学研究促进协会 | 用于确定转换的空间音频信号的装置 |
CN105376690A (zh) * | 2015-11-04 | 2016-03-02 | 北京时代拓灵科技有限公司 | 生成虚拟环绕声的方法和装置 |
CN105872940A (zh) * | 2016-06-08 | 2016-08-17 | 北京时代拓灵科技有限公司 | 一种虚拟现实声场生成方法及系统 |
CN106210990A (zh) * | 2016-07-13 | 2016-12-07 | 北京时代拓灵科技有限公司 | 一种全景声音频处理方法 |
Non-Patent Citations (2)
Title |
---|
Open-Source Spatial Audio Compression for VR Content;J. Brettle等;《SMPTE 2016 Annual Technical Conference and Exhibition》;20170119;全文 * |
虚拟听觉空间实现中与头相关传递函数的特征分析和高效建模;张杰;《中国博士学位论文全文数据库》;20061231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
KR20200067981A (ko) | 2020-06-15 |
EP3569001A1 (en) | 2019-11-20 |
CN108346432A (zh) | 2018-07-31 |
US20180213341A1 (en) | 2018-07-26 |
KR102462067B1 (ko) | 2022-11-02 |
EP3569001A4 (en) | 2020-07-22 |
US10750305B2 (en) | 2020-08-18 |
WO2018139884A1 (en) | 2018-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108346432B (zh) | 虚拟现实vr音频的处理方法及相应设备 | |
EP3440538B1 (en) | Spatialized audio output based on predicted position data | |
US9820037B2 (en) | Audio capture apparatus | |
US10097943B2 (en) | Apparatus and method for reproducing recorded audio with correct spatial directionality | |
US11937065B2 (en) | Adjustment of parameter settings for extended reality experiences | |
US11632643B2 (en) | Recording and rendering audio signals | |
CN115335900A (zh) | 使用自适应网络来对全景声系数进行变换 | |
CN116709159B (zh) | 音频处理方法及终端设备 | |
WO2022262576A1 (zh) | 三维音频信号编码方法、装置、编码器和系统 | |
EP3625975A1 (en) | Incoherent idempotent ambisonics rendering | |
EP4246509A1 (en) | Audio encoding/decoding method and device | |
US10764684B1 (en) | Binaural audio using an arbitrarily shaped microphone array | |
JP6569945B2 (ja) | バイノーラル音生成装置、マイクロホンアレイ、バイノーラル音生成方法、プログラム | |
KR20080098819A (ko) | 다시점 화상 시스템에서 시점 종속 다채널 오디오 처리방법 및 장치 | |
JP6526582B2 (ja) | 再合成装置、再合成方法、プログラム | |
EP4322158A1 (en) | Three-dimensional audio signal encoding method and apparatus, and encoder | |
EP4325485A1 (en) | Three-dimensional audio signal encoding method and apparatus, and encoder | |
CN116781817A (zh) | 双耳拾音方法和装置 | |
WO2024044113A2 (en) | Rendering audio captured with multiple devices | |
CN115938388A (zh) | 一种三维音频信号的处理方法和装置 | |
CN118042345A (zh) | 基于自由视角的空间音效实现方法、设备及存储介质 | |
CN116825128A (zh) | 音频处理方法及装置、计算机可读存储介质及电子设备 | |
CN117678015A (zh) | 用于3d音频内容和音频编解码器的扩展现实渲染 | |
JP2017143325A (ja) | 収音装置、収音方法、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |