CN114630145A

CN114630145A - 一种多媒体数据合成方法、设备及存储介质

Info

Publication number: CN114630145A
Application number: CN202210264309.6A
Authority: CN
Inventors: 芮元庆; 闫震海
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2022-03-17
Filing date: 2022-03-17
Publication date: 2022-06-14

Abstract

本申请公开了一种多媒体数据合成方法、设备及存储介质，本申请提供的多媒体数据合成方法包括：获取三维视频；针对三维视频中需合成音效的视频帧，确定该视频帧包括的声像所处的空间位置，生成空间位置的音效信号，并将音效信号与该视频帧进行合成，得到合成视频帧；基于合成视频帧和三维视频中无需合成音效的原视频帧得到新三维视频。该方案最终得到的合成视频帧中的音效信号有空间方位感，且与该帧视频在时间上保持同步。相应地，本申请提供的多媒体数据合成设备及存储介质，也同样具有上述技术效果。

Description

一种多媒体数据合成方法、设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种多媒体数据合成方法、设备及存储介质。

背景技术

目前，虚拟场景下的三维视频仅着眼于模拟真实的三维场景，没有考虑视频中声音的真实性、声音与画面的协调同步性等特征，导致三维视频中声画不同步、声音的空间方位感欠佳。

发明内容

有鉴于此，本申请的目的在于提供一种多媒体数据合成方法、设备及存储介质，以使三维视频中的声音具备空间方位感，且声画保持同步。其具体方案如下：

为实现上述目的，一方面，本申请提供了一种多媒体数据合成方法，包括：

获取三维视频；

确定所述三维视频中需合成音效的目标视频帧，并确定所述目标视频帧中目标声像所处的空间位置，生成所述目标声像在所述空间位置的音效信号；

将所述音效信号与所述目标视频帧进行合成，得到合成视频帧；

基于所述合成视频帧和所述三维视频中无需合成音效的原视频帧得到新三维视频。

可选地，所述生成所述目标声像在所述空间位置的音效信号，包括：

获取所述目标声像对应的目标音频，基于所述空间位置编码所述目标音频得到所述音效信号。

可选地，所述基于所述空间位置编码所述目标音频得到所述音效信号，包括：

确定用于编码所述目标音频的各个编码通道；

基于所述空间位置确定所述目标音频在各个编码通道的信号；

汇总各个编码通道的信号得到所述音效信号。

可选地，还包括：

若通过空间分布的扬声器阵列重放所述合成视频帧中的音效信号，则基于所述扬声器阵列解码所述音效信号，并利用所述扬声器阵列播放解码后的信号。

可选地，所述基于所述扬声器阵列解码所述音效信号，包括：

基于所述扬声器阵列中的扬声器个数和所述编码通道的数量构建信号矩阵；

将所述信号矩阵的伪逆矩阵作为解码矩阵；

基于所述解码矩阵解码各个编码通道的信号。

可选地，所述扬声器阵列中的扬声器个数不小于所述编码通道的数量，且满足H＝(N+1)²；H为所述编码通道的数量，N为编码阶数。

可选地，所述基于所述解码矩阵解码各个编码通道的信号，包括：

按照目标公式解码各个编码通道的信号；所述目标公式为：D＝A×[A₁,A₂,…,A_H]^T，D为解码结果，A为所述解码矩阵，A₁,A₂,…,A_H表示H个编码通道的信号，H为所述编码通道的数量。

可选地，所述确定所述目标视频帧中目标声像所处的空间位置，包括：

以所述目标视频帧中感知所述目标声像的对象为参照物，确定所述目标声像的方位角和仰角。

可选地，还包括：

若通过耳机重放所述合成视频帧中的音效信号，则基于空间分布的扬声器阵列解码所述音效信号，并将解码后的信号编码为左声道信号和右声道信号，利用所述耳机播放所述左声道信号和所述右声道信号。

又一方面，本申请还提供了一种多媒体数据合成方法，包括：

获取三维图像；

确定所述三维图像中需合成音效的目标物体，并确定所述目标物体在所述三维图像中所处的空间位置；

基于所述空间位置生成所述目标物体在所述空间位置的音效信号；

将所述音效信号与所述三维图像进行合成，得到三维合成图像。

可选地，还包括：

基于多个所述三维合成图像得到三维视频。

又一方面，本申请还提供了一种电子设备，所述电子设备包括处理器和存储器；其中，所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行以实现前述多媒体数据合成方法。

又一方面，本申请还提供了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现前述多媒体数据合成方法。

本申请提供的多媒体数据合成方法包括：获取三维视频；确定所述三维视频中需合成音效的目标视频帧，并确定所述目标视频帧中目标声像所处的空间位置，生成所述目标声像在所述空间位置的音效信号；将所述音效信号与所述目标视频帧进行合成，得到合成视频帧；基于所述合成视频帧和所述三维视频中无需合成音效的原视频帧得到新三维视频。

可见，本申请针对三维视频中需合成音效的视频帧，可以根据其中声像所处的空间位置生成相应空间位置的音效信号，并将该音效信号与该视频帧进行合成，从而使最终得到的合成视频帧中的音效信号可以有空间方位感，且与该帧视频在时间上保持同步，因而基于各合成视频帧和三维视频中无需合成音效的原视频帧得到的新三维视频中的声音具备空间方位感，且声画保持同步。

相应地，本申请提供的多媒体数据合成设备及存储介质，也同样具有上述技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请提供的一种本申请适用的物理架构示意图；

图2为本申请提供的一种多媒体数据合成方法流程图；

图3为本申请提供的一种空间位置示意图；

图4为本申请提供的一种扬声器阵列空间分布示意图；

图5为本申请提供的一种三维视频中的声音渲染方法流程图；

图6为本申请提供的一种三维视频投影展示图；

图7为本申请提供的一种三维图像与声音的合成方法流程图；

图8为本申请提供的一种三维视频音效合成方法流程图；

图9为本申请提供的一种服务器结构图；

图10为本申请提供的一种终端结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。另外，在本申请实施例中，“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

现有三维视频仅着眼于模拟真实的三维场景，没有考虑视频中声音的真实性、声音与画面的协调同步性等特征，导致三维视频中声画不同步、声音的空间方位感欠佳。

鉴于目前所存在的上述问题，本申请提出了多媒体数据合成方案，该方案能够使三维视频中的声音具备空间方位感，且声画保持同步。

为了便于理解，先对本申请所适用的物理框架进行介绍。

应理解，本申请提供的多媒体数据合成方法可以应用于具有多媒体数据合成功能的系统或程序中。具体的，具有多媒体数据合成功能的系统或程序可以运行于服务器、个人计算机等设备中。

如图1所示，图1为本申请适用的物理架构示意图。在图1中，具有多媒体数据合成功能的系统或程序可以运行于服务器，该服务器通过网络从其他终端设备中获取三维视频；确定三维视频中需合成音效的目标视频帧，并确定目标视频帧中目标声像所处的空间位置，生成目标声像在空间位置的音效信号；将音效信号与目标视频帧进行合成，得到合成视频帧；基于合成视频帧和三维视频中无需合成音效的原视频帧得到新三维视频。

由图1可知，该服务器可以与多个设备建立通信连接，服务器从这些设备中获取三维视频。服务器为此三维视频合成相应音效信号，得到新三维视频。

图1中示出了多种终端设备，在实际场景中可以有更多或更少种类的终端设备参与到多媒体数据合成的过程中，具体数量和种类因实际场景而定，此处不做限定，另外，图1中示出了一个服务器，但在实际场景中，也可以有多个服务器的参与，具体服务器数量因实际场景而定。

应当注意的是，本实施例提供的多媒体数据合成方法可以离线进行，即服务器本地存储有三维视频和待用于合成音效信号的音频，其可以直接利用本申请提供的方案生成新三维视频。

可以理解的是，上述具有多媒体数据合成功能的系统、程序，可以作为云端服务程序的一种，具体运作模式因实际场景而定，此处不做限定。

具体的，在多媒体数据合成完成后，获得的新三维视频可以用于3D游戏制作、VR(Virtual Reality，虚拟现实)场景制作、影视剧制作等，当然，可以在三维空间中投影新三维视频，以展览合成的三维视频，真正达到身临其境地播放效果。

结合以上共性，请参见图2，图2为本申请实施例提供的一种多媒体数据合成方法流程图。如图2所示，该多媒体数据合成方法可以包括以下步骤：

S201、获取三维视频。

在本实施例中，三维视频可以是三维的虚拟动画视频、虚拟游戏视频等。三维视频可以是有声视频，也可以是无声视频。

S202、确定三维视频中需合成音效的目标视频帧，并确定目标视频帧中目标声像所处的空间位置，生成目标声像在空间位置的音效信号。

一般地，对于三维的虚拟动画视频、虚拟游戏视频等这些虚拟视频而言，音效信号只能通过后期配置得到。可见，各种三维视频中都可能存在需合成音效的视频帧，其中需合成音效的视频帧一般不止一个。对于一个三维视频中需合成音效的每个视频帧都可以作为目标视频帧。通常情况下，为了减少视频合成时间，只会选取部分具有目标声像的视频帧。优选的，可以选择目标声像所在的始末视频帧以及间隔选取中间的部分视频帧或者选定某些特定的视频帧进行音效合成。可以理解的是，选取的视频帧越多，最后合成的视频音效就更加逼真，相应的工作量也就越大。

由于三维视频可以是有声视频，也可以是无声视频，因此对于有声视频，目标视频帧即为有声音的一帧三维图像，而对于无声视频，目标视频帧即为无声音的一帧三维图像。相应地，对于有声音的一帧三维图像，为其中的目标声像生成相应空间位置的音效信号时，可直接对该帧三维图像对应的一帧声音进行编码处理得到。而对于无声音的一帧三维图像，为其中的目标声像生成相应空间位置的音效信号时，需要先确定该帧三维图像对应的一帧声音，而后才能对该声音进行编码处理。

考虑到声源可能出现在三维空间中的任意位置，且需要保持视频中的声画同步，本实施例针对三维视频中需合成音效的任一视频帧，确定该视频帧包括的声像所处的空间位置，生成该空间位置的音效信号，从而可使音效信号具有空间方位感，然后将音效信号与该视频帧进行合成，从而可使得到的合成视频帧保持声画同步。其中，声像即：声源或感觉声源，也就是听音者听感中所感觉到的声源。

参见图3所示，针对图3所示的立方体结构而言，声源可能处于正前方、正后方、正前方所在面与顶面的连接线等。假设图3是一帧三维图像，那么目标声像可能处于正前方、正后方、正前方所在面与顶面的连接线等，可见一帧三维图像中目标声像可以有多个。

如果将图3所示的立方体看作一间房屋，假设该房屋的正前方是街道，那么正前方就可能需要出现车辆鸣笛声、人交谈声、叫卖声等，而这些声音可能需要由远及近或由近及远进行移动，相应的这些声音的声像就需要在空间上由远及近或由近及远移动。以车辆鸣笛声由远及近移动为例，则有：视频帧1中合成的音效信号的声音较小且听感位于房屋远处，视频帧2中合成的音效信号的声音较大一点且听感位于房屋较近位置，视频帧3中合成的音效信号的声音更大且听感位于房屋更近位置，如此连续播放视频帧1、2、3，就可以产生车辆鸣笛声由远及近移动的感觉。

相应地，如果屋顶有鸟飞过，那么屋顶位置可能需要出现鸟叫声、鸟煽动翅膀的声音等，那么视频帧1、2、3中也可以合成鸟飞过、鸟叫声、鸟煽动翅膀的声音。可见，一个视频帧中的目标声像不止一个，需要合成的音效信号也就不止一个，并且具备空间方位感的音效信号更符合实际场景。相应地，上述这些声音所出现的时间也需要控制，为此本实施例针对具备特定时间戳的每个视频帧进行音效信号合成，在合成音效信号与视频帧的同时，又保障了声画同步。

当然，每个视频帧所需要合成的音效信号可能不止一个，这与该视频帧中的角色、场景等相对应。也即：一个目标视频帧中的目标声像可能不止一个，那么就需要针对一个目标视频帧中每个目标声像基于其空间位置进行音效合成。在一种具体实施方式中，确定该视频帧包括的声像所处的空间位置，包括：以目标视频帧中感知目标声像的对象为参照物，确定目标声像的方位角和仰角。一般地，目标声像所处的空间位置通过该目标声像在该视频帧中的坐标位置即可确定，当然需要首先确定感知该目标声像的对象(如三维空间中的人)在该视频帧中的坐标位置，以此对象在该视频帧中的坐标位置为原点，即可确定目标声像在该视频帧中的方位角和仰角。

S203、将音效信号与目标视频帧进行合成，得到合成视频帧。

S204、基于合成视频帧和三维视频中无需合成音效的原视频帧得到新三维视频。

其中，三维视频中无需合成音效的原视频帧可以有声，也可以无声。也即：无需合成音效的原视频帧包括：没有声音的一帧视频以及有声音但无需进行音效合成的一帧视频。

在本实施例中，音效信号既可以采用扬声器阵列重放，也可以采用耳机重放。

可见，本实施例针对三维视频中需合成音效的视频帧，可以根据其中声像所处的空间位置生成相应空间位置的音效信号，并合成该音效信号和该视频帧，从而使最终得到的合成视频帧中的音效信号可以有空间方位感，且与该帧视频在时间上保持同步，因而基于各合成视频帧和三维视频中无需合成音效的原视频帧得到的新三维视频中的声音具备空间方位感，且声画保持同步。

基于上述实施例，需要说明的是，在一种具体实施方式中，生成空间位置的音效信号，包括：获取目标声像对应的目标音频，基于空间位置编码目标音频得到音效信号。其中，基于空间位置编码目标音频得到音效信号，包括：利用Ambisonics技术编码目标音频得到音效信号。

在一种具体实施方式中，基于空间位置编码目标音频得到音效信号，包括：确定用于编码目标音频的各个编码通道；基于空间位置确定目标音频在各个编码通道的信号；汇总各个编码通道的信号得到音效信号。此过程即为Ambisonics编码过程。其中，“各个编码通道的信号”可以认为是音效信号的信号表现形式，也即：音效信号并非是一个信号，而是各个编码通道的信号的集合。

需要说明的是，编码阶段不依赖任何扬声器或者其分布，只需已知声像位置(即声像所处的空间位置)和编码复杂度(即：用几个编码通道进行编码)，那么在已知声像所处的空间位置的前提下，只需明确当前用于编码目标音频的各个编码通道即可。一般地，编码通道的个数可灵活取值，具体实现时可以考虑用于播放新三维视频的真实场景中布置的扬声器阵列，满足“扬声器阵列中的扬声器个数不小于编码通道数”即可。当然，也可以依据编码所用的编码通道数调整真实场景中布置的扬声器阵列，以满足上述要求。

其中，用于播放新三维视频的真实场景中布置的扬声器阵列中的扬声器个数不小于编码通道数，且满足H＝(N+1)²；H为编码通道数，N为编码阶数。其中，扬声器阵列可以是任意空间分布，例如：扬声器可以分布在图3所示立方体的各个顶点上，此时扬声器阵列共包括8个扬声器，这8个扬声器的空间位置可表示为：方位角：[45°,-45°,135°,-135°,45°,-45°,135°,-135°]、仰角：[35.3°,35.3°,35.3°,35.3°,-35.3°,-35.3°,-35.3°,-35.3°]。当然，扬声器可以分布在图4所示正十二面体的各个顶点上，此时扬声器阵列共包括20个扬声器。

在一种具体实施方式中，若通过空间分布的扬声器阵列重放合成视频帧中的音效信号，则基于扬声器阵列解码音效信号，并利用扬声器阵列播放解码后的信号。其中，基于扬声器阵列解码音效信号，包括：基于扬声器阵列中的扬声器个数和编码通道的数量构建信号矩阵；将信号矩阵的伪逆矩阵作为解码矩阵；基于解码矩阵解码各个编码通道的信号。其中，基于解码矩阵解码各个编码通道的信号，包括：按照目标公式解码各个编码通道的信号；目标公式为：D＝A×[A₁,A₂,…,A_H]^T，D为解码结果，A为解码矩阵，A₁,A₂,…,A_H表示H个编码通道的信号，H为编码通道的数量。

由于耳机通过左右声道重放声音，因此在一种具体实施方式中，若通过耳机重放合成视频帧中的音效信号，则基于空间分布的扬声器阵列解码音效信号，并将解码后的信号编码为左声道信号和右声道信号，利用耳机播放左声道信号和右声道信号。其中，利用HRTF(Head Related Transfer Function，一种音效信号定位算法)可以将解码后的信号编码为左声道信号和右声道信号。

下述实施例针对三维视频进行声音渲染，该方案能够实时确定任一三维视频帧中声源的空间位置，并采用Ambisonics技术将声源发出的声音信号编码为具备空间位置感的音效信号，该空间位置感随声源位置的变化而变化。该音效信号既可以采用扬声器阵列重放，也可以采用耳机重放。若使用耳机重放，则使用HRTF中的头部反应传送函数对Ambisonics编码所得的音效信号进行声道处理。

本实施例采用Ambisonics技术进行音频信号的编码，Ambisonics技术是一种球形环绕声技术，也是一种编解码算法，其物理本质是将声场按不同阶数的空间谐波分解、展开与近似。其中，阶数越高，物理声场的近似重放越精确，阶数N与Ambisonics通道数的关系是：Ambisonics通道数＝(N+1)²。这里的编码不是音频的压缩编码，是将一个音频对象编成Ambisonics格式的音频。

以一阶Ambisonics B格式为例，总共有4通道，其声道排序为W，Y，Z，X。假设需要从空间位置(θ,φ)发出声音，θ表示方位角，φ表示仰角，那么可将声音对象S编码表示为4通道信号：W＝S、Y＝S*sinθ*cosφ、Z＝S*sinφ、X＝S*cosθ*cosφ。

如果是三阶，则将声音对象S编码成16通道信号：W＝S、Y＝S*sinθ*cosφ、Z＝S*sinφ、X＝S*cosθ*cosφ、

对于编码后的信号既可以采用扬声器阵列重放，也可以采用耳机重放。由于通道数随着阶数指数增长，为避免实际重放时所用扬声器阵列过于复杂，一般最多用3阶Ambisonics。若采用扬声器阵列重放，则扬声器阵列中的扬声器数量的要求是大于等于(N+1)²。

对于一阶Ambisonics，扬声器阵列可如图3所示，在正六面体的各个顶点设置扬声器，共8个扬声器。具体的，这8个扬声器的空间位置可表示为：方位角：[45°,-45°,135°,-135°,45°,-45°,135°,-135°]、仰角：[35.3°,35.3°,35.3°,35.3°,-35.3°,-35.3°,-35.3°,-35.3°]。

对于3阶Ambisonics，编码后共有16个通道，此时可采用正十二面体的球面扬声器阵列，如图4所示，共有20个扬声器。

1、使用扬声器阵列重放。

确定了扬声器阵列后，以一阶Ambisonics为例，若采用正六面体的空间扬声器阵列重放，那么各扬声器方向函数组成的4*8的信号矩阵为：

其中，θ表示方位角，φ表示仰角，对Y求伪逆可得到8*4的解码矩阵A，即：A＝pinv(Y)＝Y^T{YY^T}^-1。

解码就是将编码后的4个通道上信号与解码矩阵A相乘，得到8个扬声器信号：D＝[d1,d2,…,d8]，也即：D＝A*[W,Y,Z,X]^T。

2、使用耳机重放。

将上述扬声器阵列看成虚拟扬声器阵列，同样使用上述流程进行编码，针对编码所得的D＝[d1,d2,…,d8]，使用HRTF中的头部反应传送函数的卷积进行处理，以得到两声道信号。

具体的，左声道信号L＝d1_{(45°,35.3°)}*HRTF_L(45°,35.3°)+d2_{(-45°,35.3°)}*HRTF_L(-45°,35.3°)+…+d8_{(-135°,-35.3°)}*HRTF_L(-135°,-35.3°)；HRTF_L表示某一空间位置到左耳的HRTF。

右声道信号R＝d1_{(45°,35.3°)}*HRTF_R(45°,35.3°)+d2_{(-45°,35.3°)}*HRTF_R(-45°,35.3°)+…+d8_{(-135°,-35.3°)}*HRTF_R(-135°,-35.3°)。HRTF_R表示某一空间位置到右耳的HRTF，从而虚拟声音的空间位置。

请参见图5，三维视频中的声音渲染步骤可以包括：

1、获取三维视频；

2、确定三维视频中每帧图像包括的声源的空间位置；

3、利用Ambisonics，对步骤2所确定的各个声源发出的声音基于其所处空间位置进行编码；

4、将编码结果相应合成至各帧图像中，得到新的三维视频；

5、对新的三维视频进行播放投影，同时使用扬声器阵列或耳机播放其中的音效。

如图6所示，在一个三维视频投影的展厅中，正前方在某时刻有流水的动画画面，这个时候可以将该流水的声音方位确定为正前方，右边有刮风、下雨以及鸟叫的动画画面，那么可以确定刮风、下雨以及鸟叫的出现位置和出现时间。声音位置一般以方位角和仰角来表示。如图6所示，在一个三维投影展厅中播放合成的新三维视频，可以真正达到身临其境地效果。

可见，本实施例能够结合三维视频中各个声音的实时位置，来渲染播放各个声音，并且可使用扬声器阵列或是耳机进行播放，使得画面中各声音的出现时间、位置、画面保持同步协调，从而使三维视频具备身临其境的沉浸式观感。

请参见图7，另一种多媒体数据合成方法，包括：

S701、获取三维图像；

S702、确定三维图像中需合成音效的目标物体，并确定目标物体在三维图像中所处的空间位置；

S703、基于空间位置生成目标物体在空间位置的音效信号；

S704、将音效信号与三维图像进行合成，得到三维合成图像。

其中，三维图像中需合成音效的目标物体即：该图像中发声的声源，也即上述实施例所述的目标声像。

在一种具体实施方式中，按照本实施例针对多个三维图像分别合成音效后，基于多个三维合成图像就可以得到一个三维视频。本实施例中的一个三维图像可以看作上述实施例中的一个目标视频帧。

本实施例针对三维图像中需合成音效的目标物体，可以根据其所处的空间位置生成相应空间位置的音效信号，并合成该音效信号和该三维图像，从而使得到三维合成图像，其中的音效信号可以有空间方位感。据此合成三维视频，可得到声画同步的三维视频。

下面通过具体的应用场景实例描述，来介绍本申请提供的方案。即：合成音效和三维视频的具体方案。该方案可以给任意三维视频合成具有空间方位感的音效。

请参见图8，方案具体实现流程包括：

S801、终端请求服务器；

S802、服务器向终端反馈响应消息；

S803、终端收到响应消息后，向服务器传输三维视频；

S804、服务器确定三维视频中每帧图像包括的声源的空间位置；利用Ambisonics对所确定的各个声源发出的声音基于其所处空间位置进行编码；将编码结果合成至各帧图像中，得到新的三维视频；

S805、服务器发送新的三维视频给终端；

S806、终端存储新的三维视频。

其中，终端可以为机房中控制服务器的管理端。

当然，由于三维视频的数据量一般较大，也可以直接将三维视频存储在硬盘中，然后将硬盘插接在服务器上，以便服务器直接从硬盘中读取三维视频，以对三维视频进行音效合成。相应地，新的三维视频也可以直接从服务器存储至硬盘。

若需要播放新的三维视频，那么可以将存储有新三维视频的终端与投影展厅的三维投影设备连接，也可以将存储有新三维视频的硬盘插接在投影展厅的三维投影设备上，或者直接将存储有新三维视频的服务器与投影展厅的三维投影设备连接，当然也可以将新三维视频存储至三维投影设备本地，以便三维投影设备播放新三维视频。其中，投影展厅的三维投影设备包括：扬声器阵列、图像投影与显示器件、耳机等。新的三维视频中的音效既可以采用扬声器阵列播放，也可以采用耳机播放。

下面对本申请实施例提供的一种电子设备进行介绍，下文描述的一种电子设备与上述实施例的相关实现步骤可以相互参照。

进一步的，本申请实施例还提供了一种电子设备。其中，上述电子设备既可以是如图9所示的服务器50，也可以是如图10所示的终端60。图9和图10均是根据一示例性实施例示出的电子设备结构图，图中的内容不能被认为是对本申请的使用范围的任何限制。

图9为本申请实施例提供的一种服务器的结构示意图。该服务器50，具体可以包括：至少一个处理器51、至少一个存储器52、电源53、通信接口54、输入输出接口55和通信总线56。其中，所述存储器52用于存储计算机程序，所述计算机程序由所述处理器51加载并执行，以实现前述任一实施例公开的多媒体数据合成中的相关步骤。

本实施例中，电源53用于为服务器50上的各硬件设备提供工作电压；通信接口54能够为服务器50创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口55，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器52作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统521、计算机程序522及数据523等，存储方式可以是短暂存储或者永久存储。

其中，操作系统521用于管理与控制服务器50上的各硬件设备以及计算机程序522，以实现处理器51对存储器52中数据523的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序522除了包括能够用于完成前述任一实施例公开的多媒体数据合成方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据523除了可以包括应用程序的更新信息等数据外，还可以包括应用程序的开发商信息等数据。

图10为本申请实施例提供的一种终端的结构示意图，该终端60具体可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。

通常，本实施例中的终端60包括有：处理器61和存储器62。

其中，处理器61可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器61可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器61也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器61可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器61还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器62可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器62还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器62至少用于存储以下计算机程序621，其中，该计算机程序被处理器61加载并执行之后，能够实现前述任一实施例公开的由终端侧执行的多媒体数据合成方法中的相关步骤。另外，存储器62所存储的资源还可以包括操作系统622和数据623等，存储方式可以是短暂存储或者永久存储。其中，操作系统622可以包括Windows、Unix、Linux等。数据623可以包括但不限于应用程序的更新信息。

在一些实施例中，终端60还可包括有显示屏63、输入输出接口64、通信接口65、传感器66、电源67以及通信总线68。

本领域技术人员可以理解，图10中示出的结构并不构成对终端60的限定，可以包括比图示更多或更少的组件。

下面对本申请实施例提供的一种存储介质进行介绍，下文描述的一种存储介质与上述实施例的相关实现步骤可以相互参照。

进一步的，本申请实施例还公开了一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现前述任一实施例公开的多媒体数据合成方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

需要指出的是，上述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种多媒体数据合成方法，其特征在于，包括：

获取三维视频；

2.根据权利要求1所述的方法，其特征在于，所述生成所述目标声像在所述空间位置的音效信号，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述空间位置编码所述目标音频得到所述音效信号，包括：

确定用于编码所述目标音频的各个编码通道；

汇总各个编码通道的信号得到所述音效信号。

4.根据权利要求3所述的方法，其特征在于，还包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述扬声器阵列解码所述音效信号，包括：

将所述信号矩阵的伪逆矩阵作为解码矩阵；

基于所述解码矩阵解码各个编码通道的信号。

6.根据权利要求4所述的方法，其特征在于，所述扬声器阵列中的扬声器个数不小于所述编码通道的数量，且满足H＝(N+1)²；H为所述编码通道的数量，N为编码阶数。

7.根据权利要求5所述的方法，其特征在于，所述基于所述解码矩阵解码各个编码通道的信号，包括：

8.根据权利要求1所述的方法，其特征在于，所述确定所述目标视频帧中目标声像所处的空间位置，包括：

9.根据权利要求4所述的方法，其特征在于，还包括：

10.一种多媒体数据合成方法，其特征在于，包括：

获取三维图像；

11.一种电子设备，其特征在于，所述电子设备包括处理器和存储器；其中，所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行以实现如权利要求1至10任一项所述的方法。

12.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1至10任一项所述的方法。