CN113316078B

CN113316078B - 数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN113316078B
Application number: CN202110867470.8A
Authority: CN
Inventors: 黄嘉文
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-30
Filing date: 2021-07-30
Publication date: 2021-10-29
Anticipated expiration: 2041-07-30
Also published as: CN113316078A

Abstract

本申请公开一种数据处理方法、装置、计算机设备及存储介质，方法包括：获取视频数据以及与视频数据对应的音频数据；对视频数据中的每个视频帧进行视频元素识别，对音频数据进行音频元素分离，得到M个目标音频元素；根据每个视频帧的元素识别结果，在每个视频帧中对各个目标音频元素进行声源定位，得到各个目标音频元素在每个视频帧中的声源位置；将各个目标音频元素在每个视频帧中的声源位置映射到声音空间，得到各个目标音频元素的N个空间音频位置；基于各个目标音频元素的N个空间音频位置，音频数据以及视频数据，生成音视频数据。本申请可自动生成具有空间音频效果的音视频数据，使得生成的音视频数据为用户提供较好的沉浸式音频体验效果。

Description

数据处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及互联网技术领域，具体涉及音视频技术领域，尤其涉及一种数据处理方法、装置、计算机设备及存储介质。

背景技术

音视频数据又可称为有声视频，其具体是指采用视频数据和相应的音频数据制作而成的数据。在音视频数据的播放过程中，用户不仅可观看到视频数据中的各个视频帧；还可在观看每个视频帧的同时，收听到基于音频数据所描述的相应声音。经研究表明，目前的音视频数据通常不具备空间音频效果，所谓的空间音频效果是指：具有空间感的音频播放效果；具有空间音频效果的音视频数据，可在播放过程中为用户带来较好的沉浸感。基于此，如何生成具有空间音频效果的音视频数据成为了研究热点。

发明内容

本申请实施例提供了一种数据处理方法、装置、计算机设备及存储介质，可以自动生成具有空间音频效果的音视频数据，并使得生成的音视频数据可为用户提供较好的沉浸式音频体验效果。

一方面，本申请实施例提供了一种数据处理方法，所述方法包括：

获取视频数据以及与所述视频数据对应的音频数据，所述视频数据包括N个视频帧，N为大于1的整数；

对所述音频数据进行音频元素分离，得到M个目标音频元素，M为正整数；并对所述视频数据中的每个视频帧进行视频元素识别，得到所述每个视频帧的元素识别结果；

对所述视频数据中的每个视频帧进行视频元素识别，得到所述每个视频帧的元素识别结果；以及，对所述音频数据进行音频元素分离，得到M个目标音频元素，M为正整数；

将所述各个目标音频元素在所述每个视频帧中的声源位置映射到声音空间，得到所述各个目标音频元素的N个空间音频位置；任一目标音频元素的第n个空间音频位置对应第n个视频帧，n∈[1，N]；

基于所述各个目标音频元素的N个空间音频位置，所述音频数据以及所述视频数据，生成音视频数据。

另一方面，本申请实施例提供了一种数据处理装置，所述装置包括：

获取单元，用于获取视频数据以及与所述视频数据对应的音频数据，所述视频数据包括N个视频帧，N为大于1的整数；

处理单元，用于对所述视频数据中的每个视频帧进行视频元素识别，得到所述每个视频帧的元素识别结果；以及，对所述音频数据进行音频元素分离，得到M个目标音频元素，M为正整数；

所述处理单元，还用于根据所述每个视频帧的元素识别结果，在所述每个视频帧中对各个目标音频元素进行声源定位，得到所述各个目标音频元素在所述每个视频帧中的声源位置；

所述处理单元，还用于将所述各个目标音频元素在所述每个视频帧中的声源位置映射到声音空间，得到所述各个目标音频元素的N个空间音频位置；任一目标音频元素的第n个空间音频位置对应第n个视频帧，n∈[1，N]；

所述处理单元，还用于基于所述各个目标音频元素的N个空间音频位置，所述音频数据以及所述视频数据，生成音视频数据。

再一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括输入接口和输出接口，所述计算机设备还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如下步骤：

根据所述每个视频帧的元素识别结果，在所述每个视频帧中对各个目标音频元素进行声源定位，得到所述各个目标音频元素在所述每个视频帧中的声源位置；

再一方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如下步骤：

本申请实施例在获取到视频数据和相应的音频数据后，可对音频数据进行音频元素分离，得到M个目标音频元素；并根据视频数据中的每个视频帧的元素识别结果，在每个视频帧中对各个目标音频元素进行声源定位，得到各个目标音频元素在每个视频帧中的声源位置。然后，可将各个目标音频元素在每个视频帧中的声源位置映射到声音空间，从而基于映射得到的各个目标音频元素的N个空间音频位置，及获取到的音频数据和视频数据，自动生成音视频数据。通过先声源定位再空间转换的处理方式，不仅可使得全部或部分目标音频元素分布在不同的空间音频位置，从而营造出空间感，进而使得自动生成的音视频数据具有空间音频效果；还可使得每个目标音频元素所处的各个空间音频位置与每个视频帧的元素识别结果相关联，从而使得音频数据所具有的空间音频效果可精确到与每个视频帧相匹配，进而为用户提供较好的沉浸式音频体验效果。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的一种5.1声道的示意图；

图1b是本申请实施例提供的一种生成基于对象的空间音频的流程示意图；

图2是本申请实施例提供的一种数据处理方法的流程示意图；

图3a是本申请实施例提供的一种对音频数据进行音频元素分离所得到的元素分离结果的示意图；

图3b是本申请实施例提供的一种声音空间的示意图；

图4是本申请另一实施例提供的一种数据处理方法的流程示意图；

图5a是本申请实施例提供的一种对第n个视频帧的元素识别结果的示意图；

图5b是本申请实施例提供的一种音视频数据的生成方式的示意图；

图5c是本申请实施例提供的另一种音视频数据的生成方式的示意图；

图6是本申请实施例提供的一种数据处理装置的结构示意图；

图7是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在本申请实施例中，空间音频是指具有空间感的音频，其着重于对声波、声源、声场等特性的可量化的表述；空间音频所产生的播放效果可简称为空间音频效果，即空间音频效果是指具有空间感的音频播放效果。所谓的具有空间感的含义是指：可给用户营造一种多种声音从用户的不同方位传出的感觉；后续所提及的具备空间音频效果的含义则是指：音频数据所表达出的位置，与视频数据所显示的画面相配合；比如，画面中说话的人物在左侧，则音频数据所表达出的位置也位于左侧，使得音频数据所描述的声音听起来像是从左侧来的。空间音频可包括但不局限于如下几种：

（1）基于声道的空间音频，此类空间音频可通过不同的声道产生空间音频效果。此类空间音频通常涉及环绕声技术，所谓的环绕声技术是用来表达空间音频的一套基础方案；环绕声技术可将环境空间中的音频元素分成若干个声道，配合喇叭摆放的位置和用户所处的位置，为用户模拟出一个符合所表达内容的音频环境，而不只是让用户感受到喇叭的位置。在多个喇叭间的每个音频元素均会以多个喇叭一起按比例发声来表达（panning），可见此类空间音频在播放时，每个音频元素均需要通过多个声道来发出共同声音，从而产生空间音频效果。

其中，环绕声技术所涉及的声道可包括但不限于：2.1声道，5.1声道等等；所谓的2.1声道是指可基于用户所处的位置，表达出左右声音（即左侧声音和右侧声音）和低音的声道，5.1声道是指可基于用户所处的位置，表达出前方左右声音（即前方左侧声音和前方右侧声音）、后方左右声音（即后方左侧声音和后方右侧声音）、正前方和低音的声道。其中，前方左侧是指：位于用户正前方的左侧，且与正前方的角度小于90°的方位；例如参见图1a所示：前方左侧可以是位于用户正前方的左侧30°的方位。前方右侧是指：位于用户正前方的右侧，且与正前方的角度小于90°的方位；例如参见图1a所示：前方右侧可以是位于用户正前方的右侧30°的方位。后方左侧是指：位于用户正前方的左侧，且与正前方的角度大于90°且小于180°的方位；例如参见图1a所示：后方左侧可以是位于用户正前方的左侧110°的方位。后方右侧是指：位于用户正前方的右侧，且与正前方的角度大于90°且小于180°的方位；例如参见图1a所示：后方右侧可以是位于用户正前方的右侧110°的方位。

（2）基于对象的空间音频，此类空间音频通常可在游戏或者互动性比较强的应用场景中使用。此类空间音频主要通过为每个音频元素（比如为游戏中的人物语音的音频元素、脚步声的音频元素，和其他物体或道具发出的声音的音频元素等）绑定相关的视频元素（如人物、物体等），来定义每个音频元素的声源来源位置信息，并加上聆听者（如游戏玩家用户在游戏中所操作的角色）的位置信息，渲染出对应聆听者的声音，从而实现空间音频效果。

例如参见图1b所示：一方面，可获取音频数据，该音频数据可包括多个原始音频元素，一个音频元素可通过一个音频采集设备（如话筒）采集到；另一方面，可获取相关技术人员输入的各个音频元素和视频元素之间的绑定关系（Metadata）。然后，可基于相关技术人员输入的绑定关系，为音频数据中的各个原始音频元素分别绑定一个视频元素，从而得到基于对象的空间音频。该基于对象的空间音频可在用户所使用的手机、电脑或电视等终端设备中进行播放。

（3）基于场景的空间音频，主要应用在VR（Virtual Reality，虚拟现实技术）、AR（Augmented Reality，增强现实）场景中；该类空间音频主要是通过把每个采集点出现的声音（Ambisonic，或称声场）尽可能全方位记录下来，在播放时基于用户的观看角度来渲染出对应的音频数据，从而达到空间音频效果的。在此类空间音频的实现过程中，声场需要有专门设备来采集，且该声场至少由4个声道组成，该4个声道包括用于表示环境的三维空间的XYZ轴中的各轴所对应的声道，以及用于表示全方向的W轴所对应的声道；并且，需要经过计算转换成能进行旋转处理的声场数据格式来进行编辑和播放。

在本申请实施例中，提出了一种数据处理方案，以实现自动生成具有空间音频效果的音视频数据，使得生成的音视频数据可为用户提供较好的沉浸式音频体验效果。其中，该数据处理方案的大致原理如下：在获取到音频数据以及相应的视频数据后，可对音频数据进行音频元素分离，得到M个目标音频元素（M为正整数）；并利用视频数据中的各种信息（如人物、物体、文字等图像信息，以及剧情、人物交互等语义信息），对视频数据中的每个视频帧进行视频元素识别，得到每个视频帧的元素识别结果。然后，可利用每个视频帧的元素识别结果，在每个视频帧对分离得到的各个目标音频元素进行声源定位，从而根据声源定位结果构建视频数据的空间音频信息，该空间音频信息用于指示：当每个视频帧播放时，每个目标音频元素在声音空间中所处的位置。在构建得到空间音频信息后，便可实现通过该空间音频信息将不具备空间感的音频数据转换成空间音频，或具有空间音频效果的环绕声，从而通过结合视频数据自动生成具有空间音频效果的音视频数据，这样的音视频数据在播放过程中，可为用户带来较佳的观看体验，提升用户粘度。

在具体实现中，该数据处理方案可由一个计算机设备执行，该计算机设备可以是终端或者服务器；其中，此处所提及的终端可以包括但不限于：智能手机、平板电脑、笔记本电脑、台式计算机、智能手表、智能电视、智能车载终端等；终端内可运行各式各样的客户端（application，APP），如视频播放客户端、社交客户端、浏览器客户端、信息流客户端、教育客户端，等等。此处所提及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN（Content Delivery Network，内容分发网络）、以及大数据和人工智能平台等基础云计算服务的云服务器，等等。可选的，本申请实施例所提及的计算机设备可以位于区块链网络外，也可以位于区块链网络内，对此不作限定；所谓的区块链网络是一种由点对点网络（P2P网络）和区块链所构成的网络，而区块链则是指一种分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式，其本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块（或称为区块）。

需要说明的是，在其他实施例中，该数据处理方案也可由服务器和终端共同执行；服务器和终端通过网络（如有线网络、无线网络等）连接，对此不作限定。例如，可由终端负责获取视频数据和音频数据，然后将视频数据和音频数据发送至服务器；由服务器负责对音频数据进行音频元素分离，并对视频数据中的每个视频帧进行视频元素识别，以及利用每个视频帧的元素识别结果，在每个视频帧对分离得到的各个目标音频元素进行声源定位，根据声源定位结果构建视频数据的空间音频信息，并通过该空间音频信息、音频数据和视频数据生成音视频数据。又如，可由终端负责获取视频数据和音频数据，并对音频数据进行音频元素分离，以及对视频数据中的每个视频帧进行视频元素识别，然后将分离得到的目标音频元素以及每个视频帧的元素识别结果发送至服务器；由服务器负责利用每个视频帧的元素识别结果，在每个视频帧对分离得到的各个目标音频元素进行声源定位，根据声源定位结果构建视频数据的空间音频信息，并通过该空间音频信息、音频数据和视频数据生成音视频数据，等等。

基于上述数据处理方案的描述，本申请实施例提出一种数据处理方法，该数据处理方法可以由上述所提及的终端或者服务器执行；或者，该数据处理方法可由终端和服务器共同执行。为便于阐述，后续均以计算机设备执行该数据处理方法为例进行说明；请参见图2，该数据处理方法可包括以下步骤S201-S206：

S201，获取视频数据以及与视频数据对应的音频数据。

其中，视频数据可以是采用一个或多个视频素材生成的，一个视频素材可用于描述一个或多个视频元素；此处所提及的视频元素可包括但不限于：具有生命体征的生物（如人物、动物等）、车辆、物体，等等。可见，采用多个视频素材所生成的视频数据可包括一个或多个视频元素，且该视频数据可包括N个视频帧，N为大于1的整数。针对任一视频帧而言，该任一视频帧中可包括视频元素，也可不包括视频元素（如任一视频帧为风景图像等），本申请实施例对此不作限定。

与视频数据对应的音频数据可以是采用多个音频素材生成的，一个音频素材可用于生成一个或多个音频元素。所谓的音频元素是指用于描述声音的数据，当音频元素被某个设备渲染播放时，该设备可输出相应的声音；例如，当音频元素是用于描述人物1的声音的数据，则该音频元素被某个设备渲染播放时，该设备可输出人物1的声音；又如，当音频元素是用于描述汽车的鸣笛声的数据，则该音频元素被某个设备渲染播放时，该设备可输出汽车的鸣笛声，等等。为便于阐述，本申请实施例将通过音频素材生成的音频元素称为原始音频元素，一个原始音频元素可用于描述视频数据中的一个视频元素的声音；可见，采用多个音频素材所生成的音频数据中可包括多个原始音频元素。

S202，对视频数据中的每个视频帧进行视频元素识别，得到每个视频帧的元素识别结果。

由前述可知，视频数据可包括一个或多个视频元素（如人、动物、车辆、其他物体等）；且针对视频数据中的第n个视频帧而言，该第n个视频帧中可包括视频元素，也可不包括视频元素，n∈[1，N]。那么，对第n个视频帧进行视频元素识别，则可能存在两种情况：一种情况是，可从第n个视频帧中识别出视频元素；另一种情况则是，未从第n个视频帧中识别出视频元素。随着情况的不同，第n个视频帧的元素识别结果也随之不同；具体的，若未从第n个视频帧中识别出视频元素，则第n个视频帧的元素识别结果为空。若从第n个视频帧中成功识别出K个视频元素，K为正整数，且K的取值小于或等于视频数据中所包括的视频元素的数量；则第n个视频帧的元素识别结果包括：K个视频元素的视频元素信息。具体的，在第n个视频帧的元素识别结果中，第k个视频元素的视频元素信息包括：第k个视频元素的视频元素标识，第k个视频元素在第n个视频帧中的元素位置，以及第k个视频元素在第n个视频帧中的元素状态。其中，k∈[1，K]；第k个视频元素的元素状态包括以下至少一项：发声状态、朝向状态，以及视频画面占比。

其中：①发声状态可包括：正在发声状态，或者未发声状态；当视频元素为人物时，发声状态又可称为说话状态，正在发声状态可称为正在说话状态，未发声状态可称为未说话状态。②朝向状态是根据第k个视频元素的指定部位的可视化程度确定的，指定部位可以根据经验值或者实际需求进行设置；进一步的，该朝向状态可以是在第k个视频元素未被其他东西遮挡的情况下，根据第k个视频元素的可视化程度确定的。例如，设第k个视频元素为人物1，指定部位为脸部，且脸部未被面具等其他东西遮挡；若脸部的可视化程度为100%、95%等较大数值，即用户可以观看到100%或95%的脸部，则可认为该人物1的朝向状态为正面；若脸部的可视化程度为0%，即用户无法观看到脸部，则可认为该人物1的朝向状态为背面；若脸部的可视化程度为50%、55%等数值，即用户可以观看到50%或55%的脸部，则可认为该人物1的朝向状态为侧面。③视频画面占比是根据第k个视频元素在第n个视频帧中所占据的画面面积，和第n个视频帧的画面总面积计算得到的；例如，第k个视频元素在第n个视频帧中所占据的画面面积为30，第n个视频帧的画面总面积为80，则第k个视频元素在第n个视频帧中的画面占比为30÷80×100%=37.5%。

S203，对音频数据进行音频元素分离，得到M个目标音频元素。

在具体实施过程中，计算机设备可以采用音频分离技术，对音频数据进行音频元素分离，得到M个目标音频元素；此处所提及的音频分离技术可包括但不限于：背景音分离技术、人声分离技术、乐器声分离技术，等等。其中，M为正整数；并且，M的取值小于或等于音频数据所包括的原始音频元素的数量。当M的取值等于音频数据所包括的原始音频元素的数量时，表明音频数据中的各个原始音频元素均被成功分离出；此情况下，一个目标音频元素本质上就是一个原始音频元素，即一个目标音频元素用于描述一个视频元素的声音。当M的取值小于音频数据所包括的原始音频元素的数量时，表明音频数据中存在至少两个原始音频元素未被成功分离出；此情况下，一个目标音频元素本质上，可能是一个原始音频元素，也可能是至少两个原始音频元素的混合结果，即一个目标音频元素可能用于描述一个视频元素的声音，也可能用于描述至少两个视频元素的声音。可见，本申请实施例所提及的一个目标音频元素用于描述至少一个视频元素的声音。

举例说明，设音频数据中共包括3个原始音频元素，分别是：用于描述背景音的原始音频元素a、用于描述人物1的声音的原始音频元素b，以及用于描述人物2的声音的原始音频元素c。若对音频数据进行音频元素分离，得到了3个目标音频元素，依次记为目标音频元素A、目标音频元素B和目标音频元素C（如图3a所示）；由于M的取值等于3（即原始音频元素的数量），因此可表明3个原始音频元素均被成功分离出。且目标音频元素A本质上可以是原始音频元素a，其可用于描述背景音；目标音频元素B本质上可以是原始音频元素b，其可用于描述人物1的声音；目标音频元素C本质上可以是原始音频元素c，其可用于描述人物2的声音。若对音频数据进行音频元素分离，得到了2个目标音频元素，依次记为目标音频元素a和目标音频元素b；由于M的取值小于3（即原始音频元素的数量），因此可表明存在至少两个原始音频元素未被成功分离出。假设原始音频元素b和原始音频元素c未被成功分离，则目标音频元素a本质上可以是原始音频元素a，其可用于描述背景音；目标音频元素b本质上可以是原始音频元素b和原始音频元素c的混合结果，其可用于同时描述人物1的声音和人物2的声音。

S204，根据每个视频帧的元素识别结果，在每个视频帧中对各个目标音频元素进行声源定位，得到各个目标音频元素在每个视频帧中的声源位置。

在具体实施过程中，针对第n个视频帧而言，当第n个视频帧的元素识别结果为空时，可将各个目标音频元素在第n个视频帧中的声源位置，定位至第n个视频帧的画面中心位置，所谓的画面中心位置是指画面的中心点所处的位置。或者，将各个目标音频元素在第n个视频帧中的声源位置，定位至第n个视频帧的其他指定位置（如画面右上角位置、或画面右下角位置等）。应理解的是，此情况下的各个目标音频元素的声源位置可相同，也可不同，对此不作限定。例如，可将各个目标音频元素在第n个视频帧中的声源位置，统一定位至第n个视频帧的画面中心位置；也可将一部分目标音频元素在第n个视频帧中的声源位置，定位至第n个视频帧的画面中心位置，将另一部分目标音频元素在第n个视频帧中的声源位置，定位至第n个视频帧的画面右上角位置；还可将各个目标音频元素在第n个视频帧中的声源位置，分别定位至第n个视频帧的不同位置，等等。

若第n个视频帧的元素识别结果包括K个视频元素的视频元素信息时，则可结合K个视频元素的视频元素信息中的全部或部分信息，为各个目标音频元素分别匹配一个匹配视频元素，得到各个目标音频元素的匹配结果。其中，任一目标音频元素的匹配结果用于指示：该任一目标音频元素是否存在相匹配的匹配视频元素，所谓的匹配视频元素是指与目标音频元素相匹配的视频元素。然后，可根据各个目标音频元素的匹配结果，在第n个视频帧中分别对各个目标音频元素进行声源定位，得到各个目标音频元素在第n个视频帧中的声源位置。具体的，针对任一目标音频元素而言，若该任一目标音频元素的匹配结果指示：该任一目标音频元素存在匹配视频元素，则可将该任一目标音频元素在第n个视频帧中的声源位置，定位至该任一目标音频元素所对应的匹配视频元素在第n个视频帧中的元素位置。若该任一目标音频元素的匹配结果指示：该任一目标音频元素不存在匹配视频元素，则可将该任一目标音频元素在第n个视频帧中的声源位置，定位至第n个视频帧的画面中心位置或其他指定位置。

S205，将各个目标音频元素在每个视频帧中的声源位置映射到声音空间，得到各个目标音频元素的N个空间音频位置。

在本申请实施例中，每个目标音频元素均具有N个空间音频位置；任一目标音频元素的第n个空间音频位置，是将该任一目标音频元素在第n个视频帧中的声源位置映射到声音空间所得到的；即任一目标音频元素的第n个空间音频位置对应第n个视频帧，n∈[1，N]。其中，此处所提及的声音空间可包括但不限于：左右平移空间、360度平面空间、三维空间，等等；所谓的左右平移空间又可称为左右平移模型，其是指在水平的数轴上定义空间音频位置的空间。参见图3b所示：在左右平移空间中，位于基准点的正前方的位置可采用“0”表示，位于基准点的最左边的位置可采用“-1”表示，位于基准点的最右边的位置可采用“1”表示；需说明的是，图3b所示的基准点可以是用户，也可以是屏幕中心点，或其他根据需求设置的点，对此不作限定。

在具体实现中，计算机设备可针对不同的声音空间设置不同的映射策略；例如，针对左右平移空间所设置的映射策略可用于指示：根据各个目标音频元素在第n个视频帧中的声源位置，和第n个视频帧中的基准声源位置之间的差异，以及声音空间和第n个视频帧所处的坐标系之间的差异，确定各个目标音频元素在声音空间中的空间音频位置。基于此，在步骤S205的具体实施过程中，计算机设备可根据所选择的声音空间，获取相应的映射策略；从而按照获取到的映射策略，将各个目标音频元素在每个视频帧中的声源位置映射到声音空间，得到各个目标音频元素的N个空间音频位置。

S206，基于各个目标音频元素的N个空间音频位置，音频数据以及视频数据，生成音视频数据。

在一种具体实现中，计算机设备可对视频数据进行编码，得到第一码流；以及，基于各个目标音频元素的N个空间音频位置以及音频数据进行编码，得到第二码流。然后，可采用第一码流和第二码流，组合得到音视频数据。具体的，可对第一码流和第二码流进行压缩处理，得到音视频数据；也可以将第一码流和第二码流进行拼接处理，得到音视频数据等，本申请实施例对第一码流和第二码流的组合方式不作限定。可选的，另一种具体实现中，计算机设备也可先对各个目标音频元素的N个空间音频位置，音频数据以及视频数据进行整合，得到整合结果，然后对整合结果进行编码，得到音视频数据。

请参见图4，是本申请实施例提供的另一种数据处理方法的示意图，该数据处理方法可以由上述所提及的终端或者服务器执行；或者，该数据处理方法可由终端和服务器共同执行。为便于阐述，后续均以计算机设备执行该数据处理方法为例进行说明；请参见图4，该数据处理方法可包括以下步骤S401-S408：

S401，获取视频数据以及与视频数据对应的音频数据。

S402，对视频数据中的每个视频帧进行视频元素识别，得到每个视频帧的元素识别结果。

在具体实施过程中，计算机设备可利用对象检测技术（如人脸检测技术、面部检测技术、人形检测技术等）、表情识别技术、视频场景切换检测技术中的一种或多种技术对视频数据中的每个视频帧进行视频元素识别，得到每个视频帧的元素识别结果。例如，以视频元素均为人物为例；针对视频数据中的第n个视频帧，计算机设备可先采用对象检测技术对该第n个视频帧进行对象识别，若未从第n个视频帧中识别出人物（即视频元素），此时可确定第n个视频帧的元素识别结果为空。若从第n个视频帧中识别出K个人物，则可将识别出的K个人物确定从n个视频帧中识别出的K个视频元素。

在识别出K个视频元素后，还可进一步识别K个视频元素中的各个视频元素的视频元素标识。具体的，识别第k个视频元素的视频元素标识的方式可以是：可将该第k个视频元素在第n个视频帧中的图像特征与数据库中所存储各个视频元素的图像特征进行匹配，从而将数据库中与第k个视频元素的图像特征相匹配的视频元素的视频元素标识，作为第k个视频元素的视频元素标识。或者，计算机设备也可利用声纹识别的方式或调用其他多模态深度模型的方式，识别K个视频元素中的各个视频元素的视频元素标识；所谓的多模态深度模型是指：可基于图像信息、音效（音乐）等多种模态信息进行元素识别的深度神经网络模型。另外，计算机设备还可进一步识别每个视频元素在第n个视频帧中的元素位置；具体的，可识别每个视频元素中的指定点（如鼻子、眉心等）在第n个视频帧中的位置，作为每个视频元素在第n个视频帧中的元素位置，如图5a所示。除此之外，计算机设备还可识别第k个视频元素在第n个视频帧中的元素状态；该第k个视频元素的元素状态包括以下至少一项：发声状态、朝向状态，以及视频画面占比。然后，将第k个视频元素在第n个视频帧中的元素状态、元素位置以及视频元素标识中的一项或多项，作为第k个视频元素的视频元素信息添加至第n个视频帧的元素识别结果中。其中，第k个视频元素在第n个视频帧中的发声状态的识别方式可包括以下任一种：

识别方式一：计算机设备可识别第k个视频元素的嘴部的张闭情况，从而确定第k个人脸所对应的第k个视频元素的发声状态；若第k个视频元素的嘴部处于张开状态，则可确定第k个视频元素的发声状态为正在发声状态；若第k个视频元素的嘴部处于关闭状态，则可确定第k个视频元素的发声状态为未发声状态。

识别方式二：为提升发声状态的检测准确性，计算机设备也可结合多个视频帧来确定第k个视频元素的发声状态。具体的，计算机设备可从视频数据中获取第n个视频帧所属的视频帧序列；并根据第k个视频元素的嘴部在视频帧序列中的各个视频帧中的张开幅度，检测第k个视频元素的发声状态。经研究表明，当人物在说话时，其嘴部在相邻两个视频帧中的张开幅度的变化程度通常比较剧烈，因此计算机设备可分别计算第k个视频元素的嘴部在视频帧序列中的相邻两个视频帧之间的张开幅度的幅度差值，若计算出的幅度差值大于差值阈值，则可认为第k个视频元素的发声状态为正在发声状态；否则，则可认为第k个视频元素的发声状态为未发声状态。需说明的是，当第k个视频元素的嘴部在某一视频帧中处于关闭状态时，可认为该第k个视频元素的嘴部在该视频帧中的张开幅度为0。

在此识别方式中，视频帧序列的获取方式可以是：计算机设备可直接从视频数据中截取出包含第n个视频帧的视频帧序列，该第n个视频帧在视频帧序列中的排列位置可以是首位，末尾或其他位置，对此不作限定。或者，计算机设备也可先采用视频场景切换检测技术对视频数据进行场景切换检测，并根据场景切换检测结果将视频数据划分成多个场景的子数据；然后，将包含第n个视频帧的子数据作为目标子数据，并在目标子数据中截取出包含第n个视频帧的视频帧序列。采用第二种获取方式来获取视频帧序列，可保证视频帧序列中的各个视频帧均属于同一个场景；由于同一视频元素的嘴部在不同场景下的视频帧中的张开幅度可能存在较大的差异，这种情况下的嘴部张开幅度的变化是否剧烈，对于检测发声状态的参考价值较小；因此采用第二种获取方式可有效保证在同一场景下对第k个视频元素进行发声状态检测，避免因场景切换影响发声状态的检测结果，可有效提升发声状态的检测准确性。

需要说明的是，上述只是示例性地列举了几种识别方式，并非穷举。例如，在其他实施例中，计算机设备也可采用表情识别技术来识别第k个视频元素的发声状态。并且，基于上述描述可知，若未从第n个视频帧中识别出视频元素，则第n个视频帧的元素识别结果为空。若从第n个视频帧中成功识别出K个视频元素，则第n个视频帧的元素识别结果包括：K个视频元素的视频元素信息；且第k个视频元素的视频元素信息包括：第k个视频元素的视频元素标识，第k个视频元素在第n个视频帧中的元素位置，以及第k个视频元素在第n个视频帧中的元素状态。该第k个视频元素的元素状态包括以下至少一项：发声状态、朝向状态，以及视频画面占比。

S403，对音频数据进行音频元素分离，得到M个目标音频元素。

需说明的是，本申请实施例中的步骤S403的具体实施方式可参见上述申请实施例中的步骤S201-S203的具体描述，在此不再赘述。并且，本申请实施例对步骤S402和步骤S403的执行顺序不作限定；例如，可先执行步骤S402，再执行步骤S403；又如，可先执行步骤S403，再执行步骤S402；再如，可同时执行步骤S402和步骤S403，等等。

S404，根据每个视频帧的元素识别结果，在每个视频帧中对各个目标音频元素进行声源定位，得到各个目标音频元素在每个视频帧中的声源位置。

由于在每个视频帧中对各个目标音频元素进行声源定位所采用的声源定位原理是相同的，因此为便于阐述，本申请实施例主要以在第n个视频帧中对第m个目标音频元素进行声源定位，以得到第m个目标音频元素在第n个视频帧中的声源位置的实施方式为例进行说明。其中，n∈[1，N]，m∈[1，M]。具体的，针对第n个视频帧而言：

当第n个视频帧的元素识别结果为空时，计算机设备根据第n个视频帧的元素识别结果，在第n个视频帧中对第m个目标音频元素进行声源定位，得到第m个目标音频元素在第n个视频帧中的声源位置的方式如下：计算机设备可获取第n个视频帧的画面中心位置；并将获取到的画面中心位置，确定为第m个目标音频元素在第n个视频帧中的声源位置。也就是说，当未从第n个视频帧中识别出视频元素时，可将第m个目标音频元素在第n个视频帧中的声源位置定位在画面中心位置。

当第n个视频帧的元素识别结果包括：K个视频元素的视频元素信息时，计算机设备根据第n个视频帧的元素识别结果，在第n个视频帧中对第m个目标音频元素进行声源定位，得到第m个目标音频元素在第n个视频帧中的声源位置的方式如下：步骤s11，可根据K个视频元素的视频元素标识以及元素状态中的一项或多项，在K个视频元素中检测与第m个目标音频元素相匹配的匹配视频元素。步骤s12，若检测到匹配视频元素，则可将匹配视频元素的元素位置，确定为第m个目标音频元素在第n个视频帧中的声源位置。步骤s13，若未检测到匹配视频元素，则可将第n个视频帧的画面中心位置，确定为第m个目标音频元素在第n个视频帧中的声源位置。

其中，当第m个目标音频元素用于描述一个视频元素的声音时，步骤s11的具体实施方式可以是：获取第m个目标音频元素所描述的视频元素的视频元素标识；并在K个视频元素的视频元素标识中，查找获取到的视频元素标识。若成功查找到该获取到的视频元素标识，则计算机设备可确定检测到与第m个目标音频元素相匹配的匹配视频元素，且匹配视频元素为获取到的视频元素标识所对应的视频元素；若未成功查找到该获取到的视频元素标识，则计算机设备可确定未检测到与第m个目标音频元素相匹配的匹配视频元素。例如，设K个视频元素的视频元素标识包括：人物1、人物2以及人物3；若第m个目标音频元素所描述的视频元素的视频元素标识为人物1，则此时计算机设备可确定检测到与第m个目标音频元素相匹配的匹配视频元素，且该匹配视频元素为人物1所对应的人物；若第m个目标音频元素所描述的视频元素的视频元素标识为人物4，则此时计算机设备可确定未检测到与第m个目标音频元素相匹配的匹配视频元素。

其中，当第m个目标音频元素用于描述至少两个视频元素的声音时，步骤s11的具体实施方式可以是：确定K的取值。若K的取值等于1，则确定检测到与第m个目标音频元素相匹配的匹配视频元素，且匹配视频元素为K个视频元素；即此情况下，计算机设备可将从第n个视频帧中唯一识别出的视频元素，作为第m个目标音频元素相匹配的匹配视频元素。若K的取值大于1，则计算机设备可根据K个视频元素的元素状态，从K个视频元素中选取元素状态满足状态条件的视频元素；当选取成功时，确定检测到与第m个目标音频元素相匹配的匹配视频元素，且匹配视频元素为被选取的视频元素；当选取失败时，可确定未检测到匹配视频元素。

由前述可知，第k个视频元素的元素状态包括以下至少一项：发声状态、朝向状态，以及视频画面占比；那么，状态条件可包括以下至少一项：元素状态中的发声状态为目标发声状态、元素状态中的朝向状态为目标朝向状态，以及元素状态中的视频画面占比满足画面占比条件。此处所提及的占比条件可包括：视频画面占比大于占比阈值，或视频画面占比为K个视频元素的视频画面占比中的最大视频画面占比。需说明的是，本申请实施例所提及的目标发声状态、目标朝向状态，以及占比阈值等，均可根据经验值或者业务需求设置；例如，目标发声状态可以是正在发声状态，目标朝向状态可以是正面，占比阈值可以是80%，等等。可见，当状态条件包括：元素状态中的发声状态为目标发声状态以及元素状态中的朝向状态为目标朝向状态，且目标发声状态为正在发声状态，目标朝向状态为正面时，可实现从K个视频元素中选取画面中处于正面且正在发声的视频元素作为匹配视频元素，从而将第m个目标音频元素的声源位置定位在该处于正面且正在发声的视频元素所在的元素位置；当状态条件包括视频画面占比为K个视频元素的视频画面占比中的最大视频画面占比时，可实现从K个视频元素中选取视频画面占比最大的视频元素作为匹配视频元素，从而将第m个目标音频元素的声源位置定位在视频画面占比最大的视频元素所在的元素位置。

进一步的，当第m个目标音频元素用于描述至少两个视频元素的声音时，步骤s11的具体实施方式还可以包括：计算机设备可先获取第m个目标音频元素所描述的各个视频元素的视频元素标识；若获取到的各个视频元素标识中存在目标视频元素标识，位于K个视频元素的视频元素标识中，则可确定检测到与第m个目标音频元素相匹配的匹配视频元素，且匹配视频元素为目标视频元素标识对应的视频元素。若获取到的各个视频元素标识中不存在目标视频元素标识，则执行确定K的取值的步骤。采用实施方式可实现，在第m个目标音频元素用于描述至少两个视频元素的声音，且第n个视频帧中包括这至少两个视频元素中的其中一个视频元素时，可将该m个目标音频元素的声源位置定位在这至少两个视频元素中的其中一个视频元素所处的元素位置。

S405，将各个目标音频元素在每个视频帧中的声源位置映射到声音空间，得到各个目标音频元素的N个空间音频位置。

此处所提及的声音空间可包括但不限于：左右平移空间、360度平面空间、三维空间，等等。以声音空间为左右平移空间为例，对步骤S405的具体实施方式进行阐述：首先，计算机设备可根据左右平移空间的坐标取值范围，以及第n个视频帧所处的坐标系的横坐标取值范围，计算位置映射参数。本申请实施例可将第n个视频帧所处的坐标系的左上角定义为（0，0），该坐标系的右上角定义为（1，1）；因此，第n个视频帧所处的坐标系的横坐标取值范围为0至1，该横坐标取值范围的范围长度为1。另外，由图3b所示的左右平移空间可知，左右平移空间的坐标取值范围为（-1）至1，该坐标取值范围的范围长度为2；计算机设备可将坐标取值范围的范围长度，和横坐标取值范围的范围长度之间的比值，确定为位置映射参数。

其次，计算机设备可将第m个目标音频元素在第n个视频帧中的声源位置的横坐标，作为第一横坐标；以及获取第n视频帧中的基准声源位置的横坐标，作为第二横坐标。其中，第n个视频帧中的基准声源位置可以是画面中心位置，也可以是其他位置等等；为便于阐述，以基准声源位置为画面中心位置为例进行说明。然后，计算第一横坐标和第二横坐标之间的横坐标差值，并采用位置映射参数对横坐标差值进行线性处理，得到第m个目标音频元素的第n个空间音频位置；具体的，可采用位置映射参数乘以横坐标差值，得到第m个目标音频元素的第n个空间音频位置。

基于此描述，若采用

表示第m个目标音频元素的第n个空间音频位置，采用“2”表示位置映射参数，采用

表示第一横坐标，采用“0.5”表示第二横坐标，则第m个目标音频元素的第n个空间音频位置的计算方式可采用如下公式1.1进行表示：

式1.1

S406，对视频数据进行编码，得到第一码流。

S407，基于各个目标音频元素的N个空间音频位置以及音频数据进行编码，得到第二码流。

其中，音频数据中可包括各个目标音频元素的N个音量值，一个音量值对应一个视频帧；应理解的是，任一目标音频元素的N个音量值中的各个音量值可相同，也可不同，对此不作限定。也就是说，针对不同的两个视频帧而言，任一目标音频元素在这两个视频帧播放时，所呈现的音量值可以是相同的，也可以是不同的，对此不作限定。在具体实现中，步骤S407的具体实施方式可包括以下几种：

实施方式一：可基于各个目标音频元素的N个空间音频位置，分别对各个目标音频元素的N个音量值进行调整，以更新音频数据；其中，任一目标音频元素的一个空间音频位置用于调整任一目标音频元素的一个音量值。以声音空间为左右平移空间为例，若任一目标音频元素的第n个空间音频位置位于该左右平移空间中的基准点的左侧，则可减小该任一目标音频元素的第n个音量值；若任一目标音频元素的第n个空间音频位置位于该左右平移空间中的基准点的右侧，则可增大该任一目标音频元素的第n个音量值；若任一目标音频元素的第n个空间音频位置恰好位于该左右平移空间中的基准点，则可保持该任一目标音频元素的第n个音量值不变。然后，计算机设备可对更新后的音频数据进行编码，得到第二码流。

实施方式二：计算机设备可调用空间音频渲染引擎（或称为环境音效引擎），基于各个目标音频元素的N个空间音频位置和音频数据进行音频渲染处理，得到空间音频数据；然后，计算机设备可对该空间音频数据进行编码，得到第二码流。此实施方式下，计算机设备通过步骤S401-S408得到音视频数据的流程可一并参见图5b所示。

实施方式三：计算机设备可采用各个目标音频元素的N个空间音频位置构建音频位置信息，并对该音频位置信息进行编码，得到位置信息码流；以及对音频数据进行编码，得到音频码流。然后，可将位置信息码流和音频码流作为第二码流。此实施方式下，计算机设备通过步骤S401-S408得到音视频数据的流程可一并参见图5c所示。其中，音频位置信息可采用

表示；那么，该音频位置信息可如下述公式1.2所示：

式1.2

S408，采用第一码流和第二码流，组合得到音视频数据。

需要说明的是，若第二码流是对更新后的音频数据进行编码得到的，或者是对空间音频数据进行编码得到的，则音视频数据支持多媒体播放设备采用环绕声方式进行音视频播放。在此情况下，当任一多媒体播放设备欲播放音视频数据时，计算机设备可将该音视频数据发送至该多媒体播放设备，使得多媒体播放设备对音视频数据中的第一码流和第二码流分别进行解码后，可直接基于解码得到的视频数据以及更新后的音频数据（或空间音频数据），进行音视频播放，如图5b所示。

若第二码流包括位置信息码流和音频码流，则音视频数据支持多媒体播放设备采用对象音频方式进行音视频播放。在此情况下，当任一多媒体播放设备欲播放音视频数据时，计算机设备可将该音视频数据发送至该多媒体播放设备，使得多媒体播放设备对该音视频数据进行音视频解码；具体的，多媒体播放设备可对音视频数据中的位置信息码流进行解码，得到音频位置信息，对音视频数据中的音频码流进行解码，得到音频数据，对音视频数据中的第一码流进行解码，得到视频数据。然后，可由多媒体播放设备调用空间音频渲染引擎根据音频位置信息和音频数据进行音频渲染处理，得到空间音频数据，并基于视频数据以及空间音频数据，进行音视频播放，如图5c所示。需要说明的是，在其他实施例中，多媒体播放设备在解码得到音频位置信息和音频数据后，也可基于方向感强度以及距离感等信息，对音频位置信息中的各个空间音频位置进行微调，从而调用空间音频渲染引擎根据微调后的音频位置信息和音频数据进行音频渲染处理，得到空间音频数据。

还需说明的是，上述所提及的多媒体播放设备和计算机设备可以是同一个设备，也可以是不同的设备，对此不作限定。并且，在实际应用中，还可基于本申请实施例所提出的数据处理方法，在多媒体播放设备中集成空间音频功能，使得用户可根据自身需求开启或关闭该空间音频功能。当该空间音频功能处于开启状态时，便可触发计算机设备基于上述步骤S401-S408生成具有空间音频效果的音视频数据。其中，用户可通过选中用户界面中所显示的空间音频选项，来开启空间音频功能；也可通过输入预设手势来开启该空间音频功能，或者通过其他人机交互操作，来开启空间音频功能，对此不作限定。

本申请实施例在获取到视频数据和相应的音频数据后，可对音频数据进行音频元素分离，得到M个目标音频元素；并根据视频数据包括的各个视频帧中的视频元素的元素位置等信息，在每个视频帧中对各个目标音频元素进行声源定位，得到各个目标音频元素在每个视频帧中的声源位置。然后，可将各个目标音频元素在每个视频帧中的声源位置映射到声音空间，从而采用映射得到的各个目标音频元素的N个空间音频位置，及获取到的音频数据和视频数据，自动生成音视频数据。通过先声源定位再空间转换的处理方式，不仅可使得全部或部分目标音频元素分布在不同的空间音频位置，从而营造出空间感，进而使得自动生成的音视频数据具有空间音频效果；还可使得每个目标音频元素所处的各个空间音频位置与每个视频帧的元素识别结果相关联，从而使得音频数据所具有的空间音频效果可精确到与每个视频帧相匹配，进而为用户提供较好的沉浸式音频体验效果。并且，当视频元素为人物时，基于元素位置进行声源定位的方式，可使得用户单靠声音便可感受到多人对话的效果，能让用户在不需要一直看着用户界面的情况下，也可感受到分镜的效果，具有较高的便利性。

基于上述数据处理方法的相关实施例的描述，本申请实施例还提出了一种数据处理装置，该数据处理装置可以是运行于计算机设备中的一个计算机程序（包括程序代码）。该数据处理装置可以执行图2或图4所示的数据处理方法；请参见图6，所述数据处理装置可以运行如下单元：

获取单元601，用于获取视频数据以及与所述视频数据对应的音频数据，所述视频数据包括N个视频帧，N为大于1的整数；

处理单元602，用于对所述视频数据中的每个视频帧进行视频元素识别，得到所述每个视频帧的元素识别结果；以及，对所述音频数据进行音频元素分离，得到M个目标音频元素，M为正整数；

所述处理单元602，还用于根据所述每个视频帧的元素识别结果，在所述每个视频帧中对各个目标音频元素进行声源定位，得到所述各个目标音频元素在所述每个视频帧中的声源位置；

所述处理单元602，还用于将所述各个目标音频元素在所述每个视频帧中的声源位置映射到声音空间，得到所述各个目标音频元素的N个空间音频位置；任一目标音频元素的第n个空间音频位置对应第n个视频帧，n∈[1，N]；

所述处理单元602，还用于基于所述各个目标音频元素的N个空间音频位置，所述音频数据以及所述视频数据，生成音视频数据。

在一种实施方式中，所述视频数据包括一个或多个视频元素，一个目标音频元素用于描述至少一个视频元素的声音；

若未从第n个视频帧中识别出视频元素，则所述第n个视频帧的元素识别结果为空；

若从第n个视频帧中成功识别出K个视频元素，K为正整数，则所述第n个视频帧的元素识别结果包括：所述K个视频元素的视频元素信息；

其中，第k个视频元素的视频元素信息包括：所述第k个视频元素的视频元素标识，所述第k个视频元素在所述第n个视频帧中的元素位置，以及所述第k个视频元素在所述第n个视频帧中的元素状态，k∈[1，K]。

另一种实施方式中，当所述第n个视频帧的元素识别结果包括：所述K个视频元素的视频元素信息时；相应的，处理单元602在用于根据所述第n个视频帧的元素识别结果，在所述第n个视频帧中对第m个目标音频元素进行声源定位，得到所述第m个目标音频元素在所述第n个视频帧中的声源位置时，可具体用于：

根据所述K个视频元素的视频元素标识以及元素状态中的一项或多项，在所述K个视频元素中检测与所述第m个目标音频元素相匹配的匹配视频元素，m∈[1，M]；

若检测到所述匹配视频元素，则将所述匹配视频元素的元素位置，确定为所述第m个目标音频元素在所述第n个视频帧中的声源位置；

若未检测到所述匹配视频元素，则将所述第n个视频帧的画面中心位置，确定为所述第m个目标音频元素在所述第n个视频帧中的声源位置。

另一种实施方式中，当所述第m个目标音频元素用于描述一个视频元素的声音时；相应的，所述处理单元602在用于根据所述K个视频元素的视频元素标识以及元素状态中的一项或多项，在所述K个视频元素中检测与所述第m个目标音频元素相匹配的匹配视频元素时，可具体用于：

获取所述第m个目标音频元素所描述的视频元素的视频元素标识；

在所述K个视频元素的视频元素标识中，查找获取到的视频元素标识；

若成功查找到所述获取到的视频元素标识，则确定检测到与所述第m个目标音频元素相匹配的匹配视频元素，且所述匹配视频元素为所述获取到的视频元素标识所对应的视频元素；

若未成功查找到所述获取到的视频元素标识，则确定未检测到与所述第m个目标音频元素相匹配的匹配视频元素。

另一种实施方式中，当所述第m个目标音频元素用于描述至少两个视频元素的声音时；相应的，所述处理单元602在用于根据所述K个视频元素的视频元素标识以及元素状态中的一项或多项，在所述K个视频元素中检测与所述第m个目标音频元素相匹配的匹配视频元素时，可具体用于：

确定K的取值；

若所述K的取值等于1，则确定检测到与所述第m个目标音频元素相匹配的匹配视频元素，且所述匹配视频元素为所述K个视频元素；

若所述K的取值大于1，则根据所述K个视频元素的元素状态，从所述K个视频元素中选取元素状态满足状态条件的视频元素；当选取成功时，确定检测到与所述第m个目标音频元素相匹配的匹配视频元素，且所述匹配视频元素为被选取的视频元素；当选取失败时，确定未检测到所述匹配视频元素。

另一种实施方式中，所述第k个视频元素的元素状态包括以下至少一项：发声状态、朝向状态，以及视频画面占比；其中，所述朝向状态是根据所述第k个视频元素的指定部位的可视化程度确定的；

状态条件包括以下至少一项：元素状态中的发声状态为目标发声状态、元素状态中的朝向状态为目标朝向状态，以及元素状态中的视频画面占比满足画面占比条件；

其中，所述占比条件包括：视频画面占比大于占比阈值，或视频画面占比为所述K个视频元素的视频画面占比中的最大视频画面占比。

另一种实施方式中，处理单元602还可用于：

获取所述第m个目标音频元素所描述的各个视频元素的视频元素标识；

若获取到的各个视频元素标识中存在目标视频元素标识，位于所述K个视频元素的视频元素标识中，则确定检测到与所述第m个目标音频元素相匹配的匹配视频元素，且所述匹配视频元素为所述目标视频元素标识对应的视频元素；

若获取到的各个视频元素标识中不存在所述目标视频元素标识，则执行确定K的取值的步骤。

另一种实施方式中，当所述第n个视频帧的元素识别结果为空时；相应的，处理单元602在用于根据所述第n个视频帧的元素识别结果，在所述第n个视频帧中对第m个目标音频元素进行声源定位，得到所述第m个目标音频元素在所述第n个视频帧中的声源位置时，可具体用于：

获取所述第n个视频帧的画面中心位置；

将获取到的画面中心位置，确定为所述第m个目标音频元素在所述第n个视频帧中的声源位置。

另一种实施方式中，所述声音空间为左右平移空间，所述左右平移空间是指在水平的数轴上定义空间音频位置的空间；相应的，处理单元602用于在将所述各个目标音频元素在所述每个视频帧中的声源位置映射到声音空间，得到所述各个目标音频元素的N个空间音频位置时，可具体用于：

根据所述左右平移空间的坐标取值范围，以及所述第n个视频帧所处的坐标系的横坐标取值范围，计算位置映射参数；

将第m个目标音频元素在所述第n个视频帧中的声源位置的横坐标，作为第一横坐标；以及获取所述第n视频帧中的基准声源位置的横坐标，作为第二横坐标；

计算所述第一横坐标和所述第二横坐标之间的横坐标差值，并采用所述位置映射参数对所述横坐标差值进行线性处理，得到所述第m个目标音频元素的第n个空间音频位置。

另一种实施方式中，处理单元602在用于基于所述各个目标音频元素的N个空间音频位置，所述音频数据以及所述视频数据，生成音视频数据时，可具体用于：

对所述视频数据进行编码，得到第一码流；

基于所述各个目标音频元素的N个空间音频位置以及所述音频数据进行编码，得到第二码流；

采用所述第一码流和所述第二码流，组合得到音视频数据。

另一种实施方式中，所述音频数据中包括所述各个目标音频元素的N个音量值，一个音量值对应一个视频帧；相应的，处理单元602在用于基于所述各个目标音频元素的N个空间音频位置以及所述音频数据进行编码，得到第二码流时，可具体用于：

基于所述各个目标音频元素的N个空间音频位置，分别对所述各个目标音频元素的N个音量值进行调整，以更新所述音频数据；以及，对更新后的音频数据进行编码，得到第二码流；其中，任一目标音频元素的一个空间音频位置用于调整所述任一目标音频元素的一个音量值；

或者，调用空间音频渲染引擎，基于所述各个目标音频元素的N个空间音频位置和所述音频数据进行音频渲染处理，得到空间音频数据；以及，对所述空间音频数据进行编码，得到第二码流；

或者，采用所述各个目标音频元素的N个空间音频位置构建音频位置信息，对所述音频位置信息进行编码，得到位置信息码流；对所述音频数据进行编码，得到音频码流；将所述位置信息码流和所述音频码流作为第二码流。

根据本申请的一个实施例，图2或图4所示的方法所涉及的各个步骤均可以是由图6所示的数据处理装置中的各个单元来执行的。例如，图2中所示的步骤S201可由图6中所示的获取单元601执行，步骤S202-S206可由图6中所示的处理单元602执行。又如，图4中所示的步骤S401可由图6中所示的获取单元601执行，步骤S402-S408可由图6中所示的处理单元602执行，等等。

根据本申请的另一个实施例，图6所示的数据处理装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个（些）单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其它实施例中，基于数据处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过在包括中央处理单元（CPU）、随机存取存储介质（RAM）、只读存储介质（ROM）等处理元件和存储元件的例如计算机设备上运行能够执行如图2或图4中所示的相应方法所涉及的各步骤的计算机程序（包括程序代码），来构造如图6中所示的数据处理装置设备，以及来实现本申请实施例的数据处理方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算机设备中，并在其中运行。

基于上述方法实施例以及装置实施例的描述，本申请实施例还提供一种计算机设备。请参见图7，该计算机设备至少包括处理器701、输入接口702、输出接口703以及计算机存储介质704。其中，计算机设备内的处理器701、输入接口702、输出接口703以及计算机存储介质704可通过总线或其他方式连接。

计算机存储介质704可以存储在计算机设备的存储器中，所述计算机存储介质704用于存储计算机程序，所述计算机程序包括程序指令，所述处理器701用于执行所述计算机存储介质704存储的程序指令。处理器701（或称CPU（Central Processing Unit，中央处理器））是计算机设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能；在一个实施例中，本申请实施例所述的处理器701可以用于进行一系列的数据处理，具体包括：获取视频数据以及与所述视频数据对应的音频数据，所述视频数据包括N个视频帧，N为大于1的整数；对所述视频数据中的每个视频帧进行视频元素识别，得到所述每个视频帧的元素识别结果；以及，对所述音频数据进行音频元素分离，得到M个目标音频元素，M为正整数；根据所述每个视频帧的元素识别结果，在所述每个视频帧中对各个目标音频元素进行声源定位，得到所述各个目标音频元素在所述每个视频帧中的声源位置；将所述各个目标音频元素在所述每个视频帧中的声源位置映射到声音空间，得到所述各个目标音频元素的N个空间音频位置；任一目标音频元素的第n个空间音频位置对应第n个视频帧，n∈[1，N]；基于所述各个目标音频元素的N个空间音频位置，所述音频数据以及所述视频数据，生成音视频数据，等等。

本申请实施例还提供了一种计算机存储介质（Memory），所述计算机存储介质是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括计算机设备中的内置存储介质，当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了计算机设备的操作系统。并且，在该存储空间中还存放了适于被处理器加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序（包括程序代码）。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器；可选的，还可以是至少一个位于远离前述处理器的计算机存储介质。在一个实施例中，可由处理器加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关图2或图4所示的数据处理方法的实施例中的各个方法步骤。

需要说明的是，根据本申请的一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述图2、或图4所示的数据处理方法实施例方面的各种可选方式中提供的方法。

并且，应理解的是，以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

基于所述各个目标音频元素的N个空间音频位置，所述音频数据以及所述视频数据，生成音视频数据；

其中，若从第n个视频帧中成功识别出K个视频元素，K为正整数，则所述第n个视频帧的元素识别结果包括：所述K个视频元素的视频元素信息；当第m个目标音频元素用于描述至少两个视频元素的声音，m∈[1，M]时，根据所述第n个视频帧的元素识别结果，在所述第n个视频帧中对第m个目标音频元素进行声源定位，得到所述第m个目标音频元素在所述第n个视频帧中的声源位置的方式包括：确定K的取值；若所述K的取值等于1，则确定检测到与所述第m个目标音频元素相匹配的匹配视频元素，且所述匹配视频元素为所述K个视频元素；若所述K的取值大于1，则根据所述K个视频元素的视频元素信息中的元素状态，从所述K个视频元素中选取元素状态满足状态条件的视频元素；当选取成功时，确定检测到与所述第m个目标音频元素相匹配的匹配视频元素，且所述匹配视频元素为被选取的视频元素；当选取失败时，确定未检测到所述匹配视频元素。

2.如权利要求1所述的方法，其特征在于，所述视频数据包括一个或多个视频元素，一个目标音频元素用于描述至少一个视频元素的声音；

3.如权利要求2所述的方法，其特征在于，当所述第m个目标音频元素用于描述一个视频元素的声音时，根据所述第n个视频帧的元素识别结果，在所述第n个视频帧中对第m个目标音频元素进行声源定位，得到所述第m个目标音频元素在所述第n个视频帧中的声源位置的方式包括：

4.如权利要求1或3所述的方法，其特征在于，当所述第n个视频帧的元素识别结果包括：所述K个视频元素的视频元素信息时，根据所述第n个视频帧的元素识别结果，在所述第n个视频帧中对第m个目标音频元素进行声源定位，得到所述第m个目标音频元素在所述第n个视频帧中的声源位置的方式还包括：

5.如权利要求1所述的方法，其特征在于，第k个视频元素的元素状态包括以下至少一项：发声状态、朝向状态，以及视频画面占比；其中，所述朝向状态是根据所述第k个视频元素的指定部位的可视化程度确定的，k∈[1，K]；

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

7.如权利要求2所述的方法，其特征在于，当所述第n个视频帧的元素识别结果为空时，根据所述第n个视频帧的元素识别结果，在所述第n个视频帧中对第m个目标音频元素进行声源定位，得到所述第m个目标音频元素在所述第n个视频帧中的声源位置的方式如下：

获取所述第n个视频帧的画面中心位置；

8.如权利要求1所述的方法，其特征在于，所述声音空间为左右平移空间，所述左右平移空间是指在水平的数轴上定义空间音频位置的空间；

所述将所述各个目标音频元素在所述每个视频帧中的声源位置映射到声音空间，得到所述各个目标音频元素的N个空间音频位置，包括：

9.如权利要求1所述的方法，其特征在于，所述基于所述各个目标音频元素的N个空间音频位置，所述音频数据以及所述视频数据，生成音视频数据，包括：

对所述视频数据进行编码，得到第一码流；

采用所述第一码流和所述第二码流，组合得到音视频数据。

10.如权利要求9所述的方法，其特征在于，所述音频数据中包括所述各个目标音频元素的N个音量值，一个音量值对应一个视频帧；

所述基于所述各个目标音频元素的N个空间音频位置以及所述音频数据进行编码，得到第二码流，包括：

11.如权利要求10所述的方法，其特征在于，若所述第二码流是对所述更新后的音频数据进行编码得到的，或者是对所述空间音频数据进行编码得到的，则所述音视频数据支持多媒体播放设备采用环绕声方式进行音视频播放；

若所述第二码流包括所述位置信息码流和所述音频码流，则所述音视频数据支持所述多媒体播放设备采用对象音频方式进行音视频播放。

12.一种数据处理装置，其特征在于，包括：

所述处理单元，还用于基于所述各个目标音频元素的N个空间音频位置，所述音频数据以及所述视频数据，生成音视频数据；

13.一种计算机设备，包括输入接口和输出接口，其特征在于，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-11任一项所述的数据处理方法。

14.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-11任一项所述的数据处理方法。