CN111885414A

CN111885414A - 一种数据处理方法、装置、设备及可读存储介质

Info

Publication number: CN111885414A
Application number: CN202010724466.1A
Authority: CN
Inventors: 梁启仍
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-07-24
Filing date: 2020-07-24
Publication date: 2020-11-03
Anticipated expiration: 2040-07-24
Also published as: CN111885414B; WO2022017083A1; EP4099709A1; US20220392224A1; EP4099709A4

Abstract

本申请实施例公开了一种数据处理方法、装置、设备及可读存储介质，该方法包括：获取目标视频的视频帧数据以及音频帧数据；根据视频帧数据，确定目标视频中目标对象的位置属性信息；目标对象与音频帧数据相关联；获取与位置属性信息相关联的声道编码参数，根据声道编码参数对音频帧数据进行方位增强处理，得到增强音频帧数据。采用本申请，可以提高视频中的音频优化效果。

Description

一种数据处理方法、装置、设备及可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法、装置、设备以及可读存储介质。

背景技术

随着多媒体技术的发展，视频已成为人们日常生活中获取信息与享受娱乐的主要载体。因为移动设备的普及，当前用户已逐渐依赖于使用移动设备来观看视频，且用户对在移动设备上观看视频时，对视频播放的要求也逐步提高。在播放视频时，如何优化视频播放音频，也相应地成为人们的关注点。

在现有技术中，对于优化视频音频的过程，选择一种音频优化方式后，对于不同风格的视频音频，均采用相同的音频优化参数来进行优化，这种方式未考虑到视频场景的具象化。比如，对于安静的场景与动作激烈的场景，目前的优化方式均使用相同的优化参数来进行优化。这样不考虑视频场景，很难保证相同的优化参数，会适应于各种风格的视频场景，从而降低了音频优化效果，影响用户的视频观感。

发明内容

本申请实施例提供一种数据处理方法、装置、设备以及可读存储介质，可以提高视频中的音频优化效果。

本申请实施例一方面提供了一种数据处理方法，包括：

获取目标视频的视频帧数据以及音频帧数据；

根据视频帧数据，确定目标视频中目标对象的位置属性信息；目标对象与音频帧数据相关联；

获取与位置属性信息相关联的声道编码参数，根据声道编码参数对音频帧数据进行方位增强处理，得到增强音频帧数据。

本申请实施例一方面提供了一种数据处理装置，包括：

数据获取模块，用于获取目标视频的视频帧数据以及音频帧数据；

位置识别模块，用于根据视频帧数据，确定目标视频中目标对象的位置属性信息；目标对象与音频帧数据相关联；

音频增强模块，用于获取与位置属性信息相关联的声道编码参数，根据声道编码参数对音频帧数据进行方位增强处理，得到增强音频帧数据。

其中，数据获取模块包括：

视频解封装单元，用于获取目标视频，将目标视频输入至视频解封装组件，通过视频解封装组件对目标视频进行解封装，得到视频流数据以及音频流数据；

数据解码单元，用于在视频解封装组件中，对视频流数据和音频流数据分别进行解码，得到视频帧数据以及音频帧数据。

其中，目标对象为处于静止状态的对象；

位置识别模块包括：

视频帧获取单元，用于将视频帧数据输入至对象识别模型，在对象识别模型中获取N个连续视频帧数据；N个连续视频帧数据是指具有连续时间戳的视频帧数据；每个连续视频帧数据均包含目标对象；N为小于或等于M的正整数，M为视频帧数据的总数量；M为大于1的整数；

部位变化识别单元，用于在N个连续视频帧数据中，识别目标对象的发声部位发生变化的视频帧数据，将目标对象的发声部位发生变化的视频帧数据作为变化视频帧数据；

第一坐标确定单元，用于确定目标对象在变化视频帧数据中的位置坐标；

位置确定单元，用于根据位置坐标确定目标视频中目标对象的位置属性信息。

其中，目标对象为处于运动状态的对象；

位置识别模块包括：

背景图像识别单元，用于将视频帧数据输入至对象识别模型，通过对象识别模型识别视频帧数据中的背景图像；

像素值获取单元，用于获取背景图像的背景像素值，获取视频帧数据对应的视频帧像素值；

第二坐标确定单元，用于确定背景像素值与视频帧像素值之间的差异像素值，将差异像素值所在的区域，确定为目标对象在视频帧数据中的位置坐标；

其中，位置确定单元包括：

中心位置获取子单元，用于获取视频虚拟镜头的中心位置信息；视频虚拟镜头为模拟拍摄目标对象的虚拟镜头；

距离确定子单元，用于根据位置坐标，确定目标对象与中心位置信息之间的景深距离；

偏移角度确定子单元，用于确定目标对象与视频虚拟镜头之间的位置偏移角度；

位置确定子单元，用于将景深距离与位置偏移角度确定为目标对象的位置属性信息。

其中，音频增强模块包括：

映射表获取单元，用于获取参数映射表；参数映射表包括至少两个参数映射关系；一个参数映射关系包括一个位置属性信息与一个声道编码参数之间的映射关系；一个位置属性信息包括一个景深距离与一个位置偏移角度；

编码参数获取单元，用于在参数映射表中，获取与目标对象的位置属性信息具有映射关系的声道编码参数；

音频增强单元，用于根据具有映射关系的声道编码参数对音频帧数据进行方位增强处理，得到增强音频帧数据。

其中，具有映射关系的声道编码参数包含第一声道编码参数以及第二声道编码参数；

音频增强单元包括：

第一卷积子单元，用于根据第一声道编码参数对音频帧数据进行卷积处理，得到第一增强音频帧数据；

第二卷积子单元，用于根据第二声道编码参数对音频帧数据进行卷积处理，得到第二增强音频帧数据；

第一增强音频确定子单元，用于将第一增强音频帧数据与第二增强音频帧数据组成的音频帧数据，确定为增强音频帧数据。

音频增强单元包括：

频域转换子单元，用于将音频帧数据进行频域转换，得到频域音频帧数据；

频域转换子单元，还用于将第一声道编码参数与第二声道编码参数分别进行频域转换，得到第一声道频域编码参数以及第二声道频域编码参数；

第一运算子单元，用于将第一声道频域编码参数与频域音频帧数据进行相乘处理，得到第一增强频域音频帧数据；

第二运算子单元，用于将第二声道频域编码参数与频域音频帧数据进行相乘处理，得到第二增强频域音频帧数据；

第二增强音频确定子单元，用于根据第一增强频域音频帧数据与第二增强频域音频帧数据，确定增强音频帧数据。

其中，第二增强音频确定子单元，还用于将第一增强频域音频帧数据进行时域转换，得到第一增强音频帧数据；

第二增强音频确定子单元，还用于将第二增强频域音频帧数据进行时域转换，得到第二增强音频帧数据；

第二增强音频确定子单元，还用于将第一增强音频帧数据与第二增强音频帧数据所组成的音频帧数据，确定为增强音频帧数据。

其中，装置还包括：

存储模块，用于将视频帧数据与增强音频帧数据关联存储至缓存服务器；

音频获取模块，用于响应针对目标视频的视频播放操作，从缓存服务器中获取视频帧数据与增强音频帧数据；

数据输出模块，用于输出视频帧数据和增强音频帧数据。

其中，数据输出模块包括：

视频输出单元，用于输出视频帧数据；

音频输出单元，用于将第一增强音频帧数据通过用户终端的第一声道输出通道进行输出；

音频输出单元，还用于将第二增强音频帧数据通过用户终端的第二声道输出通道进行输出。

其中，位置识别模块包括：

类别输出单元，用于将视频帧数据输入至对象识别模型，通过对象识别模型输出目标视频中目标对象的目标对象类别，以及目标对象的位置属性信息；

则装置还包括：

发声类别确定模块，用于将音频帧数据输入至音频识别模型，通过音频识别模型确定音频帧数据所属的发声对象类别；

类别匹配模块，用于将目标对象类别与发声对象类别进行匹配，得到匹配结果；

步骤执行模块，用于在匹配结果为匹配成功时，执行获取与位置属性信息相关联的声道编码参数，根据声道编码参数对音频帧数据进行方位增强处理，得到增强音频帧数据的步骤。

本申请实施例一方面提供了一种计算机设备，包括：处理器和存储器；

存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行本申请实施例中的方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行本申请实施例中的方法。

本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中一方面提供的方法。

在本申请实施例中，获取到目标视频的视频帧数据与音频帧数据后，可以识别出目标视频中目标对象在视频帧数据中的位置属性信息，随后，就可以通过与该位置属性信息相关联的声道编码参数对目标对象的音频帧数据进行方位增强处理，得到增强音频帧数据。应当理解，本申请中对音频帧数据进行方位增强处理的声道编码参数，均与位置属性信息相关联，不同的位置属性信息关联的声道编码参数也不同。也就是说，本申请可以通过目标对象的位置属性信息，来提供不同的声道编码参数，根据不同的声道编码参数可以实现对音频帧数据的动态优化，可以使得音频具有随位置变化的空间移动感，提高了音频优化效果。则当用户在播放该视频帧数据时，所听到的目标对象的声音是该优化后的具有空间移动感的增强音频帧数据，可以为用户带来良好的视频观感。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种网络架构的结构示意图；

图2a是本申请实施例提供的一种获取音频帧数据与视频帧数据的示意图；

图2b是本申请实施例提供的一种场景示意图；

图3是本申请实施例提供的一种数据处理方法的流程示意图；

图4a是本申请实施例提供的一种唇动检测组件的结构示意图；

图4b是本申请实施例提供的一种确定目标对象的位置坐标的示意图；

图4c是本申请实施例提供的一种确定目标对象的位置坐标的示意图；

图4d是本申请实施例提供的一种确定位置属性信息的示意图；

图4e是本申请实施例提供的一种输出增强音频帧数据的场景示意图；

图5是本申请实施例提供的一种系统架构图；

图6是本申请实施例提供的一种场景示意图；

图7a与图7b是本申请实施例提供的一种实验数据对比图；

图8是本申请实施例提供的一种数据处理装置的结构示意图；

图9是本申请实施例提供的一种数据处理装置的结构示意图；

图10是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例提供的方案属于人工智能领域下属的计算机视觉技术(ComputerVision,CV)和机器学习((Machine Learning,ML)。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

请参见图1，图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示，该网络架构可以包括业务服务器1000和用户终端集群，用户终端集群可以包括一个或者多个用户终端，这里将不对用户终端的数量进行限制。如图1所示，多个用户终端可以包括用户终端100a、用户终端100b、用户终端100c、…、用户终端100n；如图1所示，用户终端100a、用户终端100b、用户终端100c、…、用户终端100n可以分别与业务服务器1000进行网络连接，以便于每个用户终端可以通过该网络连接与业务服务器1000之间进行数据交互。

可以理解的是，如图1所示的每个用户终端均可以安装有目标应用，当该目标应用运行于各用户终端中时，可以分别与图1所示的业务服务器1000之间进行数据交互，使得业务服务器1000可以接收来自于每个用户终端的业务数据。其中，该目标应用可以包括具有显示文字、图像、音频以及视频等数据信息功能的应用。如，应用可以为视频播放类应用，该视频播放类应用可以用于用户观看视频。本申请中的业务服务器1000可以从这些应用收集到业务数据，如，该业务数据可以为用户观看的目标视频，随后，业务服务器可以对这些业务数据(目标视频)中的音频数据进行方位增强处理(优化处理)，得到增强音频数据。进一步地，业务服务器1000可以将该增强音频数据发送至用户终端，则用户通过该用户终端播放观看该目标视频时，所听到的音频具有方位感与空间感，用户更能融入到该目标视频的场景中。本申请实施例可以在多个用户终端中选择一个用户终端作为目标用户终端，该用户终端可以包括：智能手机、平板电脑、笔记本电脑、桌上型电脑、智能电视、智能音箱、台式计算机、智能手表等携带多媒体数据处理功能(例如，视频数据播放功能、音乐数据播放功能)的智能终端，但并不局限于此。例如，本申请实施例可以将图1所示的用户终端100a作为该目标用户终端，该目标用户终端中可以集成有上述目标应用，此时，该目标用户终端可以通过该目标应用与业务服务器1000之间进行数据交互。

如，用户在使用用户终端中的目标应用(如视频播放类应用)时，业务服务器1000通过该用户终端中的目标应用，检测并收集到该用户播放的视频为视频A，业务服务器1000可以获取到该视频A中发声对象(目标对象)的位置属性信息，并根据该位置属性信息获取到对应的声道编码参数，业务服务器1000可以根据该声道编码参数对该视频A的音频数据进行方位增强处理，从而得到增强音频，并将该增强音频通过该用户终端的声道输出通道输出，从而用户在观看该视频A时，所听到的音频为该增强音频，可以使得用户在听觉上具有空间感与方位感，从而可以增加用户的场景融入感。

可选的，可以理解的是，网络架构中可以包括多个业务服务器，一个用户终端可以与一个业务服务器相连接，每个业务服务器可以检测并收集到与之相连接的用户终端中的业务数据(如，用户播放的目标视频)，并对这些业务数据(目标视频)中的音频数据进行方位增强处理(优化处理)，得到增强音频数据。

可选的，可以理解的是，当用户通过用户终端播放目标视频时，用户终端可以获取到该目标视频的视频帧数据与音频帧数据，用户终端可以将该视频帧数据与音频帧数据发送至业务服务器1000，业务服务器1000可以对该音频帧数据进行方位增强处理，得到增强音频帧数据，并将该视频帧数据与该增强音频帧数据进行关联存储；当用户通过该用户终端再播放该目标视频时，该用户终端可以从业务服务器1000中获取到该关联的视频帧数据与增强音频帧数据，并将该视频帧数据与增强音频帧数据进行输出，用户可以通过用户终端观看到该视频帧数据，听到该增强音频帧数据。

可以理解的是，本申请实施例提供的方法可以由计算机设备执行，计算机设备包括但不限于用户终端或业务服务器。其中，业务服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

其中，用户终端以及业务服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

为便于理解，请参见图2a，图2a是本申请实施例提供的一种获取音频帧数据与视频帧数据的示意图。其中，如图2a所示的用户终端E可以为在上述图1所对应实施例的用户终端集群中所选取的任意一个用户终端，比如，该用户终端可以为上述用户终端100b。

如图2a所示，用户E可以为目标用户，用户E在用户终端E的视频播放类应用中，选择了视频EP4以进行观看。用户终端E将用户E所选择的视频EP4作为目标视频，并将该目标视频EP4输入至视频解封装组件中，通过该视频解封装组件，可以对该目标视频进行解封装，从而可以得到纯视频流数据以及纯音频流数据；随后，在该视频解封装组件中，可以对该纯视频流数据进行解码，得到视频帧数据；也可以对该纯音频流数据进行解码，得到音频帧数据。

为便于理解，请一并参见图2b，图2b是本申请实施例提供的一种场景示意图。其中，如图2b所示的用户终端E可以为在上述图1所对应实施例的用户终端集群中所选取的任意一个用户终端，比如，该用户终端可以为上述用户终端100b。

如图2b所示，用户终端E可以将上述图2a所对应实施例中，通过视频解封装组件所得到的目标视频EP4的视频帧数据输入至对象识别模型中，通过该对象识别模型可以识别出目标视频EP4中的发声对象(即目标对象)，如图2b所示，目标视频2b中，发声对象为演员B，则可以将该演员B作为目标对象，则可以看出，该目标视频EP4对应的音频帧数据包含了该目标对象B的音频。随后，对象识别模型可以识别出目标对象在目标视频中的位置属性信息；随后，用户终端E可以获取到与该位置属性信息相关联的声道编码参数，根据该声道编码参数，可以对该目标视频EP4的音频帧数据进行方位增强处理，得到增强音频帧数据。随后，用户终端E可以输出该目标视频EP4的视频帧数据以及该增强音频帧数据，那么用户E可以通过该用户终端E观看到该目标视频EP4，且可以听到该增强音频帧数据。

进一步地，请参见图3，图3是本申请实施例提供的一种数据处理方法的流程示意图。该方法可以由用户终端(例如，上述图1、图2a以及图2b所示的用户终端)或业务服务器(如，上述图1所示的业务服务器1000)执行，也可以由用户终端和业务服务器(如上述图1所对应实施例中的业务服务器1000)共同执行。为便于理解，本实施例以该方法由上述用户终端执行为例进行说明。其中，该数据处理方法至少可以包括以下步骤S101-步骤S103：

步骤S101，获取目标视频的视频帧数据以及音频帧数据。

本申请中，因为目标视频一般为具有视频封装格式(如，MP4格式、ts格式以及mkv格式等)的视频，需要对目标视频进行解封装，来得到视频流数据与音频流数据。对于目标视频的解封装，可以将目标视频输入至视频解封装组件中，通过该视频解封装组件可以对该目标视频进行解封装，从而可以得到视频流数据以及音频流数据；随后，可以在该视频解封装组件中，对该视频流数据和该音频流数据分别进行解码，从而可以得到视频流数据对应的音频帧数据，以及该音频流数据对应的音频帧数据。其中，这里的视频解封装组件可以为ffmpeg工具，也可以为其他第三方具有视频解封装能力的软件工具，这里将不再对视频解封装组件进行一一举例。

步骤S102，根据视频帧数据，确定目标视频中目标对象的位置属性信息；目标对象与音频帧数据相关联。

本申请中，这里的视频帧数据可以包括M个视频帧，M为大于1的整数；这里的目标对象可以是指目标视频中所包含的对象，如，该对象可以是指人物或动物，也可以是指飞机、直升机、车辆等物体。根据视频帧数据确定目标对象的位置属性信息的具体方法可以为，将视频帧数据输入至对象识别模型，通过该对象识别模型可以识别出目标视频中目标对象的位置属性信息。

其中，这里的对象识别模型中可以包括唇动检测组件、运动物体识别组件。其中，该唇动检测组件中可以包括唇动检测网络，通过该唇动检测网络，可以识别目标视频中，处于静止状态的目标对象的位置坐标信息。具体方法可以为，将该视频帧数据输入至该对象识别模型中，在该对象识别模型中，可以通过唇动检测组件获取到N个连续视频帧数据；其中，这里的N个连续视频帧数据是指具有连续时间戳的视频帧数据；其中，每个连续视频帧数据均包含该目标对象；其中，N为小于或等于M的正整数。随后，在该N个连续视频帧数据中，唇动检测组件可以识别到该目标对象的发声部位(如，唇部)发生变化的视频帧数据，并将这些视频帧数据作为变化视频帧数据；随后，唇动检测组件可以确定该目标对象在这些变化视频帧数据中，每一个变化视频帧数据中的位置坐标信息。

为便于理解，请一并参见图4a，图4a是本申请实施例提供的一种唇动检测组件的结构示意图。如图4a所示，三维卷积器conv3d与Resnet 18(残差网络)可以组成唇动检测网络，其中，Resnet 18中带有17个卷积层与1个全连接层。可以输入大量的样本唇动视频至三维卷积器conv3d与Resnet 18网络中对唇动检测网络进行训练，从而可以得到唇动检测网络的特征数据与模型lip embeddings。随后，当目标视频输入至该模型lip embeddings时，该模型可以识别出该目标视频中包含目标对象的嘴唇发生跳动的视频帧，并根据这些嘴唇发生变化的视频帧分别对应的时间戳，来确定出该目标对象的嘴唇发生跳动的起始时间与结束时间；且该模型可以确定出目标对象在每个视频帧图像中的位置坐标信息。需要说明的是，因为这里的目标对象在目标视频中是为静止状态的，位置未发生移动，所以目标对象在每个视频帧中的位置坐标可以基本保持一致。

进一步地，为便于理解，请一并参见图4b，图4b是本申请实施例提供的一种确定目标对象的位置坐标的示意图。如图4b所示，视频帧a、视频帧b、视频帧c、视频帧d、视频帧e以及视频帧f为目标视频A的视频帧数据，其中，视频帧a、视频帧b、视频帧c、视频帧d、视频帧e以及视频帧f为时间连续的视频帧，也就是说，视频帧a的时间戳小于视频帧b，视频帧b的时间戳小于视频帧c，视频帧c的时间戳小于视频帧d，视频帧d的时间戳小于视频帧e，视频帧e的时间戳小于视频帧f。将该包括视频帧a、视频帧b、视频帧c、视频帧d、视频帧e以及视频帧f的视频帧数据输入至对象识别模型，通过该对象识别模型中的唇动检测组件，可以确定出视频帧b、视频帧c、视频帧d、视频帧e以及视频帧f这些连续视频帧中均包含同一个目标对象，则唇动检测组件可以舍弃视频帧a，提取出这些包含同一个目标对象的连续视频帧；

随后，在唇动检测组件中，可以识别出在这些均包含同一个目标对象的连续视频帧中，唇部发生变化的视频帧，作为变化视频帧。如图4b所示，在这些连续视频帧中，视频帧b中的唇部为闭合状态，而视频帧c中的唇部为微张状态，则可以确定从视频帧b至视频帧c的唇部发生了变化，则可以将视频帧b与视频帧c均确定为变化视频帧；同理，从视频帧c至视频帧d的唇部也发生了变化(从微张状态变为大笑状态)，则可以将视频帧d确定为变化视频帧；同理，从视频帧d至视频帧e的唇部也发生了变化(从大笑状态变为抿嘴微笑状态)，则可以将视频帧e也确定为变化视频帧；如图4b所示，因为从视频帧e至视频帧f的唇部未发生变化(均为抿嘴微笑状态)，则视频帧f为非变化视频帧。

进一步地，可以在确定出该目标对象在每个变化视频帧(包括视频帧b、视频帧c、视频帧d以及视频帧d)中的位置坐标。其中，对于确定目标对象在变化视频帧中的位置坐标的具体方式，可以为，以视频帧b为例，可以确定出视频帧b的位置中心坐标，随后，可以将该视频帧b的位置中心坐标作为原点坐标，以该原点坐标来建立坐标系，并确定出该目标对象在该坐标系中的位置坐标，作为该目标对象在该视频帧b中的位置坐标。对于确定目标对象在变化视频帧中的位置坐标的具体方式，还可以采用其他确定方式，本申请不做限制。

其中，通过对象识别模型中的运动物体识别组件，可以识别目标视频中，处于运动状态的目标对象的位置坐标信息。具体方法可以为，将该视频帧数据输入至对象识别模型中，通过该对象识别模型中的运动物体识别组件，可以识别该视频帧数据中的背景图像；随后，可以获取到该背景图像的背景像素值，以及获取到该视频帧数据对应的视频帧像素值；随后，可以确定该背景像素值与该视频帧像素值之间的差异像素值，并将该差异像素值所在的区域，确定为该目标对象在该视频帧数据中的位置坐标。

为便于理解，请一并参见图4c，图4c是本申请实施例提供的一种确定目标对象的位置坐标的示意图。如图4c所示，视频帧B、视频帧C以及视频帧D为目标视频S的视频帧数据，其中，视频帧B、视频帧C以及视频帧D为时间连续的视频帧。也就是说，视频帧B的时间戳小于视频帧C的时间戳，视频帧C的时间戳小于视频帧D的时间戳。可以看出，视频帧B、视频帧C以及视频帧D中均包含有同一个目标对象(车辆M)，且该目标对象在该目标视频S中为运动状态(目标对象在视频帧B、视频帧C以及视频帧D中的位置发生变化)。如图4c所示，通过该对象识别模型中的运动物体检测组件，可以确定出每个视频帧(包括视频帧B、视频帧C以及视频帧D)中的背景图像；随后，该运动物体检测组件可以确定出该背景图像的像素值，以及每个视频帧的像素值；可以将背景图像的像素值与视频帧的像素值进行差分比较，即，可以将背景图像的像素值与视频帧的像素值进行匹配，可以得到差异像素值，该差异像素值可以理解为该车辆M所在区域对应的像素值，则由此可以得到车辆M在每个视频帧中的区域。如图4c所示，通过将每个视频帧(包括视频帧B、视频帧C以及视频帧D)的像素值与背景图像的像素值进行比较后，可以得到车辆M在视频帧B中的区域为区域B，车辆M在视频帧C中的区域为区域Q，车辆M在视频帧D中的区域为区域R。随后，可以将区域B在视频帧B中的位置，确定为该车辆M在视频帧B中的位置坐标；同理，可以将区域Q在视频帧C中的位置，确定为车辆M在视频帧C中的位置坐标；可以将区域R在视频帧C中的位置，确定为车辆M在视频帧D中的位置坐标。

进一步地，根据目标对象的位置坐标，可以确定目标对象在目标视频中的位置属性信息，具体方法可以为，获取视频虚拟镜头的中心位置信息；根据该目标对象的位置坐标，可以确定该目标对象与该中心位置信息之间的景深距离；可以理解的是，也可以确定该目标对象与该视频虚拟镜头之间的位置偏移角度；随后，可以将该景深距离与该位置偏移角度确定为该目标对象的位置属性信息。其中，这里的视频虚拟镜头可以理解为模拟拍摄该目标对象的虚拟镜头，通过视频虚拟镜头拍摄目标对象，从而得到目标视频，可以理解的是，该视频虚拟镜头的位置是固定的，且位于目标视频中心的正前方。为便于理解，请一并参见图4d，图4d是本申请实施例提供的一种确定位置属性信息的示意图。以上述图4b所对应实施例中，目标对象在视频帧b中的位置坐标为例，如图4d所示，通过目标对象在视频帧b中的位置坐标，可以确定出目标对象在目标视频A中的位置，根据该目标对象在目标视频A中的位置，可以得到目标对象到视频虚拟镜头的中心位置(位置O)的景深距离；也可以得到目标对象与中心位置之间的方位角、仰角等位置偏移角度；随后，可以将该景深距离、方位角、仰角等信息，确定为该目标对象的位置属性信息。

步骤S103，获取与位置属性信息相关联的声道编码参数，根据声道编码参数对音频帧数据进行方位增强处理，得到增强音频帧数据。

本申请中，每一个位置属性信息(包括景深距离、方位角以及仰角)均对应有一组声道编码参数，每组声道编码参数中均可以包含第一声道编码参数与第二声道编码参数；其中，该第一声道编码参数与第二声道编码参数可以为左右耳声道编码参数，该第一声道编码参数可以为左耳声道编码参数，则该第二声道编码参数可以为右耳声道编码参数；该第一声道编码参数也可以为右耳编码参数，则该第二声道编码参数可以为左耳声道编码参数。位置属性信息(包含景深距离、方位角以及仰角)与声道编码参数之间的映射关系(对应关系)，可以存储在参数映射表中，则可以获取到参数映射表，在参数映射表中，可以获取到与该目标对象的位置属性信息具有映射关系的声道编码参数组(包含第一声道编码参数与第二声道编码参数)；根据该第一声道编码参数可以对该目标视频的音频帧数据进行卷积处理，得到第二增强音频帧数据；根据该第二声道编码参数可以对该目标视频的音频帧数据进行卷积处理，得到第二增强音频帧数据；则可以将该第一增强音频帧数据与该第二增强音频帧数据所组成的音频帧数据，确定为该目标视频的增强音频帧数据。

其中，为便于理解，以第一声道编码参数为左耳声道编码参数、第二声道编码参数为右耳声道编码参数为例，位置属性信息与声道编码参数的参数映射表可以如表1所示，其中，表1中的hL(1)可以为左耳声道编码参数1，hR(1)可以为右耳声道编码参数1，hL(1)与hR(1)为声道编码参数组1，与位置属性信息1之间具有映射关系；同理，hL(2)与hR(2)为声道编码参数组2，与位置属性信息2之间具有映射关系；hL(3)与hR(3)为声道编码参数组3，与位置属性信息3之间具有映射关系；hL(4)与hR(4)为声道编码参数组4，与位置属性信息4之间具有映射关系。通过确定目标视频的位置属性信息(如，位置属性信息为位置属性信息1)，通过该参数映射表1，可以获取到与位置属性信息1具有映射关系的声道编码参数组1，即，hL(1)与hR(1)。

表1

	第一声道编码参数	第二声道编码参数
			位置属性信息1	hL(1)	hR(1)
位置属性信息2	hL(2)	hR(2)
			位置属性信息3	hL(3)	hR(3)
位置属性信息4	hL(4)	hR(4)

其中，根据第一声道编码参数对音频帧数据进行卷积处理，得到第一增强音频帧数据的具体实现方式，可以如公式(1)所示：

pL(t)＝hL(t)*s(t) 公式(1)

其中，hL(t)可以用于表征左耳声道编码参数(如，第一声道编码参数)；可以理解的是，通过确定出目标对象在t时刻的视频帧中的位置坐标，进而可以确定出目标对象的位置属性信息，从而可以获取到对应的左耳声道编码参数hL(t)；s(t)可以用于表征t时刻的视频帧所对应的音频帧(声源信号)；pL(t)可以用于表征将左耳声道编码参数hL(t)与音频帧s(t)进行卷积处理后，得到的第一增强音频帧数据。

同理，根据第二声道编码参数对音频帧数据进行卷积处理，得到第二增强音频帧数据的具体实现方式，可以如公式(2)所示：

pR(t)＝hR(t)*s(t) 公式(2)

其中，hR(t)可以用于表征右耳声道编码参数(如，第二声道编码参数)；可以理解的是，通过确定出目标对象在t时刻的视频帧中的位置坐标，进而可以确定出目标对象的位置属性信息，从而可以获取到对应的右耳声道编码参数hR(t)；s(t)可以用于表征t时刻的视频帧所对应的音频帧(声源信号)；pR(t)可以用于表征将右耳声道编码参数hR(t)与音频帧s(t)进行卷积处理后，得到的第二增强音频帧数据。

应当理解，对于同一个音频帧数据，可以分别通过左声道编码参数hL(t)与右声道编码参数hR(t)进行卷积。左右两个声道编码参数对音频帧数据的处理效果不同。

可选的，可以理解的是，根据第一声道编码参数与第二声道编码参数对音频帧数据进行方位增强处理，得到增强音频帧数据的具体方式，还可以为，先将音频帧数据映射到频域，然后进行乘法运算，得到乘法运算结果后，再将该乘法运算结果映射回时域。即，先将音频帧数据进行频域转换，得到频域音频帧数据；随后，可以将该第一声道编码参数与该第二声道编码参数分别进行频域转换，得到第一声道频域编码参数以及第二声道频域编码参数；随后，可以将该第一声道频域编码参数与该频域音频帧数据进行相乘处理，得到第一增强频域音频帧数据；可以将该第二声道频域编码参数与该频域音频帧数据进行相乘处理，得到第二增强频域音频帧数据；随后，可以将该第一增强频域音频帧数据进行时域转换，得到第一增强音频帧数据，将该第二增强频域音频帧数据进行时域转换，得到第二增强音频帧数据；可以将该第一增强音频帧数据与第二增强音频帧数据组成的音频帧数据，确定为该增强音频帧数据。

其中，通过频域转换得到第一增强音频帧数据的具体实现方式，可以如公式(3)所示：

pL(t)＝ifft(HL(f).S(f)) 公式(3)

其中，HL(f)可以用于表征将左耳声道编码参数hL(t)进行频域转换后得到的左耳频域编码参数；S(f)可以用于表征将音频帧s(t)进行频域转换后得到的频域音频帧；HL(f).S(f)可以用于表征将左耳频域编码参数HL(f)与频域音频帧S(f)进行相乘处理；ifft可以用于表征时域转换，pL(t)可以用于表征将左耳声道编码参数hL(t)与音频帧s(t)进行卷积处理后，得到的第一增强音频帧数据。

同理，通过频域转换得到第二增强音频帧数据的具体实现方式，可以如公式(4)所示：

pR(t)＝ifft(HR(f).S(f)) 公式(4)

其中，HR(f)可以用于表征将右耳声道编码参数hR(t)进行频域转换后得到的右耳频域编码参数；S(f)可以用于表征将音频帧s(t)进行频域转换后得到的频域音频帧；HR(f).S(f)可以用于表征将右耳频域编码参数HR(f)与频域音频帧S(f)进行相乘处理；ifft可以用于表征时域转换，pR(t)可以用于表征将右耳声道编码参数hR(t)与音频帧s(t)进行卷积处理后，得到的第二增强音频帧数据。

可选的，可以理解的是，用户终端可以将该视频帧数据与该增强音频帧数据(包括第一增强音频帧数据与第二增强音频帧数据)关联存储至缓存服务器中；随后，若目标用户点击该目标视频以进行播放，则用户终端可以响应目标用户针对该目标视频的视频播放操作，从该缓存服务器中获取视频帧数据与该增强音频帧数据；随后，用户终端可以输出该视频帧数据与该增强音频帧数据。其中，对于增强音频帧数据的输出，第一增强音频帧数据可以通过该用户终端的第一声道输出通道进行输出；第二增强音频帧数据可以通过该用户终端的第二声道输出通道进行输出。可以理解的是，第一增强音频帧数据是通过第一声道编码参数(左耳声道编码参数)进行方位增强处理所得到的，则该第一增强音频帧数据可以通过左耳声道编码参数所进行输出；第二增强音频帧数据是根据第二声道编码参数(右耳声道编码参数)进行方位增强处理所得到的，则该第二增强音频帧数据可以通过右耳声道编码参数进行输出。

为便于理解，请参见图4e，图4e是本申请实施例提供的一种输出增强音频帧数据的场景示意图。如图4e所示，目标视频EP4的视频内容为一段相声表演，演员B与演员C的位置基本保持不变，可以认为演员B与演员C为静止状态；在目标视频EP4中，仅有演员B在说话，演员B位于目标视频EP4的右边位置，位于目标视频EP4的左边位置的演员C处于静默状态。通过该演员B的位置信息，可以获取到声道编码参数组(包括左声道编码参数与右声道编码参数)，通过该左声道编码参数可以对该演员B的音频帧数据进行方位增强处理，得到左声道增强音频帧数据；通过该右声道编码参数可以对该演员B的音频帧数据进行方位增强处理，得到右声道增强音频帧数据。则在输出演员B的增强音频帧数据时，可以将左声道增强音频帧数据通过左声道输出通道进行输出，将右声道增强音频帧数据通过右声道输出通道进行输出；这样，用户E(目标用户)在观看目标视频EP4时，用户E的左耳所听到的音频为左声道输出通道所输出的左声道增强音频帧数据，用户E的右耳听到的音频为右声道输出通道所输出的右声道增强音频帧数据。

应当理解，因为演员B位于目标视频EP4的右边位置，则通过左声道编码参数与右声道编码参数对演员B的音频帧数据进行方位增强后，左声道增强音频帧数据与右声道增强音频帧数据具有明显的区分度(如，右声道增强音频帧数据的声音比左声道增强音频帧数据的声音大)，当用户E观看目标视频EP4时，可以明确地感受到，演员B的声音是从右耳所传来的。从而可以提高音频的方位感与空间感，提高用户的观影融入感。

在本申请实施例中，获取到目标视频的视频帧数据与音频帧数据后，可以识别出目标视频中目标对象在视频帧数据中的位置属性信息，随后，就可以通过与该位置属性信息相关联的左声道编码参数与右声道编码参数，通过该左声道编码参数与右声道编码参数可以对目标对象的音频帧数据进行方位增强处理，得到左声道增强音频帧数据与右声道增强音频帧数据。应当理解，左声道编码参数与右声道编码参数，均与位置属性信息相关联，不同的位置属性信息关联的左声道编码参数与右声道编码参数也不同。也就是说，本申请可以通过目标对象的位置属性信息，来提供不同的声道编码参数，根据不同的声道编码参数可以实现对音频帧数据的动态优化，可以使得音频具有随位置变化的空间移动感，提高了音频优化效果。且通过左声道编码参数所得到的左声道增强音频帧数据可以通过左声道输出通道进行输出，通过右声道编码参数所得到的右声道增强音频帧数据可以通过右声道输出通道进行输出，该左声道增强音频数据与右声道增强音频数据具有明显的区分度，则当用户在播放该视频帧数据时，从左耳与右耳传来的声音也具有区分度，可以使得用户明确地知道当前的声音是从左边还是右边传来，从而可以提高音频的方位感与空间感，提高用户的观影融入感。

进一步地，请参见图5，图5是本申请实施例提供的一种系统架构图。如图5所示，该架构可以包括数据获取模块，该数据获取模块可以用于获取目标视频的视频帧数据与音频帧数据。其中，对于获取目标视频的视频帧数据与音频帧数据的具体实现方式，可以如上述图3所对应实施例中步骤S101中的描述，这里将不再进行赘述。如图5所示，该架构可以包括对象识别模型与音频识别模型，将该视频帧数据输入至对象识别模型，通过该对象识别模型可以识别该目标视频中目标对象的位置属性信息，还可以识别目标对象的目标对象类别；将该音频帧数据输入至音频识别模型中，通过该音频识别模型可以识别该音频帧数据所属的发声对象类别；如图5所示，该架构还可以包括类别校验模块，该类别校验模块可以用于校验由对象识别模型识别出的目标对象类别中，是否存在与发声对象类别相同的目标对象类别，也就是说，在类别校验模块中，可以对对象识别模型输出的目标对象类别与音频识别模型输出的发声对象类别进行匹配，得到匹配结果；若匹配结果为匹配成功时(即存在与发声对象类别相同的目标对象类别时)，在方位增强处理模块中，可以获取到与匹配成功的目标对象(即与发声对象类别相同的目标对象类别所对应的目标对象)的位置属性信息相关联的声道编码参数，并可以根据该声道编码参数对该音频帧数据进行方位增强处理，得到增强音频帧数据。

应当理解，该音频识别模型中可以包括声源分类组件、声纹识别组件等，该音频识别模型可以分析音频帧数据是由一个或多个发声体发出，并且可以确定该发声体的发声对象类别；该音频识别模型可以用于对对象识别模型所输出的目标对象类别进行校验。在校验成功时，会对目标视频的音频帧数据进行方位增强处理。

为便于理解，请参见图6，图6是本申请实施例提供的一种场景示意图。如图6所示，视频b、视频帧c、视频帧d、视频帧e以及视频帧f中均包含两个目标对象(一个人物V与一辆车辆M)，可以看出，视频帧b中人物V的嘴唇为闭合状态，视频帧c中人物V的嘴唇为微张状态，视频帧d中人物V的嘴唇为大笑状态，视频帧e中人物V的嘴唇为抿嘴微笑状态，视频帧f中人物V的嘴唇为抿嘴微笑状态；视频帧b至视频帧c的人物V的嘴唇发生了变化(从闭合状态变为微张状态)，视频帧c至视频帧d的人物V的嘴唇发生了变化(从微张状态变为大笑状态)，视频帧d至视频帧e的人物V的嘴唇发生了变化(从大笑状态变为抿嘴微笑状态)；则将视频帧b、视频帧c、视频帧d、视频帧e以及视频帧f输入至对象识别模型后，对象识别模型可以识别出该人物V的嘴唇发生了变化，则对象识别模型可以将该人物V确定为发声对象，并确定出人物V的对象类别为“女生”；

同理，如图6所示，车辆M在视频帧b中的位置与在视频帧c中的位置不同，车辆M在视频帧c中的位置与在视频帧d中的位置不同，车辆M在视频帧d中的位置与在视频帧e中的位置不同，车辆M在视频帧e中的位置与在视频帧f中的位置不同，可以看出，该车辆M为运动状态；则将该视频帧b、视频帧c、视频帧d、视频帧e以及视频帧f输入至对象识别模型后，对象识别模型可以将该车辆M确定为发声对象，并识别出该车辆M的对象类别为“汽车”。

进一步地，可以理解的是，视频b、视频帧c、视频帧d、视频帧e以及视频帧f可以是通过视频解封装工具对目标视频H进行解封装后得到的视频帧数据，通过该视频解封装工具对目标视频H进行解封装后，也可以得到该目标视频H对应的音频帧数据Y。将该音频帧数据Y输入至音频识别模型，通过该音频识别模型，确定出该音频帧数据由一个发声体发出，该发声体为“汽车”，则“汽车”即为该音频识别模型所识别出的发声对象类别。

进一步地，可以将该对象识别模型输出的目标对象类别(包括对象类别“女生”与对象类别“汽车”)分别与该发声对象类别进行匹配。因为目标对象类别“女生”与发声对象类别“汽车”分别属于不同的类别，所以匹配不成功，则可以说明，虽然该人物V的嘴唇发生了变化，但人物V并未发出声音；因为目标对象类别“汽车”与发生对象类别“汽车”属于相同类别，则匹配成功，可以确定该音频帧数据Y是由车辆M所发出的。随后，可以获取到车辆M在目标视频H中的位置属性信息，并根据该车辆M的位置属性信息，获取到对应的声道编码参数，根据该声道编码参数对该音频帧数据Y进行方位增强处理。其中，对于根据车辆M的位置属性信息对应的声道编码参数，对该音频帧数据Y进行方位增强处理的具体实现方式，可以参见上述图3所对应实施例中步骤S101-步骤S103的描述，这里将不再进行赘述。

可以理解的是，因为人物V在目标视频H中的位置未发生变化(人物V在视频帧b、视频帧c、视频帧d、视频帧e以及视频帧f中的位置保持不变)，可以将人物V的状态确定为静止状态，则对于对象识别模型识别出人物V的对象类别的具体方法，可以通过该对象识别模型中的唇动检测组件来进行识别；同理，因为车辆M在目标视频H中的状态为运动状态，则对于对象识别模型识别出车辆M的对象类别的具体方法，可以通过该对象识别模型中的运动物体检测组件来进行识别。

为便于进一步说明本申请带来的有益效果，请参见图7a与图7b，图7a与图7b是本申请实施例提供的一种实验数据对比图。本实验采用的数据为一段相声表演的视频片段，在该视频片段中，仅有右边的演员说话，左边的演员处于静默状态。如图7a所示，图7a为原始声音信号的波形图，图7a所示的上下两个波形分别为左右两个声道的信号波形，可以看出，左右两个声道的信号高度保持一致，无法进行区分；如图7b所示为通过本申请的方位增强处理后的增强声音信号的波形图，图7b所示的上下两个波形分别为左右两个声道的信号波形，可以看出，上下两个波形有明显的区分度，即左右两个声道区分明显，当用户在观看视频时，给到用户的听觉感受为声音是从右边传来的。也就是说，本申请可以提高音频的方位感与空间感，提高用户的观影融入感。

进一步地，请参见图8，图8是本申请实施例提供的一种数据处理装置的结构示意图。如图8所示，该数据处理装置1可以包括：数据获取模块100、位置识别模块200以及音频增强模块300。

数据获取模块100，用于获取目标视频的视频帧数据以及音频帧数据；

位置识别模块200，用于根据视频帧数据，确定目标视频中目标对象的位置属性信息；目标对象与音频帧数据相关联；

音频增强模块300，用于获取与位置属性信息相关联的声道编码参数，根据声道编码参数对音频帧数据进行方位增强处理，得到增强音频帧数据。

其中，数据获取模块100、位置识别模块200以及音频增强模块300的具体实现方式，可以参见上述图3所对应实施例中步骤101-步骤S103的描述，这里将不再进行赘述。

可以理解的是，本申请实施例中的数据处理装置1可执行前文图3所对应实施例中对数据处理方法的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

进一步地，请参见图9，图9是本申请实施例提供的一种数据处理装置的结构示意图。该数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该数据处理装置为一个应用软件；该数据处理装置可以用于执行图3所示的方法。如图9所示，数据处理装置2可以包括：数据获取模块11、位置识别模块12以及音频增强模块13。

其中，数据获取模块11、位置识别模块12以及音频增强模块13的具体实现方式，分别与图8中的数据获取模块100、位置识别模块200以及音频增强模块300一致，这里将不再进行赘述。

请参见图9，数据获取模块11可以包括：视频解封装单元111以及数据解码单元112。

视频解封装单元111，用于获取目标视频，将目标视频输入至视频解封装组件，通过视频解封装组件对目标视频进行解封装，得到视频流数据以及音频流数据；

数据解码单元112，用于在视频解封装组件中，对视频流数据和音频流数据分别进行解码，得到视频帧数据以及音频帧数据。

其中，视频解封装单元111以及数据解码单元112的具体实现方式，可以参见上述图3所对应实施例中步骤S101的描述，这里将不再进行赘述。

其中，目标对象为处于静止状态的对象；

请参见图9，位置识别模块12可以包括：视频帧获取单元121、部位变化识别单元122、第一坐标确定单元123以及位置确定单元124。

视频帧获取单元121，用于将视频帧数据输入至对象识别模型，在对象识别模型中获取N个连续视频帧数据；N个连续视频帧数据是指具有连续时间戳的视频帧数据；每个连续视频帧数据均包含目标对象；N为小于或等于M的正整数，M为视频帧数据的总数量；M为大于1的整数；

部位变化识别单元122，用于在N个连续视频帧数据中，识别目标对象的发声部位发生变化的视频帧数据，将目标对象的发声部位发生变化的视频帧数据作为变化视频帧数据；

第一坐标确定单元123，用于确定目标对象在变化视频帧数据中的位置坐标；

位置确定单元124，用于根据位置坐标确定目标视频中目标对象的位置属性信息。

其中，视频帧获取单元121、部位变化识别单元122、第一坐标确定单元123以及位置确定单元124的具体实现方式，可以参见上述图3所对应实施例中步骤S102中的描述，这里将不再进行赘述。

其中，目标对象为处于运动状态的对象；

请参见图9，位置识别模块12可以包括：背景图像识别单元125、像素值获取单元126、第二坐标确定单元127。

背景图像识别单元125，用于将视频帧数据输入至对象识别模型，通过对象识别模型识别视频帧数据中的背景图像；

像素值获取单元126，用于获取背景图像的背景像素值，获取视频帧数据对应的视频帧像素值；

第二坐标确定单元127，用于确定背景像素值与视频帧像素值之间的差异像素值，将差异像素值所在的区域，确定为目标对象在视频帧数据中的位置坐标；

其中，背景图像识别单元125、像素值获取单元126、第二坐标确定单元127以及位置确定单元124的具体实现方式，可以参见上述图3所对应实施例中步骤S102中的描述，这里将不再进行赘述。

请参见图9，位置确定单元124可以包括：中心位置获取子单元1241、距离确定子单元1242、偏移角度确定子单元1243以及位置确定子单元1244。

中心位置获取子单元1241，用于获取视频虚拟镜头的中心位置信息；视频虚拟镜头为模拟拍摄目标对象的虚拟镜头；

距离确定子单元1242，用于根据位置坐标，确定目标对象与中心位置信息之间的景深距离；

偏移角度确定子单元1243，用于确定目标对象与视频虚拟镜头之间的位置偏移角度；

位置确定子单元1244，用于将景深距离与位置偏移角度确定为目标对象的位置属性信息。

其中，中心位置获取子单元1241、距离确定子单元1242、偏移角度确定子单元1243以及位置确定子单元1244的具体实现方式，可以参见上述图3所对应实施例中步骤S102中的描述，这里将不再进行赘述。

请参见图9，音频增强模块13可以包括：映射表获取单元131、编码参数获取单元132以及音频增强单元133。

映射表获取单元131，用于获取参数映射表；参数映射表包括至少两个参数映射关系；一个参数映射关系包括一个位置属性信息与一个声道编码参数之间的映射关系；一个位置属性信息包括一个景深距离与一个位置偏移角度；

编码参数获取单元132，用于在参数映射表中，获取与目标对象的位置属性信息具有映射关系的声道编码参数；

音频增强单元133，用于根据具有映射关系的声道编码参数对音频帧数据进行方位增强处理，得到增强音频帧数据。

其中，映射表获取单元131、编码参数获取单元132以及音频增强单元133的具体实现方式，可以参见上述图3所对应实施例中步骤S103的描述，这里将不再进行赘述。

请参见图9，音频增强单元133可以包括：第一卷积子单元1331、第二卷积子单元1332以及第一增强音频确定子单元1333。

第一卷积子单元1331，用于根据第一声道编码参数对音频帧数据进行卷积处理，得到第一增强音频帧数据；

第二卷积子单元1332，用于根据第二声道编码参数对音频帧数据进行卷积处理，得到第二增强音频帧数据；

第一增强音频确定子单元1333，用于将第一增强音频帧数据与第二增强音频帧数据组成的音频帧数据，确定为增强音频帧数据。

其中，第一卷积子单元1331、第二卷积子单元1332以及第一增强音频确定子单元1333的具体实现方式，可以参见上述图3所对应实施例中步骤S103中的描述，这里将不再进行赘述。

请参见图9，音频增强单元133可以包括：频域转换子单元1334、第一运算子单元1335、第二运算子单元1336以及第二增强音频确定子单元1337。

频域转换子单元1334，用于将音频帧数据进行频域转换，得到频域音频帧数据；

频域转换子单元1334，还用于将第一声道编码参数与第二声道编码参数分别进行频域转换，得到第一声道频域编码参数以及第二声道频域编码参数；

第一运算子单元1335，用于将第一声道频域编码参数与频域音频帧数据进行相乘处理，得到第一增强频域音频帧数据；

第二运算子单元1336，用于将第二声道频域编码参数与频域音频帧数据进行相乘处理，得到第二增强频域音频帧数据；

第二增强音频确定子单元1337，用于根据第一增强频域音频帧数据与第二增强频域音频帧数据，确定增强音频帧数据。

其中，频域转换子单元1334、第一运算子单元1335、第二运算子单元1336以及第二增强音频确定子单元1337的具体实现方式，可以参见上述图3所对应实施例中步骤S103中的描述，这里将不再进行赘述。

其中，第二增强音频确定子单元1337，还用于将第一增强频域音频帧数据进行时域转换，得到第一增强音频帧数据；

第二增强音频确定子单元1337，还用于将第二增强频域音频帧数据进行时域转换，得到第二增强音频帧数据；

第二增强音频确定子单元1337，还用于将第一增强音频帧数据与第二增强音频帧数据所组成的音频帧数据，确定为增强音频帧数据。

请参见图9，该数据处理装置2还可以包括：存储模块14、音频获取模块15以及数据输出模块16。

存储模块14，用于将视频帧数据与增强音频帧数据关联存储至缓存服务器；

音频获取模块15，用于响应针对目标视频的视频播放操作，从缓存服务器中获取视频帧数据与增强音频帧数据；

数据输出模块16，用于输出视频帧数据和增强音频帧数据。

其中，存储模块14、音频获取模块15以及数据输出模块16的具体实现方式，可以参见上述图3所对应实施例中步骤S103中的描述，这里将不再进行赘述。

请参见图9，数据输出模块16可以包括：视频输出单元161、音频输出单元162以及音频输出单元163。

视频输出单元161，用于输出视频帧数据；

音频输出单元162，用于将第一增强音频帧数据通过用户终端的第一声道输出通道进行输出；

音频输出单元163，还用于将第二增强音频帧数据通过用户终端的第二声道输出通道进行输出。

其中，视频输出单元161、音频输出单元162以及音频输出单元163的具体实现方式，可以参见上述图3所对应实施例中步骤S103中的描述，这里将不再进行赘述。

请参见图9，位置识别模块12可以包括：

类别输出单元128，用于将视频帧数据输入至对象识别模型，通过对象识别模型输出目标视频中目标对象的目标对象类别，以及目标对象的位置属性信息；

则数据处理装置2还可以包括：发声类别确定模块17、类别匹配模块18以及步骤执行模块19。

发声类别确定模块17，用于将音频帧数据输入至音频识别模型，通过音频识别模型确定音频帧数据所属的发声对象类别；

类别匹配模块18，用于将目标对象类别与发声对象类别进行匹配，得到匹配结果；

步骤执行模块19，用于在匹配结果为匹配成功时，执行获取与位置属性信息相关联的声道编码参数，根据声道编码参数对音频帧数据进行方位增强处理，得到增强音频帧数据的步骤。

其中，类别输出单元128、发声类别确定模块17、类别匹配模块18以及步骤执行模块19的具体实现方式，可以参见上述图5所对应实施例中对于匹配对象类别的描述，这里将不再进行赘述。

进一步地，请参见图10，图10是本申请实施例提供的一种计算机设备的结构示意图。如图10所示，计算机设备1000可以为用户终端或业务服务器，其中，该用户终端可以为图2a或图2b所对应实施例中的用户终端，该业务服务器可以为图1所对应实施例中的业务服务器1000。以计算机设备1000为用户终端为例，该计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatilememory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图10所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

获取目标视频的视频帧数据以及音频帧数据；

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3所对应实施例中对该数据处理方法的描述，也可执行前文图8所对应实施例中对该数据处理装置1的描述，还可执行前文图9所对应实施例中对数据处理装置2的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的数据处理的计算机设备1000所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文图3所对应实施例中对上述数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

上述计算机可读存储介质可以是前述任一实施例提供的数据识别装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取目标视频的视频帧数据以及音频帧数据；

根据所述视频帧数据，确定所述目标视频中目标对象的位置属性信息；所述目标对象与所述音频帧数据相关联；

获取与所述位置属性信息相关联的声道编码参数，根据所述声道编码参数对所述音频帧数据进行方位增强处理，得到增强音频帧数据。

2.根据权利要求1所述的方法，其特征在于，所述获取目标视频的视频帧数据以及音频帧数据，包括：

获取目标视频，将所述目标视频输入至视频解封装组件，通过所述视频解封装组件对所述目标视频进行解封装，得到视频流数据以及音频流数据；

在所述视频解封装组件中，对所述视频流数据和所述音频流数据分别进行解码，得到所述视频帧数据以及所述音频帧数据。

3.根据权利要求1所述的方法，其特征在于，所述目标对象为处于静止状态的对象；

所述根据所述视频帧数据，确定所述目标视频中目标对象的位置属性信息，包括：

将所述视频帧数据输入至对象识别模型，在所述对象识别模型中获取N个连续视频帧数据；所述N个连续视频帧数据是指具有连续时间戳的视频帧数据；每个连续视频帧数据均包含所述目标对象；N为小于或等于M的正整数，M为所述视频帧数据的总数量；M为大于1的整数；

在所述N个连续视频帧数据中，识别所述目标对象的发声部位发生变化的视频帧数据，将所述目标对象的发声部位发生变化的视频帧数据作为变化视频帧数据；

确定所述目标对象在所述变化视频帧数据中的位置坐标；

根据所述位置坐标确定所述目标视频中目标对象的位置属性信息。

4.根据权利要求1所述的方法，其特征在于，所述目标对象为处于运动状态的对象；

将所述视频帧数据输入至对象识别模型，通过所述对象识别模型识别所述视频帧数据中的背景图像；

获取所述背景图像的背景像素值，获取所述视频帧数据对应的视频帧像素值；

确定所述背景像素值与所述视频帧像素值之间的差异像素值，将所述差异像素值所在的区域，确定为所述目标对象在所述视频帧数据中的位置坐标；

5.根据权利要求3或权利要求4所述的方法，其特征在于，所述根据所述位置坐标确定所述目标视频中目标对象的位置属性信息，包括：

获取视频虚拟镜头的中心位置信息；所述视频虚拟镜头为模拟拍摄所述目标对象的虚拟镜头；

根据所述位置坐标，确定所述目标对象与所述中心位置信息之间的景深距离；

确定所述目标对象与所述视频虚拟镜头之间的位置偏移角度；

将所述景深距离与所述位置偏移角度确定为所述目标对象的位置属性信息。

6.根据权利要求5所述的方法，其特征在于，所述获取与所述位置属性信息相关联的声道编码参数，根据所述声道编码参数对所述音频帧数据进行方位增强处理，得到增强音频帧数据，包括：

获取参数映射表；所述参数映射表包括至少两个参数映射关系；一个参数映射关系包括一个位置属性信息与一个声道编码参数之间的映射关系；一个位置属性信息包括一个景深距离与一个位置偏移角度；

在所述参数映射表中，获取与所述目标对象的位置属性信息具有映射关系的声道编码参数；

根据具有映射关系的声道编码参数对所述音频帧数据进行方位增强处理，得到增强音频帧数据。

7.根据权利要求6所述的方法，其特征在于，所述具有映射关系的声道编码参数包含第一声道编码参数以及第二声道编码参数；

所述根据具有映射关系的声道编码参数对所述音频帧数据进行方位增强处理，得到增强音频帧数据，包括：

根据所述第一声道编码参数对所述音频帧数据进行卷积处理，得到第一增强音频帧数据；

根据所述第二声道编码参数对所述音频帧数据进行卷积处理，得到第二增强音频帧数据；

将所述第一增强音频帧数据与所述第二增强音频帧数据组成的音频帧数据，确定为所述增强音频帧数据。

8.根据权利要求6所述的方法，其特征在于，所述具有映射关系的声道编码参数包含第一声道编码参数以及第二声道编码参数；

将所述音频帧数据进行频域转换，得到频域音频帧数据；

将所述第一声道编码参数与所述第二声道编码参数分别进行频域转换，得到第一声道频域编码参数以及第二声道频域编码参数；

将所述第一声道频域编码参数与所述频域音频帧数据进行相乘处理，得到第一增强频域音频帧数据；

将所述第二声道频域编码参数与所述频域音频帧数据进行相乘处理，得到第二增强频域音频帧数据；

根据所述第一增强频域音频帧数据与所述第二增强频域音频帧数据，确定所述增强音频帧数据。

9.根据权利要求8所述的方法，其特征在于，所述根据所述第一增强频域音频帧数据与所述第二增强频域音频帧数据，确定所述增强音频帧数据，包括：

将所述第一增强频域音频帧数据进行时域转换，得到第一增强音频帧数据；

将所述第二增强频域音频帧数据进行时域转换，得到第二增强音频帧数据；

将所述第一增强音频帧数据与所述第二增强音频帧数据所组成的音频帧数据，确定为所述增强音频帧数据。

10.根据权利要求7或9所述的方法，其特征在于，所述方法还包括：

将所述视频帧数据与所述增强音频帧数据关联存储至缓存服务器；

响应针对所述目标视频的视频播放操作，从所述缓存服务器中获取所述视频帧数据与所述增强音频帧数据；

输出所述视频帧数据和所述增强音频帧数据。

11.根据权利要求10所述的方法，其特征在于，所述输出所述视频帧数据和所述增强音频帧数据，包括：

输出所述视频帧数据；

将所述第一增强音频帧数据通过所述用户终端的第一声道输出通道进行输出；

将所述第二增强音频帧数据通过所述用户终端的第二声道输出通道进行输出。

12.根据权利要求1所述的方法，其特征在于，所述根据所述视频帧数据，确定所述目标视频中目标对象的位置属性信息，包括：

将所述视频帧数据输入至对象识别模型，通过所述对象识别模型输出所述目标视频中目标对象的目标对象类别，以及所述目标对象的位置属性信息；

则所述方法还包括：

将所述音频帧数据输入至音频识别模型，通过所述音频识别模型确定所述音频帧数据所属的发声对象类别；

将所述目标对象类别与所述发声对象类别进行匹配，得到匹配结果；

在所述匹配结果为匹配成功时，执行所述获取与所述位置属性信息相关联的声道编码参数，根据所述声道编码参数对所述音频帧数据进行方位增强处理，得到增强音频帧数据的步骤。

13.一种数据处理装置，其特征在于，包括：

位置识别模块，用于根据所述视频帧数据，确定所述目标视频中目标对象的位置属性信息；所述目标对象与所述音频帧数据相关联；

音频增强模块，用于获取与所述位置属性信息相关联的声道编码参数，根据所述声道编码参数对所述音频帧数据进行方位增强处理，得到增强音频帧数据。

14.一种计算机设备，其特征在于，包括：处理器、存储器以及网络接口；

所述处理器与所述存储器、所述网络接口相连，其中，所述网络接口用于提供网络通信功能，所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行权利要求1-12任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行权利要求1-12任一项所述的方法。