CN115734024A

CN115734024A - 音频数据处理方法、装置、设备及存储介质

Info

Publication number: CN115734024A
Application number: CN202111017197.6A
Authority: CN
Inventors: 李伟卫; 张逾
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2023-03-03

Abstract

本申请实施例公开了一种音频数据处理方法、装置、设备及存储介质，涉及人工智能相关的机器学习技术，其中，方法包括：获取目标对象的对象特征信息、属于目标对象的目标视频数据的视频特征信息、以及与目标视频数据关联的至少两个候选音频数据的音频特征信息；分别将至少两个候选音频数据的音频特征信息与目标视频数据的视频特征信息、以及目标对象的对象特征信息进行融合，得到至少两个候选音频数据的音频融合特征信息；采用至少两个目标音频识别模型分别对音频融合特征信息、音频特征信息进行音频识别，得到用于对目标视频数据进行配乐的目标音频数据；向目标对象推荐目标音频数据。通过本申请能够有效提高推荐音频数据的准确度。

Description

音频数据处理方法、装置、设备及存储介质

技术领域

本申请涉及人工智能中的机器学习技术领域，尤其涉及一种音频数据处理方法、装置、设备及存储介质。

背景技术

随着互联网技术的发展，人们可以随时随地进行视频数据(如短视频)的录制与发布，并且还可以观看其他人发布的视频数据。通常用户在发布视频数据时，需要从终端本地选择一个与视频数据的主题相符合的音频数据(如背景音乐)，然后，采用该音频数据对视频数据进行配乐。音频数据可以用于强化视频数据的主题，有利于用户可以更加直观的理解视频数据的主题，可增强视频数据的趣味性以及节奏感。目前通常是通过手动方式来选择与视频数据匹配的音频数据，但是，如果用户不具有音频数据相关的专业知识，难以选择到合适的音频数据，导致选择的音频数据的准确度比较低。

发明内容

本申请实施例所要解决的技术问题在于，提供一种音频数据处理方法、装置、设备及存储介质，能够有效提高推荐音频数据的准确度。

本申请实施例一方面提供一种音频数据处理方法，包括：

获取目标对象的对象特征信息、属于所述目标对象的目标视频数据的视频特征信息、以及与所述目标视频数据关联的至少两个候选音频数据的音频特征信息；

分别将所述至少两个候选音频数据的音频特征信息与所述目标视频数据的视频特征信息、以及所述目标对象的对象特征信息进行融合，得到所述至少两个候选音频数据的音频融合特征信息；

采用至少两个目标音频识别模型分别对所述至少两个候选音频数据的音频融合特征信息、所述至少两个候选音频数据的音频特征信息进行音频识别，得到用于对所述目标视频数据进行配乐的目标音频数据；所述目标音频数据属于所述至少两个候选音频数据；

向所述目标对象推荐所述目标音频数据。

本申请实施例一方面提供一种音频数据处理方法，包括：

获取样本对象的对象特征信息、属于所述样本对象的样本视频数据、用于对所述样本视频数据进行配乐的样本音频数据以及所述样本音频数据的标注音频匹配度；所述标注音频匹配度用于反映所述样本音频数据与所述样本对象、所述样本视频数据之间的匹配度；

对所述样本视频数据进行视频体征提取，得到所述样本视频数据的视频特征信息，对所述样本音频数据进行音频特征提取，得到所述样本音频数据的音频特征信息；

将所述样本音频数据的音频特征信息与所述样本视频数据的视频特征信息、以及所述样本对象的对象特征信息进行融合，得到所述样本音频数据的音频融合特征信息；

根据所述标注音频匹配度、所述样本音频数据的音频特征信息以及所述样本音频数据的音频融合特征信息，分别对至少两个候选音频识别模型进行调整，得到至少两个目标音频识别模型。

本申请实施例一方面提供一种音频数据处理装置，包括：

获取模块，用于获取目标对象的对象特征信息、属于所述目标对象的目标视频数据的视频特征信息、以及与所述目标视频数据关联的至少两个候选音频数据的音频特征信息；

融合模块，用于分别将所述至少两个候选音频数据的音频特征信息与所述目标视频数据的视频特征信息、以及所述目标对象的对象特征信息进行融合，得到所述至少两个候选音频数据的音频融合特征信息；

识别模块，用于采用至少两个目标音频识别模型分别对所述至少两个候选音频数据的音频融合特征信息、所述至少两个候选音频数据的音频特征信息进行音频识别，得到用于对所述目标视频数据进行配乐的目标音频数据；所述目标音频数据属于所述至少两个候选音频数据；

推荐模块，用于向所述目标对象推荐所述目标音频数据。

本申请实施例一方面提供一种音频数据处理装置，包括：

获取模块，用于获取样本对象的对象特征信息、属于所述样本对象的样本视频数据、用于对所述样本视频数据进行配乐的样本音频数据以及所述样本音频数据的标注音频匹配度；所述标注音频匹配度用于反映所述样本音频数据与所述样本对象、所述样本视频数据之间的匹配度；

提取模块，用于对所述样本视频数据进行视频体征提取，得到所述样本视频数据的视频特征信息，对所述样本音频数据进行音频特征提取，得到所述样本音频数据的音频特征信息；

融合模块，用于将所述样本音频数据的音频特征信息与所述样本视频数据的视频特征信息、以及所述样本对象的对象特征信息进行融合，得到所述样本音频数据的音频融合特征信息；

调整模块，用于根据所述标注音频匹配度、所述样本音频数据的音频特征信息以及所述样本音频数据的音频融合特征信息，分别对至少两个候选音频识别模型进行调整，得到至少两个目标音频识别模型。

本申请一方面提供了一种计算机设备，包括：处理器及存储器；

其中，上述存储器用于存储计算机程序，上述处理器用于调用上述计算机程序，以执行如下步骤：

向所述目标对象推荐所述目标音频数据。

本申请实施例一方面提供了一种计算机可读存储介质，上述计算机可读存储介质存储有计算机程序，上述计算机程序包括程序指令，上述程序指令当被处理器执行时，以执行上述方法的步骤。

本申请实施例一方面提供了一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现上述方法的步骤。

本申请中，通过将至少两个候选音频数据的音频特征信息与目标对象的对象特征信息、以及目标视频数据的视频特征信息进行融合，得到至少两个候选音频数据的音频融合特征信息，即通过对多模态的特征信息进行融合，有利于为推荐音频数据提供更多信息量，提高推荐音频数据的准确度。进一步，通过采用至少两个目标音频识别模型分别对至少两个候选音频数据的音频融合特征信息、至少两个候选音频数据的音频特征信息进行识别，得到用于对目标视频数据进行配乐的目标音频数据，向目标对象推荐该目标音频数据；即综合考虑多模态的音频识别模型的音频识别结果，自动向目标对象推荐音频数据，可提高推荐音频数据的效率；同时，充分利用了不同音频识别模型的优势，可有效避免单模型产生偏差，导致推荐音频数据的准确度比较低的问题，可以提高推荐的音频数据更稳健、更准确、更具有可信度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请提供的一种音频数据处理系统的架构示意图；

图2是本申请提供的基于单模态的音频数据推荐的场景示意图；

图3是本申请提供的基于多模态的音频数据推荐的场景示意图；

图4是本申请提供的一种音频数据处理方法的流程意图；

图5是本申请提供的一种音频数据处理方法的流程意图；

图6是本申请提供的一种获取目标对象的对象特征信息的场景示意图；

图7是本申请提供的一种获取候选音频数据的音频特征信息的场景示意图；

图8是本申请提供的一种获取目标视频数据的视频特征信息的场景示意图；

图9是本申请提供的一种候选音频数据的音频融合特征信息的场景示意图；

图10是本申请提供的一种音频数据处理方法的流程意图；

图11是本申请实施例提供的一种音频数据处理装置的结构示意图；

图12是本申请实施例提供的一种音频数据处理装置的结构示意图；

图13是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请主要涉及人工智能中的机器学习技术，所谓的人工智能(ArtificialIntelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。

其中，上述机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

为了便于更清楚理解本申请，首先介绍实现本申请的音频数据处理方法的音频数据处理系统，如图1所示，音频数据处理系统中包括如图1所示，该音频数据处理系统中包括服务器以及终端。

其中，终端可以是指面向用户的设备，终端中可包括用于播放多媒体数据(如音视频数据)的多媒体应用平台(即多媒体应用程序)；此处多媒体应用平台可以是指多媒体网站平台(如论坛、贴吧)、社交应用平台、购物应用平台、内容交互平台(如音视频播放应用平台)等等。服务器可以是指用于提供多媒体后台服务的设备，具体可以用于识别用于对视频数据进行配乐的音频数据，并向用户推荐该音频数据。

其中，服务器可以是独立的一个物理服务器，也可以是至少两个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能车载终端、智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、有屏音箱、智能手表、智能电视等，但并不局限于此。各个终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，同时，终端以及服务器的数量可以为一个或至少两个，本申请在此不做限制。

基于上述音频数据处理系统可实现本申请中音频数据推荐方法，该音频数据推荐方法包括基于单模态的音频数据推荐方法和基于多模态的音频数据推荐方法。如图2所示，基于单模态的音频数据推荐方法是指采用一个音频识别模型对至少两个候选音频数据的音频特征信息、目标视频数据的视频特征信息以及目标对象的对象特征信息进行分析，得到用于对目标视频数据进行配乐的目标音频数据。具体的，如图2所示，基于单模态的音频数据推荐方法包括候选音频识别模型的训练过程，以及采用目标音频识别模型识别出目标音频数据的过程。如图2所示，该候选音频识别模型的训练过程包括如下步骤1-2：

1、服务器获取用于对候选音频识别模型进行训练的训练样本。候选音频识别模型是指用于获取对视频数据进行配乐的待训练模型，也就是说，该候选音频识别模型为音频数据识别准确度比较低的识别模型，该候选音频识别模型可以是指分类器，该分类器可以是指机器学习模型、深度学习模型以及图网络模型等中的一种。机器学习模型包括SVM(Support Vector Machine,支持向量机)、FM(Factorization Machines，因子分解机)、XGBoost(eXtreme Gradient Boosting，极端梯度提升)，深度学习模型包括DNN(DeepNeural Networks，深度神经网络)、W&D(Wide&Deep Learning for Recommender System)等，图网络模型包括DeepWalk(深度游走)、GraphSAGE(图神经网络)、GCN(GraphConvolutional Network，图卷积网络)等。为了提高候选音频识别模型的音频数据识别准确度，首先，服务器可以从终端中获取属于样本对象的对象特征信息、属于样本对象的样本视频数据以及用于对该样本视频数据进行配乐的样本音频数据。该样本对象可以是指在多媒体应用平台中发布过视频数据的用户，样本对象的对象特征信息包括样本对象的年龄、性别、爱好等等。样本视频数据可以历史时间段内该样本对象所发布在多媒体应用平台中的视频数据，该样本视频数据可以是指样本对象所拍摄得到的，或者，该样本视频数据可以是指样本对象对互联网中所下载的视频数据进行剪辑得到的；该样本音频数据是指由样本对象在发布样本视频数据时，对该样本视频数据进行配乐的音频数据(如背景音乐、关于诗词朗诵的语音数据)。如图2中，用户1在多媒体应用平台中发布了视频数据1，该视频数据1的背景音乐为音乐1，……，用户N在多媒体应用平台中发布了视频数据N，该视频数据N的背景音乐为音乐N，可以对该视频数据1～视频数据N，以及音频数据1～音频数据N进行过滤处理，将过滤处理后的视频数据作为样本视频数据，将过滤处理后在音频数据确定为样本音频数据。过滤处理包括版权过滤、优质过滤以及调性过滤，版权过滤是指过滤掉不具有版权的音频数据以及视频数据，优质过滤可以是指过滤掉质量(如清晰度)比较低的视频数据和音频数据，调性过滤可以是指过滤掉旋律不满足条件的音频数据，如噪声过多的音频数据。

需要说明的是，本方案中的对象特征信息可以是指用户画像数据，该用户画像数据是在得到用户授权后所获取得到的，本方案中的音频数据可以是指得到该音频数据的创作者的授权的音频数据，本方案中的视频数据可以是指原创视频数据或得到创作者的授权的视频数据。进一步，服务器可以对该样本视频数据进行视频特征提取，得到该样本视频数据的视频特征信息(即视频画像)；该样本视频数据的视频特征信息用于反映该样本视频数据的主题信息、场景、颜色信息、质量信息等等。同理，服务器可以对该样本音频数据进行音频特征提取，得到该样本音频数据的音频特征信息(即音频画像)，该样本音频数据的音频特征信息用于反映该样本音频数据的歌词信息、乐谱信息、样本音频数据的创作者的对象特征信息等等。然后，获取该样本音频数据的标注音频匹配度，该标注音频匹配度可以用于反映该样本音频数据与样本对象、样本视频数据之间的匹配度。将上述样本视频数据的视频特征信息、样本音频数据的音频特征信息、样本对象的对象特征信息以及标注音频匹配度确定为用于对候选音频识别模型进行训练的训练样本。

2、服务器采用训练样本对候选音频识别模型进行训练，得到目标音频识别模型。服务器采用候选音频识别模型对样本视频数据的视频特征信息、样本音频数据的音频特征信息、样本对象的对象特征信息进行音频预测，得到该样本音频数据的预测音频匹配度；根据该预测音频匹配度和标注音频匹配度对该候选音频识别模型进行调整，得到调整后的候选音频识别模型，将调整后的音频识别模型确定为目标音频识别模型。

如图2所示，采用目标音频识别模型识别出目标音频数据的过程包括如下步骤3-5：

3、服务器获取目标对象的对象特征信息、属于目标对象的目标视频数据以及与目标视频数据关联的至少两个候选音频数据。该目标对象是指需要向多媒体应用平台中发布视频数据的用户(如图2中的用户W)，目标视频数据可以是指待发布至多媒体应用平台中的视频数据(如图2中的视频W)，该目标视频数据可以是由目标对象所拍摄得到的，或者该目标视频数据可以是由目标对象对从互联网中所下载的视频数据剪辑得到的。至少两个候选音频数据可以是指与目标视频数据的主题信息、场景等属性信息匹配的音频数据，且该至少两个候选音频数据是指目标对象对其具有使用权限的音频数据。

4、服务器获取目标视频数据的视频特征信息、至少两个候选音频数据的音频特征信息。服务器可以对该目标视频数据进行视频特征提取，得到该目标视频数据的视频特征信息；该目标视频数据的视频特征信息用于反映该目标视频数据的主题信息、场景、颜色信息、质量信息等等。同理，服务器可以分别对该各个候选音频数据进行音频特征提取，得到各个候选音频数据的音频特征信息，该候选音频数据的音频特征信息用于反映该候选音频数据的歌词信息、乐谱信息、候选音频数据的创作者的对象特征信息等等。

5、服务器可以采用目标音频识别模型识别出目标视频数据。服务器可以采用目标音频识别模型对该至少两个候选音频数据的音频特征信息与目标视频数据的视频特征信息、目标对象的对象特征信息进行音频识别，得到用于对目标视频数据进行配乐的目标视频数据，向目标对象推荐该目标视频数据。

实践中发现，基于单模态的音频数据推荐方法的音频推荐结果，完全依靠这一个候选音频识别模型的知识积累，如果该候选音频识别模型的知识积累的过程(即训练过程)存在偏差，会导致所推荐的音频数据的准确度比较低。基于此，本申请提出一种基于多模态的音频数据推荐方法，如图3所示，基于多模态的音频数据推荐方法是指采用至少两个音频识别模型对至少两个候选音频数据的音频特征信息、目标视频数据的视频特征信息以及目标对象的对象特征信息进行分析，得到用于对目标视频数据进行配乐的目标音频数据。如图3所示，基于多模态的音频数据推荐方法相较于基于单模态的音频数据推荐方法做出如下改进：

a、针对上述音频识别模型的训练过程中的步骤2做出的改进包括：1、服务器可以获取至少两个候选音频识别模型，至少两个候选音频识别模型可以包括机器学习模型、深度学习模型以及图网络模型等中的至少两种。各个候选音频识别模型的网络属性不相同，网络属性包括网络结构、网络参数、网络算法等中的至少一项，由于各个候选音频识别模型的网络属性不一致，使各个候选音频识别模型的特征处理能力不一致。例如，基于FM的候选音频识别模型擅长挖掘特征信息之间的关联关系，基于XGBoost的候选音频识别模型擅长挖掘关键分裂点(如视频数据中的关键特征点)等。2、实现多模态特征融合：将样本音频数据的音频特征信息与样本视频数据的视频特征信息、样本对象的对象特征信息进行融合，得到样本音频数据的音频融合特征信息；该样本音频数据的融合特征信息用于反映样本对象对样本音频数据的喜好，以及样本音频数据与样本视频数据之间的关联关系等等。3、实现多模态训练：采用该样本音频数据的融合音频特征信息、样本音频数据的音频特征信息分别对至少两个候选音频识别模型进行训练，得到至少两个目标音频识别模型。

b、针对上述采用目标音频识别模型识别出目标音频数据的过程中的步骤5做出的改进包括：1、多模态特征融合：将至少两个候选音频数据的音频特征信息分别与目标视频数据的视频特征信息、目标对象的对象特征信息进行融合，得到至少两个候选音频数据的融合音频特征信息；该候选音频数据的融合特征信息用于反映目标对象对候选音频数据的喜好、候选音频数据与目标视频数据之间的关联关系等等。2、推荐决策融合：分别采用至少两个目标音频识别模型对至少两个候选音频数据的融合特征信息、至少两个候选音频数据的音频特征信息进行识别，得到用于对目标视频数据进行配乐的目标音频数据；即综合各个目标音频识别模型的音频识别结果，向目标对象推荐目标视频数据，实现推荐决策融合。

综上所述，基于多模态的音频数据推荐方法中，通过采用该样本音频数据的融合音频特征信息、样本音频数据的音频特征信息对至少两个候选音频识别模型进行训练，得到至少两个目标音频识别模型，可避免单一音频识别模型在知识积累过程中存在偏差，导致推荐音频数据的准确度比较低的问题。通过将至少两个候选音频数据的音频特征信息与目标对象的对象特征信息、目标视频数据的视频特征信息进行融合，有利于目标音频识别模型挖掘各个特征信息之间的隐含关系，进一步，提高推荐音频数据的准确度。通过综合考虑至少两个目标音频数据模型的识别结果，对音频数据进行推荐，可避免过度依靠单一音频识别模型，导致推荐音频数据的准确度比较低的问题，提高推荐音频数据的准确度。

需要说明的是，本申请中的模态是指：每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等。多种多样的传感器，如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。因此，本申请的多模态特征可以包括视频特征信息、音频特征信息、对象特征信息中的至少两种；本申请中的多模态的音频识别模型也称为多模态机器学习，多模态机器学习(MultiModal MachineLearning，简称MMML)，旨在通过机器学习的方法实现处理和理解多模态信息的能力，建立能够从多种模式处理和关联信息的模型，是一个具有非凡潜力的充满活力的多学科领域。

进一步地，请参见图4，是本申请实施例提供的一种音频数据处理方法的流程示意图。如图4所示，该方法可由计算机设备来执行，该计算机设备可以是指图1中的终端，或者，该计算机设备可以是指图1中的服务器，或者，该计算机设备包括图1中的终端和服务器，即该方法可以由图1中的终端和服务器共同执行。该音频数据处理方法可以包括如下步骤S101～S104：

S101、获取目标对象的对象特征信息、属于上述目标对象的目标视频数据的视频特征信息、以及与上述目标视频数据关联的至少两个候选音频数据的音频特征信息。

本申请中，当用户需要在多媒体应用平台上发布视频数据时，该用户可以称为目标对象，需要发布的视频数据可以称为目标视频数据。为了给该目标视频选择合适的背景音乐，计算机设备可以获取该目标对象的对象特征信息、属于该目标对象的目标视频数据、以及与该目标视频数据关联的至少两个候选音频数据。进一步，对该目标视频数据进行视频特征提取，得到该目标视频数据的视频特征信息，分别对至少两个候选音频数据进行音频特征提取，得到该至少两个候选音频数据音频特征信息。

其中，该目标对象的对象特征信息可以是指目标对象的基本画像特征信息、多媒体画像特征信息以及画像关联特征信息中的至少一种，基本画像特征信息用于反映目标对象的年龄、性别等基本信息；多媒体画像特征信息用于反映目标对象的多媒体喜好，如喜欢的电影、诗词、音乐、喜欢的歌手等等；画像关联特征信息用于反映基本画像特征信息与多媒体画像特征信息之间的关联关系，例如，该画像关联特征用于反映年龄在[18,25]岁之间的用户群体比较喜欢歌手A。该目标视频数据的视频特征信息用于反映该目标视频数据的主题信息、场景、颜色信息以及质量信息等等，候选音频数据的音频特征信息可以用于反映候选音频数据的歌词信息、创作者的对象特征信息、乐谱信息等等。该至少两个候选音频数据可以是指与目标视频数据的主题信息、场景等匹配的音频数据，或者，该至少两个音频数据可以是指目标对象历史时间段内(如近一周、近一个月)所播放的音频数据，或者，该至少两个音频数据可以是指目标对象所创作的音频数据，或者，该至少两个音频数据可以当前比较热门的音乐，如当前播放量大于播放量阈值的音频数据。需要说明的是，本申请中所涉及的音频数据可以是指音乐、关于诗词朗诵的语音数据、关于故事讲解的语音数据等等。

S102、分别将上述至少两个候选音频数据的音频特征信息与上述目标视频数据的视频特征信息、以及上述目标对象的对象特征信息进行融合，得到上述至少两个候选音频数据的音频融合特征信息。

本申请中，计算机设备可以将该至少两个候选音频数据中的第一候选音频数据的音频特征信息与目标视频数据的视频特征信息、以及该目标对象的对象特征信息进行融合，得到该第一候选音频数据的音频融合特征信息；同理，将该至少两个候选音频数据中的第二候选音频数据的音频特征信息与目标视频数据的视频特征信息、以及该目标对象的对象特征信息进行融合，得到该第二候选音频数据的音频融合特征信息。以此类推，可以获取到该至少两个候选音频数据中各个候选音频数据的音频融合特征信息。

需要说明的是，此处的融合实现方式包括直接融合和处理融合，直接融合可以是指：将两个或两个以上的特征信息直接合并为一个融合特征信息，例如，假设候选音频数据的音频特征信息为(1,2,3)，目标视频数据的视频特征信息为(4,5,6)，将候选音频数据的音频特征信息与目标视频数据的视频特征信息直接合并，得到候选音频数据的音频融合特征信息(1,2,3,4,5,6)。直接融合还可以是指：将两个或两个以上的特征信息中具有关联关系的特征参数合并为一个融合特征信息，例如，假设候选音频数据的音频特征信息中音频特征参数2与目标视频数据的视频特征信息中的视频特征参数5具有关联关系，则将候选音频数据的音频特征信息与目标视频数据的视频特征信息中具有关联关系的特征参数合并，得到候选音频数据的音频融合特征信息(2,5)。处理融合是指：对两个或两个以上的特征信息平均化处理或提取最大值等处理，得到一个融合特征信息。例如，假设候选音频数据的音频特征信息为(1,2,3)，目标视频数据的视频特征信息为(4,5,6)，对候选音频数据的音频特征信息与目标视频数据的视频特征信息进行平均化处理，得到候选音频数据的音频融合特征信息(2.5,3.5,4.5)。或者，对候选音频数据的音频特征信息与目标视频数据的视频特征信息进行提取最大值处理，得到候选音频数据的音频融合特征信息(4,5,6)。

S103、采用至少两个目标音频识别模型分别对上述至少两个候选音频数据的音频融合特征信息、上述至少两个候选音频数据的音频特征信息进行音频识别，得到用于对上述目标视频数据进行配乐的目标音频数据；上述目标音频数据属于上述至少两个候选音频数据。

本申请中，计算机设备可以采用至少两个目标音频识别模型分别对该至少两个候选音频数据的音频融合特征信息、该至少两个候选音频数据的音频特征信息进行音频识别，得到至少两个音频识别结果，根据该至少两个音频识别结果，从至少两个候选音频数据中确定出用于对上述目标视频数据进行配乐的目标音频数据；通过对多个目标音频识别模型的音频识别结果进行融合，来确定目标音频数据，充分利用了不同音频识别模型的优势，可有效避免单模型产生偏差，导致推荐音频数据的准确度比较低的问题，可以提高推荐的音频数据更稳健、更准确、更具有可信度。

需要说明的是，音频识别方式包括无差别识别或有差别识别，无差别识别是指：各个目标音频识别模型所处理的特征信息相同，例如，假设该至少两个目标音频识别模型中包括第一目标音频识别模型和第二目标音频识别模型，计算机设备可以采用第一目标音频识别模型对该音频融合特征信息进行音频识别，得到第一音频识别结果，然后，采用第一目标音频识别模型对该至少两个候选音频数据的音频特征信息音频识别，得到第二音频识别结果。同理，采用第二目标音频识别模型对该音频融合特征信息进行音频识别，得到第三音频识别结果，然后，采用第二目标音频识别模型对该至少两个候选音频数据的音频特征信息音频识别，得到第四音频识别结果。进一步，根据第一音频识别结果、第二音频识别结果、第三音频识别结果、第四音频识别结果，确定用于对上述目标视频数据进行配乐的目标音频数据；此处第一音频识别结果和第三音频识别结果用于反映各个候选音频数据与目标对象、目标视频数据之间的音频联合匹配度，音频联合匹配度具体用于反映目标对象对候选音频数据的喜好程度，以及候选音频数据与目标视频数据之间的匹配度。第二音频识别结果和第三音频识别结果用于反映各个候选音频数据用于进行配乐的适用度(即音频自相匹配度)。

同理，有差别识别是指：各个目标音频识别模型所处理的特征信息不相同，例如，计算机设备可以采用第一目标音频识别模型对该至少两个候选音频数据的音频融合特征信息进行音频识别，得到第五音频识别结果，然后，采用第二目标音频识别模型对该至少两个候选音频数据的音频特征信息音频识别，得到第六音频识别结果。进一步，根据第五音频识别结果、第六音频识别结果，确定用于对上述目标视频数据进行配乐的目标音频数据；此处第五音频识别结果用于反映各个候选音频数据与目标对象、目标视频数据之间的音频联合匹配度，第六音频识别结果用于反映各个候选音频数据用于进行配乐的适用度(即音频自相匹配度)。

S104、向上述目标对象推荐上述目标音频数据。

本申请中，该目标音频数据的数量可以是一个或多个，当该目标音频数据的数量为一个时，计算机设备可以在目标视频数据的发布界面中显示该目标音频数据，响应于针对该目标音频数据的选择请求，采用该目标音频数据对该目标视频数据进行配乐。当该目标音频数据的数量为多个时，计算机设备可以按照各个目标音频数据的匹配度总和(此处匹配度总和可以是根据上述音频联合匹配度和音频自相匹配度确定的)，依次将各个目标音频数据显示在目标视频数据的发布界面中。例如，可以以按照各个目标音频数据的匹配度总和由大到小的顺序，将各个目标音频数据同时显示在目标视频数据的发布界面中，或者，可以以按照各个目标音频数据的匹配度总和由大到小的顺序，将各个目标音频数据滚动显示在目标视频数据的发布界面中，如在目标视频数据的发布界面中第一时间显示匹配度总和排序在1-10的目标音频数据，第二时间显示匹配度总和排序在11-20的目标音频数据。然后，响应于针对多个目标音频数据的中的任一目标音频数据的选择操作，可以采用所选择的目标音频数据对目标视频数据进行配乐。通过音频识别模型，可以自动向目标对象推荐音频数据，提高推荐音频数据的准确度，不需要人工参与，提高推荐音频数据的效率。

可选的，各个目标音频识别模型可以是根据属于样本对象的样本视频数据、用于对该样本视频数据进行配乐的样本音频数据、以及样本对象的对象特征信息，以及标注音频匹配度对各个候选音频识别模型进行训练得到的，标注音频数据可以是根据关于样本视频数据的对象行为数据确定的，对象行为数据包括观众用户对样本视频数据的点赞量、关注量、转发量、收藏量以及点击量等中的至少一种。也就是说，对象行为数据在一定程度上反映观众用户对样本视频数据和样本音频数据的喜好程度，这样训练得到的目标音频识别模型具备基于观众用户对视频数据和音频数据的喜好向创作者(视频数据的创作者)推荐音频数据的能力。综上，各个目标音频识别模型所输出的音频识别结果不仅能够反映目标对象(目标视频的创作者)对候选音频数据的喜好程度，以及候选音频数据与目标视频数据之间的匹配度，以及候选音频数据用于进行配乐的适用度，还能够在一定程度上反映观众用户对候选音频数据的喜好程度；因此，综合各个目标音频识别模型的音频识别结果，来推荐目标音频数据，可以将观众用户关于的多媒体(即音频数据和视频数据)喜好传递给创作者，有效打通创作者与观众用户之间的壁垒，扩大了创作者的创作思路，同时也会在推荐的指导下产出更多观众用户以及创作者均喜爱的作品。

进一步地，请参见图5，是本申请实施例提供的一种音频数据处理方法的流程示意图。如图5所示，该方法可由计算机设备来执行，该计算机设备可以是指图1中的终端，或者，该计算机设备可以是指图1中的服务器，或者，该计算机设备包括图1中的终端和服务器，即该方法可以由图1中的终端和服务器共同执行。该音频数据处理方法可以包括如下步骤S201～S206：

S201、获取目标对象的对象特征信息、属于上述目标对象的目标视频数据的视频特征信息、以及与上述目标视频数据关联的至少两个候选音频数据的音频特征信息。

可选的，上述步骤S201中获取上述目标对象的对象特征信息可包括如下步骤s11～s13：

s11、获取上述目标对象的基本画像特征信息以及多媒体画像特征信息。

s12、对上述目标对象的基本画像特征信息以及上述多媒体画像特征信息进行画像关联识别，得到画像关联特征信息。

s13、将上述目标对象的基本画像特征信息、上述多媒体画像特征信息以及上述画像关联特征信息确定为上述目标对象的对象特征信息。

在步骤s11～s13中，如图6所示，计算机设备可以获取目标对象的基本画像特征信息以及多媒体画像特征信息；基本画像特征信息包括年龄、性别等基础属性特征，多媒体画像特征信息包括目标对象所喜欢的歌手、影视演员、喜欢的电影、歌曲等等。进一步，可以关联识别模型对上述目标对象的基本画像特征信息以及上述多媒体画像特征信息进行画像关联识别，得到画像关联特征信息，该画像关联特征信息用于反映目标对象的基本画像特征信息与多媒体画像特征信息之间的隐含关联关系。如图6中，该关联识别模型可以为深度神经网络，该深度神经网络由多个神经网络层构成，不同神经网络层之间以前向传播方式将上一神经网络层的输出结果输入至下一神经网络层进行处理，通过该深度神经网络可以挖掘该目标对象的基本画像特征信息以及该多媒体画像特征信息之间的隐含关系，可提高特征信息的表达能力。然后，将上述目标对象的基本画像特征信息、上述多媒体画像特征信息以及上述画像关联特征信息确定为上述目标对象的对象特征信息；通过挖掘目标对象的基本画像特征信息与多媒体画像特征信息之间的隐含关系，为推荐音频数据提供丰富的信息量，提高推荐音频数据的准确度。

可选的，上述步骤S201中上述获取上述目标视频数据关联的至少两个候选音频数据的音频特征信息可包括如下步骤s21～s25：

s21、获取与上述目标视频数据关联的至少两个候选音频数据。

s22、确定上述至少两个候选音频数据的创作者的对象特征信息。

s23、对上述至少两个候选音频数据进行歌词特征提取，得到上述至少两个候选音频数据的歌词特征信息。

s24、对上述至少两个候选音频数据进行乐谱特征提取，得到上述至少两个候选音频数据的乐谱特征信息。

s25、将上述创作者的对象特征信息、上述至少两个候选音频数据的歌词特征信息以及上述至少两个候选音频数据的乐谱特征信息进行融合，得到上述至少两个候选音频数据的音频特征信息。

在步骤s21～s25中，如图7所示，当候选音频数据为音乐时，计算机设备可以获取该目标视频数据的主题信息、场景信息(如拍摄场景)等视频属性；根据该视频属性获取与该目标视频数据关联的至少两个候选音频数据。然后，获取该至少两个候选音频数据的创作者的对应创作者信息(即歌手信息)，该创作者信息包括创作者的基本画像特征信息、多媒体画像特征信息，采用关联识别模型(如深度神经网络)对该创作者的基本画像特征信息和多媒体画像特征信息进行关联识别，得到创作者的画像关联特征信息，将创作者的画像关联特征信息、基本画像特征信息、多媒体画像特征信息确定为创作者的对象特征信息；该创作者的对象特征信息可以称为歌曲元信息向量。接着，可以对上述至少两个候选音频数据进行文本转换，得到该至少两个候选音频数据的文本信息，对该文本信息进行切词处理，得到多个分词，并采用TF-IDF(Term Frequency–Inverse Document Frequency，基于词频的逆文本频率指数)或WordRank等词统计方法从多个分词中提取每个候选音频数据的主干实体词，主干实体词可以是指候选音频数据的关键词，即体现候选音频数据的主题的词。采用WordVec或Bert等词向量转换模型将候选音频数据的主干实体词转为歌词向量，该歌词向量可以称为歌词特征信息。接着，可以对至少两个候选音频数据进行预加重、分帧等处理，得到上述至少两个候选音频数据的乐谱特征信息，将上述创作者的对象特征信息、上述至少两个候选音频数据的歌词特征信息以及上述至少两个候选音频数据的乐谱特征信息进行融合，得到上述至少两个候选音频数据的音频特征信息。

可选的，上述步骤s44可以如下包括步骤s31～s33：

s31、对上述至少两个候选音频数据中的候选音频数据Yi进行分帧处理，得到属于上述候选音频数据Yi的至少两帧音频数据；i为小于等于N的正整数，N为上述至少两个候选音频数据中的候选音频数据的数量。

s32、将属于上述候选音频数据Yi的至少两帧音频数据进行频域变换，得到上述候选音频数据Yi的频域信息。

s33、对上述候选音频数据Yi的频域信息进行乐谱特征提取，得到上述至少两个候选音频数据的乐谱特征信息。

在步骤s31～s33中，如图7所示，计算机设备可以对各个候选音频数据预加重处理，处理后的各个候选音频数据；预加重处理的作用就是为了消除发声过程中，声带和嘴唇造成的效应，来补偿语音信号受到发音系统所压抑的高频部分；并且能突显高频的共振峰。然后，按照分帧参数对处理后的各个候选音频数据进行分帧处理，得到各个候选音频数据的至少两帧音频数据；分帧参数可以包帧长和帧移，如帧长可以为20～40ms，帧移可以为10ms。接着，可以对各帧音频数据进行加窗处理，以使每帧音频数据两端衰减接近零；将加窗处理后的各帧音频数据进行频域变换，得到各个候选音频数据的频域信息，该频域信息用于反映该候选音频数据的频率以及幅度。然后，可以对各个候选音频数据的频域信息进行乐谱特征提取，得到该各个候选音频数据的乐谱特征信息，乐谱特征信息用于反映候选音频数据的频率、能量等参数。通过对候选音频数据进行预加重、频域变换等处理，得到候选音频数据的乐谱特征信息，可降低获取候选音频数据的乐谱特征信息的复杂度，并可提高候选音频数据的乐谱特征信息的显著性。

可选的，上述步骤s33可以如下包括步骤s41～s43：

s41、根据上述候选音频数据Yi的频域信息确定上述候选音频数据Yi的能量信息。

s42、对上述候选音频数据Yi的能量信息进行过滤处理，得到过滤处理后的能量信息。

s43、将过滤处理后的能量信息确定为上述至少两个候选音频数据的乐谱特征信息。

在步骤s41～s43中，如图7所示，计算机设备可以根据上述候选音频数据Yi的频域信息确定上述候选音频数据Yi的能量信息，由于人耳能够感受到的声音的频率有限，即人耳不能感受到的频率对应的音频称为噪声；因此，可以根据人耳的听觉特征生成滤波器，采用滤波器对上述候选音频数据Yi的能量信息进行过滤处理，得到过滤处理后的能量信息。进一步，将过滤处理后的能量信息确定为上述至少两个候选音频数据的乐谱特征信息；通过对候选音频数据的能量信息进行滤波处理，可有效避免噪声干扰，导致获取到的乐谱特征信息的准确度不高的问题；可避免后续对无效的噪声处理，可节省处理资源。

可选的，上述步骤S201中获取属于上述目标对象的目标视频数据的视频特征信息，可包括如下步骤s51～s54：

s51、获取属于上述目标对象的目标视频数据。

s52、提取上述目标视频数据的至少两个关键视频帧。

s53、对上述至少两个关键视频帧进行视频特征提取，得到上述至少两个关键视频帧的视频特征信息。

s54、对上述至少两个关键视频帧的视频特征信息进行融合，得到上述目标视频数据的视频特征信息。

在步骤s51～s54中，如图8所示，计算机设备可以获取属于该目标对象的目标视频数据，提取该目标视频数据的至少两个关键帧(即代表帧)，关键帧可以是指目标视频数据中能够反映目标视频数据的主题信息的音频数据帧。进一步，采用视频特征提取网络对至少两个关键帧进行视频特征提取，得到至少两个关键视频帧的视频特征信息；如图8中，该视频特征提取网络可以是指卷积神经网络(CNN)，该卷积神经网络由多个卷积层和池化层所构成，卷积层：卷积层中每一个节点的输入只是上一层神经网络的一小块(通常的大小有3*3或5*5)。卷积层试图将神经网络中的每一小块进行更加深入地分析从而得到抽象程度更高的特征；池化层：池化层(pooling)不会改变三维矩阵的深度，但是它可以缩小矩阵的大小，进一步缩小最后全连接层中节点的个数，从而达到减少整个神经网络中参数的目的；因此，通过卷积神经网络能够提取到视频数据更加深层次且冗余性低的视频特征信息。然后，可以对上述至少两个关键视频帧的视频特征信息进行融合，得到上述目标视频数据的视频特征信息；通过从关键视频帧进行视频特征提取，有利于挖掘出目标视频中隐含的视频特征信息，并可降低视频特征信息的冗余度。

S202、分别将上述至少两个候选音频数据的音频特征信息与上述目标视频数据的视频特征信息、以及上述目标对象的对象特征信息进行融合，得到上述至少两个候选音频数据的音频融合特征信息。

可选的，步骤S202可以包括如下步骤s61～s63：

s61、将上述至少两个候选音频数据的音频特征信息与上述目标视频数据的视频特征信息与进行融合，得到第一融合特征信息，将上述至少两个候选音频数据的音频特征信息与上述目标对象的对象特征信息进行融合，得到第二融合特征信息。

s62、将上述至少两个候选音频数据的音频特征信息、上述目标视频数据的视频特征信息以及上述目标对象的对象特征信息进行融合，得到第三融合特征信息。

s63、将上述第一融合特征信息、上述第二融合特征信息以及上述第三融合特征信息，确定为上述至少两个候选音频数据的音频融合特征信息。

在步骤s61～s63中，计算机设备可以采用直接融合方式或处理融合方式将上述至少两个候选音频数据的音频特征信息与上述目标视频数据的视频特征信息与进行融合，得到第一融合特征信息，采用直接融合方式或处理融合方式将上述至少两个候选音频数据的音频特征信息与上述目标对象的对象特征信息进行融合，得到第二融合特征信息。同理，采用直接融合方式或处理融合方式将将上述至少两个候选音频数据的音频特征信息、上述目标视频数据的视频特征信息以及上述目标对象的对象特征信息进行融合，得到第三融合特征信息。可以将上述第一融合特征信息、上述第二融合特征信息以及上述第三融合特征信息，确定为上述至少两个候选音频数据的音频融合特征信息；或者，可以将上述第一融合特征信息、上述第二融合特征信息，确定为上述至少两个候选音频数据的音频融合特征信息；或者，可以将上述第一融合特征信息以及上述第三融合特征信息，确定为上述至少两个候选音频数据的音频融合特征信息，或者，可以将上述第二融合特征信息以及上述第三融合特征信息，确定为上述至少两个候选音频数据的音频融合特征信息。

可选的，当选择提取关联参数的方式(即直接融合方式)对特征信息进行融合时，步骤s61可以包括如下步骤s71～s74：

s71、获取具有关联关系的第一视频特征参数和第一音频特征参数；上述第一视频特征参数属于上述目标视频数据的视频特征信息，上述第一音频特征参数属于上述至少两个候选音频数据的音频特征信息；

s72、根据上述第一视频特征参数和上述第一音频特征参数生成第一融合特征信息；

s73、获取具有关联关系的第一对象特征参数和第二音频特征参数；上述第一对象特征参数属于上述目标对象的对象特征信息，上述第二音频特征参数属于上述至少两个候选音频数据的音频特征信息；

s74、根据上述第一对象特征参数和上述第二音频特征参数生成第二融合特征信息。

在步骤s71～s74中，计算机设备可以获取具有关联关系的第一视频特征参数和第一音频特征参数，具有关联关系的第一视频特征参数和第一音频特征信息可以是指对推荐音频数据具有积极正向作用的视频特征参数和音频特征参数，可以根据上述第一视频特征参数和上述第一音频特征参数生成第一融合特征信息。同理，获取具有关联关系的第一对象特征参数和第二音频特征参数；具有关联关系的第一对象特征参数和第二音频特征参数可以是指对推荐音频数据具有积极正向作用的对象特征参数和音频特征参数；然后，根据上述第一对象特征参数和上述第二音频特征参数生成第二融合特征信息。通过从视频特征信息和音频特征信息中抽取具有关联关系的视频特征参数和音频特征参数，有利于挖掘视频特征信息与音频特征信息内的隐含信息与隐含关系，大大降低对人工的依赖，提高推荐音频数据的准确度。

可选的，当选择提取关联参数的方式对特征信息进行融合时，步骤s62可以包括如下步骤s75～s76：

s75、获取具有关联关系的第二对象特征参数、第二视频特征参数以及第三音频特征参数；上述第二对象特征参数属于上述目标对象的对象特征信息，上述第二视频特征参数属于上述目标视频数据的视频特征信息，上述第三音频特征参数属于上述至少两个候选音频数据的音频特征信息。

s76、根据上述第二对象特征参数、第二视频特征信息以及上述第三音频特征参数生成第三融合特征信息。

在步骤s75～s76中，计算机设备可以获取具有关联关系的第二对象特征参数、第二视频特征参数以及第三音频特征参数；具有关联关系的第二对象特征参数、第二视频特征参数以及第三音频特征参数是指对推荐音频数据具有积极正向作用的对象特征参数、音频特征参数、视频特征参数；然后，可以根据上述第二对象特征参数、第二视频特征信息以及上述第三音频特征参数生成第三融合特征信息。通过从视频特征信息、音频特征信息、对象特征信息中抽取具有关联关系的视频特征参数、音频特征参数、对象特征参数，有利于挖掘视频特征信息、音频特征信息、对象特征信息内的隐含信息与隐含关系，大大降低对人工的依赖，提高推荐音频数据的准确度。

S203、从上述至少两个目标音频识别模型中分别确定与上述至少两个候选音频数据的音频融合特征信息匹配的第一目标音频识别模型，以及与上述至少两个候选音频数据的音频特征信息匹配的第二目标音频识别模型。

本申请中，计算机设备可以采用不同的目标音频识别模型处理不同的特征性信息，具体的，计算机设备可以随机选择方式或者按照特征处理能力选择方式，来选择目标音频识别模型。例如，当计算机设备采用随机选择方式时，从该至少两个目标音频识别模型中随机选择目标音频识别模型，作为与至少两个候选音频数据的音频融合特征信息匹配的第一目标音频识别模型，从剩余的目标音频识别模型中随机选择目标音频识别模型，作为与至少两个候选音频数据的音频特征信息匹配的第二目标音频识别模型。

可选的，当按照特征处理能力选择方式，来选择目标音频识别模型时，步骤S203可包括如下步骤：获取上述至少两个目标音频识别模型的特征处理能力信息；根据上述特征处理能力信息，从上述至少两个目标音频识别模型中分别确定与上述至少两个候选音频数据的音频融合特征信息匹配的第一目标音频识别模型，以及与上述目标音频数据的音频特征信息匹配的第二目标音频识别模型。

计算机设备可以获取至少两个目标音频识别模型中各个目标音频识别模型的特征处理能力信息，特征处理能力信息用于反映目标音频识别模型所擅长处理的特征信息，然后可以根据特征处理能力信息，从该至少两个目标音频识别模型中分别确定与上述至少两个候选音频数据的音频融合特征信息匹配的第一目标音频识别模型，以及与上述目标音频数据的音频特征信息匹配的第二目标音频识别模型。通过根据特征处理能力信息，选择处理特征信息的目标音频识别模型，有利于提高对特征信息处理的准确度。例如，基于FM的目标音频识别模型擅长挖掘特征信息之间的关联关系，基于XGBoost的目标音频识别模型擅长挖掘关键分裂点等；因此，可以将基于FM的目标音频识别模型确定与至少两个候选音频数据的音频融合特征信息匹配的目标音频识别模型，以便能够挖掘音频特征信息、视频特征信息以及对象特征信息之间的隐含关系；将基于XGBoost的目标音频识别模型确定与至少两个候选音频数据的音频特征信息匹配的目标音频识别模型，以便能够挖掘音频特征信息中的关键音频特征信息(即音频特征信息中的隐含信息)。

S204、采用上述第一目标音频识别模型对上述至少两个候选音频数据的音频融合特征信息进行音频联合关系识别，得到音频联合匹配度；采用上述第二目标音频识别模型对上述目标音频数据的音频特征信息进行音频自相关系识别，得到音频自相匹配度。

本申请中，计算机设备可以采用该第一目标音频识别模型对该至少两个候选音频数据的音频融合特征信息进行音频联合关系识别，得到音频联合匹配度，该音频联合匹配度用于反映候选音频数据与目标对象、目标视频数据之间的关联关系，具体的，音频联合匹配度用于反映目标对象对候选音频数据的喜好程度，以及候选音频数据与目标视频数据之间的匹配度。进一步，可以采用上述第二目标音频识别模型对上述目标音频数据的音频特征信息进行音频自相关系识别，得到音频自相匹配度，该音频自相匹配度用于反映候选音频数据用于配乐的适用度。通过第一目标音频识别模型对音频融合特征信息进行音频联合关系识别，有利于挖掘音频特征信息、视频特征信息以及对象特征信息之间的隐含关系；通过第二目标音频识别模型对音频特征信息进行音频自相关系识别，有利于挖掘音频特征信息内的隐含信息，通过挖掘特征信息中更深层次的信息，有利于提高推荐音频数据的准确度。

S205、根据上述音频联合匹配度和上述音频自相匹配度，从上述至少两个候选音频数据中选择用于对上述目标视频数据进行配乐的目标音频数据。

本申请中，计算机设备可以根据该音频联合匹配度和音频自相匹配度确定各个候选音频数据的匹配度总和，按照各个候选音频数据的匹配度总和从至少两个候选音频数据中选择用于对该目标视频数据进行配乐的目标视频数据。通过综合多模态的音频识别模型的音频识别结果，来确定目标音频数据，可有效避免单模型产生偏差，导致推荐音频数据的准确度比较低的问题，可以提高推荐的音频数据更稳健、更准确、更具有可信度。

可选的，步骤S205可包括如下步骤s81～s82：

s81、对上述音频联合匹配度和上述音频自相匹配度进行求和处理，得到匹配度总和。

s82、将上述至少两个候选音频数据中匹配度总和大于匹配度阈值的候选音频数据，确定为用于对上述目标视频数据进行配乐的目标音频数据。

在步骤s81～s82中，计算机设备可以将上述音频联合匹配度和上述音频自相匹配度进行累计，得到匹配度总和；或者，可以对上述音频联合匹配度和上述音频自相匹配度进行加权求和处理，得到匹配度总和。进一步，可以将上述至少两个候选音频数据中匹配度总和大于匹配度阈值的候选音频数据，确定为用于对上述目标视频数据进行配乐的目标音频数据。通过对多模态的音频识别模型的音频识别结果进行求和处理，来确定目标视频数据，可有效避免单模型产生偏差，导致推荐音频数据的准确度比较低的问题，可以提高推荐的音频数据更稳健、更准确、更具有可信度。

可选的，计算机设备通过对上述音频联合匹配度和上述音频自相匹配度进行加权求和处理，得到匹配度总和时，上述步骤s81可以包括：获取上述第一目标音频识别模型的识别权重，以及上述第二目标音频识别模型的识别权重；采用上述第一目标音频识别模型的识别权重对上述音频联合匹配度进行加权处理，得到加权处理后的音频联合匹配度；采用上述第二目标音频识别模型的识别权重对上述音频自相匹配度进行加权处理，得到加权处理后的音频自相匹配度；对上述加权处理后的音频联合匹配度与上述加权处理后的音频自相匹配度进行求和处理，得到匹配度总和。

计算机设备可以获取第一目标音频识别模型的识别权重，以及第二目标音频识别模型的识别权重；该第一目标音频识别模型的识别权重、第二目标音频识别模型的识别权重可以是根据对应目标音频识别模型的音频识别准确度确定的；或者该第一目标音频识别模型识别权重、第二目标音频识别模型的识别权重可以是根据应用场景设置的；例如，该目标视频数据为对某部电影进行剪辑得到，目标视频数据的创作者希望该目标视频数据能够得到更多点击量，因此，可以设置第一目标音频识别模型的识别权重高于第二目标音频识别模型的识别权重，这样有利于突出音频联合匹配度，有利于推荐大众喜欢的音频数据。例如，计算机设备可以采用如下公式(1)来计算各个候选音频数据的匹配度总和：

其中，在公式(1)中，P_j表示第j个候选音频数据的总匹配度，即P_j为整个多模态的目标音频识别模型(即至少两个目标音频识别模型)给出的最终推理打分，Q_ji为在对第j个候选音频数据进行识别的过程中，第i个目标音频识别模型输出的音频识别结果，该目标音频识别模型可以为分类器，即Q_ji为单个分类器对候选音频数据的打分，w_i为第i个目标音频识别模型的识别权重，N为至少两个目标音频识别模型中的模型数量。

S206、向上述目标对象推荐上述目标音频数据。

例如，如图9所示，计算机设备对至少两个候选音频数据、目标视频数据、目标对象进行分析，得到模态1～模态N的特征信息，模态1～模态N的特征信息所包括的特征信息不相同，例如，模态1为视频特征信息，模态2第一音频特征信息，第一音频特征信息包括歌词特征信息、乐谱特征信息以及歌手信息，……，模态N为第j音频特征信息，第j音频特征信息包括歌词特征信息和歌手特征信息，。进一步，可以从多模态的特征信息抽取特征参数，如图9中，将模态1中视频特征参与模态2中的各个音频特征参数进行融合，得到音频融合特征信息1，从模态2中抽取歌词特征信息和歌手特征，作为音频特征信息2，……。计算机设备中包括N个目标音频识别模型，分别为模型1～模型n，可以采用模型1对音频融合特征信息1进行音频识别，得到音频识别结果1(即匹配度)，采用模型2对音频特征信息1进行音频识别，得到音频识别结果2，……，采用模型n对模态N中的音频特征信息进行音频识别，得到音频识别结果n。然后，可以对音频识别结果1～音频识别结果n进行融合(求和处理)得到各个候选音频数据的匹配度总和，可以从至少两个候选音频数据中选择匹配度总和排在前10的候选音频数据，作为用于对目标音频数据进行配乐的目标音频数据，向目标对象推荐该目标音频数据。

本申请中，综合考虑多模态的音频识别模型的音频识别结果，自动向目标对象推荐音频数据，可提高推荐音频数据的效率；同时，充分利用了不同音频识别模型的优势，可有效避免单模型产生偏差，导致推荐音频数据的准确度比较低的问题，可以提高推荐的音频数据更稳健、更准确、更具有可信度。

进一步地，请参见图10，是本申请实施例提供的一种音频数据处理方法的流程示意图。如图10所示，该方法可由计算机设备来执行，该计算机设备可以是指图1中的终端，或者，该计算机设备可以是指图1中的服务器，或者，该计算机设备包括图1中的终端和服务器，即该方法可以由图1中的终端和服务器共同执行。该音频数据处理方法可以包括如下步骤S301～S304：

S301、获取样本对象的对象特征信息、属于上述样本对象的样本视频数据、用于对上述样本视频数据进行配乐的样本音频数据以及上述样本音频数据的标注音频匹配度；上述标注音频匹配度用于反映上述样本音频数据与上述样本对象、上述样本视频数据之间的匹配度。

本申请中，样本对象是指在多媒体应用平台中发布过视频数据的用户，所发布的视频数据称为样本视频数据，用于对该样本视频数据进行配乐的音频数据称为样本音频数据。计算机设备可以从多媒体应用平台中获取样本对象的对象特征信息、属于样本对象的样本视频数据、用于对该样本视频数据进行配乐的样本音频数据以及该样本音频数据的标注音频匹配度。该标注音频匹配度用于反映该样本音频数据与该样本对象、该样本视频数据之间的匹配度，该标注音频匹配度可以是由多个专业用户对样本音频数据进行标注得到的；或者，该标注音频匹配度可以是根据样本视频数据的对象行为数据得到的，对象行为数据包括对样本视频数据的点赞量、关注量、转发量、收藏量以及点击量等中的至少一种。

需要说明的是，本申请中的样本视频数据可以是指短视频或非短视频，短视频可以是指播放时长小于时长阈值的视频数据；同时，该样本数据可以是指通过根据候选视频数据的属性信息对候选视频数据进行筛选得到的，如该属性信息可以是指清晰度、时长、是否为原创等等，即该样本数据可以是指原创视频数据、清晰度比较高的视频数据等等。可选的，上述标注音频匹配度是根据样本视频数据的对象行为数据得到的，具体的，计算机设备可以获取关于该样本视频数据的对象行为数据，根据关于上述样本视频数据的对象行为数据确定上述样本音频数据的标注音频匹配度。

计算机设备可以从多媒体应用平台中获取关于该样本视频数据的对象行为数据，对象行为数据包括对样本视频数据的点赞量、关注量、转发量、收藏量以及点击量等中的至少一种；根据关于该样本视频数据的对象行为数据确定该样本音频数据的标注音频匹配度，例如，标注音频匹配度随对样本视频数据的点赞量、关注量、转发量、收藏量以及点击量等中的至少一种增大而增大，特别的，如样本视频数据已被点击、关注、转发等，则将该样本视频数据作为正样本，反之，样本视频数据未被点击、关注、转发等，则将该样本视频数据作为负样本。

该标注匹配度不仅可以反映上述样本音频数据与上述样本对象、上述样本视频数据之间的匹配度，还可以用于反映观众用户对该样本视频数据以及样本视频数据的喜好。因此，根据关于该样本视频数据的对象行为数据确定该样本音频数据的标注音频匹配度具有如下有益效果：1、通过根据该标注音频匹配度对候选音频识别模型进行训练，这样训练得到的目标音频识别模型具备基于观众用户对视频数据和音频数据的喜好向创作者(视频数据的创作者)推荐音频数据的能力，即可以将观众用户关于的多媒体喜好传递给创作者，有效打通创作者与观众用户之间的壁垒，扩大了创作者的创作思路，同时也会在推荐的指导下产出更多观众用户以及创作者均喜爱的作品。2、不需要人工对样本音频数据进行标注，可避免人工标注存在的漏标、标偏等问题；可以提高标注音频匹配度的准确度以及获取标注音频匹配度的效率。

S302、对上述样本视频数据进行视频体征提取，得到上述样本视频数据的视频特征信息，对上述样本音频数据进行音频特征提取，得到上述样本音频数据的音频特征信息。

S303、将上述样本音频数据的音频特征信息与上述样本视频数据的视频特征信息、以及上述样本对象的对象特征信息进行融合，得到上述样本音频数据的音频融合特征信息。

本申请中，计算机设备可以采用直接融合方式或处理融合方式将上述样本音频数据的音频特征信息与上述样本视频数据的视频特征信息、以及上述样本对象的对象特征信息进行融合，得到上述样本音频数据的音频融合特征信息。

S304、根据上述标注音频匹配度、上述样本音频数据的音频特征信息以及上述样本音频数据的音频融合特征信息，分别对至少两个候选音频识别模型进行调整，得到上述至少两个目标音频识别模型。

本申请中，以上述标注音频匹配度、上述样本音频数据的音频特征信息以及上述样本音频数据的音频融合特征信息为训练数据，分别对至少两个候选音频识别模型进行迭代训练，得到上述至少两个目标音频识别模型。通过对候选音频识别模型进行训练，可以提高推荐音频数据的准确度。

可选的，上述步骤S304可以包括如下步骤s91～s92：

s91、分别采用上述至少两个候选音频识别模型对上述样本音频数据的音频特征信息以及上述样本音频数据的音频融合特征信息进行音频匹配预测，得到预测音频匹配度。

s92、根据上述预测音频匹配度和上述标注音频匹配度分别对至少两个候选音频识别模型进行调整，得到上述至少两个目标音频识别模型。

在步骤s91～s92中，对候选音频识别模型的训练方式包括无差别训练和有差别训练，无差别训练是指采用相同的特征信息对各个候选音频识别模型进行训练，例如，至少两个候选音频识别模型包括第一候选音频识别模型和第二候选音频识别模型，可以采用第一候选音频识别模型对样本音频数据的音频融合特征信息进行音频联合关系预测，得到第一预测结果，采用该第一候选音频识别模型对样本音频数据的音频特征信息进行音频自相关系识别，得到第二预测结果。根据第一预测结果和第二预测结果确定该第一候选音频识别模型的预测音频匹配度，根据标注音频匹配度和该第一候选音频识别模型的预测音频匹配度对该第一候选音频识别模型进行调整，得到第一目标音频识别模型。同理，可以采用第二候选音频识别模型对样本音频数据的音频融合特征信息进行音频联合关系预测，得到第三预测结果，采用该第二候选音频识别模型对样本音频数据的音频特征信息进行音频自相关系识别，得到第四预测结果。根据第三预测结果和第四预测结果确定该第二候选音频识别模型的预测音频匹配度；根据标注音频匹配度和该第二候选音频识别模型的预测音频匹配度对该第二候选音频识别模型进行调整，得到第二目标音频识别模型。

同理，有差别训练采用不同的特征信息对各个候选音频识别模型进行训练，例如，可以根据候选音频识别模型的特征处理能力，对候选音频识别模型进行训练。例如，第一候选音频识别模型擅长对融合音频特征信息进行处理，第二候选音频识别模型擅长对音频特征信息进行处理；因此，可以采用第一候选音频识别模型对样本音频数据的音频融合特征信息进行音频联合关系预测，得到第一候选音频识别模型的预测音频匹配度，根据标注音频匹配度和该第一候选音频识别模型的预测音频匹配度对该第一候选音频识别模型进行调整，得到第一目标音频识别模型。采用该第二候选音频识别模型对样本音频数据的音频特征信息进行音频自相关系识别，得到该第二候选音频识别模型的预测音频匹配度，根据标注音频匹配度和该第二候选音频识别模型的预测音频匹配度对该第二候选音频识别模型进行调整，得到第二目标音频识别模型。

需要说明的是，当目标音频识别模型是通过无差别训练方式训练所得到的，则上述音频识别方式为无差别识别方式；当目标音频识别模型是通过有差别训练方式训练所得到的，则上述音频识别方式为有差别识别方式。

可选的，上述步骤s92可以包括：根据上述预测音频匹配度和上述标注音频匹配度分别确定上述至少两个候选音频识别模型的预测误差；若上述预测误差未处于收敛状态，则根据上述预测误差分别对上述至少两个候选音频识别模型进行调整，得到上述至少两个目标音频识别模型。

如果预测音频匹配度与标注音频匹配度之间的差异比较小，则表明候选音频识别模型的音频识别准确度比较高(即预测误差比较低)；如果预测音频匹配度与标注音频匹配度之间的差异比较大，则表明候选音频识别模型的音频识别准确度比较低(即预测误差比较高)。因此，计算机设备可以根据上述预测音频匹配度和上述标注音频匹配度分别确定上述至少两个候选音频识别模型的预测误差；若上述预测误差处于收敛状态，表明该候选音频识别模型的音频识别模型的音频识别准确度比较高，因此，可以将候选音频识别模型作为目标音频识别模型。若上述预测误差未处于收敛状态，表明该候选音频识别模型的音频识别模型的音频识别准确度比较低，则根据上述预测误差分别对上述至少两个候选音频识别模型进行调整，得到上述至少两个目标音频识别模型。

本申请中，通过采用该样本音频数据的融合音频特征信息、样本音频数据的音频特征信息对至少两个候选音频识别模型进行训练，得到至少两个目标音频识别模型，可避免单一音频识别模型在知识积累过程中存在偏差，导致推荐音频数据的准确度比较低的问题。

请参见图11，是本申请实施例提供的一种音频数据处理装置的结构示意图。上述音频数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该音频数据处理装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图11所示，该音频数据处理装置可以包括：获取模块111、融合模块112、识别模块113以及推荐模块114。

推荐模块，用于向所述目标对象推荐所述目标音频数据。

可选的，所述融合模块分别将所述至少两个候选音频数据的音频特征信息与所述目标视频数据的视频特征信息、以及所述目标对象的对象特征信息进行融合，得到所述至少两个候选音频数据的音频融合特征信息，包括：

将所述至少两个候选音频数据的音频特征信息与所述目标视频数据的视频特征信息与进行融合，得到第一融合特征信息，将所述至少两个候选音频数据的音频特征信息与所述目标对象的对象特征信息进行融合，得到第二融合特征信息；

将所述至少两个候选音频数据的音频特征信息、所述目标视频数据的视频特征信息以及所述目标对象的对象特征信息进行融合，得到第三融合特征信息；

将所述第一融合特征信息、所述第二融合特征信息以及所述第三融合特征信息，确定为所述至少两个候选音频数据的音频融合特征信息。

可选的，所述融合模块将所述至少两个候选音频数据的音频特征信息与所述目标视频数据的视频特征信息与进行融合，得到第一融合特征信息，将所述至少两个候选音频数据的音频特征信息与所述目标对象的对象特征信息进行融合，得到第二融合特征信息，包括：

获取具有关联关系的第一视频特征参数和第一音频特征参数；所述第一视频特征参数属于所述目标视频数据的视频特征信息，所述第一音频特征参数属于所述至少两个候选音频数据的音频特征信息；

根据所述第一视频特征参数和所述第一音频特征参数生成第一融合特征信息；

获取具有关联关系的第一对象特征参数和第二音频特征参数；所述第一对象特征参数属于所述目标对象的对象特征信息，所述第二音频特征参数属于所述至少两个候选音频数据的音频特征信息；

根据所述第一对象特征参数和所述第二音频特征参数生成第二融合特征信息。

可选的，所述融合模块将所述至少两个候选音频数据的音频特征信息、所述目标视频数据的视频特征信息以及所述目标对象的对象特征信息进行融合，得到第三融合特征信息，包括：

获取具有关联关系的第二对象特征参数、第二视频特征参数以及第三音频特征参数；所述第二对象特征参数属于所述目标对象的对象特征信息，所述第二视频特征参数属于所述目标视频数据的视频特征信息，所述第三音频特征参数属于所述至少两个候选音频数据的音频特征信息；

根据所述第二对象特征参数、第二视频特征信息以及所述第三音频特征参数生成第三融合特征信息。

可选的，所述识别模块分别采用所述至少两个目标音频识别模型对所述至少两个候选音频数据的音频融合特征信息、所述目标音频数据的音频特征信息进行音频识别，得到用于对所述目标视频数据进行配乐的目标音频数据，包括：

从所述至少两个目标音频识别模型中分别确定与所述至少两个候选音频数据的音频融合特征信息匹配的第一目标音频识别模型，以及与所述至少两个候选音频数据的音频特征信息匹配的第二目标音频识别模型；

采用所述第一目标音频识别模型对所述至少两个候选音频数据的音频融合特征信息进行音频联合关系识别，得到音频联合匹配度；采用所述第二目标音频识别模型对所述目标音频数据的音频特征信息进行音频自相关系识别，得到音频自相匹配度；

根据所述音频联合匹配度和所述音频自相匹配度，从所述至少两个候选音频数据中选择用于对所述目标视频数据进行配乐的目标音频数据。

可选的，所述识别模块从所述至少两个目标音频识别模型中分别确定与所述至少两个候选音频数据的音频融合特征信息匹配的第一目标音频识别模型，以及与所述至少两个候选音频数据的音频特征信息匹配的第二目标音频识别模型，包括：

获取所述至少两个目标音频识别模型的特征处理能力信息；

根据所述特征处理能力信息，从所述至少两个目标音频识别模型中分别确定与所述至少两个候选音频数据的音频融合特征信息匹配的第一目标音频识别模型，以及与所述目标音频数据的音频特征信息匹配的第二目标音频识别模型。

可选的，所述识别模块根据所述音频联合匹配度和所述音频自相匹配度，从所述至少两个候选音频数据中选择用于对所述目标视频数据进行配乐的目标音频数据，包括：

对所述音频联合匹配度和所述音频自相匹配度进行求和处理，得到匹配度总和；

将所述至少两个候选音频数据中匹配度总和大于匹配度阈值的候选音频数据，确定为用于对所述目标视频数据进行配乐的目标音频数据。

可选的，所述识别模块对所述音频联合匹配度和所述音频自相匹配度进行求和处理，得到匹配度总和，包括：

获取所述第一目标音频识别模型的识别权重，以及所述第二目标音频识别模型的识别权重；

采用所述第一目标音频识别模型的识别权重对所述音频联合匹配度进行加权处理，得到加权处理后的音频联合匹配度；

采用所述第二目标音频识别模型的识别权重对所述音频自相匹配度进行加权处理，得到加权处理后的音频自相匹配度；

对所述加权处理后的音频联合匹配度与所述加权处理后的音频自相匹配度进行求和处理，得到匹配度总和。

可选的，所述获取模块获取所述目标对象的对象特征信息，包括：

获取所述目标对象的基本画像特征信息以及多媒体画像特征信息；

对所述目标对象的基本画像特征信息以及所述多媒体画像特征信息进行画像关联识别，得到画像关联特征信息；

将所述目标对象的基本画像特征信息、所述多媒体画像特征信息以及所述画像关联特征信息确定为所述目标对象的对象特征信息。

可选的，所述获取模块获取所述目标视频数据关联的至少两个候选音频数据的音频特征信息，包括：

获取与所述目标视频数据关联的至少两个候选音频数据；

确定所述至少两个候选音频数据的创作者的对象特征信息；

对所述至少两个候选音频数据进行歌词特征提取，得到所述至少两个候选音频数据的歌词特征信息；

对所述至少两个候选音频数据进行乐谱特征提取，得到所述至少两个候选音频数据的乐谱特征信息；

将所述创作者的对象特征信息、所述至少两个候选音频数据的歌词特征信息以及所述至少两个候选音频数据的乐谱特征信息进行融合，得到所述至少两个候选音频数据的音频特征信息。

可选的，所述获取模块对所述至少两个候选音频数据进行乐谱特征提取，得到所述至少两个候选音频数据的乐谱特征信息，包括：

对所述至少两个候选音频数据中的候选音频数据Yi进行分帧处理，得到属于所述候选音频数据Yi的至少两帧音频数据；i为小于等于N的正整数，N为所述至少两个候选音频数据中的候选音频数据的数量；

将属于所述候选音频数据Yi的至少两帧音频数据进行频域变换，得到所述候选音频数据Yi的频域信息；

对所述候选音频数据Yi的频域信息进行乐谱特征提取，得到所述至少两个候选音频数据的乐谱特征信息。

可选的，所述获取模块对所述候选音频数据Yi的频域信息进行乐谱特征提取，得到所述至少两个候选音频数据的乐谱特征信息，包括：

根据所述候选音频数据Yi的频域信息确定所述候选音频数据Yi的能量信息；

对所述候选音频数据Yi的能量信息进行过滤处理，得到过滤处理后的能量信息；

将过滤处理后的能量信息确定为所述至少两个候选音频数据的乐谱特征信息。

可选的，所述获取模块获取属于所述目标对象的目标视频数据的视频特征信息，包括：

获取属于所述目标对象的目标视频数据；

提取所述目标视频数据的至少两个关键视频帧；

对所述至少两个关键视频帧进行视频特征提取，得到所述至少两个关键视频帧的视频特征信息；

对所述至少两个关键视频帧的视频特征信息进行融合，得到所述目标视频数据的视频特征信息。

根据本申请的一个实施例，图4所示的音频数据处理方法所涉及的步骤可由图11所示的音频数据处理装置中的各个模块来执行。例如，图4中所示的步骤S101可由图11中的获取模块111来执行，图4中所示的步骤S102可由图11中的融合模块112来执行；图4中所示的步骤S103可由图11中的识别块113来执行；图4中所示的步骤S104可由图11中的推荐模块114来执行。

根据本申请的一个实施例，图11所示的音频数据处理装置中的各个模块可以分别或全部合并为一个或若干个单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的至少两个子单元，可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的，在实际应用中，一个模块的功能也可以由至少两个单元来实现，或者至少两个模块的功能由一个单元实现。在本申请的其它实施例中，音频数据处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由至少两个单元协作实现。

根据本申请的一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图4中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图11中所示的音频数据处理装置，以及来实现本申请实施例的音频数据处理方法。上述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

请参见图12，是本申请实施例提供的一种音频数据处理装置的结构示意图。上述音频数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该音频数据处理装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图12所示，该音频数据处理装置可以包括：获取模块121、提取模块122、融合模块123以及调整模块124。

可选的，所述获取模块获取所述样本音频数据的标注音频匹配度，包括：

获取关于所述样本视频数据的对象行为数据；

根据关于所述样本视频数据的对象行为数据确定所述样本音频数据的标注音频匹配度。

可选的，所述调整模块根据所述标注音频匹配度、所述样本音频数据的音频特征信息以及所述样本音频数据的音频融合特征信息，分别对至少两个候选音频识别模型进行调整，得到所述至少两个目标音频识别模型，包括：

分别采用所述至少两个候选音频识别模型对所述样本音频数据的音频特征信息以及所述样本音频数据的音频融合特征信息进行音频匹配预测，得到预测音频匹配度；

根据所述预测音频匹配度和所述标注音频匹配度分别对至少两个候选音频识别模型进行调整，得到所述至少两个目标音频识别模型。

根据本申请的一个实施例，图10所示的音频数据处理方法所涉及的步骤可由图12所示的音频数据处理装置中的各个模块来执行。例如，图10中所示的步骤S301可由图12中的获取模块121来执行，图10中所示的步骤S302可由图12中的提取模块122来执行；图10中所示的步骤S303可由图12中的融合模块123来执行；图10中所示的步骤S304可由图12中的调整模块124来执行。

根据本申请的一个实施例，图12所示的音频数据处理装置中的各个模块可以分别或全部合并为一个或若干个单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的至少两个子单元，可以实现同样的操作，而不影响本申请的实施例的技术效果的实现。上述模块是基于逻辑功能划分的，在实际应用中，一个模块的功能也可以由至少两个单元来实现，或者至少两个模块的功能由一个单元实现。在本申请的其它实施例中，音频数据处理装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由至少两个单元协作实现。

根据本申请的一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算机设备上运行能够执行如图10中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图12中所示的音频数据处理装置，以及来实现本申请实施例的音频数据处理方法。上述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

请参见图13，是本申请实施例提供的一种计算机设备的结构示意图。如图13所示，上述计算机设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述计算机设备1000还可以包括：对象接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，对象接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选对象接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如W_I-F_I接口)。存储器1005可以是高速RAM存储器，也可以是非易失性的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图13所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、对象接口模块以及设备控制应用程序。

在图13所示的计算机设备1000中，网络接口1004可提供网络通讯功能；而对象接口1003主要用于为对象提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

向所述目标对象推荐所述目标音频数据。

可选的，处理器1001可以用于调用存储器1005中存储的设备控制应用程序，以实现：

获取所述至少两个目标音频识别模型的特征处理能力信息；

获取与所述目标视频数据关联的至少两个候选音频数据；

确定所述至少两个候选音频数据的创作者的对象特征信息；

获取属于所述目标对象的目标视频数据；

提取所述目标视频数据的至少两个关键视频帧；

根据所述标注音频匹配度、所述样本音频数据的音频特征信息以及所述样本音频数据的音频融合特征信息，分别对至少两个候选音频识别模型进行调整，得到所述至少两个目标音频识别模型。

获取关于所述样本视频数据的对象行为数据；

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图4以及前文图10所对应实施例中对上述音频数据处理方法的描述，也可执行前文图11和图12所对应实施例中对上述音频数据处理装置的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的音频数据处理装置所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文图4和图10对应实施例中对上述音频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

作为示例，上述程序指令可被部署在一个计算机设备上执行，或者被部署位于一个地点的至少两个计算机设备上执行，又或者，在分布在至少两个地点且通过通信网络互连的至少两个计算机设备上执行，分布在至少两个地点且通过通信网络互连的至少两个计算机设备可以组成区块链网络。

上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例还提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行前文图4和图10对应实施例中对上述音频数据处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机程序产品的实施例中未披露的技术细节，请参照本申请方法实施例的描述。

本申请实施例的说明书和权利要求书及附图中的术语“第一”、“第二”等是用于区别不同对象，而非用于描述特定顺序。此外，术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块，而是可选地还包括没有列出的步骤或模块，或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的，具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种音频数据处理方法，其特征在于，包括：

向所述目标对象推荐所述目标音频数据。

2.如权利要求1所述的方法，其特征在于，所述分别将所述至少两个候选音频数据的音频特征信息与所述目标视频数据的视频特征信息、以及所述目标对象的对象特征信息进行融合，得到所述至少两个候选音频数据的音频融合特征信息，包括：

3.如权利要求2所述的方法，其特征在于，所述将所述至少两个候选音频数据的音频特征信息与所述目标视频数据的视频特征信息与进行融合，得到第一融合特征信息，将所述至少两个候选音频数据的音频特征信息与所述目标对象的对象特征信息进行融合，得到第二融合特征信息，包括：

4.如权利要求2所述的方法，其特征在于，所述将所述至少两个候选音频数据的音频特征信息、所述目标视频数据的视频特征信息以及所述目标对象的对象特征信息进行融合，得到第三融合特征信息，包括：

5.如权利要求1所述的方法，其特征在于，所述分别采用所述至少两个目标音频识别模型对所述至少两个候选音频数据的音频融合特征信息、所述目标音频数据的音频特征信息进行音频识别，得到用于对所述目标视频数据进行配乐的目标音频数据，包括：

6.如权利要求5所述的方法，其特征在于，所述从所述至少两个目标音频识别模型中分别确定与所述至少两个候选音频数据的音频融合特征信息匹配的第一目标音频识别模型，以及与所述至少两个候选音频数据的音频特征信息匹配的第二目标音频识别模型，包括：

获取所述至少两个目标音频识别模型的特征处理能力信息；

7.如权利要求5所述的方法，其特征在于，所述根据所述音频联合匹配度和所述音频自相匹配度，从所述至少两个候选音频数据中选择用于对所述目标视频数据进行配乐的目标音频数据，包括：

8.如权利要求7所述的方法，其特征在于，所述对所述音频联合匹配度和所述音频自相匹配度进行求和处理，得到匹配度总和，包括：

9.如权利要求1所述的方法，其特征在于，所述获取所述目标对象的对象特征信息，包括：

10.如权利要求1所述的方法，其特征在于，所述获取所述目标视频数据关联的至少两个候选音频数据的音频特征信息，包括：

获取与所述目标视频数据关联的至少两个候选音频数据；

确定所述至少两个候选音频数据的创作者的对象特征信息；

11.如权利要求10所述的方法，其特征在于，所述对所述至少两个候选音频数据进行乐谱特征提取，得到所述至少两个候选音频数据的乐谱特征信息，包括：

12.如权利要求11所述的方法，其特征在于，所述对所述候选音频数据Yi的频域信息进行乐谱特征提取，得到所述至少两个候选音频数据的乐谱特征信息，包括：

13.如权利要求1所述的方法，其特征在于，所述获取属于所述目标对象的目标视频数据的视频特征信息，包括：

获取属于所述目标对象的目标视频数据；

提取所述目标视频数据的至少两个关键视频帧；

14.一种音频数据处理方法，其特征在于，包括：

根据所述标注音频匹配度、所述样本音频数据的音频特征信息以及所述样本音频数据的音频融合特征信息，分别对至少两个候选音频识别模型进行调整，得到如权利要求1-13任一项中的所述至少两个目标音频识别模型。

15.如权利要求14所述的方法，其特征在于，所述获取所述样本音频数据的标注音频匹配度，包括：

获取关于所述样本视频数据的对象行为数据；

16.如权利要求14所述的方法，其特征在于，所述根据所述标注音频匹配度、所述样本音频数据的音频特征信息以及所述样本音频数据的音频融合特征信息，分别对至少两个候选音频识别模型进行调整，得到所述至少两个目标音频识别模型，包括：

17.一种音频数据处理装置，其特征在于，包括：

推荐模块，用于向所述目标对象推荐所述目标音频数据。

18.一种计算机设备，其特征在于，包括：处理器以及存储器；

上述处理器与存储器相连；所述存储器用于存储程序代码，所述处理器用于调用所述程序代码，以执行如权利要求1至16任一项所述的方法。

19.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-16任一项所述的方法。

20.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1-16所述方法的步骤。