CN118279612A

CN118279612A - 数据匹配方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN118279612A
Application number: CN202211731612.9A
Authority: CN
Inventors: 刘刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2024-07-02

Abstract

本申请实施例提供了一种数据匹配方法、装置、电子设备及计算机可读存储介质，涉及多媒体技术领域。该方法包括：获取待匹配视频，从多个样本音频中筛选出与待匹配视频相关联的多个第一音频；基于待匹配视频和多个第一音频生成多个数据对；其中，每一数据对包括待匹配视频和一个对应的第一音频；针对每一数据对，通过训练好的匹配模型执行预测操作，得到数据对中待匹配视频与第一音频之间的对应的匹配结果；基于所得到的多个匹配结果，从第一音频中确定出至少一个与待匹配视频相匹配的第二音频。本申请实施例通过多模态特征信息的特征融合提升了匹配结果的可靠性，实现了多维度的数据匹配，提升了视频和音频的内容贴合度。

Description

数据匹配方法、装置、电子设备及计算机可读存储介质

技术领域

本申请涉及多媒体技术领域，具体而言，本申请涉及一种数据匹配方法、装置、电子设备及计算机可读存储介质。

背景技术

多媒体技术是指通过计算机对文字、数据、图形、图像、动画、声音等多种媒体信息进行综合处理和管理，以便使用者通过多种感官与计算机进行实时信息交互的技术；互联网的发展给人们带来巨大的多媒体数据海洋，如何高效的管理和访问多媒体海量数据，是多媒体技术研究中的重点。

多媒体数据匹配广泛应用于多媒体检索和多媒体问答等领域，以视频配乐为例，可以通过多媒体数据检索为视频匹配适合的音频，以丰富视频的呈现效果、增强视频内容的表达能力和吸引力。

现有技术中，通常采用TF-IDF(term frequency–inverse document frequency，基于词频和逆文本频率指数统计方法)算法，将视频标签映射到对应的音频上，以对音频打上视频标签，通过视频和音频的标签交集筛选出强相关的视频音频对，进而完成视频数据与视频数据的匹配。但是，上述基于标签的匹配方法中匹配粒度粗，可能会导致热门音频的重复匹配即大部分视频数据均匹配到相同的音频，无法保证数据匹配的多样化和精确度。

发明内容

本申请实施例提供了一种数据匹配方法、装置、电子设备及计算机可读存储介质，可以解决数据匹配精确度不高的问题。所述技术方案如下：

根据本申请实施例的一个方面，提供了一种数据匹配方法，该方法包括：

获取待匹配视频，从多个样本音频中筛选出与待匹配视频相关联的多个第一音频；

基于待匹配视频和多个第一音频生成多个数据对；其中，每一数据对包括待匹配视频和一个对应的第一音频；

针对每一数据对，通过训练好的匹配模型执行预测操作，得到数据对中待匹配视频与第一音频之间的对应的匹配结果；

基于所得到的多个匹配结果，从第一音频中确定出至少一个与待匹配视频相匹配的第二音频；

其中，预测操作包括：

提取待匹配视频的画面特征，并提取第一音频的音频特征和数据对的文本属性的文本特征；

将音频特征、画面特征中的至少一项与文本特征进行特征融合，得到至少一个融合特征；

根据至少一个融合特征计算音频特征和画面特征的相似度；

基于相似度确定待匹配视频与第一音频之间的匹配结果。

在一个可能的实现方式中，上述融合特征包括根据文本特征和音频特征生成的第一融合特征，和根据文本特征和画面特征生成的第二融合特征；

根据至少一个融合特征计算音频特征和画面特征的相似度，包括：

将第一特征与第二特征的特征差值信息，作为相似度；其中，当第一特征为第一融合特征时，第二特征为画面特征或者第二融合特征；当第一特征为音频特征时，第二特征为第二融合特征。

在一个可能的实现方式中，上述特征差值信息是基于如下方式计算得到的：

确定音频模态的第一中心向量，和视频模态的第二中心向量；

将第一特征映射到第一中心向量，得到音频映射向量；

将第二特征映射到第二中心向量，得到视频映射向量；

将音频映射向量和视频映射向量的乘积作为特征差值信息。

在一个可能的实现方式中，上述匹配模型是通过如下方式训练得到的：

获取多个第一样本数据对和第二样本数据对；其中，每一第一样本数据对或第二样本数据对包括一样本视频和一个样本视频对应的样本音频；第一样本数据对的标准匹配结果表征样本视频相对于样本音频的匹配度，第二样本数据对的标准匹配结果表征样本音频相对于样本视频的匹配度；

通过第一样本数据对和第二样本数据对对初始匹配模型进行至少一次优化操作，直至训练总损失符合预设条件，将训练总损失符合预设条件的初始匹配模型作为匹配模型；

其中，优化操作包括：

通过初始匹配模型分别预测针对第一样本数据对的第一预测匹配结果和针对第二样本数据对的第二预测匹配结果；

基于第一预测匹配结果和第一样本数据对的标准匹配结果的差异确定第一损失；

基于第二预测匹配结果和第二样本数据对的标准匹配结果的差异确定第二损失；

基于第一损失和第二损失确定训练总损失。

在一个可能的实现方式中，基于第一损失和第二损失确定训练总损失，包括：

针对第一样本数据对和第二样本数据对中的至少一项，获取对应样本视频的样本画面特征；

根据样本画面特征进行特征分类，得到样本视频的分类结果；

将分类结果和样本视频的标准分类结果的差值作为第三损失；

将第一损失、第二损失和第三损失的加和作为训练总损失。

在一个可能的实现方式中，上述标准匹配结果是基于如下方式确定的：

从特定应用程序的历史记录中，获取多个样本视频和样本音频；

获取与每一样本视频对应的多个样本音频作为第一样本数据对，获取与每一样本音频对应的多个样本视频作为第二样本数据对；

针对每一第一样本数据对，计算样本视频相对于对应样本音频的第一匹配率；基于预设对象针对特定应用程序的反馈操作信息计算样本视频的第一播放数据；基于第一匹配率和第一播放数据确定第一样本数据对的标准匹配结果；

针对每一第二样本数据对，计算样本音频相对于对应样本视频的第二匹配率；基于预设对象针对特定应用程序的反馈操作信息计算样本音频的第二播放数据；当第二匹配率和第二播放数据确定第二样本数据对的标准匹配结果。

在另一个可能的实现方式中，上述提取待匹配视频的画面特征，包括：

将待匹配视频划分为多个视频片段；

从每一视频片段中抽取一画面帧，分别提取每一画面帧的局部特征；

针对每一局部特征进行降维分解，得到多个局部分解特征；

将多个局部分解特征进行全局聚合，得到画面特征。

根据本申请实施例的另一个方面，提供了一种数据匹配装置，该装置包括：

筛选模块，用于获取待匹配视频，从多个样本音频中筛选出与待匹配视频相关联的多个第一音频；

生成模块，用于基于待匹配视频和多个第一音频生成多个数据对；其中，每一数据对包括待匹配视频和一个对应的第一音频；

预测模块，用于针对每一数据对，通过训练好的匹配模型执行预测操作，得到数据对中待匹配视频与第一音频之间的对应的匹配结果；

其中，预测操作包括：

提取待匹配视频的画面特征，并提取第一音频的音频特征和数据对的文本属性的文本特征；将音频特征、画面特征中的至少一项与文本特征进行特征融合，得到至少一个融合特征；根据至少一个融合特征计算音频特征和画面特征的相似度；基于相似度确定待匹配视频与第一音频之间的匹配结果；

确定模块，用于基于所得到的多个匹配结果，从第一音频中确定出至少一个与待匹配视频相匹配的第二音频。

上述预测模块在根据至少一个融合特征计算音频特征和画面特征的相似度时，用于：

将第一特征映射到第一中心向量，得到音频映射向量；

将第二特征映射到第二中心向量，得到视频映射向量；

将音频映射向量和视频映射向量的乘积作为特征差值信息。

其中，优化操作包括：

基于第一损失和第二损失确定训练总损失。

在一个可能的实现方式中，上述预测模块在基于第一损失和第二损失确定训练总损失时，用于：

将第一损失、第二损失和第三损失的加和作为训练总损失。

在另一个可能的实现方式中，上述预测模块在提取待匹配视频的画面特征时，用于：

将待匹配视频划分为多个视频片段；

针对每一局部特征进行降维分解，得到多个局部分解特征；

将多个局部分解特征进行全局聚合，得到画面特征。

根据本申请实施例的另一个方面，提供了一种电子设备，该电子设备包括：存储器、处理器及存储在存储器上的计算机程序，上述处理器执行计算机程序以实现本申请实施例第一方面所示方法的步骤。

根据本申请实施例的再一个方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本申请实施例第一方面所示方法的步骤。

根据本申请实施例的一个方面，提供了一种计算机程序产品，其包括计算机程序，该计算机程序被处理器执行时实现本申请实施例第一方面所示方法的步骤。

本申请实施例提供的技术方案带来的有益效果是：

本申请实施例基于待匹配视频与多个第一音频生成多个数据对，通过训练好的匹配模型针对每一数据对执行预测操作，得到数据对中待匹配视频与第一音频之间的对应的匹配结果，并根据所得到的多个匹配结果，从第一音频中确定出至少一个与待匹配视频相匹配的第二音频。其中，在执行预测操作时，将从数据对中提取得到的音频特征、画面特征中的至少一项与文本特征进行特征融合，得到至少一个融合特征；并根据至少一个融合特征计算音频特征和画面特征的相似度；进而完成基于特征融合和特征相似度计算的音视频数据匹配。本申请实施例通过多模态特征信息的特征融合提升了匹配结果的可靠性，实现了从视频、音频和文本多维度进行数据匹配，提升了视频和音频的内容贴合度。

同时，区别于现有技术中通过历史匹配标签的粗粒度匹配所导致的热门音频的重复匹配，本申请中的第一音频是从多个样本音频中筛选出的与待匹配视频相关联的样本音频，可以基于音频的类型、歌词、曲风等多方面进行关联筛选，有效避免音频数据的长尾效应的加剧，增强了数据匹配的多样化和精细程度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍。

图1为本申请实施例提供的一种数据匹配方法的应用场景示意图；

图2为本申请实施例提供的一种数据匹配方法的流程示意图；

图3为本申请实施例提供的一种数据匹配方法中匹配模型预测的流程示意图；

图4为本申请实施例提供的一种数据匹配方法中初始匹配模型的训练流程示意图；

图5为本申请实施例提供的一种数据匹配方法中初始匹配模型的优化流程示意图；

图6为本申请实施例提供的一种数据匹配方法中确定样本数据对的标准匹配结果的流程示意图；

图7为本申请实施例提供的一种数据匹配方法中提取画面特征的流程示意图；

图8为本申请实施例提供的一种数据匹配方法中提取音频特征的流程示意图；

图9为本申请实施例提供的一个示例的数据匹配方法的流程示意图；

图10为本申请实施例提供的一种数据匹配装置的结构示意图；

图11为本申请实施例提供的一种数据匹配电子设备的结构示意图。

具体实施方式

下面结合本申请中的附图描述本申请的实施例。应理解，下面结合附图所阐述的实施方式，是用于解释本申请实施例的技术方案的示例性描述，对本申请实施例的技术方案不构成限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件，但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解，当我们称一个元件被“连接”或“耦接”到另一元件时，该一个元件可以直接连接或耦接到另一元件，也可以指该一个元件和另一元件通过中间元件建立连接关系。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个，例如“A和/或B”可以实现为“A”，或者实现为“B”，或者实现为“A和B”。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

多媒体技术是利用计算机对文本、图形、图像、声音、动画、视频等多种信息综合处理、建立逻辑关系和人机交互作用的技术。随着互联网通信的快速发展，基于多媒体技术的视频制作与剪辑应用也越来越广泛。以短视频为例，其是一种互联网内容传播方式，一般是在互联网新媒体上传播的时长在5分钟以内的视频；随着移动终端普及和网络的提速，短平快的大流量传播内容逐渐获得各大平台、粉丝和资本的青睐。

PGC(Professional Generated Content，专业生产内容)在发布短视频过程，发布者在海量音乐库中难以发现最搭配的背景音乐，如何为发布者推荐合适的背景音乐来增强短视频的表现能力是短视频应用的重要基础功能之一。

发明人通过对热门流行短视频内容的配乐进行分析发现：好的配乐不仅要和视频内容贴合，也要结合音乐本身的热度，还能体现出视频创作者的个人心情，爱好和格调等；这不仅要做视频和音乐的理解，还要掌握音乐热度，节奏等多种特征。进一步地，现有信息流的视频和音频匹配场景当中，配乐数据分布大多具有长尾效应；比如100万视频对应了3000首音乐，Top10的音乐占10％的视频量，Top100的音乐占50％的视频量。

发明人还发现，现有技术中对视频和音乐进行匹配时存在如下问题：

(1)现有技术都是推荐和匹配的头部音频内容，会进一步加剧长尾，使得大量的优质音频没有被匹配的机会；

(2)匹配好的视频内容在发布后，所呈现的后验分发效果不足；

(3)大部分相似的视频可能会匹配不同风格的音频，但是现有技术中一个视频只能匹配一个音频，无法保证数据匹配的多样化和个性化。

本申请提供的数据匹配方法、装置、电子设备及计算机可读存储介质，旨在解决现有技术的如上技术问题。

下面通过对几个示例性实施方式的描述，对本申请实施例的技术方案以及本申请的技术方案产生的技术效果进行说明。需要指出的是，下述实施方式之间可以相互参考、借鉴或结合，对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等，不再重复描述。

如图1所示，本申请的数据匹配方法，可以应用于图1所示的场景中，具体的，服务器102从客户端101获取创作者上传的待匹配视频，并从音频数据库中筛选出与待匹配视频相关联的多个第一视频；然后服务器102基于待匹配视频和多个第一音频生成多个数据对，针对每一数据对，通过训练好的匹配模型执行预测操作，得到数据对中待匹配视频与第一音频之间对应的匹配结果；接着，服务器102基于上述匹配结果，从第一音频中确定出至少一个与待匹配视频相匹配的第二音频，并将至少一个第二音频发送给客户端，并接受客户端101返回的选择指令，根据选择指令从第二音频中选择目标音频，以采用目标音频对待匹配视频进行配乐，进而将配乐好的视频发送给客户端。

图1所示的场景中，上述数据匹配方法可以在服务器中进行，在其他的场景中，也可以在终端中进行。

本技术领域技术人员可以理解，这里所使用的“终端”可以是手机、平板电脑、PDA(Personal Digital Assistant，个人数字助理)、MID(Mobile Internet Device，移动互联网设备)等；“服务器”可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

本申请实施例中提供了一种数据匹配方法，如图2所示，可以应用于进行数据匹配的服务器或终端，该方法包括：

S201，获取待匹配视频，从多个样本音频中筛选出与待匹配视频相关联的多个第一音频。

具体的，用于进行数据匹配的服务器或终端，可以获取待匹配视频的第一分类信息，并根据第一分类信息从样本音频中筛选出与待匹配视频相关联的多个第一音频。

进一步地，用于进行数据处理的服务器或终端，可以预先确定待匹配视频的第一分类信息，其中，第一分类信息可以包括一级类型、二级类型和三级类型；上述一级类型、二级类型和三级类型的类目范围逐级降低。用于进行数据匹配的服务器或终端，可以将一级类型、二级类型和三级类型中的任一项作为目标类型，并从样本音频中筛选出与该目标类型相匹配的第一音频。

在本申请实施例中，以待匹配视频为某品牌手机的讲解视频内容为例，其第一分类信息中所包括的一级类型为科技、二级类型为电子产品、三级类型可以为国产手机。当将一级类型作为目标类型进行筛选时，由于其类目范围较广，相比于其他级别的类型，基于该目标类型筛选得到的第一音频的数量最多。

S202，基于待匹配视频和多个第一音频生成多个数据对。

其中，每一数据对包括待匹配视频和一个对应的第一音频。第一音频的数量和数据对的数量相同。

具体的，用于进行数据匹配的服务器或终端，可以基于待匹配视频和每一第一音频生成多个数据对，并将各数据对存储于预设缓存地址，以便后续的数据调用。

S203，针对每一数据对，通过训练好的匹配模型执行预测操作，得到数据对中待匹配视频与第一音频之间的对应的匹配结果。

其中，预测操作包括：

提取待匹配视频的画面特征，并提取第一音频的音频特征和数据对的文本属性的文本特征；将音频特征、画面特征中的至少一项与文本特征进行特征融合，得到至少一个融合特征；根据至少一个融合特征计算音频特征和画面特征的相似度；基于相似度确定待匹配视频与第一音频之间的匹配结果。

其中，上述数据对的文本属性可以包括视频文本属性和音频文本属性；其中，上述视频文本属性可以包括视频的标题、分类标识、内容标签等信息；上述音频文本属性可以包括音频的歌名、作者名称、歌词、音乐类型等信息。

其中，上述匹配模型可以是基于深度学习的网络模型。

深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。深度学习在搜索技术，数据挖掘，机器学习，机器翻译，自然语言处理，多媒体学习，语音，推荐和个性化技术，以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动，解决了很多复杂的模式识别难题，使得人工智能相关技术取得了很大进步。在本申请中，可以应用深度学习算法让匹配模型学习到样本数据对中多模态的特征信息与样本数据对的标准匹配结果的内在规律，使得匹配模型能够基于至少一个融合特征进行预测，得到各数据对的匹配结果。

在一些实施方式中，上述匹配结果可以包括相匹配或不匹配中的任一项。

在另一些实施方式中，上述匹配结果还可以是匹配数值；其中，上述匹配数值可以表征待匹配视频与第一音频之间的匹配程度。

在本申请实施例中，匹配模型可以包括特征提取单元、特征融合单元和特征预测单元。在一些实施方式中，如图3所示，在进行特征融合时，特征融合单元可以将文本特征和音频特征融合，得到第一融合特征；接着特征预测单元基于第一融合特征与画面特征进行预测，得到待匹配视频与第一音频之间的相似度以得到匹配结果。

S204，基于所得到的多个匹配结果，从第一音频中确定出至少一个与待匹配视频相匹配的第二音频。

具体的，用于进行数据匹配的服务器或终端，可以将至少一个第二音频发送给视频创作者所对应的终端，接着接收视频创作者所对应的终端返回的选择指令，根据上述选择指令从第二音频中确定出一个目标音频，以根据目标音频对待匹配视频进行配乐。

在本申请实施例中，以匹配结果包括相匹配或不匹配中的任一项为例，视频创作者可以获取匹配结果为相匹配的多个数据对所对应的第二音频，作为候选配乐音频，然后根据创作者的个性化选择从中确定最终的目标配乐音频，以完成待匹配视频的配乐。基于视频创作者的个性化选择从多个第二音频中确定目标音频，可以激发创作者的创作热情，增强视频配乐的趣味性。

本申请实施例中提供了一种可能的实现方式，在一个可能的实现方式中，上述融合特征包括根据文本特征和音频特征生成的第一融合特征，和根据文本特征和画面特征生成的第二融合特征。

上述根据至少一个融合特征计算音频特征和画面特征的相似度，包括：

将第一特征与第二特征的特征差值信息，作为相似度。

其中，当第一特征为第一融合特征时，第二特征为画面特征或者第二融合特征；当第一特征为音频特征时，第二特征为第二融合特征。

具体的，上述特征差值信息可以包括第一特征和第二特征的马氏距离、汉明距离或者余弦相似度等，在本申请实施例中不做具体限定。

在一些实施方式中，在进行特征融合时，匹配模型中的特征融合单元可以将文本特征和音频特征融合，得到第一融合特征；接着匹配模型中的特征预测单元基于第一融合特征与画面特征进行预测，计算待匹配视频与第一音频之间的相似度以得到匹配结果。上述实施方式基于音频到视频的匹配角度，多维度挖掘音频的特征信息，进而实现为音频匹配到多个合适的视频。

在另一些实施方式中，在进行特征融合时，匹配模型中的特征融合单元可以将文本特征和画面特征融合，得到第二融合特征；接着匹配模型中的特征预测单元基于第二融合特征与音频特征进行预测，计算待匹配视频与第一音频之间的相似度以得到匹配结果。上述实施方案基于视频到音频的匹配角度，多维度挖掘视频的特征信息，进而实现为视频匹配到多个合适的音频。

在另一些实施方式中，在进行特征融合时，匹配模型中的特征融合单元可以将文本特征和音频特征融合，得到第一融合特征，然后将文本特征和画面特征融合，得到第二融合特征；接着匹配模型中的特征预测单元基于第一融合特征与第二融合特征进行预测，计算待匹配视频与第一音频之间的相似度以得到匹配结果。本实施方式在前两个实施方式的基础上进一步增加第一特征和第二特征的特征阶数，充分从多维度进行视频和音频的匹配，提升匹配结果的可靠度。

在本申请实施例中，可以基于实际应用选取上述三种不同的特征匹配方式中的任一项进行数据匹配，也可以将上述特征匹配方式中的至少两项得到至少两个匹配结果，再结合至少两个匹配结果确定最终的匹配结果；本申请通过多维度的特征融合和高阶数的特征匹配，有效提升了数据匹配结果的可信度。

本申请实施例中提供了一种可能的实现方式，上述特征差值信息是基于如下方式计算得到的：

S301，确定音频模态的第一中心向量，和视频模态的第二中心向量。

其中，上述第一中心向量和第二中心向量可以是基于匹配模型的参数确定的。第一中心向量用于进行音频模态到融合模态的跨模态映射，第二中心向量用于进行视频模态到融合模态的跨模态映射。

S302，将第一特征映射到第一中心向量，得到音频映射向量；将第二特征映射到第二中心向量，得到视频映射向量。

具体的，用于进行数据匹配的服务器或终端，可以基于第一特征与第一中心向量的乘积作为音频模态到融合模态的映射，以得到音频映射向量。对应的，可以基于第二特征与第二中心向量的乘积作为视频模态到融合模态的映射，以得到视频映射向量。

S303，将音频映射向量和视频映射向量的乘积作为特征差值信息。

在本申请中，由于视频映射向量和音频映射向量均为融合模态的映射，可以将样本视频向量和样本视频向量的乘积作为第一特征和第二特征的特征差值信息。

本申请实施例通过第一中心向量和第二中心向量，对音视频的特征数据进行跨模态的映射，进而得到跨模态中的音频映射向量和视频映射向量，实现了不同模态的第一特征和第二特征的差异信息计算，为后续确定准确的匹配结果打下良好基础。

本申请实施例中提供了一种可能的实现方式如图4所示，上述匹配模型是通过如下方式训练得到的：

S401，获取多个第一样本数据对和第二样本数据对。

其中，每一第一样本数据对或第二样本数据对包括一样本视频和一个样本视频对应的样本音频；第一样本数据对的标准匹配结果表征样本视频相对于样本音频的匹配度，第二样本数据对的标准匹配结果表征样本音频相对于样本视频的匹配度。上述样本音频和样本视频是从发布音视频的特定应用程序的历史记录中获取得到的。

具体的，上述特定应用程序可以是基于MCN(Multi-Channel Network，多频道网络)网络以提供PGC内容的应用程序。

其中，MCN是一种多频道网络的产品形态，是一种新兴网红经济下的运作模式，这种模式可以很好的实现与PGC内容的结合，通过资本来实现引流、流量变现等手段，为MCN内容生产者(公司以及网红达人)带来经济效益。MCN内容生产者可以通过上述应用程序发布配乐好的视频，该应用程序基于预设的推荐规则向消费者推荐分发视频。上述历史记录可以是内容生产者发布音视频的活动日志，还可以是消费者观看音视频的活动日志。

S402，通过第一样本数据对和第二样本数据对对初始匹配模型进行至少一次优化操作，直至训练总损失符合预设条件，将训练总损失符合预设条件的初始匹配模型作为匹配模型。

其中，优化操作包括：

S4021，通过初始匹配模型分别预测针对第一样本数据对的第一预测匹配结果和针对第二样本数据对的第二预测匹配结果。

具体的，如图5所示，针对每一样本数据对，可以基于如下方式进行预测，其中样本数据对可以是第一样本数据和第二样本数据对中的任一项：

(a)通过初始匹配模型分别提取样本数据对中的样本音频特征、样本画面特征和样本文本特征。

其中，上述初始匹配模型包括图像特征提取单元、音频特征提取单元和文本特征提取单元。

具体的，可以抽取样本视频的一组帧图像流，通过图像特征提取单元获取帧图像流的样本画面特征；同时，可以通过音频特征提取单元获取样本音频的样本音频特征；此外，还可以获取样本数据对的文本属性信息，通过文本特征提取单元获取文本属性信息的样本文本特征。

其中，样本数据对的文本属性信息可以包括样本视频的标题、样本视频的分类信息、样本视频的标签信息、样本音频的歌词和歌名、样本音频的分类信息等。进一步地，上述文本特征提取单元可以基于信息流大规模文本语料的语料训练Bert(BidirectionalEncoder Representations from Transformers，基于转换器的双向编码表征)模型进行特征提取。

(b)将样本文本特征和样本音频特征融合得到第一样本融合特征。

具体的，初始匹配模型还可以包括特征融合单元；可以通过上述特征融合单元将样本文本特征和样本音频特征融合，得到第一样本融合特征。

其中，上述特征融合单元是Transformer(转换器，一种深度模型)结构的模型，用于进行跨模态的融合。

(c)通过初始匹配模型的特征预测单元，根据第一样本融合特征和样本画面特征得到目标预测匹配结果。

具体的，初始匹配模型还可以包括特征预测单元；特征预测单元可以先将第一样本融合特征映射到音频模态的中心向量，得到样本音频映射向量；同时，将样本画面特征映射到视频模态的中心向量，得到样本视频映射向量；最后将样本音频映射向量和样本视频映射向量的乘积作为对应样本音频和样本视频的相似度，以得到目标匹配结果。

其中，当上述样本数据对为第一样本数据对时，对应的预测匹配结果为第一预测匹配结果；当上述样本数据对为第二样本数据对时，对应的预测匹配结果为第二预测匹配结果。

S4022，基于第一预测匹配结果和第一样本数据对的标准匹配结果的差异确定第一损失；基于第二预测匹配结果和第二样本数据对的标准匹配结果的差异确定第二损失。

具体的，可以基于如下损失函数D(y_i)计算目标损失；其中，目标损失包括第一损失和第二损失。

其中，y_i为样本数据对的标准匹配结果，x_1j为第一样本融合特征，x_2j为样本画面特征，表示音频模态的第一中心向量，表示视频模态的第二中心向量，可以表征样本视频向量和样本视频向量之间的跨模态距离即差值信息，s和m为超参数。

其中，当上述样本数据对为第一样本数据对时，对应的目标损失为第一损失；当上述样本数据对为第二样本数据对时，对应的目标损失为第二损失。第一损失可以表征第一预测匹配结果和第一样本数据对的标准匹配结果的差值；第二损失可以表征第二预测匹配结果和第二样本数据对的标准匹配结果的差值。

进一步地，上述标准匹配结果可以是基于预设对象针对用于发布音视频的特定应用程序的反馈操作信息所确定的。该反馈操作信息是音视频观看者基于对应终端触发的。

S4023，基于第一损失和第二损失确定训练总损失。

在一些实施方式中，可以将第一损失和第二损失的和作为训练总损失。

在另一些实施方式中，还可以对样本画面特征进行分类处理得到第三损失，将第一损失、第二损失和第三损失的和作为训练总损失。其中，第三损失的计算方法将在下文详细介绍。

本申请实施例中，通过两类不同的样本数据对分别进行模型训练，其中，第一样本数据对可以表征视频到音频的匹配，第二样本数据对可以表征音频到视频的匹配；本申请基于第一样本数据对对应的第一损失和第二样本数据对对应的第二损失，对初始匹配模型进行训练；使得训练后的匹配模型可以实现一个音频对多个视频的匹配，和一个视频对多个音频的匹配，从多种匹配角度提升匹配模型的预测精度。

本申请实施例中提供了一种可能的实现方式，基于第一损失和第二损失确定训练总损失，包括：

S501，针对第一样本数据对和第二样本数据对中的至少一项，获取对应样本视频的样本画面特征。

具体的，可以抽取对应样本视频中的一组图像流，通过图像特征提取单元获取该样本视频对应的样本画面特征。

S502，根据样本画面特征进行特征分类，得到样本视频的分类结果。

具体的，可以基于预设的分类函数对样本画面特征进行特征分类，得到对应的分类结果。上述分类函数可以是Logistic(一种线性回归函数)函数。

S503，将分类结果和样本视频的标准分类结果的差值作为第三损失。

其中，上述样本视频的标准分类结果可以是基于预设对象针对用于发布音视频的特定应用程序的反馈指令确定的。上述反馈指令可以是视频的发布者在上传视频时基于对应终端触发的。例如，视频发布者在特定应用程序中上传视频时，可以根据视频的内容选择或输入该视频的分类标签作为样本视频的标准分类结果。

具体的，可以根据逻辑函数计算分类结果与样本视频的标准分类结果的差值，以得到第三损失。其中，上述逻辑函数可以是Softmax(归一化指数函数)函数。

S504，将第一损失、第二损失和第三损失的加和作为训练总损失。

在本申请实施例中，通过在初始匹配模型中设置匹配度预测和画面分类等多个任务，可以使得初始匹配模型综合第一损失、第二损失和第三损失，有效学习到样本数据对中的视频类型和音视频数据的匹配信息等多维特征，从多个维度增强了匹配模型的训练效果，进而使优化得到的匹配模型更够更精准的预测匹配结果。

本申请实施例中提供了一种可能的实现方式，如图6所示，上述标准匹配结果是基于如下方式确定的：

S601，从特定应用程序的历史记录中，获取多个样本视频和样本音频。

其中，上述历史记录是内容生产者发布音视频的活动日志。上述活动日志中包括样本音频对样本视频的匹配数据，基于样本视频对样本音频的匹配数据。

S602，获取与每一样本视频对应的多个样本音频作为第一样本数据对，获取与每一样本音频对应的多个样本视频作为第二样本数据对。

本申请实施例中，第一样本数据对可以表征视频到音频的匹配关系，第二样本数据对可以表征音频到视频的匹配关系。

S603，针对每一第一样本数据对，计算样本视频相对于对应样本音频的第一匹配率；基于预设对象针对特定应用程序的反馈操作信息计算样本视频的第一播放数据；基于第一匹配率和第一播放数据确定第一样本数据对的标准匹配结果。

具体的，可以针对样本视频对样本音频的匹配数据进行计算，得到第一匹配率：

内容生产者发布音视频的活动日志的数据格式可以包括(t，uid_i，vid_v，mid_m，exp_i，v，clk_i，v)，其中t为上报时间戳，uid_i表征用户i，vid_v表征视频v，mid_m表征音频m，exp_i，v为视频v对音频m的曝光次数，clk_i，v为视频v被音频m的匹配次数。上述曝光次数，是内容发布者在为视频v配乐时，配乐系统针对视频v将音频m作为备选匹配项进行展示时的曝光次数。

可以根据视频v对上述活动日志所包括的数据进行聚合，得到视频v对样本音频的匹配数据包括(vid_v，exp_v，clk_v，ctr_v)；其中，exp_v为视频v的总曝光数，clk_v为视频v的总匹配数，ctr_v为视频v相对于样本音频的平均匹配率。

其中，exp_v＝∑_i∈Uexp_i，v； (2)

clk_v＝∑_i∈Uclk_i，v； (3)

ctr_v＝clk_v/exp_v； (4)

上述U为使用应用程序的内容生产者的集合。

进一步地，可以基于如下公式计算样本视频对样本音频的第一匹配率：

上述ctr₁为第一匹配率，a为活动日志中样本视频的总数量，V为样本视频的集合。

在本申请实施例中，样本视频的第一播放数据可以包括视频转发次数，点赞次数和播放完成率。可以预先设置第一播放数据的验证条件：例如视频转发次数大于五万次，点赞次数大于五千次，或者视频播放完成率大于60％。当第一播放数据满足上述验证条件中的任一项，且第一匹配率大于预设阈值，则样本数据对为正样本，其标准匹配结果为相匹配；否则，样本数据对为负样本，其标准匹配结果为不匹配。

S604，针对每一第二样本数据对，计算样本音频相对于对应样本视频的第二匹配率；基于预设对象针对特定应用程序的反馈操作信息计算样本音频的第二播放数据；当第二匹配率和第二播放数据确定第二样本数据对的标准匹配结果。

内容生产者发布音视频的活动日志的数据格式还可以包括(t，uid_i，vid_v，mid_m，exp_i，m，clk_i，m)，其中，exp_i，m为音频m对视频v的曝光次数，clk_i，m为音频m被视频v的匹配次数。上述曝光次数，是内容发布者在为视频v配乐时，配乐系统将音频m作为备选匹配项为视频v进行展示时的曝光次数。

对应的，可以根据音频m对上述活动日志所包括的数据进行聚合，得到音频m对样本视频的匹配数据包括(vid_m，exp_m，clk_m，ctr_m)；其中，exp_m为音频m的总曝光数，clk_m为音频m的总匹配数，ctr_m为音频m相对于样本视频的平均匹配率。

其中，exp_m＝∑_i∈Uexp_i，m； (6)

clk_m＝∑_i∈Uclk_i，m； (7)

ctr_m＝clk_m/exp_m； (8)

上述U为使用应用程序的内容生产者的集合。

进一步地，可以基于如下公式计算样本音频对样本视频的第二匹配率：

上述ctr₂为第二匹配率，b为活动日志中样本音频的总数量，M为样本音频的集合。

在本申请实施例中，样本音频的第二播放数据可以包括音频点播次数，点赞次数和评论次数。可以预先设置第二播放数据的验证条件，当第二播放数据满足预设验证条件，且第二匹配率大于预设阈值，则样本数据对为正样本，其标准匹配结果为相匹配；否则，样本数据对为负样本，其标准匹配结果为不匹配。

本申请实施例通过对特定应用程序的历史记录进行解析，以获取第一样本数据对和第二样本数据对，从音频到视频的匹配和视频到音频的匹配这两个角度确定各样本数据对的标准匹配结果，有效保证了训练数据的可靠性；同时，在确定标准匹配结果时还考虑了视频和音频数据的后验数据及第一播放数据和第二播放数据，充分挖掘了样本数据对的多维度的信息，保证了模型训练的精准性，为后续匹配模型的预测打下良好基础。

本申请实施例中提供了一种可能的实现方式，如图7所示，上述提取待匹配视频的画面特征，包括：

S701，将待匹配视频划分为多个视频片段。

在一些实施方式中，用于进行数据匹配的服务器或终端，可以基于预设时间间隔或帧间隔将待匹配视频划分为多个视频片段，还可以按照时间将待匹配视频均分为多个视频片段。

在另一些实施方式中，用于进行数据匹配的服务器或终端，可以对待匹配视频中的关键对象进行识别，并基于识别出的关键对象将待匹配视频划分为多个视频片段。例如，上述关键对象可以包括人物、风景或建筑等，可以将待匹配视频划分为人物视频片段、风景视频片段和建筑视频片段等。

S702，从每一视频片段中抽取一画面帧，分别提取每一画面帧的局部特征。

具体的，用于进行数据匹配的服务器或终端，可以根据每一视频片段的中间时间点抽取一画面帧，以避免连续帧之间的信息冗余，以便尽可能提取到更多待匹配视频的特征信息。然后可以基于图像特征提取单元提取每一画面帧的局部特征。例如，图像特征提取单元可以包括RestNet(残差网络)或者Xception(谷歌公司提出的一种卷积网络模型结构)网络，以根据RestNet或者Xception网络提取每一画面帧的局部特征。

S703，针对每一局部特征进行降维分解，得到多个局部分解特征；将多个局部分解特征进行全局聚合，得到画面特征。

其中，图像特征提取单元还可以包括NeXtVLAD(next dimension of resnetVector of Locally Aggregated Descriptors，一种用于大规模视频分类的聚集帧级特征的有效神经网络)。

具体的，可以基于NeXtVLAD网络的中间层对每一局部特征进行降维分解后，再进行聚合处理，得到待匹配视频的画面特征。

在本申请实施例中，可以通过Xception网络提取待匹配视频的帧级别特征即局部特征，然后采用NeXtVLAD网络对帧级别特征进行降维和聚合，得到每一画面帧的全局特征向量，最后将上述全局特征向量的加和平均值作为待匹配视频的画面特征。

本申请实施例通过多层结构的图像特征提取单元，分层次提取待匹配视频的画面特征，先提取帧级别的特征信息，然后对帧级别的特征信息进行聚合和降维，去除特征的冗余信息，以得到准确的画面特征。同时，对帧级别的特征信息进行降维，可以减少后续特征处理的计算量，并加快特征的处理速度，以实现对待匹配视频的精准特征提取。

本申请实施例中提供了一种可能的实现方式，上述提取第一音频的音频特征，包括：

S801，截取第一音频在预设时间段内的时域数据；将时域数据转化为预设声音频率下的频域数据。

在本申请实施例中，通常选取视频前5分钟的16kHz的时域音频数据，使用25ms的汉明时窗，10ms的帧移对时域音频数据进行短时傅里叶变换得到频谱图即频域数据。

S802，对频域数据进行滤波处理，得到第一音频的音频特征。

具体的，可以基于梅尔滤波器组对频域数据进行滤波处理，然后基于预设音频特征提取单元提取滤波处理后的频域数据，得到第一音频的音频特征。

在一些实施方式中，如图8所示，可以将频域数据映射到64阶梅尔滤波器组中进行滤波处理，得到梅尔声谱，梅尔声谱包括960ms的时长组帧，帧间没有重叠，每一帧时长10ms，包含64个梅尔频带；然后使用VGGish(基于tensorflow的视觉几何群网络，其中TensorFlow是一个基于数据流编程的符号数学系统)提取梅尔声谱的特征信息作为第一音频的音频特征。

本申请实施例通过对第一音频的时域数据进行频域转换，得到预设声音频率下的频域数据，然后对频域数据进行滤波处理，能够有效提取音频特征，增强音频特征的表达能力。

为了更好的理解上述数据匹配方法，下面结合图9详细阐述一个本申请的数据匹配方法的示例，该方法可以应用于智能配乐系统900，该智能配乐系统包括内容生产端9001、内容消费端9002、内容分发服务器9003和智能配乐服务器9004，该方法包括如下步骤：

S901，内容生产端9001编辑和发布音视频内容，并生成发布音视频的活动日志；内容分发服务器9003将内容生产端9001所发布的音视频内容进行审核和去重，按照一定的推送规则推送给内容消费端9002。

S902，内容消费端9002接收和观看上述音视频内容，并生成针对音视频内容的反馈操作信息。

其中，上述反馈操作信息包括点赞、转发、观看完成度。

S903，智能配乐服务器9004获取发布音视频的活动日志，并从中获取多个样本视频和样本音频。

其中，上述活动日志中包括样本音频对样本视频的匹配数据、基于样本视频对样本音频的匹配数据。

S904，获取与每一样本视频对应的多个样本音频作为第一样本数据对，获取与每一样本音频对应的多个样本视频作为第二样本数据对。

S905，针对每一第一样本数据对，计算样本视频相对于对应样本音频的第一匹配率；基于预设对象针对特定应用程序的反馈操作信息计算样本视频的第一播放数据；基于第一匹配率和第一播放数据确定第一样本数据对的标准匹配结果。

对应的，针对每一第二样本数据对，计算样本音频相对于对应样本视频的第二匹配率；基于预设对象针对特定应用程序的反馈操作信息计算样本音频的第二播放数据；当第二匹配率和第二播放数据确定第二样本数据对的标准匹配结果。

S906，将上述第一样本数据对和第二样本数据对作为训练用的样本数据对，通过样本数据对和对应的标准匹配结果对初始匹配模型进行至少一次优化操作，直至训练总损失符合预设条件，将训练总损失符合预设条件的初始匹配模型作为匹配模型。

其中，优化操作包括：

通过初始匹配模型分别提取样本数据对中的样本音频特征、样本画面特征和样本文本特征；

将样本文本特征和样本音频特征融合得到第一样本融合特征；

基于第二样本融合特征和样本画面特征进行预测，得到样本数据对的预测匹配结果；对样本画面特征进行分类，得到样本视频画面的分类结果；

将第一样本数据对所对应的预测匹配结果和标准匹配结果的差值作为第一损失，并将第二样本数据对所对应的预测匹配结果和标准匹配结果的差值作为第二损失；将样本视频画面的分类结果与样本视频的标准分类结果的差值计算第三损失；

将第一损失、第二损失和第三损失的加和作为训练总损失。

S907，智能配乐服务器9004获取内容生产端9001上传的待匹配视频，从多个样本音频中筛选出与待匹配视频相关联的多个第一音频；基于待匹配视频和多个第一音频生成多个数据对。

S908，针对每一数据对，通过训练好的匹配模型执行预测操作，得到数据对中待匹配视频与第一音频之间的对应的匹配结果。

S909，智能配乐服务器9004基于所得到的多个匹配结果，从第一音频中确定出至少一个与待匹配视频相匹配的第二音频；并将上述至少一个第二音频发送给内容生产端9001；接收内容生产端9001返回的选择指令，根据上述选择指令从第二音频中确定出一个目标音频，以根据目标音频对待匹配视频进行配乐。

本申请实施例提供了一种数据匹配装置，如图10所示，该数据匹配装置100可以包括：筛选模块1001、生成模块1002、预测模块1003和确定模块1004；

其中，筛选模块1001，用于获取待匹配视频，从多个样本音频中筛选出与待匹配视频相关联的多个第一音频；

生成模块1002，用于基于待匹配视频和多个第一音频生成多个数据对；其中，每一数据对包括待匹配视频和一个对应的第一音频；

预测模块1003，用于针对每一数据对，通过训练好的匹配模型执行预测操作，得到数据对中待匹配视频与第一音频之间的对应的匹配结果；

其中，预测操作包括：

确定模块1004，用于基于所得到的多个匹配结果，从第一音频中确定出至少一个与待匹配视频相匹配的第二音频。

本申请实施例中提供了一种可能的实现方式，上述融合特征包括根据文本特征和音频特征生成的第一融合特征，和根据文本特征和画面特征生成的第二融合特征；

上述预测模块1003在根据至少一个融合特征计算音频特征和画面特征的相似度时，用于：

将第一特征映射到第一中心向量，得到音频映射向量；

将第二特征映射到第二中心向量，得到视频映射向量；

将音频映射向量和视频映射向量的乘积作为特征差值信息。

本申请实施例中提供了一种可能的实现方式，上述匹配模型是通过如下方式训练得到的：

其中，优化操作包括：

基于第一损失和第二损失确定训练总损失。

本申请实施例中提供了一种可能的实现方式，上述预测模块1003在基于第一损失和第二损失确定训练总损失时，用于：

将第一损失、第二损失和第三损失的加和作为训练总损失。

本申请实施例中提供了一种可能的实现方式，上述标准匹配结果是基于如下方式确定的：

本申请实施例中提供了一种可能的实现方式，上述预测模块1003在提取待匹配视频的画面特征时，用于：

将待匹配视频划分为多个视频片段；

针对每一局部特征进行降维分解，得到多个局部分解特征；

将多个局部分解特征进行全局聚合，得到画面特征。

本申请实施例的装置可执行本申请实施例所提供的方法，其实现原理相类似，本申请各实施例的装置中的各模块所执行的动作是与本申请各实施例的方法中的步骤相对应的，对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述，此处不再赘述。

本申请实施例中提供了一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，该处理器执行上述计算机程序以实现数据匹配方法的步骤，与相关技术相比可实现：本申请实施例基于待匹配视频与多个第一音频生成多个数据对，通过训练好的匹配模型针对每一数据对执行预测操作，得到数据对中待匹配视频与第一音频之间的对应的匹配结果，并根据所得到的多个匹配结果，从第一音频中确定出至少一个与待匹配视频相匹配的第二音频。其中，在执行预测操作时，将从数据对中提取得到的音频特征、画面特征中的至少一项与文本特征进行特征融合，得到至少一个融合特征；并根据至少一个融合特征计算音频特征和画面特征的相似度；进而完成基于特征融合和特征相似度计算的音视频数据匹配。本申请实施例通过多模态特征信息的特征融合提升了匹配结果的可靠性，实现了从视频、音频和文本多维度进行数据匹配，提升了视频和音频的内容贴合度。

在一个可选实施例中提供了一种电子设备，如图11所示，图11所示的电子设备1100包括：处理器1101和存储器1103。其中，处理器1101和存储器1103相连，如通过总线1102相连。可选地，电子设备1100还可以包括收发器1104，收发器1104可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器1104不限于一个，该电子设备1100的结构并不构成对本申请实施例的限定。

处理器1101可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器1101也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线1102可包括一通路，在上述组件之间传送信息。总线1102可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线1102可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1103可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质，在此不做限定。

存储器1103用于存储执行本申请实施例的计算机程序，并由处理器1101来控制执行。处理器1101用于执行存储器1103中存储的计算机程序，以实现前述方法实施例所示的步骤。

其中，电子设备包括但不限于：诸如移动电话、笔记本电脑、PAD等等移动终端以及诸如数字TV、台式计算机等等固定终端。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行时实现如下情况：

其中，预测操作包括：

将音频特征、画面特征中的至少一项与文本特征进行特征融合，得到至少一个融合特征；根据至少一个融合特征计算音频特征和画面特征的相似度；基于相似度确定待匹配视频与第一音频之间的匹配结果。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除图示或文字描述以外的顺序实施。

应该理解的是，虽然本申请实施例的流程图中通过箭头指示各个操作步骤，但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明，否则在本申请实施例的一些实施场景中，各流程图中的实施步骤可以按照需求以其他的顺序执行。此外，各流程图中的部分或全部步骤基于实际的实施场景，可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行，这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下，这些子步骤或者阶段的执行顺序可以根据需求灵活配置，本申请实施例对此不限制。

以上所述仅是本申请部分实施场景的可选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请的方案技术构思的前提下，采用基于本申请技术思想的其他类似实施手段，同样属于本申请实施例的保护范畴。

Claims

1.一种数据匹配方法，其特征在于，包括：

获取待匹配视频，从多个样本音频中筛选出与所述待匹配视频相关联的多个第一音频；

基于所述待匹配视频和所述多个第一音频生成多个数据对；其中，每一所述数据对包括所述待匹配视频和一个对应的第一音频；

基于所得到的多个匹配结果，从所述第一音频中确定出至少一个与待匹配视频相匹配的第二音频；

其中，所述预测操作包括：

提取待匹配视频的画面特征，并提取第一音频的音频特征和所述数据对的文本属性的文本特征；

将所述音频特征、所述画面特征中的至少一项与所述文本特征进行特征融合，得到至少一个融合特征；

根据所述至少一个融合特征计算所述音频特征和所述画面特征的相似度；

基于所述相似度确定所述待匹配视频与第一音频之间的匹配结果。

2.根据权利要求1所述的方法，其特征在于，所述融合特征包括根据所述文本特征和所述音频特征生成的第一融合特征，和根据所述文本特征和所述画面特征生成的第二融合特征；

所述根据所述至少一个融合特征计算所述音频特征和所述画面特征的相似度，包括：

将第一特征与第二特征的特征差值信息，作为所述相似度；其中，当所述第一特征为所述第一融合特征时，所述第二特征为画面特征或者第二融合特征；当所述第一特征为音频特征时，所述第二特征为第二融合特征。

3.根据权利要求2所述的方法，其特征在于，所述特征差值信息是基于如下方式计算得到的：

将所述第一特征映射到所述第一中心向量，得到音频映射向量；

将所述第二特征映射到所述第二中心向量，得到视频映射向量；

将所述音频映射向量和所述视频映射向量的乘积作为所述特征差值信息。

4.根据权利要求1所述的方法，其特征在于，所述匹配模型是通过如下方式训练得到的：

获取多个第一样本数据对和第二样本数据对；其中，每一所述第一样本数据对或第二样本数据对包括一样本视频和一个所述样本视频对应的样本音频；所述第一样本数据对的标准匹配结果表征样本视频相对于样本音频的匹配度，所述第二样本数据对的标准匹配结果表征样本音频相对于样本视频的匹配度；

通过所述第一样本数据对和所述第二样本数据对对初始匹配模型进行至少一次优化操作，直至训练总损失符合预设条件，将训练总损失符合预设条件的初始匹配模型作为所述匹配模型；

其中，所述优化操作包括：

基于所述第一预测匹配结果和所述第一样本数据对的标准匹配结果的差异确定第一损失；

基于所述第二预测匹配结果和所述第二样本数据对的标准匹配结果的差异确定第二损失；

基于所述第一损失和所述第二损失确定所述训练总损失。

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一损失和所述第二损失确定所述训练总损失，包括：

针对所述第一样本数据对和所述第二样本数据对中的至少一项，获取对应样本视频的样本画面特征；

根据所述样本画面特征进行特征分类，得到所述样本视频的分类结果；

将所述分类结果和所述样本视频的标准分类结果的差值作为第三损失；

将所述第一损失、所述第二损失和所述第三损失的加和作为所述训练总损失。

6.根据权利要求4所述的方法，其特征在于，所述标准匹配结果是基于如下方式确定的：

针对每一第一样本数据对，计算所述样本视频相对于对应样本音频的第一匹配率；基于预设对象针对所述特定应用程序的反馈操作信息计算所述样本视频的第一播放数据；基于所述第一匹配率和所述第一播放数据确定所述第一样本数据对的标准匹配结果；

针对每一第二样本数据对，计算所述样本音频相对于对应样本视频的第二匹配率；基于预设对象针对所述特定应用程序的反馈操作信息计算所述样本音频的第二播放数据；当所述第二匹配率和所述第二播放数据确定所述第二样本数据对的标准匹配结果。

7.根据权利要求1所述的方法，其特征在于，所述提取待匹配视频的画面特征，包括：

将所述待匹配视频划分为多个视频片段；

从每一视频片段中抽取一画面帧，分别提取每一所述画面帧的局部特征；

针对每一所述局部特征进行降维分解，得到多个局部分解特征；

将所述多个局部分解特征进行全局聚合，得到所述画面特征。

8.一种数据匹配装置，其特征在于，包括：

筛选模块，用于获取待匹配视频，从多个样本音频中筛选出与所述待匹配视频相关联的多个第一音频；

生成模块，用于基于所述待匹配视频和所述多个第一音频生成多个数据对；其中，每一所述数据对包括所述待匹配视频和一个对应的第一音频；

其中，所述预测操作包括：

提取待匹配视频的画面特征，并提取第一音频的音频特征和所述数据对的文本属性的文本特征；将所述音频特征、所述画面特征中的至少一项与所述文本特征进行特征融合，得到至少一个融合特征；根据所述至少一个融合特征计算所述音频特征和所述画面特征的相似度；基于所述相似度确定所述待匹配视频与第一音频之间的匹配结果；

确定模块，用于基于所得到的多个匹配结果，从所述第一音频中确定出至少一个与待匹配视频相匹配的第二音频。

9.一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，其特征在于，所述处理器执行所述计算机程序以实现权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。