CN112449231A

CN112449231A - 多媒体文件素材的处理方法、装置、电子设备及存储介质

Info

Publication number: CN112449231A
Application number: CN201910817647.6A
Authority: CN
Inventors: 曹强; 李明; 马学跃; 陈海中
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2021-03-05
Anticipated expiration: 2039-08-30
Also published as: CN112449231B

Abstract

本发明提供了一种多媒体文件素材的处理方法、装置、电子设备及存储介质；方法包括：响应于针对视频素材添加音频素材的编辑操作，在音频素材库页面中呈现候选的音频素材；响应于针对候选的音频素材的选择操作，在音频素材库页面的预览框中，呈现视频素材与所述选择操作的目标音频素材的合成效果；响应于针对预览框中的音频素材剪辑入口的触发操作，从音频素材库页面切换到预览页面，并在预览页面中呈现音频素材剪辑组件；通过音频素材剪辑组件从目标音频素材中剪辑与视频素材的时长匹配的音频素材片段，在预览页面中呈现视频素材与被剪辑的音频素材片段的合成效果。通过本发明，能够提升视频素材的编辑效率和质量。

Description

多媒体文件素材的处理方法、装置、电子设备及存储介质

技术领域

本发明涉及多媒体技术，尤其涉及一种多媒体文件素材的处理方法、装置、电子设备及存储介质。

背景技术

基于互联网的媒体文件的创作和分享成为互联网社交的重要形态，例如原创的视频内容的创作和分享平台，任何用户都可以在注册为用户后编辑视频内容进行分享，并在分享的过程中形成多元化的社交关系。

以短视频为例，短视频是一种互联网内容传播方式，通常是在互联网传播的时长在5分钟以内的视频；随着移动终端普及和网络的提速，短平快的短视频获得各个网络平台和用户的青睐。

编辑个性化的多媒体文件进行分享是互联网用户的普遍诉求，多媒体文件的编辑有赖于各种素材，以编辑视频文件为例，用户需要为视频素材寻找合适的音频素材，组合二者形成待分享的媒体文件。

然而，由于音频素材的多样性、且多数用户不具有专业的编辑技能，导致难以找到合适的音频素材添加到视频素材中，多媒体素材的编辑效率和质量。

发明内容

本发明实施例提供一种多媒体文件素材的处理方法、装置、电子设备及存储介质，能够提升多媒体素材的编辑效率和质量。

本发明实施例的技术方案是这样实现的：

本发明实施例提供一种多媒体文件素材的处理方法，包括：

响应于针对视频素材添加音频素材的编辑操作，在音频素材库页面中呈现候选的音频素材；

响应于针对所述候选的音频素材的选择操作，在所述音频素材库页面的预览框中，呈现所述视频素材与所述选择操作的目标音频素材的合成效果；

响应于针对所述预览框中的音频素材剪辑入口的触发操作，从所述音频素材库页面切换到预览页面，并在所述预览页面中呈现音频素材剪辑组件；

通过所述音频素材剪辑组件从目标音频素材中剪辑与所述视频素材的时长匹配的音频素材片段，在所述预览页面中呈现所述视频素材与被剪辑的音频素材片段的合成效果。

本发明实施例提供一种多媒体文件素材的处理装置，包括：

音频素材库页面单元，用于响应于针对视频素材添加音频素材的编辑操作，在音频素材库页面中呈现候选的音频素材；

预览框单元，用于响应于针对所述候选的音频素材的选择操作，在所述音频素材库页面的预览框中，呈现所述视频素材与所述选择操作的目标音频素材的合成效果；

预览页面单元，用于响应于针对所述预览框中的音频素材剪辑入口的触发操作，从所述音频素材库页面切换到预览页面，并在所述预览页面中呈现音频素材剪辑组件；

所述预览页面单元，用于通过所述音频素材剪辑组件从目标音频素材中剪辑与所述视频素材的时长匹配的音频素材片段，在所述预览页面中呈现所述视频素材与被剪辑的音频素材片段的合成效果。

上述方案中，所述音频素材库页面单元，还用于：

在所述音频素材库页面中呈现至少两个候选的音频素材类型；

响应于更多类型的查看操作，在所述音频素材库页面中呈现区别于所述至少两个候选的音频素材类型的音频素材类型、或者至少部分区别于所述至少两个候选的音频素材类型的音频素材类型；

响应于针对所述音频素材类型的查看操作，在所述音频素材库页面中呈现被选中的音频素材类型中包括的音频素材。

上述方案中，所述音频素材库页面单元，还用于：

获取所述视频素材的主题相似的音频素材类型，并对所获取的音频素材类型进行与所述视频素材的主题之间的相似度的降序排序；

将降序排序中在前的部分音频素材类型根据用户画像数据进行筛选，以过滤掉与所述用户画像数据不匹配的音频素材类型；

将过滤后得到的至少两个音频素材类型确定为候选的音频素材类型。

上述方案中，所述音频素材库页面单元，还用于：

获取所述至少两个候选的音频素材类型被用户选用的频率，当未获取到时，获取所述至少两个候选的音频素材类型被互动用户选用的频率，所述互动用户为与所述用户之间曾经发生多媒体文件的分享、评论和转发至少之一；

当所述至少两个音频素材类型被选用的频率小于选用频率阈值时，在所述音频素材库页面中呈现区别于所述至少两个候选的音频素材类型的音频素材类型；

当所述至少两个音频素材类型被选用的频率大于所述选用频率阈值时，在所述音频素材库呈现至少部分区别于所述至少两个候选的音频素材类型的音频素材类型。

上述方案中，所述预览页面单元，还用于执行以下至少之一：

在所述音频素材库页面中呈现搜索组件，响应于在所述搜索组件中接收到的关键字，实时呈现与所述关键字匹配的音频素材；

在所述音频素材库页面中呈现推荐使用的音频素材，所述推荐使用的音频素材是优先级排序中排序在前的部分音频素材；

在所述音频素材库页面中呈现被使用的音频素材和/或被收藏的音频素材。

上述方案中，所述预览页面单元，还用于：

当存在已经拍摄的视频素材时，在所述音频素材库页面的预览框中，呈现所述预先拍摄的视频素材与所述选择操作的目标音频素材的合成效果；

当不存在已经拍摄的视频素材时，在所述音频素材库页面中预览框中，呈现视频素材样本与所述选择操作的目标音频素材的合成效果。

上述方案中，所述预览框单元，还用于：

响应于针对所述预览框的模式切换操作，缩小所述预览框的尺寸以增大所述音频素材库页面中用于呈现所述音频素材的区域；

响应于针对所述区域中呈现的候选的音频素材的重新选择操作，在所述预览框中，呈现所述视频素材与所述重新选择操作的目标音频素材的合成效果。

上述方案中，所述预览框单元，还用于：

当所述预览框的尺寸缩小时，在所述预览框中继续呈现所述视频素材，并减少所述预览框的尺寸未缩小时所呈现的元素；

响应于针对所述预览框的再次的模式切换操作，还原所述预览框的尺寸，并在所述预览框中还原所述被减少的元素。

上述方案中，所述预览框单元，还用于：

响应于针对所述预览框的模式切换操作，自动选择与当前的目标音频素材相同类型的音频素材作为新的目标音频素材，以及

在所述预览框中，呈现所述视频素材与所述新的目标音频素材的合成效果。

上述方案中，所述预览页面单元，还用于：

在所述预览页面中呈现所述目标音频素材的播放时间轴，以接收针对所述播放时间轴中设定起点和终点的剪辑操作；

在所述预览页面中呈现所述目标音频素材的波形图，以接收针对所述波形图设定起点和终点的剪辑操作；

在所述预览页面中呈现所述目标音频素材对应的文本，以接收针对所述文本剪辑起点和终点的剪辑操作；

通过所述音频素材剪辑组件从所述目标音频素材片段中剪辑所述起点和所述终点在之间的音频素材片段。

上述方案中，所述预览页面单元，还用于：

所述剪辑方式包括：按照与所述视频素材一致的长度进行剪辑得到多个音频素材片段；

通过所述音频素材剪辑组件，对所述目标音频素材根据所述剪辑方式进行分割，并对分割得到的每个音频素材片段进行语音识别得到关键词，其中，所述视频素材的长度小于所述音频素材的长度；

对所述视频素材进行分割，并对分割得到的每个视频素材片段提取图像语义；

针对每个音频素材片段，确定所述音频素材片段的关键词分别与每个视频素材片段的图像语义之间的相似度，将所述相似度的加和作为所述音频素材片段的得分；

确定得分最高的音频素材片段能够用于与所述视频素材进行合成。

上述方案中，所述预览页面单元，还用于：

响应于针对所述预览页面中合成入口的触发操作，

当所述被剪辑的音频素材片段与所述视频素材的长度一致时，将所述视频素材填充到视频轨道，将所述被剪辑的音频素材片段填充到音频轨道，合成所述视频轨道与所述音频轨道得到多媒体文件，

当所述被剪辑的音频素材片段与小于所述视频素材的长度时，将所述视频素材填充到视频轨道，将所述被剪辑的音频素材片段重复填充到音频轨道直至与所述视频轨道的长度一致，合成所述视频轨道与所述音频轨道得到多媒体文件。

本发明实施例提供一种多媒体文件素材的处理装置，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的多媒体素材的处理方法。

本发明实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本发明实施例提供的多媒体文件素材的处理方法。

本发明实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本发明实施例提供的多媒体文件素材的处理方法。

本发明实施例具有以下有益效果：

通过在音频素材库中整合了音频素材以及实时感知合成效果的预览框，从而使得在选择音频素材时不再是单纯试听，而能够实时感知所选择音频素材与视频素材的合成效果，从而能够拌帮助用户及时在音频素材库中选择理想的音频素材与视频素材合成，以提升创作媒体文件的效率和质量；通过在预览页面实现了在选择音频素材时一站式的灵活选择音频素材片段的功能，进一步提升了编辑多媒体文件的效率和质量。

附图说明

图1是本发明实施例提供的多媒体文件素材处理系统100的一个可选的架构示意图；

图2是本发明实施例提供的电子设备400的结构示意图；

图3A至图3D是本发明实施例提供的多媒体文件素材处理方法的可选的流程示意图；

图4A是本发明实施例提供的在短视频客户端中预览框的展示原理示意图；

图4B是本发明实施例提供音乐库页面中的预览框的显示模式切换的原理示意图；

图5A至图5D是本发明实施例提供的从短视频客户端的视频编辑页面进入音乐库页面以编辑短视频的显示示意图；

图6A至图6C是本发明实施例提供的在音乐库页面的不同类型音乐选择音乐的显示示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，所描述的实施例不应视为对本发明的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的，不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前，对本发明实施例中涉及的名词和术语进行说明，本发明实施例中涉及的名词和术语适用于如下的解释。

1)视频素材，用于合成多媒体文件的图像元素，例如一个视频素材可以是视频文件，也可以是相册中的多个照片。

2)音频素材，用于合成多媒体文件的声音元素，例如一个音频素材可以是各种格式的音乐文件。

本发明实施例提供一种多媒体文件素材的处理方法、装置、电子设备和存储介质，下面说明本发明实施例提供的多媒体文件素材处理方法、装置、电子设备和存储介质的示例性应用，本发明实施例提供的电子设备可以实施为笔记本电脑、平板电脑、台式计算机、机顶盒、移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端。

参见图1，图1是本发明实施例提供的多媒体文件素材处理系统100的一个可选的架构示意图，可以应用于各种视频素材和音频素材创作多媒体文件并在互联网传播的场景。以短视频的编辑和分享场景为例，电子设备400-1和电子设备400-2中安装有短视频客户端，电子设备400-1中的短视频客户端410-1 通过网络300连接短视频的客户端后台的服务器200，将音频素材库500中的音频素材用于与用户拍摄的视频素材合成为短视频，并向服务器200合成的短视频，服务器200查询短视频客户端410-1的订阅/社交关系，以电子设备400- 2中短视频客户端410-2与短视频客户端410-1的订阅/社交关系为例，服务器2 00将向短视频客户端410-2推送短视频的通知以供短视频客户端410-2的用户观看，短视频客户端410-2的评论会通过服务器200同步到短视频客户端410- 1，从而形成基于短视频的社交互动。

以图1示出的电子设备400为例，继续说明本发明实施例提供的电子设备的示例性结构。

参见图2，图2是本发明实施例提供的电子设备400的结构示意图，图2 所示的电子设备400包括：至少一个处理器410、存储器450、至少一个网络接口420和用户接口430。电子设备400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统44 0除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口430包括使得能够呈现媒体内容的一个或多个输出装置431，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Me mory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memor y)。本发明实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块452，用于经由一个或多个(有线或无线)网络接口420到达其他计算设备，示例性的网络接口420包括：蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块453，用于经由一个或多个与用户接口430相关联的输出装置43 1(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作外围设备和显示内容和信息的用户接口)；

输入处理模块454，用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本发明实施例提供的多媒体文件素材处理装置可以采用软件方式实现，图2示出了存储在存储器450中的多媒体文件素材处理装置45 5，其可以是程序和插件等形式的软件，包括以下软件模块：音频素材库页面单元4551、预览框单元4552和预览页面单元4553，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本发明实施例提供的多媒体文件素材处理装置可以采用硬件方式实现，作为示例，本发明实施例提供的多媒体文件素材处理装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的多媒体文件素材处理方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific Integrated Circuit)、DS P、可编程逻辑器件(PLD，ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPG A，Field-Programmable Gate Array)或其他电子元件。

将结合本发明实施例提供的终端的示例性应用和实施，说明本发明实施例提供的多媒体文件素材处理方法。

参见图3A，图3A是本发明实施例提供的多媒体文件素材处理方法的流程示意图，将以如图1示出的终端400运行用于多媒体文件的创作和分享客户端为例，对图3A示出的步骤进行说明。

在步骤101中，在视频编辑页面中显示用户已经拍摄的视频素材。

以短视频客户端为例，其中的视频编辑页面中显示了用户拍摄的视频文件和相册等视频素材，每个视频文件可以单独作为创作短视频的视频素材，相册中的多张照片整体也可以作为一个视频素材，多张照片可以是用户在特定时间、特定地点或就特定主题拍摄的一组照片，例如春节期间的照片、去国外旅行的照片，复古风格的写真照片等。

在步骤102中，响应于在视频编辑页面中针对视频素材添加音频素材的编辑操作，在音频素材库页面中呈现候选的音频素材。

作为客户端响应编辑操作的示例，客户端的视频编辑页面中提供了编辑操作的功能入口，编辑功能支持对在视频编辑页面中处于选中状态的照片进行编辑，当用户在视频编辑页面触发编辑操作的功能入口时，客户端将从视频编辑页面跳转到音乐素材库页面，根据与音乐素材库同步得到的音乐素材的元数据，包括名称、作者、图像(例如专辑封面和作者照片)、音乐素材类型(例如，美食、运动、旅行、萌宠、自拍和工作)和音频素材的情感标签(例如，欢乐、积极和安静)，在音乐素材库页面中呈现候选的音乐素材。

继续说明候选的音频素材的示例化的展示形式。

在一些实施例中，音频素材库页面中可以包括推荐区域，其中推荐了用户选择使用的音频素材，候选的音频素材可以是优先级排序中排序在前的部分音频素材，例如音频素材的热门程度的排序、发布时间的排序等，从而方便用户优质的音频进行创作。

在另一些实施例中，在音频素材库页面中可以呈现搜索组件，搜索组件能够响应于在搜索组件中接收到的关键字，根据关键字查询音频素材库，以在音频素材库页面中实时呈现与关键字匹配的音频素材。

在又一些实施例中，在音频素材库页面中呈现被使用的音频素材和/或被收藏的音频素材，从而方便用户选择使用。

参见图3B，图3B是本发明实施例提供的多媒体文件素材处理方法的流程示意图，将结合图3B对步骤102中呈现候选的音频素材的过程进行说明，需要指出，在图3B以及后续附图中虚线框表示可以缺省的步骤。

在步骤1021中，在音频素材库页面中呈现至少两个候选的音频素材类型，并呈现“查看更多类型”的功能入口；在步骤1022A中，响应于用户触发“查看更多类型”功能入口的查看操作，在音频素材库页面中，呈现区别于至少两个候选的音频素材类型的音频素材类型、或者，在步骤1022B中，呈现至少部分区别于(例如部分区别于或全部区别于)至少两个候选的音频素材类型的音频素材类型。

从而，当用户期望查看特定音频素材类型包括的音频素材时，可以通过诸如点击等形式的操作来选择特定音频素材类型，客户端将响应于针对音频素材类型的查看操作，在音频素材库页面中呈现被选中的音频素材类型中包括的音频素材。

作为在音频素材库中显示音频素材类型的示例，可以根据与音频素材库同步的元数据，显示每个音频素材库类型的图像(例如专辑封面)和情感标签；作为在音频素材库中显示音频素材的示例，可以显示每个音频素材的作者(例如演唱者)、图像(例如专辑封面、作者照片)和情感标签，从而帮助用户快速查找适合添加到视频素材中的音频素材。

继续结合图3B说明在步骤1022A音频素材库页面中呈现至少两个候选的音频素材类型的过程。

在步骤10221A中，从音频素材库中获取与用户已经拍摄的视频素材的主题相似的音频素材类型。

在一些实施例中，为了获取视频素材的主题，对于用户已经拍摄的视频素材的主题，客户端可以通过对视频素材的命名、视频素材的图像特征、音频特征等维度中的至少一个进行分析得到。

例如，可以采用上述的特征与不同主题的先验特征模板进行匹配的方式获得，也可以采用人工智能的方式，客户端可以植入有能够基于上述至少一个维度特征进行主题分类的神经网络模型，通过神经网络模型来对用户已经拍摄的视频进行主题分类；可以理解地，神经网络模型可以植入到服务器中，客户端通过提交用户已经拍摄的音频素材的上述至少一个维度的特征到服务器，由服务器运行神经网络模型来进行主题分类并将主题分类结果返回客户端。

在步骤10222A中，对所获取的音频素材类型进行与视频素材的主题之间的相似度的降序排序。

作为降序排序的示例，客户端可以视频素材的主题与音频素材类型映射相同的音频素材向量空间，从而得到视频素材主题与音频素材类型各自对应的向量化的表达，将视频素材主题与各个候选的音频素材类型之间的向量距离作为对应的相似度，由此，对用户已经拍摄的视频素材与各个候选的音频素材类型之间的相似度进行降序排序。

在步骤10223A中，将降序排序中在前的部分音频素材类型根据用户画像数据进行筛选，以过滤掉与用户画像数据不匹配的音频素材类型，例如过滤掉设定数量(例如10个)或设定比例(例如5％)的音频素材类型，将过滤后得到的至少两个音频素材类型确定为候选的音频素材类型。

在一些实施例中，可以从用户的画像数据中提取关键信息(例如，性别，年龄、偏好、地域、教育程度、关注的影视作品/音乐等)映射到用户向量空间得到用户向量，将音频素材类型映射到音频素材类型空间得到音频素材类型向量，将用户向量和音频素材类型向量之间的距离作为相似程度，过滤掉与用户向量的相似程度小于相似程度阈值的音频素材类型向量对应的音频素材类型。

可替换地，用户向量也可以根据基于用户使用和/或收藏的音频素材的类型得到，将用户使用和/或收藏的音频素材的类型即多个音频素材类型，分别映射到音频素材向量空间，将映射得到向量连接得到用户向量，将目标用户使用和/ 或收藏的音频素材的类型即多个音频素材类型映射到音频素材向量空间得到目标用户向量。

在一些实施例中，在步骤1021呈现的至少两个音频素材类型被选用的频率之后，可以根据在步骤1021中首先呈现的至少两个音频素材类型被选用的频率，以决定在上述步骤1022A中呈现区别于至少两个候选的音频素材类型的音频素材类型、或者在上述步骤1022B中呈现至少部分区别于至少两个候选的音频素材类型的音频素材类型，下面结合图3B示例性说明。

在步骤1021呈现的至少两个音频素材类型被选用的频率之后，在步骤102 3中，判断是否获取到至少两个候选的音频素材类型被用户选用的频率，当在步骤1023中未获取到时，由于互动用户为与用户之间曾经发生多媒体文件的分享、评论或转发等互动的用户，两者的画像数据存在不可避免对交叉，因此音频素材被互动用户选用的频率与被用户选用的频率是相近的，从而可以在步骤 1024中继续获取至少两个候选的音频素材类型被互动用户选用的频率，以作为被用户选用的频率。在步骤1025中，判断至少两个音频素材类型被选用的频率是否大于选用频率阈值，当至少两个音频素材类型被选用的频率小于选用频率阈值时，在步骤1022A中，在音频素材库页面中呈现区别于至少两个候选的音频素材类型的音频素材类型；当至少两个音频素材类型被选用的频率大于选用频率阈值时，在步骤1022B中，在音频素材库呈现至少部分区别于至少两个候选的音频素材类型的音频素材类型。

在一些实施例中，在步骤1024之后，步骤1025之前，还可以在步骤1026 中，根据用户与互动用户之间的距离，对将至少两个候选的音频素材类型被互动用户选用的频率进行修正。

例如，以用户向量和目标用户向量的距离的倒数作为修正系数，或者以倒数为因子的任何其他形式的修正系数(例如对数和指数形式)，来进行乘积和/ 或加和等运行形式的修正，从而使得用户与目标用户越类似，则修正的幅度越小，从而保证了选用频率的准确性。

作为示例，用户向量和目标用户向量可以是根据对应的用户画像数据进行映射得到，将用户的画像数据中提取关键信息(例如，性别，年龄、偏好、地域、教育程度、关注的影视作品/音乐等)映射到用户向量空间，将映射到的关键信息向量连接得到用户向量，并将目标用户向量的画像数据映射到相同的用户向量空间，将映射到的关键信息向量连接得到目标用户向量，从而基于目标用户向量和用户向量之间的距离准确反映二者之间的相似程度。

作为示例，用户向量和目标用户向量可以基于使用和/或收藏的音频素材的类型得到，将用户使用和/或收藏的音频素材的类型即多个音频素材类型映射到音频素材向量空间得到用户向量，将目标用户使用和/或收藏的音频素材的类型即多个音频素材类型映射到音频素材向量空间得到目标用户向量。

在步骤103中，响应于针对候选的音频素材的选择操作，在音频素材库页面的预览框中，呈现视频素材与选择操作的目标音频素材的合成效果。

参见图3C，图3C是本发明实施例提供的多媒体文件素材处理方法的流程示意图，将结合图3C对步骤103中在预览框中呈现合成效果的过程进行说明。

当用户在音频素材库页面中选择了添加到视频素材的音频素材(即目标音频素材)时，那么在步骤1031中，客户端将在音频素材库页面的呈现浮动于候选的音频素材之上的预览框。

作为示例，预览框中的元素包括：视频素材和音频素材的合成效果的预览功能，通过调用视频播放器实现，并提供了暂停播放的功能；音频素材的基本信息，包括音频素材的作者、名称和文本(例如歌曲的歌词)等；音频素材剪辑功能入口，用于跳转到包括对音频素材进行剪辑的相关功能的页面；收藏功能，用于收藏用户当前选择的添加到视频素材中的音频素材。

在一些实施例中，客户端的预览框中集成了从客户端的视频编辑页面拉取用户是否已经拍摄视频素材的能力，在步骤1032中，客户端通过预览框基于所集成的能力检测用户是否已经拍摄有视频素材，当存在已经拍摄的视频素材时，在步骤1033中，在音频素材库页面的预览框中，呈现预先拍摄的视频素材与选择操作的目标音频素材的合成效果；当不存在已经拍摄的视频素材时，在步骤 1034中，在音频素材库页面的预览框中，呈现视频素材样本与选择操作的目标音频素材的合成效果。

通过在预览框中实现了检测用户已经是否拍摄了视频素材的能力，使得用户在预览框实现了与客户端中的视频编辑页面的互通，从而通过拉取用户已经拍摄的视频在预览框是实现视频素材与音频素材的合成效果的预览，可以一站式完成音频素材的剪辑和合成效果预览，从而不需要多个页面之间跳转完成音频素材的选择和合成效果的预览的操作，从而提升了选择音频素材的效率。

在一些实施例中，预览框可以根据用户的模式切换操作，从初始的显示全部预览框的元素的完整模式切换到显示预览框的部分元素的简单模式，以尽量减少对音乐素材库的候选音频素材的遮挡，增大音频素材库页面中一次性能够呈现的音频素材的数量，方便用户进行快速选择；当用户选择了新的目标音频素材时自动切换到完整模式，以使用户感知视频素材与新目标音频素材的合成效果。

在步骤1035中，客户端将响应于针对预览框的模式切换操作而切换到简单模式，包括：缩小预览框的尺寸，减少预览框在完整模式(即尺寸未缩小时) 显示的元素的数量(例如不再显示剪辑功能入口、收藏功能)，当然，可以在预览框中继续呈现视频素材的预览，也可以不继续保留视频素材的预览；从而，增大音频素材库页面用于呈现候选的音频素材的区域，尽量减少对音乐素材库的候选音频素材的遮挡，进而增大音频素材库页面中一次性能够呈现的音频素材的数量，给予用户尽量多的选择，方便用户进行快速选择。

对于音频素材页面中呈现候选音频素材，当用户重新选择了音频素材以作为新目标音频素材时，那么在步骤1036中，客户端响应于用户的重新选择操作，将预览框切换到完整模式，即还原预览框尺寸减小前的尺寸，在预览框中呈现视频素材与重新选择操作的目标音频素材的合成效果，并还原在简单模式中被减少(即在简单模式中不再显示)的元素，例如剪辑功能入口和收藏功能等。

在一些实施例中，当客户端响应于用户的模式切换操作而将预览框从完整模式切换到简单模式时，由于此时用户是需要重新选择音频素材以添加到视频素材中，客户端还可以在响应于针对预览框的模式切换操作而切换到简单模式时，在步骤1035之后，在步骤1036之前，还可以在步骤1037中，自动选择与当前的目标音频素材相同类型的音频素材作为新的目标音频素材，并在预览框中呈现视频素材与新的目标音频素材的合成效果，从而可以帮助用户提升选择效率。

当然，如果用户已经多次(超出同类型次数阈值)同类型的音频素材，则客户端可以自动选择不同于用户已选择类型的音频素材类型(例如，与用户画像数据匹配)中的音频素材。

此外，如果用户对于客户端自动选择的新目标音频素材不满意，仍然可以继续选择，相应地，客户端将在预览框中实时呈现视频素材与用户选择的新目标音频素材的合成效果。

在步骤104中，响应于针对预览框中的音频素材剪辑入口的触发操作，从音频素材库页面切换到预览页面，并在预览页面中呈现音频素材剪辑组件。

在一些实施例中，在预览页面中呈现音频素材剪辑组件有多样化的形式，下面示例性说明。

作为呈现音频素材剪辑组件的一个示例，在预览页面中呈现目标音频素材的播放时间轴，以接收针对播放时间轴中设定起点和终点的剪辑操作，从而方便用户根据时间点截取音频素材片段以添加到视频素材中。

作为呈现音频素材剪辑组件的另一示例，在预览页面中呈现目标音频素材的波形图，以接收针对波形图设定起点和终点的剪辑操作，从而方便用户根据截取具有特定音乐效果的音频频段素材以用于添加到视频素材中。

作为呈现音频素材剪辑组件的又一示例，在预览页面中呈现目标音频素材对应的文本，以接收针对文本剪辑起点和终点的剪辑操作；

可以理解地，上述形式的音频素材剪辑组件均可以支持按照与视频素材一致的长度进行剪辑的剪辑方式，或按照小于视频素材的长度进行剪辑的剪辑方式。可以理解地，客户端中可以择一或同时支持上述截取音频素材片段的形式，从而支持用户从不同维度灵活快捷地截取音频素材片段。

在步骤105中，通过音频素材剪辑组件从目标音频素材中剪辑与视频素材的时长匹配的音频素材片段，在预览页面中呈现视频素材与被剪辑的音频素材片段的合成效果。

在一些实施例中，根据音频素材剪辑组件中接收的设定剪辑的起点和终点的操作，通过音频素材剪辑组件从目标音频素材片段中剪辑起点和终点在之间的音频素材片段，音频素材片段将用于添加到视频素材中以形成合成效果。客户端在预览页面中呈现有合成入口，当用户通过音频素材剪辑组件截取到了合适的音频素材片段，可以触发合成入口以快速合成多媒体文件，当从目标音频素材中剪辑的音频素材片段与视频素材的长度一致时，客户端将被剪辑的音频素材片段填充到音频轨道，将视频素材填充到视频轨道，此时视频轨道与音频轨道的时间轴是对齐的，通过合成视频轨道与音频轨可以得到多媒体文件。

可以理解地，根据上述记载的音频素材剪辑组件的形式，起点和终点可以是目标音频素材时间轴中的2个时间点，也可以是目标音频素材中的2句歌词，还可以是目标音频素材中的2个重音音节。从而给予用户多样化的灵活的剪辑方式，适合于各种应用场景。

在另一些实施例中，针对目标音频素材的长度(即时长)大于视频素材的长度的情况，参见图3D，图3D是本发明实施例提供的多媒体文件素材处理方法的流程示意图，将针对这种情况说明步骤105的如何剪辑合适的音频素材片段。

在步骤1051中，通过音频素材剪辑组件，对目标音频素材根据剪辑方式进行分割，并对分割得到的每个音频素材片段进行语音识别得到关键词。

作为示例，剪辑方式中设定了剪辑的长度，例如可以是与视频素材一致的长度，当然，也可以是小于视频素材的长度，例如视频素材长度的1/N，N为大于或等于2的整数。

在一些实施例中，客户端通过音频素材剪辑组件对目标音频素材进行分割时，分割的音频素材片段之间在时间轴上可以是接续的，也可以是交叉的。客户端可以调用服务器的语音识别接口，通过向语音识别接口传输音频素材片段，由服务器对音频素材片段进行语音识别，并从语音识别结果中提取出关键字。

特别地，对于在时间轴上交叉的音频素材片段，由于片段更为多样性，因此有助于后续步骤从中选择更合适的音频素材片段与视频素材合成。

在步骤1052中，对视频素材进行分割，并对分割得到的每个视频素材片段提取图像语义。

在一些实施例中，客户端对视频素材进行分割，对于每个视频素材片段，客户端可以调用服务器的图像识别接口，通过向图像识别接口传输视频素材片段，由服务器通过各种神经网络模型(例如卷积神经玩过)从视频素材片段中提取图像的特征向量作为表征图像语义的向量，即图像语音向量。

作为示例，客户端可以按照与音频素材片段一致的长度或者小于音频素材片段的长度对视频素材进行分割，特别地，对于按照与音频素材片段一致的分割方式，由于长度一致将更有利于后续步骤匹配的精度。

在步骤1053中，针对每个音频素材片段，确定音频素材片段的关键词分别与每个视频素材片段的图像语义之间的相似度，将相似度的加和作为音频素材片段的得分。

在一些实施例中，遍历音频素材的各个音频素材片段以确定各个音频素材片段的得分。

对应任一个音频素材片段执行以下处理：确定音频素材片段的各个关键词的关键词向量与视频素材片段的图像语义向量之间的距离，作为相应关键词与视频素材片段之间的相似度，将对应音频素材片段中的各个关键词确定的相似度累加，作为音频素材片段与视频素材片段之间的相似度；将音频素材片段与视频素材的各个视频素材片段之间的相似度累加，得到音频素材片段的得分。以此类推可以确定所有音频素材片段的得分；并确定得分最高的音频素材片段能够用于与视频素材进行合成。

在步骤1054中，将视频素材填充到视频轨道，将被剪辑的音频素材片段中得分最高的音频素材片段重复填充到音频轨道，直至与视频轨道的长度一致，合成视频轨道与音频轨道得到多媒体文件。

特别地，对于音频素材片段小于视频素材的长度的情况，将得分最高的音频素材片段重复在音频轨道中填充直至与视频轨道的时间轴长度一致，如前所述，由于剪辑方式中设定了剪辑的长度小于视频素材的长度应当为视频素材长度的1/N，因此通过整数次填充恰好可以与视频轨道长度一致，避免了对音频素材片段的截断进而影响音频素材片段的内容表达，在多媒体文件播放时音频素材频段将被完整地循环播放N遍，使得音频和视频更好地匹配。

下面再结合以下场景说明，在短视频(照片)编辑过程中，经常会添加背景音乐，这种方式可以很好的渲染视频气氛，提升视频质量，但是对于拥有大型音乐库的短视频客户端而言，需要有一种添加音乐的操作效率高的方式。

相关技术提供的短视频客户端在进行短视频的编辑时，将选择音乐的操作与其他元素(例如候选的音乐、待添加音乐的视频/照片)的操作分成两部分布局，例如在不同的页面中实现上述的操作，这就导致用户在选择音乐时无从了解是否与拍摄的视频适合；并且在其他元素的入口中统一增加一项(用于控制其他元素的)隐藏/出现的操控能力，这种交互方式过于僵化，往往会导致对音乐库页面的显示区域的不必要占用，导致音乐库的页面中一次只能显示很少的音乐功能供用户选择，操作效率比较低。

本发明实施例提供的短视频客户端能让用户在音乐库页面中选择音乐并试听所选音乐时，预览已经拍摄的视频内容，从而直观地感知到所选的音乐添加到视频中的效果，以帮助用户快速做出判断是否选择当前音乐与拍摄的视频进行合成。如选择的音乐不合适，可以在音乐库页面中继续选择其他音乐，避免了用户在不同的页面中分别选择音乐、预览判断、选择音乐的繁琐操作，从而提升用户编辑视频的效率和质量。

本发明实施例可以应用于短视频客户端的视频编辑功能，当用户已拍摄视频，并在视频编辑页面选择为视频添加音乐时，将在音乐库页面中将试听的音乐和视频内容结合起来供用户判断音乐是否合适，从而提升编辑效率，即实现了提供给用户一个选择音乐时与已拍摄视频同步预览的能力。

参见图4A，图4A是本发明实施例提供的在短视频客户端中预览框的展示原理示意图，短视频客户端的音乐库页面具有当用户选择音乐后获取用户已拍摄视频的能力，当用户音乐库页面中选中音乐时，如果用户已经拍摄了视频，则在试听弹窗(即预览框)展示已拍摄视频；如果用户未拍摄视频，则在试听窗口中展示范例视频或专辑封面。

继续参见图4B，图4B是本发明实施例提供音乐库页面中的预览框的显示模式切换的原理示意图，当用户在音乐库页面实施了滑动操作时，音乐库页面中的预览框将从默认的完整模式切换到简单模式，在简单模式中将显示较完整模式更少的元素，从而能够使音乐库页面中能够一次性显示更多的音乐供用户选择。当然，当用户再次在音乐库页面中选择新的音乐时，预览框将还原到完整模式，以显示被选择音乐的相关信息和已拍摄视频的预览。

下面再结合各种显示示意图短视频客户端中的短视频发布功能中进入音乐库页面编辑视频的过程。

参见图5A至图5D，图6A至图6C，图5A至图5D是本发明实施例提供的从短视频客户端的视频编辑页面进入音乐库页面以编辑短视频的显示示意图，图6A至图6C是本发明实施例提供的在音乐库页面的不同类型音乐选择音乐的显示示意图，下面分别进行说明。

在短视频客户端的视频编辑页面中呈现有用户已经拍摄的视频，当用户选择一个视频，并选择针对视频添加音乐的编辑功能时，短视频客户端将从视频编辑页面跳转到如图5A所示的音乐库页面501，音乐库页面501中提供了基于关键字的搜索音乐功能502，还可以根据实时音乐排行榜展示最新或最热门的音乐的推荐功能503，能让用户第一时间选择到最流行的音乐，减少搜索次数。另外，音乐库页面中还提供了音乐的分类功能504，支持用户可以根据不同风格的音乐去选择与视频适配的音乐。

音乐库页面501中还可以提供最近使用的音乐的功能入口，比如：用户使用过一个音乐制作视频，可以通过该功能入口可以快速找到曾经使用的音乐，方便后面再次使用；当然音乐库页面501中也可以提供收藏音乐的功能入口，当用户收藏喜欢的音乐后，通过该功能入口可以便捷地找到喜欢的音乐来编辑视频。

当用户在图5A的音乐库页面中选择了音乐后，如图5B所示，音乐库页面 501中会弹出一个预览框505，其中包括的元素有：待制作的视频的预览功能5 06，音乐的基本信息507，比如标题和作者，还可以包括当前播放的歌词。预览506呈现了视频结合音乐形成的合成效果，用户可以快速判断选择的音乐是否合适添加到拍摄的视频中。预览框505还可以包括的元素有：剪辑功能入口 508，收藏当前选择音乐的收藏功能509，以及将当前选择音乐添加到视频以形成多媒体文件的合成入口510。特别地，当合成入口510被触发时，确定用定当前选择的音乐就是最合适的音乐，视频中添加用户当前所选择的音乐，而不用实施复杂的确认过程，简化用户的操作路径和降低使用复杂度。

作为在音乐库页面中预览框的另一个示例，如图6A至图6C所示，在图6 A示出的音乐库页面中包括视频的预览601，其中展示了已经拍摄的视频602 的预览和音乐的选择区域603，其中显示了三种不同的音乐类型(欢快、动态和特色)，如图6B/图6C所示，当用户在某个类型的音乐列表中按压音乐并上划时，音乐604/605将被识别为选中状态，预览框的播放器606将播放处于选中状态的音乐。

相关技术中提供的短视频编辑功能需要在用户选择音乐之后跳转到视频编辑页来显示音乐和视频合成的效果。但是，用户在编辑视频的过程中选择音乐的出发点是视频而不是音乐，即选择与视频的主题或内容适配的音乐，也就是说，用户选择音乐只是为了让视频更加丰富，从而更关注的是视频中添加了音乐之后视频的效果如何，而不是所选择的音乐的效果如何。但是相关技术提供的短视频客户端提供的预览功能致力于向用户提供音乐预览功能，而不是音乐与视频合成效果的预览功能，这就无法保证用户能够在短时间内找到合适的音乐。以知名流程歌曲“我心永恒”为例，虽然其本身会给用户良好的感知，但不是与所有的视频适配，例如对于主题为“学生毕业季”的视频而言显然不合适。相关技术提供的方案会使用户沉浸在音乐本身而忽略了为视频选择合适的音乐的初衷，并且也缺乏有效的方式让用户感知所选择的音乐是否合适。

而本发明实施例通过直接在音乐库页面的预览框中整合音乐试听和视频预览功能，可以极大提升在大量的音乐选择合适的与拍摄的视频合成的效率。

用户在音乐库页面中选择音乐是一个不断对比不同音乐的过程，用户往往不可能确定第一次选择的音乐是最好，倾向于继续选择其他的音乐来比较。在这个过程中，往往会涉及到在音乐库大量的音乐中进行选择，因此在音乐库页面中一次性显示的音乐越多，用户的选择空间越大，找到合适音乐的效率就越高，因此有必要在用户选择音乐比对的过程中最大化音乐库页面中一次性能够显示的音乐的数量。

在如图5B所示的音乐库页面中，假设用户期望继续尝试其他的音乐与视频合成的效果，可以实施触发预览框模式切换的操作，例如上下滑动的手势操作，音乐库页面会监听用户的手势动作，如图5C所示，当监听到用户上下滑动的手势操作511时，预览框505会部分收起，由于预览框对音乐库页面501 的遮挡比例比较大，使得音乐库页面501的有效显示区域有的面积比较小，即一次性显示的音乐的数量比较少，用户的选择空间有限，导致选择比较困难。

因此，当用户手势动作触发并检测出是上下滑动的手势操作时，表明用户想重新选择音乐，把预览框505从视频预览和音乐播放器的形式(即完整模式) 收缩到音乐播放器的形式(即简单模式)以减少对显示区域的占用，从而可以使音乐库页面501显示更多的音乐供用户选择，收缩的过程可以通过特效来完成，给予用户比较流畅自然的感知效果。

当预览框505收缩为音乐播放器时显示区域减小，所以展示的有效信息也可以对应减少，例如可以仅包括音乐名，作者和暂停播放按钮512。用户在选择其他音乐的时候，能够快速切换歌曲，简化模式中实现了类似音乐播放器的模式。

音乐的长度普遍有几分钟，而用户拍摄的短视频长度相对较短，例如十几秒或者几十秒，但是音乐高潮部分/精华部分可能恰好就是几十秒，也是精华部分，也是用户想要应用在视频中的部分。

当用户需要在选择的音乐中剪辑高潮部分/精华部分的片段以添加到视频中时，可以触发如图5B的预览框中的剪辑功能入口508，短视频客户端的音乐库页面501将跳转到如图5D所示的预览页面513，预览页面513中提供了一个沉浸式的预览体验，比如图5B示出的预览框505显示的编辑功能更加完善和冲击感更强烈，其中提供一个播放器514，播放添加了音乐的视频，可以让用户感知到合成效果，同时剪辑功能515可以根据对滑动进度条的拖动而设置的起点和终点，自动剪辑相应的音乐片段，精度比较高，完全满足用户的精确的时间点选择需求。

预览页面中还可以提供有波形图516的功能来模拟音乐的变化过程，其随机出波形的振幅，有正有负，和人的声音相似。还提供了歌词查看功能517，对音乐重度爱好者更加友好。

结合上述示例可以了解，本发明实施例通过在数量相对音乐库中提高用户在创作短视频的过程中选择音乐的效率，兼容性更强；选择音乐时，不再是单纯的试听，而是能够支持用户结合用户已拍好的视频内容判断音乐与视频是否适配，并且在同一层级下(即，音乐的选择、预览功能与视频的预览功能整合在一个页面)快速切换尝试不同音乐。

下面继续说明本发明实施例提供的多媒体文件素材处理装置455的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器440的多媒体文件素材处理装置455中的软件模块可以包括：音频素材库页面单元45 51，用于响应于针对视频素材添加音频素材的编辑操作，在音频素材库页面中呈现候选的音频素材；预览框单元4552，用于响应于针对候选的音频素材的选择操作，在音频素材库页面的预览框中，呈现视频素材与选择操作的目标音频素材的合成效果；预览页面单元4553，用于响应于针对预览框中的音频素材剪辑入口的触发操作，从音频素材库页面切换到预览页面，并在预览页面中呈现音频素材剪辑组件；预览页面单元4553，用于通过音频素材剪辑组件从目标音频素材中剪辑与视频素材的时长匹配的音频素材片段，在预览页面中呈现视频素材与被剪辑的音频素材片段的合成效果。

在一些实施例中，音频素材库页面单元4551，还用于：在音频素材库页面中呈现至少两个候选的音频素材类型；响应于更多类型的查看操作，在音频素材库页面中呈现区别于至少两个候选的音频素材类型的音频素材类型、或者至少部分区别于至少两个候选的音频素材类型的音频素材类型；响应于针对音频素材类型的查看操作，在音频素材库页面中呈现被选中的音频素材类型中包括的音频素材。

上述方案中，音频素材库页面单元4551，还用于：获取视频素材的主题相似的音频素材类型，并对所获取的音频素材类型进行与视频素材的主题之间的相似度的降序排序；将降序排序中在前的部分音频素材类型根据用户画像数据进行筛选，以过滤掉与用户画像数据不匹配的音频素材类型；将过滤后得到的至少两个音频素材类型确定为候选的音频素材类型。

上述方案中，音频素材库页面单元4551，还用于：获取至少两个候选的音频素材类型被用户选用的频率，当未获取到时，获取至少两个候选的音频素材类型被互动用户选用的频率，互动用户为与用户之间曾经发生多媒体文件的分享、评论和转发至少之一；当至少两个音频素材类型被选用的频率小于选用频率阈值时，在音频素材库页面中呈现区别于至少两个候选的音频素材类型的音频素材类型；当至少两个音频素材类型被选用的频率大于选用频率阈值时，在音频素材库呈现至少部分区别于至少两个候选的音频素材类型的音频素材类型。

上述方案中，预览页面单元4553，还用于执行以下至少之一：在音频素材库页面中呈现搜索组件，响应于在搜索组件中接收到的关键字，实时呈现与关键字匹配的音频素材；在音频素材库页面中呈现推荐使用的音频素材，推荐使用的音频素材是优先级排序中排序在前的部分音频素材；在音频素材库页面中呈现被使用的音频素材和/或被收藏的音频素材。

上述方案中，预览页面单元4553，还用于：通过预览页面检测已经拍摄的视频；

当存在已经拍摄的视频素材时，在音频素材库页面的预览框中，呈现预先拍摄的视频素材与选择操作的目标音频素材的合成效果；当不存在已经拍摄的视频素材时，在音频素材库页面中预览框中，呈现视频素材样本与选择操作的目标音频素材的合成效果。

上述方案中，预览框单元4552，还用于：响应于针对预览框的模式切换操作，缩小预览框的尺寸以增大音频素材库页面中用于呈现音频素材的区域；响应于针对区域中呈现的候选的音频素材的重新选择操作，在预览框中，呈现视频素材与重新选择操作的目标音频素材的合成效果。

上述方案中，预览框单元4552，还用于：当预览框的尺寸缩小时，在预览框中继续呈现视频素材，并减少预览框的尺寸未缩小时所呈现的元素；响应于针对预览框的再次的模式切换操作，还原预览框的尺寸，并在预览框中还原被减少的元素。

上述方案中，预览框单元4552，还用于：响应于针对预览框的模式切换操作，自动选择与当前的目标音频素材相同类型的音频素材作为新的目标音频素材，以及在预览框中，呈现视频素材与新的目标音频素材的合成效果。

上述方案中，预览页面单元4553，还用于：在预览页面中呈现目标音频素材的播放时间轴，以接收针对播放时间轴中设定起点和终点的剪辑操作；在预览页面中呈现目标音频素材的波形图，以接收针对波形图设定起点和终点的剪辑操作；在预览页面中呈现目标音频素材对应的文本，以接收针对文本剪辑起点和终点的剪辑操作；

通过音频素材剪辑组件从目标音频素材片段中剪辑起点和终点在之间的音频素材片段。

上述方案中，预览页面单元4553，还用于：当剪辑方式包括按照与所述视频素材一致的长度进行剪辑得到多个音频素材片段时，按照与视频素材一致的长度进行剪辑；按照小于视频素材的长度进行剪辑；通过音频剪辑组件，对所述目标音频素材根据剪辑方式进行分割，并对分割得到的每个音频素材片段进行语音识别得到关键词，其中，视频素材的长度小于音频素材的长度；对视频素材进行分割，并对分割得到的每个视频素材片段提取图像语义；针对每个音频素材片段，确定音频素材片段的关键词分别与每个视频素材片段的图像语义之间的相似度，将相似度的加和作为音频素材片段的得分；确定得分最高的音频素材片段能够用于与视频素材进行合成。

上述方案中，预览页面单元4553，还用于：响应于针对预览页面中合成入口的触发操作，当被剪辑的音频素材片段与视频素材的长度一致时，将视频素材填充到视频轨道，将被剪辑的音频素材片段填充到音频轨道，合成视频轨道与音频轨道得到多媒体文件，当被剪辑的音频素材片段与小于视频素材的长度时，将视频素材填充到视频轨道，将被剪辑的音频素材片段重复填充到音频轨道直至与视频轨道的长度一致，合成视频轨道与音频轨道得到多媒体文件。

本发明实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本发明实施例提供的多媒体素材的处理方法，例如，如图3A至图3D任一附图示出的多媒体文件素材的处理方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EE PROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(H TML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本发明实施例具有以下有益效果：

1)通过在预览框实现向视频编辑页面拉取用户已经拍摄的视频素材的能力，在预览框中将视频素材和音频素材的呈现整合，实现了合成效果的预览功能，用户在大量音频素材能够高效选择合适的音频素材与视频素材合成；

2)预览框根据用户选择新的目标音频素材或查看合成效果的需求，灵活进行模式切换，进一步提升了编辑效率和质量；

3)通过音频素材的智能推荐和排序，帮助用户迅速选择合适音频素材的效率；提供了各种灵活的剪辑音频素材的方式，同时还能够帮助用户智能化地在音频素材选择合适的音频素材片段与视频素材合成。

4)为视频编辑添加音频时提供了一种更直观、高效的添加方式，帮助用户筛提升编辑视频的效率。也更接近用户操作习惯，简化流程，降低使用学习成本，更能吸引用户，让用户更快捷的使用音乐去制作视频，培养用户粘性。

以上所述，仅为本发明的实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本发明的保护范围之内。

Claims

1.一种多媒体文件素材的处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述在音频素材库页面中呈现候选的音频素材，包括：

3.根据权利要求2所述的方法，其特征在于，所述在所述音频素材库页面中呈现至少两个候选的音频素材类型，包括：

获取与所述视频素材的主题相似的音频素材类型，并对所获取的音频素材类型与所述视频素材的主题之间的相似度进行降序排序；

4.根据权利要求2所述的方法，其特征在于，所述在所述音频素材库页面中呈现区别于所述至少两个候选的音频素材类型的音频素材类型、或者至少部分区别于所述至少两个候选的音频素材类型的音频素材类型，包括：

获取所述至少两个候选的音频素材类型被用户选用的频率，当未获取到时，获取所述至少两个候选的音频素材类型被互动用户选用的频率，所述互动用户与所述用户之间曾经发生过多媒体文件的分享、评论和转发至少之一；

5.根据权利要求1所述的方法，其特征在于，所述在音频素材库页面中呈现候选的音频素材，包括：

执行以下至少之一：

6.根据权利要求1所述的方法，其特征在于，所述呈现所述视频素材与所述选择操作的目标音频素材的合成效果，包括：

通过预览页面检测已经拍摄的视频；

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于针对所述预览框的模式切换操作，缩小所述预览框的尺寸以增大所述音频素材库页面中用于呈现所述候选的音频素材的区域；

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

响应于针对所述预览框的再次的模式切换操作，还原所述预览框的尺寸，并在所述预览框中还原所述被减少呈现的元素。

9.根据权利要求7所述的方法，其特征在于，所述方法还包括：

10.根据权利要求1至7任一项所述的方法，其特征在于，

所述在所述预览页面中呈现音频素材剪辑组件，包括：

所述通过所述音频素材剪辑组件从目标音频素材中剪辑与所述视频素材的时长匹配的音频素材片段，包括：

11.根据权利要求1至7任一项所述的方法，其特征在于，

所述在所述预览页面中呈现音频素材剪辑组件，包括：

通过所述音频剪辑组件，对所述目标音频素材根据所述剪辑方式进行分割，并对分割得到的每个音频素材片段进行语音识别得到关键词，其中，所述视频素材的长度小于所述音频素材的长度；

12.根据权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：

响应于针对所述预览页面中多媒体文件合成入口的触发操作，

13.一种多媒体文件素材的处理装置，其特征在于，包括：

音频素材库页面单元，用于响应于针对音频素材库入口的触发操作，在音频素材库页面中呈现候选的音频素材；

14.一种电子设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的多媒体文件素材的处理方法。

15.一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至12任一项所述的多媒体文件素材的处理方法。