CN114422824A

CN114422824A - 数据处理方法、视频处理方法、显示方法及设备

Info

Publication number: CN114422824A
Application number: CN202111640920.6A
Authority: CN
Inventors: 朱圣晨; 潘攀; 王彬; 徐文博; 谭圣音
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2021-12-29
Filing date: 2021-12-29
Publication date: 2022-04-29

Abstract

本申请实施例提供一种数据处理方法、视频处理方法、显示方法及设备。其中，提取待处理内容的内容特征，并根据所述内容特征确定与所述待处理内容匹配的目标音频；从所述目标音频的至少一种音源数据中，确定目标音源数据；其中，所述至少一种音源数据基于所述目标音频的音轨分离结果获得；结合所述待处理内容的显示时长，从所述目标音源数据中截取第一音源片段；将所述第一音源片段作为与所述待处理内容的目标匹配结果。本申请实施例提供的技术方案实现了为内容匹配音频的目的，保证了音频匹配准确度和匹配效率。

Description

数据处理方法、视频处理方法、显示方法及设备

技术领域

本申请实施例涉及数据处理技术领域，尤其涉及一种数据处理方法、视频处理方法、显示方法及设备。

背景技术

为了增强一些特定内容，如视频或图像等的内容效果，可以为内容添加合适的音频以作为内容的配乐，从而可以产出更高质量的内容，因此，如何确定与内容相匹配的音频成为亟需解决的问题。

发明内容

本申请实施例提供一种数据处理方法、视频处理方法、显示方法及设备，用以解决音频匹配的技术问题。

第一方面，本申请实施例中提供了一种数据处理方法，包括：

提取待处理内容的内容特征，并根据所述内容特征确定与所述待处理内容匹配的目标音频；

从所述目标音频的至少一种音源数据中，确定目标音源数据；其中，所述至少一种音源数据基于所述目标音频的音轨分离结果获得；

结合所述待处理内容的显示时长，从所述目标音源数据中截取第一音源片段；

将所述第一音源片段作为与所述待处理内容的目标匹配结果。

第二方面，本申请实施例中提供了一种显示方法，包括：

显示与待处理内容匹配的至少一个音频的推荐提示信息；所述至少一个音频基于从所述待处理内容提取的内容特征所确定；

响应于用户选择操作，确定所选择的目标音频；

显示所述目标音频对应的音源类型选择提示信息以及片段选择提示信息；

响应于用户选择操作，确定所选择的目标音源类型对应的目标音源数据中的第一音源片段；其中，所述第一音源片段，用以作为所述待处理内容的目标匹配结果。

第三方面，本申请实施例中提供了一种视频处理方法，包括：

提取待处理视频的视频特征，并根据所述视频特征确定与所述待处理视频匹配的至少一个音频；

输出所述至少一个音频对应的音频推荐提示信息；

基于第一用户选择请求，确定从所述至少一个音频中所选择的目标音频；

基于所述目标音频对应的至少一种音源数据，输出音源选择提示信息；

基于第二用户选择请求，确定从所述至少一种音源数据中选择的目标音源数据；

第四方面，本申请实施例中提供了一种计算设备，包括存储组件以及处理组件，所述存储组件存储一个或多个计算机指令；所述一个或多个计算机指令用以被所述处理组件调用执行，以实现如上述第一方面任一项所述的数据处理方法或者如上述第三方面所述的视频处理方法。

第五方面，本申请实施例中提供了一种电子设备，包括存储组件、显示组件以及处理组件；所述存储组件存储一条或多条计算机程序指令；所述一条或多条计算机程序指令以供所述处理组件调用并执行，以实现如上述第二方面所述的显示方法。

本申请实施例中，首先提取待处理内容的内容特征，并根据内容特征确定与待处理视频匹配的目标音频，之后根据目标音频的音轨分离结果，从目标音频对应的至少一种音源数据中，确定目标音源数据，之后，结合待处理内容的显示时长，可以从目标音源数据中截取第一音源片段，第一音源片段即可以作为待处理内容的目标匹配结果，从而将第一音源片段与所述待处理内容结合即可以获得目标内容。本申请实施例结合内容特征，即可以确定相匹配的目标音频，并可以对目标音频的音源和片段自动进行处理，最终获得与待处理视频匹配的第一音源片段，本申请实施例实现了为内容匹配音频的目的，且保证了音频匹配结果的准确度和匹配效率。

本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例的技术方案应用于其中的一种示例性系统架构图；

图2示出了本申请提供的一种数据处理方法一个实施例的流程图；

图3示出了本申请实施例在一个实际应用中的模型训练示意图；

图4示出了本申请提供的一种显示方法一个实施例的流程图；

图5示出了本申请提供的一种视频处理方法一个实施例的流程图；

图6示出了本申请提供的一种显示方法又一个实施例的流程图；

图7示出了本申请实施例在一个实际应用中的场景交互示意图；

图8示出了本申请提供的一种数据处理装置一个实施例的结构示意图；

图9示出了本申请提供的一种计算设备一个实施例的结构示意图；

图10示出了本申请提供的一种显示装置一个实施例的结构示意图；

图11示出了本申请提供的一种电子设备一个实施例的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

在本申请的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如101、102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

本申请实施例的技术方案可以应用为视频、图像、情景对话等特定内容进行音频匹配的场景，比如为视频匹配合适音频的视频配乐场景等，通过为特定的内容添加相匹配的音频使得可以增强内容效果，以提升内容吸引力等。

目前，比如在一些为视频匹配音频的应用场景中，通常是由用户从海量音频数据中结合个人视听体验来逐一选择并进行剪辑处理等操作，以期获得与视频匹配的音频，然而这种方式耗时耗力，且需要人工剪辑处理，而且视频自身具有声音，不合适的音频也会对视频声音造成干扰，因此人工选择的方式，存在音频匹配效果不佳、匹配效率低等问题。

为了实现为内容匹配音频，并保证匹配效果和匹配效率等，发明人经过一系列研究提出了本申请的技术方案，在本申请实施例中，首先提取待处理内容的内容特征，从而基于内容特征，确定与之相匹配的目标音频；之后从根据目标音频音轨分离结果获得的至少一种音源数据中，确定目标音源数据，再结合待处理内容的显示时长，从目标音源数据中截取合适的第一音源片段，第一音源片段即作为待处理内容最终的目标匹配结果，由于目标音频基于内容特征可以自动匹配获得，且第一音源片段与待处理内容的显示时长匹配，且通过对目标音频进行音轨分离获得，可以结合实际情况选择目标音源数据，因此，本申请实施例实现了为内容匹配音频的目的，且可以保证音频匹配效果以及匹配效率等。

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1是本申请实施例的技术方案可以应用于其中的一种示例性系统架构图的示意图。该系统架构可以包括服务端101以及客户端102，服务端101与客户端102之间可以通过网络连接通信连接，网络作为提供通信链路的介质，其中可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

客户端102通常可以理解为部署在电子设备中的应用程序，电子设备例如可以是智能手机、平板电脑和便携式计算机中的一种或多种，当然也可以是台式计算机等等，为了便于理解，图1中主要以设备形象表示客户端。在电子设备中还可以配置各种其它类应用，如搜索类、即时通信类等。当然，客户端102例如还可以是网页应用如H5(HyperText MarkupLanguage5，超文本标记语言第5版)应用、或轻应用(也被称为小程序，一种轻量级应用程序)或云应用等，

服务端101可以包括提供各种服务的服务器，服务器可以是硬件，也可以是软件。当服务器为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的多个软件或软件模块)，也可以实现成单个软件或软件模块。在此不做具体限定。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器也可以是云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。

其中，用户可以通过客户端102与服务端101实现交互，以实现接收或发送信息等。

需要说明的是，本申请实施例中提供的数据处理方法一般由服务端101执行，显示方法一般由客户端102执行，比如服务端101可以对待处理内容进行处理，而获得其对应的目标匹配结果，服务端101可以将目标匹配结果反馈给客户端102，由用户进一步地进行确认；或者服务端还可以基于目标匹配结果而生成待处理内容对应的目标内容，将目标内容反馈给客户端102，由用户执行进一步的交互操作等等。

当然，在本申请的其它实现方式中，客户端102也可以具有与服务端101相似的功能，从而执行本申请实施例所提供的数据处理方法等。

以下将对本申请实施例的技术方案的实现细节进行详细阐述。

图2为本申请实施例提供的一种数据处理方法一个实施例的流程图，该方法可以包括以下几个步骤：

201：提取待处理内容的内容特征，并根据内容特征确定与待处理内容匹配的目标音频。

其中，可以利用特征提取模型提取待处理内容的内容特征。该特征提取模型可以由服务端预先训练获得等，本实施例技术方案由服务端执行时，服务端即可以利用该特征提取模型提取待处理内容的内容特征，当然，服务端可以包括多种服务器，可以由不同服务器执行模型训练以及利用模型对待处理内容的处理等。本实施例技术方案由服务端执行时，服务端可以将训练获得的特征提取模型部署在客户端，由客户端利用该特征提取模型提取待处理内容的内容特征等。

其中，可以随机选取音频，例如从网络中爬取或者人工构建等，而构成音频数据库，这些音频实际应用中可以是指音乐、歌曲等。可以是根据内容特征，从音频数据库中确定与待处理内容匹配的目标音频。可选地，可以是确定音频特征与内容特征满足相似要求的目标音频等。可以预先对音频数据库中的音频提取音频特征，并对应保存至音频数据库中，当然，也可以是在匹配过程中，针对待匹配的音频提取器音频特征，再与内容特征进行匹配等。其中，可以通过计算音频特征与内容特征的向量距离，如欧式距离、余弦距离等表征音频特征与内容特征之间的相似度，该相似要求例如可以是相似度最大，或者相似度大于相似阈值等。

作为其它可选方式，根据内容特征可以从音频数据库中筛选与待处理内容匹配的至少一个音频，例如音频特征与内容特征满足相似要求，如相似度大于相似阈值的至少一个音频等。之后，可以输出该至少一个音频对应的推荐提示信息，该推荐提示信息可以提示用户从至少一个音频中选择目标音频等。从而可以基于第一用户选择请求，即可以确定从至少一个音频中选择的目标音频等。该推荐提示信息中可以包括该至少一个音频分别对应的选择控件等，从而可以供用户执行选择操作。本实施例技术方案由服务端执行的情况下，该输出至少一个音频对应的推荐提示信息可以是将推荐提示信息发送至客户端，由客户端显示该推荐提示信息等，该第一用户选择请求即由客户端感应针对推荐提示信息的用户选择操作而发送的；本实施例技术方案由客户端执行的情况下，即由客户端具体显示该推荐提示信息等，第一用户选择请求即可以客户端检测针对推荐提示信息的用户选择操作而生成等。

实际应用中，待处理内容可以即由用户通过客户端所提供的，其可以是用户从本地系统中上传至客户端，或者控制客户端采集获得等。

该待处理内容例如可以是指视频、图像或者情景对话，如对话小说场景中的情景对话等。

202：从目标音频的至少一种音源数据中，确定目标音源数据。

其中，至少一种音源数据基于目标音频的音轨分离结果获得。

由于一个音频通常包括多种类型的音轨，例如可以包括人声、鼓点、贝斯以及其它声音等。通过将音频进行音轨分离，可以分离出多种类型的音轨，由这些不同类型的音轨组合可以获得单独的音源，比如由鼓点、贝斯以及其它声音可以获得伴奏音源等，因此一个音频按照音轨不同划分出的至少一种音源数据可以包括：原曲、人声、以及伴奏。其中，原曲意即为原始音频。人声由音轨分离出的人声构成，伴奏即由音轨分离获得的鼓点、贝斯以及其它声音构成等。

由前文描述可知预先构建音频数据库中，可以对音频数据库中的每个音频预先进行音轨分离，从而基于音轨分离结果获得各自对应的至少一种音源数据，并对应保持至音频数据库中。因此，该方法还可以包括：

对音频数据库中的音频进行音轨分离，并将音轨分离结果对应该音频保存至音频数据库中。

当然，也可以是确定出目标音频之后，再对该目标音频进行音轨分离，因此，在该实现情况下，从目标音频的至少一种音源数据中，确定目标音源数据可以包括：

对目标音频进行音轨分离以获得音轨分离结果；基于音轨分离结果，确定目标音频对应的至少一种音频数据；从该至少一种音频数据中，确定目标音源数据。

其中，音轨分离可以利用音轨分离模型实现，假设音轨分离模型用以提取四种类型的音轨，即人声、鼓点、贝斯以及其它声音。待分离的音频可以首先经过傅里叶变换处理等转换为频谱特征，再利用音轨分离模型处理频谱特征从而获得四个音轨频谱，之后将音轨频谱经过反向的傅里叶变换等而获得音轨数据等，再由所需的一个或多个音轨数据组合而获得对应的音源数据，如将鼓点、贝斯以及其它声音得到伴奏数据等。其中，该音轨分离模型可以预先训练获得，例如利用样本音频及对应的音轨分离结果进行训练获得等。

其中，该目标音源数据可以是根据实际场景所需音源类型而确定，比如待处理内容中包括声音情况下，该目标音源数据可以是指伴奏数据；待处理内容不包括声音情况下，目标音源数据可以是指人声数据或者原曲数据等。此外，也可以由用户选择所需的音源类型等，因此作为又一个实施例，从目标音频对应的至少一种音源数据中，确定目标音源数据可以包括：

输出音源类型选择提示信息；

基于第二用户选择请求，确定所选择的目标音源类型；

从至少一种音源数据中选择目标音源类型所对应的目标音源数据。

其中，该音源类型选择提示信息即用于提示用户从至少一种音源类型中选择目标音源类型等。该音源类型选择提示信息中可以包括至少一种音源类型分别对应的选择控件等，从而可以供用户执行相应选择操作，至少一种音源类型例如可以包括原曲、人声、以及伴奏等。本实施例技术方案由服务端执行情况下，该输出音源类型选择提示信息可以是将音源蕾西选择提示信息发送至客户端，由客户端显示该音源类型选择提示信息，该第二用户选择请求即由客户端感应针对音源类型选择提示信息的用户选择操作而发送的；本实施例技术方案由客户端执行的情况下，该输出操作即为显示操作，第二用户选择请求可以是客户端检测针对音源类型选择提示信息的用户选择操作而生成等。

203：结合待处理内容的显示时长，从目标音源数据中截取第一音源片段。

由于目标音频的播放时长和待处理内容的显示时长可能不同，因此截取合适的音频片段与待处理内容进行匹配也成为需要解决的问题，如果由人工自己进行定位和剪辑，往往不够准确，本申请实施例在，由于目标音源数据与目标音频在播放时间是一一对应的。因此，可以结合待处理内容的显示时长，从目标音源数据中截取第一音源片段，该第一音源片段的播放时长与该待处理内容的显示时长保持一致。

可选地，为了进一步提高匹配准确度，该第一音源片段可以是从目标音源数据中提取的目标类型的音源片段，可以利用音频提取模型来提取目标类型的音源片段，例如一种实现方式可以是首先将目标音源数据转换为音频帧序列，将音频帧序列输入音频提取模型，可以获得每个音频帧属于该目标类型的概率值，从而可以结合显示时长，从音频帧序列中选择对应的概率之和最大的时间区间的片段作为第一音源片段等，或者可以是选择包含最大概率的时间区间对应的片段作为第一音源片段等。该音频提取模型例如可以预先根据样本音频的音频帧序列以及该样本音频中每个音频帧是否属于目标类型的标签数据，进行训练获得。其中，标签数据例如可以包括0以及1等，音频帧属于目标类型对应的标签数据为1，不属于目标类型对应的标签数据可以为0等。

其中，目标类型可以是指音频数据中的高潮部分，对于音频为歌曲的情况下，通常一首歌曲往往是由主歌，副歌，过渡句，流行句，序唱，过门，间奏等部分组成，高潮部分可以具体是指副歌部分。高潮部分通常是音频中节奏情感曲调上更丰富的片段，用以与待处理内容进行匹配，可以有助于进一步提升待处理内容的内容效果。

此外，作为又一种可选方式，可以结合待处理内容的显示时长，从目标音源数据中提取属于目标类型的第二音源片段；

基于第二音源片段，输出片段选择提示信息；

基于第三用户选择请求，从目标音源数据中截取第一音源片段。

该片段选择提示信息可以用于提示该第二音源片段，可选地，该片段选择提示信息例如可以包括该第二音源片段对应的起始位置等，该片段提示信息中可以包括目标音源数据对应的片段选择控件，可以在片段选择控件中可以包括该第二音源片段对应的起始位置等，用户通过操作片段选择控件可以实现选择相应音源片段的目的，通过提示用户该第二音源片段的起始位置，可以帮助用户快速定位想要的音源片段。用户针对片段选择提示信息，可以执行确定或者修改操作等，从而可以确定用户所重新选择的起始位置，结合用户重新选择的起始位置以及该显示时长，可以获得第一音源片段。也就是说，第一音源片段可以与第二音源片段相同，也可以不同。

第二音源片段的提取可以采用音频提取模型实现，在该可选方式中，将音频帧序列输入音频提取模型，可以获得每个音频帧属于该目标类型的概率值，从而结合显示时长，从音频帧序列中选择对应的概率之和最大的时间区间的片段或者包括最大概率的时间区间的片段，具体作为第二音源片段等。

本实施例技术方案由服务端执行时，可以是将片段选择提示信息发送至客户端，由客户端显示该片段选择提示信息。本实施例技术方案由客户端执行时，即具体由客户端显示该片段选择提示信息。第三用户选择请求为客户端检测到用户针对片段选择提示信息的选择操作而生成等。

此外，作为其它的技术实现，也可以是从目标音频中提取属于目标类型的第一音频片段，基于第一音频片段，输出片段选择提示信息；基于第四用户选择请求，从目标音频中截取第二音频片段，然后再确定目标音源数据中与该第二音频片段对应的第一音源片段。也即可以针对目标音频执行相应操作获得第二音频片段，再找到对应的第一音源片段。

204：将第一音源片段作为与待处理内容的目标匹配结果。

最终获得的第一音源片段即可以作为待处理内容的目标匹配结果。

作为一种可选方式，还可以将第一音源片段与待处理内容结合以生成目标内容。

此外，在一些应用场景中，还可以发布该目标内容，发布的目标内容，不同该用户借助各自的客户端即可以查看等。

此外，还可以输出该目标内容，例如由客户端显示该目标内容，以供用户查看，接收到用户处理请求之后，可以再对该目标内容进行处理，比如用户处理请求可以为用户发布请求，此时再发布该目标内容；或者可以为用户保存请求，可以将目标内容保存至指定位置等，例如保存至客户端的本地系统，或者保存至服务端的存储系统等。

作为另一种可选方式，确定目标匹配结果之后，还可以输出该目标匹配结果对应的匹配提示信息，以进一步提示用户确认该目标匹配结果等。

若接收到用户确认请求，可以再将第一音源片段与待处理内容结合以生成目标内容。之后，还可以基于用户相应处理请求，发布或者保存该目标内容等。

本实施例的技术方案实现了为内容匹配音频的目的，且可以保证匹配效果以及匹配效率等。

由上文相关描述可知，待处理内容的内容特征可以利用特征提取模型提取获得。作为一种可选方式，该特征提取模型可以采用双塔结构，可以包括内容特征提取模块和音频特征提取模块。可以具体是由特征提取模型中的内容特征提取模块提取获得，而音频特征可以由特征提取模型中的音频特征提取模块提取获得。

该特征提取模型可以具体按照如下方式预先训练获得：

构建由内容特征提取模块以及音频特征提取模块形成双塔结构的特征提取模型；

将训练数据中的样本内容输入视频特征提取模块以提取视频样本特征；

将训练数据中的样本音频输入音频特征提取模块以提取音频样本特征；

计算视频样本特征与音频样本特征的相似度；

基于相似度及训练数据中的标签数据，调整特征提取模型的模型参数。

其中，该标签数据可以表示样本内容与样本音频的实际相似度，表示样本内容与样本音频是否匹配等，例如若匹配，标签数据取值例如可以为1，若不匹配，标签数据取值例如可以为0。对于标签数据1的训练数据即为正样本，对于标签数据为0的训练数据即为负样本。

基于不同训练数据计算获得的相似度与标签数据的差异信息，可以对模型参数不断进行调整，直至满足差异要求，即可以训练结束。

为了提高模型准确度，可选地，音频特征提取模块可以包括语义特征提取网络和VIT(Vision Transformer，视觉转换网络)；其中，语义特征提取模型例如可以采用VGGish实现，其中，VGGish是一种基于tensorflow(一种深度学习框架)的VGG(Visual GeometryGroup Network，可视化几何组网络)模型。

因此，该将训练音频输入音频特征提取模块以提取音频特征可以包括：

将训练音频输入音频特征提取模块，利用语义特征提取网络从训练音频中提取多维特征向量；

将多维特征向量中的每个元素输入VIT，以获得音频特征。

利用语义特征提取网络提取的多维特征向量携带有语义信息，使得最终获得的特征会更加准确。

例如，利用VGGish可以从训练音频中提取获得N*128维的多维特征向量，N表示帧长。可以将N*128维特征向量中的N*128个元素输入VIT。

将训练音频对应的多维特征向量的每个元素输入VIT，即可以实现利用VIT对音频进行处理，实现提取最终音频特征的目的，使用VIT可以降低计算资源，提高准确度等。

为了便于理解，如图3所示，示出了特征提取模型的训练过程示意图，特征提取模型的内容特征提取模块可以包括输入层301，特征提取层302以及输出层303，音频特征提取模块同样可以包括输入层304、特征提取层以及输出层305，音频特征提取模块的特征提取层可以由VGGish网络306以及VIT网络307构成。内容特征提取模块的输出层303的输出结果与音频特征提取模块的输出层305的输出结果，可以计算相似度，基于该相似度与标签数据，利用损失函数即可以实现调整特征提取模型的模型参数。

在内容为视频情况下，输入内容特征提取模块的输入层301的可以是从样本视频中提取的多个图像帧，特征提取层302用于从多个图像帧中提取获得对应的视频特征，例如可以分别提取每个图像帧的图像特征，再将多个图像特征融合获得视频特征等，由输出层205输出。视频特征的具体提取方式本申请不进行具体限定。

在上述一个或多个实施例，第一音源片段可以与待处理内容结合生成目标内容；此外，还可以发布该目标内容以供其他用户查看等。

为了进一步提高特征提取模型的模型准确度，该方法还可以包括：

统计多个目标内容分别对应多个监测指标的监测数据；

基于分别对应多个监测指标的监测数据，从多个目标内容筛选至少一个内容；

将至少一个内容及各自对应的音频作为特征提取模型的训练数据，以重新训练特征提取模型。

多个目标内容也即是分别按照上述相应实施例的技术方案所生成的目标内容。

多个监测指标例如可以包括内容播放数量、内容浏览数量等，监测数据即为具体的数量值，在目标内容关联商品情况，比如在目前的网上交易系统中，可以发布针对商品的商品视频，借助商品视频可以提升商品购买率等，该多个监测指标还可以包括关联商品的购买转化率等，购买转化率例如可以是指商品购买数量与内容播放数量的比值，该商品购买数量是指由该内容播放数量所带来的用户执行对商品的购买操作而统计获得。

可以具体是筛选内容播放数量、内容浏览数量或购买转化率大于各自对应的相应数值的至少一个内容，该至少一个内容与各自匹配的音频，可以重新作为特征提取模型的训练数据，继续训练特征提取模型，以进一步提升模型性能。

图4为本申请实施例提供的一种显示方法一个实施例的流程图，本实施例可以具体由客户端执行，该方法可以包括以下几个步骤：

401：显示与待处理内容匹配的至少一个音频的推荐提示信息。

其中，该至少一个音频基于待处理内容提取的内容特征所确定。推荐提示信息可以是由服务端生成并发送至客户端，当然，也可以由客户端执行。

至少一个音频的具体确定方式以及推荐提示信息的生成方式在前文相应实施例中已进行了阐述，此处不再重复赘述。

可选地，步骤301之前，该方法还可以包括：检测用户提供的待处理内容，该待处理内容可以是基于用户相应请求从本地系统获得或者采集获得等。

402：响应于用户选择操作，确定所选择的目标音频。

客户端可以将基于所选的目标音频，向服务端发送第一用户选择请求，以便于服务端确定该目标音频等。

403：显示目标音频对应的音源类型选择提示信息以及片段选择提示信息。

可以在客户端显示该至少一种音源类型的音源类型选择提示信息，用以提示用户选择目标音源类型。

同时，还可以显示片段选择提示信息，以提示用户选择音源片段等。

该片段选择提示信息可以用于提示第一音源片段或者第二音源片段，该第二音源片段通过结合待处理内容的显示时长，从而目标音源中所提取的目标类型的音源片段，的音源选择提示信息以及片段选择提示信息的具体实现方式也在前文相应实施例中进行了详细说明，此处亦不再赘述。

404：响应于用户选择操作，确定所选择的目标音源类型对应的目标音源数据中的第一音源片段。

该用户选择操作可以包括针对音源类型选择提示信息的选择操作，以确定目标音源类型，进而确定目标音源数据；还可以包括针对片段选择提示信息的选择操作，以确定第一音源片段等。

用户结合片段选择提示信息，可以从选择的目标音源类型对应的目标音源数据中选择第一音源片段。该第一音源片段可以与第二音源片段相同或不同等，例如该片段选择提示信息用于提示第二音源片段时，还可以包括确认控件，若检测到针对确认控件的确认操作，则可以将该第二音源片段即作为第一音源片段。

其中，客户端还可以基于第一音频片段，向服务端发送第三用户选择请求，以由服务端确定该第一音源片段。此外，客户端基于用户所选择的目标音源数据，也可以向服务端发送第二用户选择请求，以由服务端确定所选择的目标音源数据，进而可以再对目标音源数据结合待处理内容的显示时长，提取属于目标类型的第二音源片段等。

其中，第一音源片段用以作为待处理内容的目标匹配结果。

此外，客户端还可以播放第一音源片段与待处理内容结合获得的目标内容，以便于用户进行进一步的确认等。

此外，客户端还可以显示目标内容对应的处理提示信息等，在接收到用户针对目标内容的相应处理请求时，处理该目标内容或者将处理请求发送至服务端，由服务端处理该目标内容。

处理请求例如可以包括发布请求，从而针对目标内容的处理操作可以是发布操作；处理请求又如可以是保存请求，从而针对目标内容的处理操作可以是保存操作等，例如将目标内容下载至本地系统或者请求保存至服务端等。

本申请实施例的技术方案，在实际应用中，待处理内容例如可以为视频、图像或者情景对话等。下面以待处理内容为待处理视频为例，对本申请技术方案进行介绍，如图5所示，为本申请实施例提供的一种视频处理方法一个实施例的流程图，该方法可以包括以下几个步骤：

501：提取待处理视频的视频特征，并根据视频特征确定与待处理视频匹配的至少一个音频。

502：输出至少一个音频对应的音频推荐提示信息。

503：基于第一用户选择请求，确定从至少一个音频中所选择的目标音频。

可以是由客户端显示该推荐提示信息，并感应相应的用户选择操作而生成该第一用户选择请求。

504：基于目标音频对应的至少一种音源数据，输出音源选择提示信息。

505：基于第二用户选择请求，确定从至少一种音源数据中选择的目标音源数据。

可以是由客户端显示该音频选择提示信息，并感应相应的用户选择操作而生成该第二用户选择请求。

505：结合待处理内容的显示时长，从目标音源数据中截取第一音源片段。

506：将第一音源片段作为与待处理内容的目标匹配结果。

其中，在某些实施例中，结合待处理内容的显示时长，从目标音源数据中截取第一音源片段可以包括：

结合待处理内容的显示时长，从目标音源数据中提取属于目标类型的第二音源片段；基于第二音源片段输出片段选择提示信息；基于第三用户选择请求，从目标音源数据中截取第一音源片段。

此外，还可以将第一音源片段与待处理视频结合，以获得目标视频。

可以由客户端播放该目标视频，并可以显示处理提示信息等，客户端接收到用户针对目标视频的相应处理请求时，可以处理该目标视频或者将处理请求发送至服务端，由服务端处理该目标视频。处理请求例如可以包括发布请求或者保存请求等。

对应于图5所示的技术方案，图6提供的显示方法主要从客户端角度描述了本申请的技术方案，该方法可以包括：

601：显示与待处理视频匹配的至少一个音频的推荐提示信息。

至少一个音频基于从待处理视频提取的视频特征所确定。

可选地，待处理视频可以由用户提供，因此执行步骤501之前，还可以包括获取用户提供的待处理视频。

602：响应于用户选择操作，确定所选择的目标音频。

603：显示目标音频对应的音源类型选择提示信息以及片段选择提示信息。

604：响应于用户选择操作，确定所选择的目标音源类型对应的目标音源数据中的第一音源片段；其中，第一音源片段，用以作为待处理内容的目标匹配结果。

图6所示实施例与图4所示实施例不同之处在于待处理内容具体为待处理视频，其它相同或相应操作可以详见图4所示实施例，此处将不再赘述。

为了便于理解本申请技术方案，图7示出了本申请实施例的技术方案在一个实际应用中的场景交互示意图，需要说明的是图7仅是一种可能的场景交互方式，本申请并不仅限定于此，其中，用户可以通过客户端701上传待处理视频，待处理视频可以是本地保存的，或者用户通过客户端进行拍摄获得的等，客户端701将待处理视频可以发送至服务端702。服务端702可以提取待处理视频的视频特征，如采用特征提取模型中的视频特征提取模块提取获得。并从音频数据库中查找音频特征与该视频特征的相似度满足相似要求的至少一个音频，其中，音频数据库中各个音频的音频特征可以预先利用特征提取模型中的音频特征提取模块提取获得。

服务端702可以将至少一个音频对应的音频推荐提示信息发送至客户端701，客户端701可以显示该音频推荐提示信息，并可以响应于用户选择操作而确定所选择的目标音频，基于该目标音频可以向服务端702发送第一用户选择请求，以供服务端702确定所选择的目标音频。

服务端702还可以向客户端701发送音源类型选择提示信息，由客户端701显示音源类型选择提示信息。客户端701响应于针对音频类型选择提示信息的选择操作，可以确定所选择的目标音源类型，并基于目标音频类型向服务端702发送第二用户选择请求，以便于服务端702确定该目标音源类型，从而从至少一种音源数据中选择目标音源类型所对应的目标音源数据。

服务端702可以结合待处理视频的显示时长，意即播放时长，从目标音源数据中提取目标类型，如属于高潮部分的第二音源片段，并向客户端701发送第二音源片段所对应的片段选择提示信息，由客户端701显示该片段选择提示信息，例如片段选择提示信息中可以包括第二音源片段的起始位置等。

客户端701响应于针对片段选择提示信息的相应操作，例如确认操作或者重新修改起始位置的操作等，从而确定用户所所选的第一音源片段，客户端701可以向服务端703发送第三用户选择请求，以便于通知服务端702截取该第一音源片段，服务端702即可以将第一音源片段与待处理视频结合生成目标视频。

该目标视频可以在客户端701中进行播放。服务端702还可以基于用户发布请求发布该目标视频。或者客户端701基于用户保存请求，将目标视频保存至本地系统或者请求服务端702对应用户账号保存该目标视频等。

通过本申请实施例的技术方案，可以实现为待处理视频高效、准确匹配音频目的，在短视频应用场景中，可以有助于提升短视频的视频质量，短视频关联商品的情况，还有助于提升商品的购买率等。

图8为本申请实施例提供的一种数据处理装置一个实施例的结构示意图，该装置可以包括：

音频匹配模块801，用于提取待处理内容的内容特征，并根据内容特征确定与待处理内容匹配的目标音频；

音源确定模块802，用于从目标音频的至少一种音源数据中，确定目标音源数据；其中，至少一种音源数据基于目标音频的音轨分离结果获得；

片段截取模块803，用于结合待处理内容的显示时长，从目标音源数据中截取第一音源片段，并将第一音源片段作为与待处理内容的目标匹配结果。

实际应用中，该待处理内容可以是指待处理视频、待处理图像或者待处理的情景对话，如对话小说等。

在某些实施例中，音频匹配模块可以具体用于获取用户提供的待处理内容；提取待处理内容的内容特征，并根据内容特征，从音频数据库中确定与待处理内容匹配的至少一个音频；输出至少一个音频对应的推荐提示信息；基于第一用户选择请求，确定从至少一个音频中选择的目标音频。

在某些实施例中，音源确定模块可以具体用于输出音源类型选择提示信息；基于第二用户选择请求，确定所选择的目标音源类型；从至少一种音源数据中选择目标音源类型所对应的目标音源数据。

在某些实施例中，片段截取模块结合待处理内容的显示时长，从目标音源数据中截取第一音源片段可以是结合待处理内容的显示时长，从目标音源数据中提取属于目标类型的第二音源片段；基于第二音源片段，输出片段选择提示信息；基于第三用户选择请求，从目标音源数据中截取第一音源片段。

在某些实施例中，音频确定模块可以具体用于利用特征提取模型中的内容特征提取模块，提取待处理内容的内容特征；确定音频特征与内容特征满足相似要求的目标音频；其中，音频特征由特征提取模型中的音频特征提取模块从目标音频中提取获得。

在某些实施例中，该装置还可以包括：

模型训练模块，用于构建由内容特征提取模块以及音频特征提取模块形成双塔结构的特征提取模型；将训练数据中的样本内容输入视频特征提取模块以提取视频样本特征；将训练数据中的样本音频输入音频特征提取模块以提取音频样本特征；计算视频样本特征与音频样本特征的相似度；基于相似度及训练数据中的标签数据，调整特征提取模型的模型参数。

在某些实施例中，音频特征提取模块包括语义特征提取网络和以及视觉转换网络VIT；

该模型训练模块将训练音频输入音频特征提取模块以提取音频特征可以是将训练音频输入音频特征提取模块，利用语义特征提取网络从训练音频中提取多维特征向量；将多维特征向量中的每个元素输入VIT，以获得音频特征。

在某些实施例中，该装置还可以包括：

内容处理模块，用于将第一音源片段与待处理内容结合以生成目标内容；发布目标内容；统计多个目标内容分别对应多个监测指标的监测数据；基于分别对应多个监测指标的监测数据，从多个目标内容筛选至少一个内容；将至少一个内容及各自对应的音频作为特征提取模型的训练数据，以触发模型训练模块重新训练特征提取模型。

图8所述的数据处理装置可以执行图2所示实施例所述的数据处理方法，其实现原理和技术效果不再赘述。对于上述实施例中的数据处理装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图9为本申请实施例提供的一种计算设备一个实施例的结构示意图，该计算设备可以配置有如图7所述的数据处理装置，该计算设备可以包括存储组件901以及处理组件902。存储组件901存储一条或多条计算机指令，该一条或多条计算机指令供处理组件902调用并执行，以实现如图2的数据处理方法或者实现如图5所示的视频处理方法。

当然，该计算设备必然还可以包括其他部件，例如输入/输出接口、通信组件等。

输入/输出接口为处理组件和外围接口模块之间提供接口，上述外围接口模块可以是输出设备、输入设备等。通信组件被配置为便于计算设备和其他设备之间有线或无线方式的通信等。

其中，该计算设备可以为物理设备或者云计算平台提供的弹性计算主机等，此时电子设备即可以是指云服务器，上述处理组件、存储组件等可以是从云计算平台租用或购买的基础服务器资源。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被计算机执行时可以实现上述2所示实施例的数据处理方法或者实现如图5所示的视频处理方法。该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

本申请实施例还提供了一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，所述计算机程序被计算机执行时可以实现如上述如图2所示实施例的数据处理方法或者实现如图5所示的视频处理方法。

在这样的实施例中，计算机程序可以是从网络上被下载和安装，和/或从可拆卸介质被安装。在该计算机程序被处理组件执行时，执行本申请的系统中限定的各种功能。

图10为本申请实施例提供的一种显示装置一个实施例的结构示意图，该装置可以包括：

第一显示模块1001，用于显示与待处理内容匹配的至少一个音频的推荐提示信息；至少一个音频基于从待处理内容提取的内容特征所确定；

第一确定模块1002，用于响应于用户选择操作，确定所选择的目标音频；

第二显示模块1003，用于显示目标音频对应的音源类型选择提示信息及片段选择提示信息；

第二确定模块1004，响应于用户选择操作，确定所选择的目标音源类型对应的目标音源数据中的第一音源片段；其中，第一音源片段，用以作为待处理内容的目标匹配结果。

第二显示模块可以首先显示音源类型选择提示信息，基于针对音源类型选择提示信息的用户选择操作，确定所选择的目标音源类型及其对应的目标音源数据，再显示该目标音源数据对应的片段选择提示信息。

可选地，第二确定模块可以具体是响应于针对片段选择提示信息的用户选择操作，确定所选择的目标音源数据中的第一音源片段。

图10所述的显示装置可以执行图4所示实施例所述的显示方法，其实现原理和技术效果不再赘述。对于上述实施例中的显示装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

此外，如图11中所示，本申请实施例还提供了一种电子设备，其可以配置有如图10所述显示装置等。该电子设备可以包括存储组件1101、显示组件1102以及处理组件1103。存储组件1101存储一条或多条计算机指令，该一条或多条计算机指令供处理组件1103调用并执行，以实现如图4所示实施例或如图6所示实施例的显示方法。

当然，该电子设备必然还可以包括其他部件，例如输入/输出接口、通信组件等。

其中，该电子设备在实际应用中例如可以是手机、平板电脑、个人计算机等终端设备。

此外，本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，所述计算机程序被计算机执行时可以实现上述4所示实施例或如图6所示实施例的显示方法。该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

本申请实施例还提供了一种计算机程序产品，其包括承载在计算机可读存储介质上的计算机程序，所述计算机程序被计算机执行时可以实现如上述如图4所示实施例或如图5所示实施例的显示方法。

前文相应实施例中所涉及的处理组件可以包括一个或多个处理器来执行计算机指令，以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

存储组件被配置为存储各种类型的数据以支持在相应设备中的操作。存储组件可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

显示组件可以为电致发光(EL)元件、液晶显示器或具有类似结构的微型显示器、或者视网膜可直接显示或类似的激光扫描式显示器。

计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述提取待处理内容的内容特征，并根据所述内容特征，确定与所述待处理内容匹配的目标音频包括：

获取用户提供的所述待处理内容；

提取所述待处理内容的内容特征，并根据所述内容特征，从音频数据库中确定与所述待处理内容匹配的至少一个音频；

输出所述至少一个音频对应的推荐提示信息；

基于第一用户选择请求，确定从所述至少一个音频中选择的目标音频。

3.根据权利要求2所述的方法，其特征在于，所述从所述目标音频对应的至少一种音源数据中，确定目标音源数据包括：

输出音源类型选择提示信息；

基于第二用户选择请求，确定所选择的目标音源类型；

从所述至少一种音源数据中选择所述目标音源类型所对应的目标音源数据。

4.根据权利要求2所述的方法，其特征在于，所述结合所述待处理内容的显示时长，从所述目标音源数据中截取第一音源片段包括：

结合所述待处理内容的显示时长，从所述目标音源数据中提取属于目标类型的第二音源片段；

基于所述第二音源片段，输出片段选择提示信息；

基于第三用户选择请求，从所述目标音源数据中截取第一音源片段。

5.根据权利要求1所述的方法，其特征在于，所述提取待处理内容的内容特征，并根据所述内容特征，确定与所述待处理内容匹配的目标音频包括：

利用特征提取模型中的内容特征提取模块，提取所述待处理内容的内容特征；

确定音频特征与所述内容特征满足相似要求的目标音频；其中，所述音频特征由所述特征提取模型中的音频特征提取模块从所述目标音频中提取获得。

6.根据权利要求5所述的方法，其特征在于，所述特征提取模型按照如下方式训练获得：

将所述训练数据中的样本音频输入所述音频特征提取模块以提取音频样本特征；

计算所述视频样本特征与所述音频样本特征的相似度；

基于所述相似度及所述训练数据中的标签数据，调整所述特征提取模型的模型参数。

7.根据权利要求6所述的方法，其特征在于，所述音频特征提取模块包括语义特征提取网络和以及视觉转换网络VIT；

所述将训练音频输入所述音频特征提取模块以提取音频特征包括：

将训练音频输入所述音频特征提取模块，利用所述语义特征提取网络从所述训练音频中提取多维特征向量；

将所述多维特征向量中的每个元素输入VIT，以获得音频特征。

8.根据权利要求6所述的方法，其特征在于，还包括：

将所述第一音源片段与所述待处理内容结合以生成目标内容；

发布所述目标内容；

统计多个目标内容分别对应多个监测指标的监测数据；

基于分别对应所述多个监测指标的监测数据，从所述多个目标内容筛选至少一个内容；

将所述至少一个内容及各自对应的音频作为所述特征提取模型的训练数据，以重新训练所述特征提取模型。

9.一种显示方法，其特征在于，包括：

响应于用户选择操作，确定所选择的目标音频；

10.一种视频处理方法，其特征在于，包括：

输出所述至少一个音频对应的音频推荐提示信息；

11.一种计算设备，其特征在于，包括存储组件以及处理组件，所述存储组件存储一个或多个计算机指令；所述一个或多个计算机指令用以被所述处理组件调用执行，以实现如权利要求1～8任一项所述的数据处理方法或者如权利要求10所述的视频处理方法。

12.一种电子设备，其特征在于，包括存储组件、显示组件以及处理组件；所述存储组件存储一条或多条计算机程序指令；所述一条或多条计算机程序指令以供所述处理组件调用并执行，以实现如权利要求9所述的显示方法。