CN114822512A

CN114822512A - 音频数据的处理方法、装置、电子设备及存储介质

Info

Publication number: CN114822512A
Application number: CN202210747175.3A
Authority: CN
Inventors: 冯鑫
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2022-07-29
Anticipated expiration: 2042-06-29
Also published as: WO2024001646A1; CN114822512B

Abstract

本申请提供了一种音频数据的处理方法、装置、电子设备及存储介质；涉及人工智能领域，方法包括：对音频数据进行信源分离处理，得到至少一种信源类型分别对应的音轨数据；基于每个音轨数据中与信源类型相关的至少一个时间段落，对音频数据中的每个片段分配权重值，并将每个权重值组合形成权重值序列；将从每个片段提取的音频特征组合成音频数据的音频特征序列，对音频特征序列进行编码处理，得到注意力参数序列；对注意力参数序列与权重值序列进行融合处理，得到每个片段的融合参数，并基于每个融合参数确定每个片段的目标参数；基于每个目标参数，确定音频数据中的目标片段。通过本申请，能够从音频数据中准确识别出目标片段。

Description

音频数据的处理方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术，尤其涉及一种音频数据的处理方法、装置、电子设备及存储介质。

背景技术

现有技术中，通常通过视频/音频的播放记录数据确定视频/音频的热度信息或者精彩片段，但是针对新上映的视频，没有播放记录数据可以确定视频的热度信息。新上映视频的热度信息通常是通过人工标注确定，例如：通过人工标注的方法来定位整个剧集视频的精彩片段。人工标注能够一定程度上会让精彩片段的定位更为准确，但是该种方法会严重依赖于人工标注的主观感受，并且人工标注的耗时过长，标注效率低，无法进行快速的批量化生产。

综上所述，针对没有大量播放记录数据的媒体数据，暂无较好的方式识别精彩片段。

发明内容

本申请实施例提供一种音频数据的处理方法、装置、电子设备及计算机可读存储介质、计算机程序产品，能够从音频数据中准确识别出目标片段。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种音频数据的处理方法，包括：

对音频数据进行信源分离处理，得到至少一种信源类型分别对应的音轨数据；

基于每个所述音轨数据中与所述信源类型相关的至少一个时间段落，对所述音频数据中的每个片段分配对应的权重值，并将每个所述权重值组合形成所述音频数据的权重值序列；

基于从所述每个片段提取的音频特征，组合形成所述音频数据的音频特征序列，并对所述音频特征序列进行编码处理，得到所述音频数据的注意力参数序列；

对所述注意力参数序列与所述权重值序列进行融合处理，得到每个所述片段的融合参数，并基于每个所述融合参数确定每个所述片段的目标参数；

基于每个所述片段的目标参数，确定所述音频数据中的目标片段。

本申请实施例提供一种音频数据的处理装置，包括：

信源分离模块，配置为对音频数据进行信源分离处理，得到至少一种信源类型分别对应的音轨数据；

权重配置模块，配置为基于每个所述音轨数据中与所述信源类型相关的至少一个时间段落，对所述音频数据中的每个片段分配对应的权重值，并将每个所述权重值组合形成所述音频数据的权重值序列；

特征提取模块，配置为基于从所述每个片段提取的音频特征，组合形成所述音频数据的音频特征序列，并对所述音频特征序列进行编码处理，得到所述音频数据的注意力参数序列；

参数预测模块，配置为对所述注意力参数序列与所述权重值序列进行融合处理，得到每个所述片段的融合参数，并基于每个所述融合参数确定每个所述片段的目标参数；

所述参数预测模块，还配置为基于每个所述片段的目标参数，确定所述音频数据中的目标片段。

本申请实施例提供一种电子设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的音频数据的处理方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的音频数据的处理方法。

本申请实施例提供一种计算机程序产品，包括计算机程序或指令，所述计算机程序或指令被处理器执行时实现本申请实施例提供的音频数据的处理方法。

本申请实施例具有以下有益效果：

通过对音频数据进行信源分离处理，得到至少一种信源对应的音轨数据，基于信源对应的时间段落对片段分配对应的权重值，使得权重值可以表征信源与片段的关联性，提升音频特征提取的准确性；将权重值序列与注意力参数序列融合，基于融合结果进行目标参数预测，提升了定位目标片段的准确性，从而在不依赖音频数据的播放记录数据的情况下，就可以准确识别目标片段，为用户提供准确的参考消息，提升了用户体验。

附图说明

图1是本申请实施例提供的音频数据的处理方法的应用模式示意图；

图2是本申请实施例提供的电子设备的结构示意图；

图3A是本申请实施例提供的音频数据的处理方法的第一流程示意图；

图3B是本申请实施例提供的音频数据的处理方法的第二流程示意图；

图3C是本申请实施例提供的音频数据的处理方法的第三流程示意图；

图3D是本申请实施例提供的音频数据的处理方法的第四流程示意图；

图3E是本申请实施例提供的音频数据的处理方法的第五流程示意图；

图4A是本申请实施例提供的视频中提取的音频数据的示意图；

图4B是本申请实施例提供的音轨数据示意图；

图4C是本申请实施例提供的时间段落示意图；

图5是本申请实施例提供的音频数据的处理方法的一个可选的流程示意图；

图6A是本申请实施例提供的音频处理模型的第一示意图；

图6B是本申请实施例提供的音频处理模型的第二示意图；

图7是本申请实施例提供的金字塔场景解析模块的示意图；

图8是本申请实施例提供的音频语义信息提取模块的示意图；

图9是本申请实施例提供的注意力模块中编码处理的原理示意图；

图10A是本申请实施例提供的播放界面的第一示意图；

图10B是本申请实施例提供的播放界面的第二示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

需要指出，在本申请实施例中，涉及到用户信息、用户反馈数据等相关的数据，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1）金字塔场景解析网络（PSPN，Pyramid Scene Parsing Network），金字塔场景解析网络的作用是预测所关注对象的标签（label）、位置（location）和形状（shape）。该网络中包括金字塔池化模块（Pyramid Pooling Module），金字塔池化模块可以将局部的上下文信息进行聚合，形成全局的上下文信息，更全面地实现定位、分类等处理。

2）信源分离，在音频数据（例如从视频数据的音频轨道中提取的音频数据，或，从音频文件中提取的音频数据），中，可能会承载一种或多种音频信号（即数字音频信号的简称，数字音频信号是对模拟音频信号进行采样和编码得到的），每种音频信号对应一种信源（例如语音对应的信源为人类），而信源分离就是通过信号处理或者其他算法进行分离处理，提取出指定信源的音频信号的序列，最终生成由不同信源的音频信号的序列分别构成的音轨数据，例如：语音音轨数据，背景音轨数据。

3）语音活动检测（VAD，Voice Activity Detection）算法，用于检测音频中语音/非语音（非语音/静音）的算法。广泛应用于语音编码、降噪和自动语音识别等场景（ASR，Automatic Speech Recognition）中。

4）时域和频域，时域和频域是音频数据的基本性质，用来分析音频数据的不同角度称为域，是衡量音频特征的两个维度概念。时域维度下，将音频数据的采样点在时间上进行展示处理，信号与时间之间存在相应的关系。通过傅里叶变换可以把信号从时域转换到频域。频域信号特征表征其音频数据在各个频带上的能量分布，包含其一定程度上的特征表现。

5）梅尔（Mel）频率，一种基于人耳对等距的音高（pitch）变化的感官判断而定的非线性频率刻度，是在进行信号处理时，更能够迎合人耳的听觉感受阈值变化来人为设定的频率刻度，在音频处理领域，有很多基础音频特征是通过mel频率来进行计算的。

6）卷积神经网络（CNN，Convolutional Neural Networks），是一类包含卷积计算且具有深度结构的前馈神经网络（FNN，Feed forward Neural Networks），是深度学习（Deep Learning）的代表算法之一。卷积神经网络具有表征学习（RepresentationLearning）能力，能够按其阶层结构对输入图像进行平移不变分类（Shift-invariantClassification）。卷积神经网络的人工神经元可以响应一部分覆盖范围内的周围单元。卷积神经网络由一个或多个卷积层和顶端的全连接层（对应经典的神经网络）组成，同时也包括关联权重和池化层（pooling layer）。

7）注意力（Attention）机制，模仿人类注意力而提出的一种解决问题的办法，能够从大量信息中快速筛选出高价值信息。注意力机制用于主要用于解决长短期记忆网络（LSTM，Long Short-Term Memory）、循环神经网络（RNN，Recurrent Neural Network）模型输入序列较长的时候很难获得最终合理的向量表示问题，做法是保留长短期记忆网络的中间结果，用新的模型对中间结果与输出结果之间的关联性进行学习，从而确定输出结果中精彩程度较高的信息，从而达到信息筛选的目的。

本申请实施例提供一种音频数据的处理方法、音频数据的处理装置、电子设备和计算机可读存储介质及计算机程序产品，能够准确获取音频数据中的目标片段。

参考图1，图1是本申请实施例提供的音频数据的处理方法的应用模式示意图；示例的，涉及的服务器包括：识别服务器201与媒体服务器202（例如：视频平台的服务器、音乐平台的服务器、有声小说或者广播剧平台的服务器）、网络300及终端设备401。识别服务器201与媒体服务器202之间通过网络300进行通信，或者通过其他方式进行通信，终端设备401通过网络300连接媒体服务器202，网络300可以是广域网或者局域网，又或者是二者的组合。

在一些实施例中，媒体服务器202将音频数据（例如有声小说、在线音乐）发送给识别服务器201，识别服务器201确定音频数据中每个片段的目标参数（例如：精彩程度、悲伤程度、搞笑程度、热血程度等），并基于目标参数生成目标参数曲线、确定音频数据中的目标片段。将目标参数曲线与目标片段发送至媒体服务器202，媒体服务器202将目标参数曲线、目标片段位置标签发送给终端设备401，终端设备401运行播放器402，当播放器402播放对应的音频数据时，显示目标参数曲线、目标片段位置标签。用户基于目标参数曲线能够方便地确定音频数据中每个片段的目标参数，以及基于目标片段位置标签能够跳转到对应的位置进行播放，便于定位目标片段。

在一些实施例中，从视频数据（例如在线视频、本地视频）的音频轨道中分割出音频数据，得到音频数据。音频数据与视频画面的时间轴是一一对应的，音频数据的精彩片段与视频数据的精彩片段一一对应。目标参数可以包括：精彩程度、悲伤程度、搞笑程度、热血程度等。对应的目标片段分别是精彩片段、悲伤片段、搞笑片段、热线片段等。下面以目标参数是精彩程度，目标片段是精彩片段举例说明。用户可以是观看视频的观众，或者将视频数据作为素材进行二次创作的用户。用户通过精彩片段位置标签可以快速确定视频中的精彩片段，进而观看精彩片段或者将精彩片段从视频数据中剪切出来，进行视频二次创作。

在一些实施例中，识别服务器201与媒体服务器202可以集成在一起实施为一个统一的服务器，也可以分开设置。

本申请实施例可以通过区块链技术实现，可以将本申请实施例的音频数据的处理方法得到的目标参数曲线为检测结果，将检测结果上传到区块链中存储，通过共识算法保证检测结果的可靠性。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链（Blockchain），本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性（防伪）和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

本申请实施例可以通过数据库技术实现，数据库（Database），简而言之可视为电子化的文件柜存储电子文件的处所，用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

数据库管理系统（Database Management System，DBMS）是为管理数据库而设计的电脑软件系统，一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类，例如关系式、XML（Extensible Markup Language，即可扩展标记语言）；或依据所支持的计算机类型来作分类，例如服务器群集、移动电话；或依据所用查询语言来作分类，例如结构化查询语言（SQL，Structured Query Language）、XQuery；或依据性能冲量重点来作分类，例如最大规模、最高运行速度；亦或其他的分类方式。不论使用哪种分类方式，一些DBMS能够跨类别，例如，同时支持多种查询语言。

在一些实施例中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、车载终端等，但并不局限于此。终端设备以及服务器之间可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例中不做限制。

本申请实施例，还可以通过云技术实现，云技术（Cloud technology）基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，将来每个物品都有可能存在自己的哈希编码识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

参见图2，图2是本申请实施例提供的电子设备的结构示意图，该电子设备可以是终端设备，也可以是服务器。该电子设备包括：至少一个处理器410、存储器450、至少一个网络接口420。电子设备400中的各个组件通过总线系统440耦合在一起。可理解，总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统440。

处理器410可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器（DSP，Digital Signal Processor），或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

存储器450可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。

存储器450包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器（ROM，Read Only Memory），易失性存储器可以是随机存取存储器（RAM，Random Access Memory）。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。

在一些实施例中，存储器450能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作系统451，包括用于处理各种基本系统服务和执行硬件相关任务的系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。

网络通信模块452，用于经由一个或多个（有线或无线）网络接口420到达其他电子设备，示例性的网络接口420包括：蓝牙、无线相容性认证（WiFi）、和通用串行总线（USB，Universal Serial Bus）等。

呈现模块453，用于经由一个或多个与用户接口相关联的输出装置（例如，显示屏、扬声器等）使得能够呈现信息（例如，用于操作外围设备和显示内容和信息的用户接口）。

输入处理模块454，用于对一个或多个来自一个或多个输入装置之一的一个或多个用户输入或互动进行检测，以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的音频数据的处理装置可以采用软件方式实现，图2示出了存储在存储器450中的音频数据的处理装置455，其可以是程序和插件等形式的软件，包括以下软件模块：信源分离模块4551、权重配置模块4552、特征提取模块4553、参数预测模块4554，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在一些实施例中，终端设备或服务器可以通过运行计算机程序来实现本申请实施例提供的音频数据的处理方法。举例来说，计算机程序可以是操作系统中的原生程序或软件模块；可以是本地（Native）应用程序（APP，Application），即需要在操作系统中安装才能运行的程序，如视频APP、音频APP；也可以是小程序，即只需要下载到浏览器环境中就可以运行的程序；还可以是能够嵌入至任意APP中的小程序。总而言之，上述计算机程序可以是任意形式的应用程序、模块或插件。

参见图3A，图3A是本申请实施例提供的音频数据的处理方法的第一流程示意图，该方法可以由电子设备执行，将结合图3A示出的步骤进行说明。

在步骤301中，对音频数据进行信源分离处理，得到至少一种信源类型分别对应的音轨数据。

示例的，音频数据可以是原生的音频数据（例如：有声小说、广播剧等），也可以是从视频数据中提取的。目标参数可以包括：精彩程度、悲伤程度、搞笑程度、热血程度等。对应的目标片段分别是精彩片段、悲伤片段、搞笑片段、热线片段等。

在一些实施例中，步骤301通过以下方式实现：对音频数据进行特征提取处理，得到音频数据的全局特征；以全局特征为掩膜，对音频数据进行信源分离处理，得到音频数据中每种信源类型分别对应的音轨数据。这里，掩膜的边界用于表征不同信源类型对应的音频数据之间的边界。

示例的，基于掩膜进行卷积处理，能够区分不同信源类型的音频数据之间的边界，并将不同信源类型的子音频数据从整体的音频数据中单独分离出，得到每种信源类型分别对应的音轨数据。

在一些实施例中，对音频数据进行特征提取处理，得到音频数据的全局特征，通过以下方式实现：对音频数据进行特征提取处理，得到音频数据的原始特征；对原始特征进行多个层次的池化处理，得到音频数据的多个局部特征；对多个局部特征进行合并处理，得到音频数据的全局特征。

示例的，池化处理可以通过金字塔结构的池化模块实现，参考图7，图7是本申请实施例提供的金字塔场景解析模块的示意图；以下具体说明，卷积神经网络701对音频数据进行特征提取，得到音频数据的原始特征702，池化（pool）层703后设置的金字塔模块（包括卷积层1、卷积层2、卷积层3以及卷积层4，具体实施中可以根据提取精度设置更多的尺寸）。金字塔结构的池化模块的每层输出不同尺寸的局部特征，对不同级别的特征图705合并处理（concat），可以得到全局特征。

在一些实施例中，参考图3B，图3B是本申请实施例提供的音频数据的处理方法的第二流程示意图，在步骤302之前，通过以下步骤3011、步骤3012确定与信源类型相关的至少一个时间段落，以下具体说明。示例的，不限定步骤3011与步骤3012的执行顺序。

在步骤3011中，当音轨数据对应的信源类型为语音时，将音轨数据中短时能量大于能量阈值且过零率小于过零率阈值的时间段落，作为与语音相关的时间段落。

示例的，可以通过语音活动检测（VAD，Voice Activity Detection）算法获取语音相关的时间段落。短时能量，即一帧语音信号的能量，是帧内信号的平方和，过零率，即一帧语音时域信号穿过0（时间轴）的次数。语音活动检测算法的原理是，语音片段的短时能量相对较大，而过零率相对较小；反之，非语音片段的短时能量相对较小，但是过零率相对较大。因为语音信号能量绝大部分包含在低频带内，而噪音信号通常能量较小且含有较高频段的信息。故而可以通过测量语音信号的这两个参数并且与参数分别对应的阈值进行对比，从而判断语音信号与非语音信号。当音频数据的短时能量小于短时能量阈值且过零率大于过零率阈值，则该段音频为噪音。反之，音频数据的短时能量大于短时能量阈值且过零率小于过零率阈值时，该段音频是语音。

在步骤3012中，当音轨数据对应的信源类型为背景音时，将音轨数据中满足筛选条件的时间段落作为与背景音相关的时间段落。

其中，筛选条件包括以下任意一项：

1、时间段落对应的响度大于响度下限值。示例的，持续时间太短或者声音太小则有可能是杂音，而不是背景音乐。响度下限值可以是音频数据对应的响度的中位值的预设倍数（大于0且小于1）确定，例如：响度最大值与最小值的加和的平均值为响度中位值，响度中位值的0.5倍为响度下限值，将音频数据中响度小于下限值的时间段落确定为不满足筛选条件的段落。

2、时间段落的长度大于长度下限值。长度下限值基于音频数据的时间长度确定，例如：长度下限值为音频数据的百分之一。

在步骤302中，基于每个音轨数据中与信源类型相关的至少一个时间段落，对音频数据中的每个片段分配对应的权重值，并将每个权重值组合形成音频数据的权重值序列。

示例的，为便于对音频数据进行处理，预先将音频数据按照帧数或者时长划分为多个片段，例如：片段的长度为预设帧数，或者预设时长。通过确定片段属于的时间段落，为片段分配对应的权重值。

在一些实施例中，当通过信源分离处理得到语音和背景音两种信源类型的音轨数据时，参考图3C，图3C是本申请实施例提供的音频数据的处理方法的第三流程示意图，步骤302通过以下步骤3021至步骤3023实现，针对每个片段进行以下步骤3021至步骤3023处理，以下具体说明。

示例的，不限定步骤3021至步骤3023的执行顺序。

在步骤3021中，当片段属于语音相关的时间段落时，基于片段对应的语音的参数确定片段对应的权重值。

这里，权重值与参数正相关，参数包括以下至少之一：语速、语调、响度。

示例的，以影视剧视频为例进行说明，影视剧视频的音频数据中包括语音与背景音，语音部分通常是由演员表演的部分，影视剧中的精彩片段（目标片段）通常处于存在语音的时间段落。语音的语速、语调、响度等参数可以作为确定精彩片段的依据，可以基于参数中至少一项确定片段对应的权重值。

在步骤3022中，当片段属于背景音相关的时间段落时，将预设数值作为片段对应的权重值。

这里，预设数值小于任意一个语音相关的片段的权重值。

示例的，影视剧视频的音频数据中包括语音与背景音，语音部分通常是由演员表演的部分，仅存在背景音的部分通常是影视剧视频中过场等片段，可以对背景音相关时间段落分配小于语音相关片段的权重值。再例如：有声小说的音频数据中，精彩片段处于语音部分，仅有背景音的时间段落可以分配更少的权重值。

在步骤3023中，当片段不属于任意信源类型相关的时间段落时，将零作为片段对应的权重值。

示例的，当片段不处于任意信源类型的视角段落时，该片段可能是静音或者噪声片段，可以通过将片段的权重值置零提升获取目标参数的准确性。

在一些实施例中，当通过信源分离处理仅得到背景音一种信源类型的音轨数据时，参考图3D，图3D是本申请实施例提供的音频数据的处理方法的第四流程示意图，步骤302通过以下步骤3024至步骤3025实现，针对每个片段进行以下步骤3024和步骤3025的处理，以下具体说明。

示例的，不限定步骤3024与步骤3025的执行顺序。

在步骤3024中，当片段对应的时间段落属于背景音相关的时间段落时，基于片段对应的背景音的参数确定片段对应的权重值。

这里，权重值与参数正相关，参数包括以下至少之一：响度、音调。

示例的，假设音频数据是音乐会的音频数据，则仅包括背景音信源而不一定存在语音，语调、响度等参数可以作为确定精彩片段的依据，可以基于参数中至少一项确定片段对应的权重值。

在步骤3025中，当片段对应的时间段落不属于任意信源类型相关的时间段落时，将零作为片段对应的权重值。

示例的，步骤3025与步骤3023的内容相同，此处不再赘述。

在步骤303中，基于从每个片段提取的音频特征，组合形成音频数据的音频特征序列，并对音频特征序列进行编码处理，得到音频数据的注意力参数序列。

在一些实施例中，从每个片段中提取音频特征通过以下方式实现：对音频数据进行特征提取，得到单独的频域特征或者单独的时域特征。

在一些实施例中，在步骤303之前，可以通过以下方式获取音频特征，针对音频数据中每个片段进行以下处理：提取片段的时域信号特征与频域信号特征；基于每个音轨数据中与信源类型相关的至少一个时间段落，确定时域信号特征对应的一维时域权重值，以及确定频域信号特征对应的二维频域权重值；对一维时域权重值与时域信号特征的乘积进行多个层次的卷积处理，得到时域音频特征；对二维频域权重值与频域信号特征的乘积进行多个层次的卷积处理，得到频域音频特征；对时域音频特征进行缩放处理，得到二维时域音频特征；对二维时域音频特征与频域音频特征进行融合处理，得到片段的音频特征。

示例的，时域音频特征为一维特征，可以通过对时域音频特征进行缩放处理，便于将时域特征与频域特征进行融合，例如：通过reshape函数对一维特征进行处理，得到不改变元素数量的二维特征。

继续参考图6B，音频语义信息提取模块605的结构为双流型，包括时域支路606以及频域支路607，音频数据的时域信息、权重值序列输入时域支路606，时域支路606包括多个一维卷积层（一维卷积层1、……一维卷积层n），音频数据的频域信息、权重值序列输入频域支路607，频域支路607包括多个二维卷积层（二维卷积层1、……二维卷积层n）。特征融合层608用于融合两条支路中各个层次的卷积层输出的频域特征或者时域特征。

以下具体说明，参考图8，图8是本申请实施例提供的音频语义信息提取模块的示意图；音频语义信息提取模块的输入为视频的原始音频数据（表征为音频采样点序列）。音频数据被划分为多个片段（每个片段包括至少一帧，每个片段的长度相等）。基于音频数据生成基础特征图（logmel），作为频域信息输入到频域支路607，音频数据的音频采样点序列（时域信息）被输入时域支路606。权重分配单元604输出的权重值序列通过全连接层801、全连接层802的处理，分别生成与时域信号特征和频域信号特征相同维度的时间权重向量，然后分别与时域信号特征和频域信号特征进行对应位置相乘。

时域支路606包括大量的一维卷积层（一维卷积层803、一维卷积层804、一维卷积层806、一维卷积层808）以及一维最大池化层（一维最大池化层805、一维最大池化层807、一维最大池化层809），在时域信号特征中使用大量的卷积层能够直接学习到音频数据的时域特性，尤其是像音频响度和采样点幅度的信息。经过大量的一维卷积层后，把生成的一维序列通过变形层810缩放（resize）成为一个二维图谱（wave graph）形式的特征图，这种处理使得时域支路与频域支路输出的特征的尺寸相同，便于进行融合处理。

示例的，在时域支路的进行一维卷积的过程中，中间结果通过变形层（变形层811、变形层812）缩放为二维图谱（wave graph），通过合并层（例如：合并层813、合并层815）、二维卷积层（例如：二维卷积层814、二维卷积层816）与频域支路607的中间结果进行多个层次的合并，使得最终得到的音频特征能够融合不同尺寸、层次的频域特征与时域特征。

频域支路607输出的频域信息可以为采用梅尔频域的log-mel频谱，频域支路607包括大量的二维卷积层（二维卷积层821、二维卷积层823、二维卷积层825）以及二维最大池化层（二维最大池化层822、二维最大池化层824），在频域信号特征中使用大量的卷积层能够直接学习到音频数据的频域特性。经过大量的二维卷积层后，得到二维特征图，二维特征图的维度与时域支路606输出的特征图的维度相同。

示例的，在频域支路的进行二维卷积的过程中，中间结果通过合并层（例如：合并层813、合并层815）、二维卷积层（例如：二维卷积层814、二维卷积层816）与时域支路606的中间结果进行多个层次的合并，使得最终得到的音频特征能够融合不同尺寸、层次的频域特征与频域特征。

示例的，变形层可以通过reshape函数（将指定的矩阵变换成特定维数矩阵一种函数，且矩阵中元素个数不变，函数可以重新调整矩阵的行数、列数、维数。）对特征图进行变形。

在一些实施例中，对二维时域音频特征与频域音频特征进行融合处理，得到片段的音频特征，通过以下方式实现：对二维时域音频特征与频域音频特征进行叠加处理，对叠加处理得到的叠加特征进行二维卷积处理，得到二维卷积结果，获取二维卷积结果的最大叠加特征（Max）与平均叠加特征（Mean）；对最大叠加特征与平均叠加特征之间的加和进行线性激活处理，得到片段的音频特征。

示例的，本申请实施例中音频特征以向量形式表征。线性激活处理，也即通过Relu函数对最大叠加特征与平均叠加特征之间的加和进行激活处理，得到片段的音频特征。继续参考图8，特征融合模块608中的合并层817合并两个支路输出的特征图，合并处理使得时域和频域保持信息上的互补，同时还能够让高层网络感知到底层网络信息。合并层817输出每个片段的二维频域特征图，将二维频域特征图输入到二维卷积神经网络层818中。得到二维卷积结果，基于二维卷积结果获取二维卷积神经网络层最后一维度特征的平均值（mean）和最大值（max），将求得的平均值与最大值通过合并层819进行相加，加和通过激活层820利用线性激活函数（relu），生成最终的音频语义特征向量（音频特征）。将每个片段的音频语义特征向量组合，得到音频特征序列。

本申请实施中，通过频域特征与时域特征相互融合，提升了获取音频特征的精确度。

在一些实施例中，也可以仅采用音频数据的频域特征或者时域特征作为音频的音频特征，通过仅采用一种域的特征的方式，可以提升计算速度，节约计算资源。

在一些实施中，参考图3E，图3E是本申请实施例提供的音频数据的处理方法的第五流程示意图，步骤303中的对音频特征序列进行编码处理，得到音频数据的注意力参数序列通过以下步骤3031至步骤3033实现。

在步骤3031中，针对音频特征序列中每个音频特征执行以下处理：基于注意力机制对音频特征与其他片段的每个音频特征分别进行融合处理，得到音频特征对应的每个加权相关度。

示例的，以下以音频特征A进行举例，融合处理是将音频特征A的嵌入向量与任意一个其他片段的音频特征的嵌入向量进行内积，并将内积结果与音频特征A相乘，得到音频特征A的一个加权相关度，针对每个其他片段的音频特征获取加权相关度，则得到音频特征A对应的每个加权相关度。

在一些实施例中，在步骤3031之前，通过以下方式确定每个音频特征的嵌入向量：通过全连接层对音频数据的每个片段的音频特征进行全连接处理，得到每个音频特征的嵌入向量。

示例的，参考图9，图9是本申请实施例提供的注意力模块中编码处理的原理示意图。假设：音频特征序列包括

至

等多个音频特征，将每个两个片段对应的音频特征通过全连接层进行处理，得到音频特征对应的一维嵌入（embedding）向量（两个向量的阶数相同）。

这里，其他片段是音频数据中除片段之外的片段。

在一些实施例中，步骤3031通过以下方式实现：针对音频特征与其他片段的每个音频特征执行以下处理：对音频特征的嵌入向量与其他片段的嵌入向量相乘处理，得到音频特征与其他片段的音频特征之间的相关度；将音频特征与相关度相乘，得到音频特征对应的加权相关度。

示例的，继续参考图9，对两个一维嵌入向量进行内积计算，得到相关度m，例如：音频特征

与音频特征

之间的相关度为

。将相关度与音频特征对应的向量进行相乘，得到加权相关度c。

在步骤3032中，将每个加权相关度相加，得到音频特征对应的注意力参数。

示例的，继续参考图9，音频特征

与音频特征

之间的加权相关度

，

。将音频特征对应的每个加权相关度相加，可以得到音频特征对应的注意力参数W。例如：音频特征

的注意力参数

。

在步骤3033中，基于每个音频特征对应的片段的顺序，将每个注意力参数组合形成音频数据的注意力参数序列。

示例的，注意力参数序列中每个注意力参数与每个片段一一对应，权重值序列中每个权重值也与每个片段一一对应。

本申请实施例，通过基于注意力机制对音频特征进行融合获取注意力参数，基于注意力参数能够更准确地确定目标参数，进而提升了确定目标片段的准确性，解决了缺乏播放记录数据的音频数据或者视频数据难以确定目标片段的问题。

在步骤304中，对注意力参数序列与权重值序列进行融合处理，得到每个片段的融合参数，并基于每个融合参数确定每个片段的目标参数。

示例的，融合处理是将注意力参数序列与权重值序列进行相乘，注意力参数序列与权重值序列中所包含的元素的数量是相同的。

在一些实施例中，步骤304通过以下方式实现：针对每个片段执行以下处理：从注意力参数序列获取片段对应的注意力参数，将片段的权重值与片段的注意力参数相乘，得到片段的融合参数；对融合参数进行归一化处理，得到片段的目标参数。

示例的，归一化处理是通过softmax函数进行置信度预测。以目标参数是精彩程度进行举例，针对影视剧视频，视频中存在语音的部分为精彩片段的概率更高，基于语音信源的音轨数据分配对应的权重值，语音信源的权重值高于背景音部分的权重值，使得语音片段对应的精彩程度置信度相较于背景音片段对应的精彩程度置信度更高。

本申请实施例中，通过将注意力参数与权重值进行融合，基于融合参数确定目标参数，提升了确定目标参数的精确度。

在步骤305中，基于每个片段的目标参数，确定音频数据中的目标片段。

在一些实施例中，通过以下任意一种方式确定音频数据的目标片段：

1、基于每个片段的目标参数对每个片段进行降序排序，将降序排序的头部的至少一个片段作为音频数据的目标片段。例如：对每个片段的精彩程度进行降序排序，将头部的预设数量个片段作为精彩片段，预设数量与音频数据的片段总数正相关，例如：预设数量为片段总数的百分之一。

2、将目标参数大于目标参数阈值的片段作为目标片段。示例的，目标参数阈值可以是每个片段的目标参数的中位值，或者中位值的预设倍数（例如：1.5倍，1＜预设倍数＜2），假设，最大的目标参数为0.9，最小的目标参数为0，取中位值0.45为目标参数阈值，将精彩程度大于0.45的片段作为精彩片段。再假设，最大的目标参数为0.9，最小的目标参数为0，取中位值的1.1倍为目标参数阈值，则目标参数阈值为0.495。

在一些实施例中，在步骤304之后，还可以基于每个片段的目标参数，生成音频数据的目标参数曲线；响应于播放触发操作，在播放界面显示音频数据的目标参数曲线。

这里，目标参数曲线的横坐标为音频数据的播放时间，目标参数曲线的纵坐标为目标参数。

示例的，目标参数曲线的横坐标与音频数据的播放时间一一对应，目标参数曲线的纵坐标越高，则目标参数越大。参考图10A，图10A是本申请实施例提供的播放界面的第一示意图。播放界面101A为视频播放器的播放界面，目标参数为精彩程度，精彩程度曲线106A显示在不遮挡视频画面的区域，精彩片段107A被标注出。进度条105A中的滑块103A所在位置是视频当前播放的时刻对应的位置。进度条105A可以表征播放时间。精彩程度曲线106A的高低可以表征精彩程度的大小。

示例的，播放触发操作可以是针对音频或者视频的。播放界面可以是音频播放界面或者视频播放界面，则音频播放界面，播放音频数据（对应音频播放场景，音频数据），视频播放界面，对应视频播放场景，音频数据是从视频数据提取的。

在一些实施例中，在步骤305之后，还可以在播放界面显示目标片段的标签，其中，标签用于表征目标片段的时间段落；响应于针对任意一个标签的选择操作，跳转到选中的标签对应的目标片段的起点开始播放。

示例的，选择操作可以是点击操作，或者将进度条滑块拖动到标签的操作，参考图10B，图10B是本申请实施例提供的播放界面的第二示意图。滑块103A被拖动到标签104A的位置，视频画面切换为精彩片段107A的起点位置的画面。

在一些实施例中，本申请实施例提供的音频数据的处理方法通过音频处理模型实现。信源分离处理通过调用音频处理模型的金字塔场景解析模块实现，从每个片段提取音频特征通过调用音频处理模型的音频语义信息提取模块实现，编码处理与融合处理通过调用音频处理模型的注意力模块实现。

参考图6A，图6A是本申请实施例提供的音频处理模型的第一示意图。音频处理模型包括金字塔场景解析模块601、权重配置模块610、音频语义信息提取模块605以及注意力模块609。音频数据输入金字塔场景解析模块601，金字塔场景解析模块601对音频数据进行信源分离处理到至少一种信源类型对应的音轨数据，权重配置模块610确定音轨数据中与信源关联的时间段落，并对时间段落分配对应的权重值，将权重值输出到音频语义信息提取模块605、注意力模块609。音输数据输入到音频语义信息提取模块605，音频语义信息提取模块605对音频数据进行时域、频域两方面的特征提取处理，并将融合时域、频域信息的音频特征序列输出到注意力模块609，注意力模块基于权重值序列与音频特征序列进行参数预测处理，得到目标参数，制作目标参数曲线。

其中，通过以下方式训练音频处理模型：基于音频数据的每个实际目标片段的标签值，组合形成音频数据的实际目标参数序列；基于音频数据的每个片段的目标参数，组合形成音频数据的预测目标参数序列；基于实际目标参数序列与预测目标参数序列获取音频处理模型的交叉熵损失；将交叉熵损失除以音频数据的片段数量，得到平均预测损失，基于平均预测损失对音频处理模型进行反向传播处理，得到更新后的音频处理模型。

示例的，训练数据存在人工标注的标签，标签能够表征实际上哪些片段为目标片段（精彩片段），其中，目标片段被标注为1（正样本），非目标片段被标注为0（负样本），在进行损失函数计算时，一个视频对应的所有的标签可以组成一个实际目标参数序列（0-1序列）。

在一些实施例中，当音频数据为视频中截取的音频数据时，可以在音频特征的基础上结合图像信息确定精彩片段。可以通过以下方式实现：对视频的图像数据进行图像特征提取处理，将图像特征与对应的音频特征进行融合，得到融合的视频特征，基于视频特征执行注意力机制，得到注意力参数序列，基于注意力参数序列与权重值序列确定目标参数序列。

在一些实施例中，当音频数据为视频中截取的音频数据时，可以基于视频的图像特征识别到的目标片段优化基于音频数据识别到的目标片段，通过以下方式实现：对视频的图像数据进行图像识别处理，基于识别处理得到的包括人物的视频图像，确定视频中包括人物的片段时间。将目标参数大于目标参数阈值，且对应的视频片段中包括人物的视频片段作为目标片段。

示例的，还可以通过以下方式确定视频数据的精彩片段：对视频的图像数据（视频画面）进行特征提取处理，得到视频的图像语义特征序列；对视频的图像数据进行图像识别处理，得到视频中包括人物的片段时间，并基于人物片段时间对视频分配对应的权重值序列。基于图像语义特征序列获取注意力参数，得到注意力参数序列，基于图像数据的注意力参数序列与权重序列得到视频画面对应的目标参数。对视频画面的目标参数与音频数据的目标参数加权求和，得到加权目标参数，将加权目标参数大于加权目标参数阈值的视频片段作为目标片段。

本申请实施例从音频侧的角度来对整个视频进行多个域内以及多层信息的分析，能够快速的定位出整个音频中的目标片段（例如：精彩片段、热血片段、悲伤片段或者搞笑片段等），从而基于音频的目标片段能够判断出视频中的目标片段的时间段落在时间轴中的位置。从而在不依赖音频数据的播放记录数据的情况下，就可以准确识别目标片段，为用户提供准确的参考消息，提升了用户体验。能够为播放器提供视频目标参数曲线，以供观众将播放进度条由当前播放位置跳转到目标片段的位置，提升观众对播放器的使用体验。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用，本申请实施例提供的音频数据的处理方法可以应用在如下应用场景中：

1、在不同平台端（pc\tv\android\ios）播放长视频的过程中，在播放器中能够显示视频的时间轴进度条关联的热度信息。热度信息通常是基于视频的播放记录数据（播放量、点击量、弹幕或者评论数量等）计算得到的，但是针对于新上映的电影或者影视剧的视频，这些视频没有播放记录数据。或者，针对于小众视频没有足够播放记录数据确定热度。本申请实施例提供的音频数据的处理方法可以生成目标参数曲线来替代热度信息，目标参数可以是精彩程度，向用户展示视频中的精彩片段与精彩程度曲线，用户根据精彩程度曲线或者精彩片段标签可直接跳转到精彩片段进行观看或收听，提升用户的观看体验。

2、针对于某些短视频平台中的影视剧二创短视频制作，用户往往是先自己观看影视剧之后再从整个剧集中定位精彩片段，得到精彩片段锦集。基于定位得到的精彩片段锦集，进行二创短视频集锦类制作。本申请实施例提供的音频数据的处理方法可以为二创用户提供精彩程度曲线，用户可以根据曲线一目了然地确定视频中的精彩片段，一键定位、截取整个视频中的精彩片段的画面，然后二创用户可以直接根据截取的结果来进行接下来的短视频生成工作，大幅度提升效率，避免了人工分辨精彩片段而浪费时间。

下面，以目标参数为精彩程度，以音频数据为影视剧的视频的音频数据为例进行说明。参考图5，图5是本申请实施例提供的音频数据的处理方法的一个可选的流程示意图，下面以电子设备为执行主体，将结合图5的步骤进行说明。

步骤501中，获取待处理的视频文件。

示例的，待处理的视频文件可以是影视剧或者电影的视频文件。视频文件由视频画面帧与音频数据组成，音频数据中可以提取到至少一种信源类型对应的音轨数据。参考图4A，图4A是本申请实施例提供的视频中提取的音频数据的示意图；图4A中由上至下，分别是视频画面帧的示意图（表征视频的预览画面）、音频数据的音频特征图、音轨数据的音频采样序列图以及目标参数曲线的示意图。目标参数曲线的横坐标表示时间，纵坐标表示目标参数。

步骤502中，基于视频文件的音频数据调用音频处理模型进行精彩置信度预测处理，得到音频数据的精彩置信度曲线以及精彩片段。

以下对音频处理模型中各模块进行解释说明，参考图6B，图6B是本申请实施例提供的音频处理模型的第二示意图。金字塔场景解析模块601、权重配置模块610中的语音定位单元603进行对整条音轨中的语音段落进行毫秒级别的定位。语音定位单元603采用语音活动检测算法，金字塔场景解析模块601为金字塔场景解析网络（PSPN，Pyramid SceneParsing Network），通过金字塔形式的卷积层网络，由大到小的感受域能够更好的对分离细节进行识别定位。使用金字塔场景解析网络能够更精准的将音频频谱图中不同的特征进行分离，尤其是在金字塔卷积层中的小卷积层，能够学习到在音频频谱图中不同信源的频谱图之间分界的边缘性，以不同信源的特征的边缘为掩膜对频谱图进行分离处理，使得分离得到的不同信源的音轨数据更准确。视频的原始音轨被输入金字塔场景解析模块601，输出为分离的背景音音轨和语音音轨等音轨数据（图6B中的音轨数据602）。然后采用语音活动检测开源算法进行对语音音轨中的语音段落进行定位，从而得到整个音轨中的语音的时间段落。

示例的，金字塔场景解析模块601基于金字塔场景解析网络搭建的信源分离模型对整个视频的音轨进行分离，将音轨中的语音信息和背景音信息分别进行分裂，单独存储成为音轨数据（音轨文件）。语音定位单元603基于语音活动检测算法对语音的音轨数据中的语音片段进行定位，得到存在语音的时间段落，权重分配单元604对每个语音的时间段落的权重进行设置。语音的时间段落被分配的权重值相较于纯背景音的时间段落更高。

本申请实施例中，在金字塔场景解析网络中，金字塔池化生成的不同层次的特征图最终被合并层（concat）合并，并将合并得到的特征图拼接起来，再输入到全连接层以进行分类。金字塔场景解析网络通过金字塔池化模块的多个层次的卷积层输出包含不同尺度、不同子区域间的局部信息，并在金字塔场景解析网络的最终的卷积层特征图上构造全局先验信息。该全局先验信息旨在消除卷积神经网络对图像分类输入大小固定的限制。

参考图7，图7是本申请实施例提供的金字塔场景解析模块的示意图；以下具体说明，卷积神经网络701对音频数据进行特征提取，得到音频数据的原始特征702，池化（pool）层703后设置的金字塔模块（包括卷积层1、卷积层2、卷积层3以及卷积层4，具体实施中可以根据提取精度设置更多的尺寸）可以融合四种不同金字塔尺度的特征：卷积层1突出显示的是最粗糙级别的单个全局池化输出，金字塔模块的多个层次不同尺寸的卷积层将原始特征映射划分为不同的子区域，并形成针对不同位置的局部特征。金字塔模块中不同层次的卷积层输出不同尺寸的局部特征。为了维护全局特性的权重，假设金字塔共有N个级别，则在每个级别后使用1×1卷积（CONV），将对应级别的通道数量降为原本的1/N。然后通过双线性插值直接通过上采样层704对低维特征图进行上采样（upsample），得到与原始特征映射相同尺寸的特征图。最后，将金字塔模块输出的不同级别的特征图705合并处理（concat），通过卷积层706对合并处理的结果进行卷积处理，得到最终的金字塔全局特征。继续参考图7，可以看出金字塔场景解析模型的架构呈一个金字塔形状。该模型输入图像后，使用预训练的带空洞卷积层提取特征图，空洞卷积（Atrous Convolutions）又称为扩张卷积（DilatedConvolutions），在卷积层中引入了扩张率（dilation rate），扩张率定义了卷积核处理数据时各数据值的间距。由于引入池化层会导致全局信息的损失，空洞卷积层的作用是在不使用池化层的情况下提供更大的感受野。最终的特征映射大小是输入图像的1/8，然后将该特征输入到金字塔池化模块中，模型使用金字塔池化模块来收集上下文信息。使用4层金字塔结构，池化内核覆盖了图像的全部、一半和小部分。它们被融合为全局先验信息（全局特征），在最后部分将之前的全局特征映射与原始特征映射合并起来再进行卷积（以全局特征为掩膜，分离原始特征中的语音与背景音），生成语音、背景音的最终分割特征图。

参考图4B，图4B是本申请实施例提供的音轨数据示意图；图4B中，上面的图像为音轨波形图（采样序列图），下面的图像为语音对应的音轨特征图，音轨特征图中空白部分为舍弃的噪音部分。示例的，通过金字塔场景解析网络搭建的信源分离模型可以分离出原始音轨中的语音、背景音分别对应的音轨数据。基于音轨数据可以使用语音活动检测算法（例如：WebRTC 语音活动检测算法）对具体的音频冲激信号段落进行定位。语音活动检测算法，是基于短时能量（STE，Short Time Energy）和过零率（ZCC，Zero Cross Counter）确定音频是否为语音的算法。短时能量，即一帧语音信号的能量，是帧内信号的平方和，过零率，即一帧语音时域信号穿过0（时间轴）的次数。语音活动检测算法的原理是，语音片段的短时能量相对较大，而过零率相对较小；反之，非语音片段的短时能量相对较小，但是过零率相对较大。因为语音信号能量绝大部分包含在低频带内，而噪音信号通常能量较小且含有较高频段的信息。故而可以通过测量语音信号的这两个参数并且与参数分别对应的阈值进行对比，从而判断语音信号与非语音信号。当音频数据的短时能量小于短时能量阈值且过零率大于过零率阈值，则该段音频为噪音。反之，音频数据的短时能量大于短时能量阈值且过零率小于过零率阈值时，该段音频是语音。参考图4C，图4C是本申请实施例提供的时间段落示意图；框401C圈出的时间段落为语音的时间段落，同理地，图4C中圈出的每个框对应的波形均为语音的时间段落。

频域支路607输出的频域信息可以为采用梅尔频域的logmel频谱，频域支路607包括大量的二维卷积层（二维卷积层821、二维卷积层823、二维卷积层825）以及二维最大池化层（二维最大池化层822、二维最大池化层824），在频域信号特征中使用大量的卷积层能够直接学习到音频数据的频域特性。经过大量的二维卷积层后，得到二维特征图，二维特征图的维度与时域支路606输出的特征图的维度相同。

特征融合模块608中的合并层817合并两个支路输出的特征图，合并处理使得时域和频域保持信息上的互补，同时还能够让高层网络感知到底层网络信息。合并层817输出每个片段的二维频域特征图，将二维频域特征图输入到二维卷积神经网络层818中。得到二维卷积结果，确定二维卷积结果的平均值（Mean）和最大值（Max），将求得的平均值与最大值通过合并层819进行相加，加和通过激活层820利用线性激活函数（Relu），生成最终的音频语义特征向量（音频特征）。将每个片段的音频语义特征向量组合，得到音频特征序列。

继续参考图6B，注意力模块609接收权重值序列与音频特征序列，注意力模块基于音频特征序列编码得到注意力参数序列，基于注意力参数序列与权重值序列预测每个片段的目标参数。参考图9，图9是本申请实施例提供的注意力模块中编码处理的原理示意图。

示例的，假设音频特征序列包括

至

等多个音频特征，将每个两个片段对应的音频特征通过全连接层进行处理，得到音频特征对应的一维嵌入（embedding）向量（两个向量的阶数相同），对两个一维嵌入向量进行内积的计算，得到相关度m，例如：音频特征

与音频特征

之间的相关度为

。将相关度与音频特征对应的向量进行相乘，得到加权相关度信息量c（上文的加权相关度）。再例如：音频特征

与音频特征之间的加权相关度信息量

，

。将音频特征对应的每个加权相关度信息量相加，可以得到音频特征对应的注意力参数W。例如：音频特征

的注意力参数

。

通过上述方式获取所有片段的音频特征对应的注意力参数，针对每个片段，将该片段对应的注意力参数W与该片段对应的权重值L进行相乘，得到最终的输出的特征序列Q（特征序列Q的粒度可以为帧级别），通过二分类层对每个粒度的特征节点进行归一化处理：二分类的标签为1-0，1类别的后验概率为该特征节点的置信度（精彩程度），也即，代表该特征节点的特征为精彩的概率；针对整个目标参数序列执行归一化处理（例如通过softmax函数），即可得到精彩程度曲线。可以设置对应的精彩程度阈值，将精彩程度大于精彩程度阈值的片段作为精彩片段，小于精彩程度阈值的片段作为非精彩片段。

在一些实施例中，在训练过程中训练数据存在人工标注的标签（label），标签能够表征实际上哪些片段为目标片段（精彩片段），其中，目标片段被标注为1（正样本），非目标片段被标注为0（负样本），在进行损失函数计算时，一个视频对应的所有的标签可以组成一个0-1序列。基于目标参数序列与标签序列计算交叉熵损失函数（置信度序列长度与标签序列长度相同），对整个序列的损失函数求平均值，得到模型的预测损失。基于预测损失可以通过反向传播的方式对音频处理模型进行训练。

步骤503中，响应于播放触发操作，在播放界面显示视频文件的目标参数曲线。

示例的，播放界面的目标参数曲线与播放界面的时间轴的进度条绑定，视频在播放界面播放时，在进度条的上方显示精彩程度曲线，精彩程度越高，则曲线对应的数值越高，用户可以根据精彩程度曲线拉取进度条，定位到精彩片段进行观看。

本申请实施例提供的音频数据的处理方法的有益效果在于：

1、本申请实施例使用音频的信息来进行自动化的精彩片段识别，自动化的定位能够快速工业化的定位出精彩片段，在一些落地应用中，尤其是像播放端的热度曲线（精彩程度曲线），可以快速批量化的生产，提升生产效率并降低生产成本。

2、本申请实施例使用全音频信息来做精彩片段定位的特征输入，能够弥补画面非高燃但背景音乐高燃的片段定位不到的问题（比如情景剧），尤其是使用画面来定位精彩片段只能定位出整个画面中最高燃的几个镜头，无法完善整个精彩片段的完整性，但是使用音频能够将整个片段定位出。并且普遍的画面处理模型参数量较大，不能快速地预测出精彩片段，音频网络参数较小，更为快速便捷。

3、本申请实施例使用金字塔场景解析网络搭建信源分离系统，然后再使用语音活动检测算法进行对语音段落定位。该方法能够将完全的语音进行检测，不仅仅是语音信息，能够让整个信源分离系统得知更完整的语音片段定位信息。

4、本申请实施例使用语音的时间段落信息来确定整个音轨中每个节点权重信息。本申请实施例能够直接定位出语音片段并对语音片段分配对应的权重值，能够加强识别到语音片段的语义信息，极大的提升了语音语义信息在精彩片段定位中的占比。

5、本申请实施例使用多域多层的方法来提取语义特征，能够通过时域和频域在不同的网络层中互相补充信息，在时域特征中添加了频域信息，同样地，在频域特征中添加了时域信息。使得高层网络感知到底层网络特征，提升整个模型的感受域以及不同特征间的互补，从而提升整个音频处理模型的定位性能。

下面继续说明本申请实施例提供的音频数据的处理装置455的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器450的音频数据的处理装置455中的软件模块可以包括：信源分离模块4551，配置为对音频数据进行信源分离处理，得到至少一种信源类型分别对应的音轨数据；权重配置模块4552，配置为基于每个音轨数据中与信源类型相关的至少一个时间段落，对音频数据中的每个片段分配对应的权重值，并将每个权重值组合形成音频数据的权重值序列；特征提取模块4553，配置为基于从每个片段提取的音频特征，组合形成音频数据的音频特征序列，并对音频特征序列进行编码处理，得到音频数据的注意力参数序列；参数预测模块4554，配置为对注意力参数序列与权重值序列进行融合处理，得到每个片段的融合参数，并基于每个融合参数确定每个片段的目标参数；参数预测模块4554，还配置为基于每个片段的目标参数，确定音频数据中的目标片段。

在一些实施例中，信源分离模块4551，配置为对音频数据进行特征提取处理，得到音频数据的全局特征；以全局特征为掩膜，对音频数据进行信源分离处理，得到音频数据中每种信源类型分别对应的音轨数据，其中，掩膜的边界用于表征不同信源类型对应的音频数据之间的边界。

在一些实施例中，信源分离模块4551，配置为对音频数据进行特征提取处理，得到音频数据的原始特征；对原始特征进行多个层次的池化处理，得到音频数据的多个局部特征；对多个局部特征进行合并处理，得到音频数据的全局特征。

在一些实施例中，权重配置模块4552，配置为通过以下方式确定与信源类型相关的至少一个时间段落：当音轨数据对应的信源类型为语音时，将音轨数据中短时能量大于能量阈值且过零率小于过零率阈值的时间段落，作为与语音相关的时间段落；当音轨数据对应的信源类型为背景音时，将音轨数据中满足筛选条件的时间段落作为与背景音相关的时间段落，其中，筛选条件包括以下任意一项：时间段落对应的响度大于响度下限值；时间段落的长度大于长度下限值。

在一些实施例中，权重配置模块4552，配置为当通过信源分离处理得到语音和背景音两种信源类型的音轨数据时，针对每个片段进行以下处理：当片段属于语音相关的时间段落时，基于片段对应的语音的参数确定片段对应的权重值，其中，权重值与参数正相关，参数包括以下至少之一：语速、语调、响度；当片段属于背景音相关的时间段落时，将预设数值作为片段对应的权重值，其中，预设数值小于任意一个语音相关的片段的权重值；当片段不属于任意信源类型相关的时间段落时，将零作为片段对应的权重值。

在一些实施例中，权重配置模块4552，配置为当通过信源分离处理仅得到背景音一种信源类型的音轨数据时，针对每个片段进行以下处理：当片段对应的时间段落属于背景音相关的时间段落时，基于片段对应的背景音的参数确定片段对应的权重值，其中，权重值与参数正相关，参数包括以下至少之一：响度、音调；当片段对应的时间段落不属于任意信源类型相关的时间段落时，将零作为片段对应的权重值。

在一些实施例中，特征提取模块4553，配置为针对音频数据中每个片段进行以下处理：提取片段的时域信号特征与频域信号特征；基于每个音轨数据中与信源类型相关的至少一个时间段落，确定时域信号特征对应的一维时域权重值，以及确定频域信号特征对应的二维频域权重值；对一维时域权重值与时域信号特征的乘积进行多个层次的卷积处理，得到时域音频特征；对二维频域权重值与频域信号特征的乘积进行多个层次的卷积处理，得到频域音频特征；对时域音频特征进行缩放处理，得到二维时域音频特征；对二维时域音频特征与频域音频特征进行融合处理，得到片段的音频特征。

在一些实施例中，特征提取模块4553，配置为对二维时域音频特征与频域音频特征进行叠加处理，对叠加处理得到的叠加特征进行二维卷积处理，得到二维卷积结果，获取二维卷积结果的最大叠加特征与平均叠加特征；对最大叠加特征与平均叠加特征之间的加和进行线性激活处理，得到片段的音频特征。

在一些实施例中，参数预测模块4554，配置为针对音频特征序列中每个音频特征执行以下处理：基于注意力机制对音频特征与其他片段的每个音频特征分别进行融合处理，得到音频特征对应的每个加权相关度；将每个加权相关度相加，得到音频特征对应的注意力参数，其中，其他片段是音频数据中除片段之外的片段；基于每个音频特征对应的片段的顺序，将每个注意力参数组合形成音频数据的注意力参数序列。

在一些实施例中，参数预测模块4554，配置为在基于注意力机制对音频特征与其他片段的每个音频特征分别进行融合处理，得到音频特征对应的每个加权相关度之前，对音频数据的每个片段的音频特征进行全连接处理，得到每个音频特征的嵌入向量；针对音频特征与其他片段的每个音频特征执行以下处理：对音频特征的嵌入向量与其他片段的嵌入向量相乘处理，得到音频特征与其他片段的音频特征之间的相关度；将音频特征与相关度相乘，得到音频特征对应的加权相关度。

在一些实施例中，参数预测模块4554，配置为针对每个片段执行以下处理：从注意力参数序列获取片段对应的注意力参数，将片段的权重值与片段的注意力参数相乘，得到片段的融合参数；对融合参数进行归一化处理，得到片段的目标参数。

在一些实施例中，参数预测模块4554，配置为通过以下任意一种方式确定音频数据的目标片段：基于每个片段的目标参数对每个片段进行降序排序，将降序排序的头部的至少一个片段作为音频数据的目标片段；将目标参数大于目标参数阈值的片段作为目标片段。

在一些实施例中，参数预测模块4554，配置为基于每个片段的目标参数，生成音频数据的目标参数曲线；响应于播放触发操作，在播放界面显示音频数据的目标参数曲线，其中，目标参数曲线的横坐标为音频数据的播放时间，目标参数曲线的纵坐标为目标参数。

在一些实施例中，参数预测模块4554，配置为在播放界面显示目标片段的标签，其中，标签用于表征目标片段的时间段落；响应于针对任意一个标签的选择操作，跳转到选中的标签对应的目标片段的起点开始播放。

在一些实施例中，信源分离处理通过调用音频处理模型的金字塔场景解析模块实现，从每个片段提取音频特征通过调用音频处理模型的音频语义信息提取模块实现，编码处理与融合处理通过调用音频处理模型的注意力模块实现；其中，通过以下方式训练音频处理模型：基于音频数据的每个实际目标片段的标签值，组合形成音频数据的实际目标参数序列；基于音频数据的每个片段的目标参数，组合形成音频数据的预测目标参数序列；基于实际目标参数序列与预测目标参数序列获取音频处理模型的交叉熵损失；将交叉熵损失除以音频数据的片段数量，得到平均预测损失，基于平均预测损失对音频处理模型进行反向传播处理，得到更新后的音频处理模型。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该电子设备执行本申请实施例上述的音频数据的处理方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的音频数据的处理方法，例如，如图3A示出的音频数据的处理方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言（包括编译或解释语言，或者声明性或过程性语言）来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言（HTML，Hyper TextMarkup Language）文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件（例如，存储一个或多个模块、子程序或代码部分的文件）中。

作为示例，可执行指令可被部署为在一个电子设备上执行，或者在位于一个地点的多个电子设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个电子设备上执行。

综上所述，通过本申请实施例从音频侧的角度来对整个视频进行多个域内以及多层信息的分析，能够快速的定位出整个音频中的目标片段（例如：精彩片段、热血片段、悲伤片段或者搞笑片段等），从而基于音频的目标片段能够判断出视频中的目标片段的时间段落在时间轴中的位置。从而在不依赖音频数据的播放记录数据的情况下，就可以准确识别目标片段，为用户提供准确的参考消息，提升了用户体验。能够为播放器提供视频目标参数曲线，以供观众将播放进度条由当前播放位置跳转到目标片段的位置，提升观众对播放器的使用体验。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种音频数据的处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述对音频数据进行信源分离处理，得到至少一种信源类型分别对应的音轨数据，包括：

对所述音频数据进行特征提取处理，得到所述音频数据的全局特征；

以所述全局特征为掩膜，对所述音频数据进行信源分离处理，得到所述音频数据中每种所述信源类型分别对应的音轨数据，其中，所述掩膜的边界用于表征不同信源类型对应的音频数据之间的边界。

3.如权利要求2所述的方法，其特征在于，所述对所述音频数据进行特征提取处理，得到所述音频数据的全局特征，包括：

对所述音频数据进行特征提取处理，得到所述音频数据的原始特征；

对所述原始特征进行多个层次的池化处理，得到所述音频数据的多个局部特征；

对所述多个局部特征进行合并处理，得到所述音频数据的全局特征。

4.如权利要求1所述的方法，其特征在于，

在所述基于每个所述音轨数据中与所述信源类型相关的至少一个时间段落，对所述音频数据中的每个片段分配对应的权重值之前，所述方法还包括：

通过以下方式确定与所述信源类型相关的至少一个时间段落：

当所述音轨数据对应的信源类型为语音时，将所述音轨数据中短时能量大于能量阈值且过零率小于过零率阈值的时间段落，作为与所述语音相关的时间段落；

当所述音轨数据对应的信源类型为背景音时，将所述音轨数据中满足筛选条件的时间段落作为与所述背景音相关的时间段落，其中，所述筛选条件包括以下任意一项：所述时间段落对应的响度大于响度下限值；所述时间段落的长度大于长度下限值。

5.如权利要求1所述的方法，其特征在于，

当通过所述信源分离处理得到语音和背景音两种信源类型的音轨数据时，所述基于每个所述音轨数据中与所述信源类型相关的至少一个时间段落，对所述音频数据中的每个片段分配对应的权重值，包括：

针对每个所述片段进行以下处理：

当所述片段属于所述语音相关的所述时间段落时，基于所述片段对应的语音的参数确定所述片段对应的权重值，其中，所述权重值与所述参数正相关，所述参数包括以下至少之一：语速、语调、响度；

当所述片段属于所述背景音相关的所述时间段落时，将预设数值作为所述片段对应的权重值，其中，所述预设数值小于任意一个所述语音相关的片段的权重值；

当所述片段不属于任意所述信源类型相关的时间段落时，将零作为所述片段对应的权重值。

6.如权利要求1所述的方法，其特征在于，当通过所述信源分离处理仅得到背景音一种信源类型的音轨数据时，所述基于每个所述音轨数据中与所述信源类型相关的至少一个时间段落，对所述音频数据中的每个片段分配对应的权重值，包括：

针对每个所述片段进行以下处理：

当所述片段对应的时间段落属于所述背景音相关的所述时间段落时，基于所述片段对应的背景音的参数确定所述片段对应的权重值，其中，所述权重值与所述参数正相关，所述参数包括以下至少之一：响度、音调；

当所述片段对应的时间段落不属于任意所述信源类型相关的时间段落时，将零作为所述片段对应的权重值。

7.如权利要求1所述的方法，其特征在于，在所述基于从所述每个片段提取的音频特征，组合形成所述音频数据的音频特征序列之前，所述方法还包括：

针对所述音频数据中每个所述片段进行以下处理：

提取所述片段的时域信号特征与频域信号特征；

基于每个所述音轨数据中与所述信源类型相关的至少一个时间段落，确定所述时域信号特征对应的一维时域权重值，以及确定所述频域信号特征对应的二维频域权重值；

对所述一维时域权重值与所述时域信号特征的乘积进行多个层次的卷积处理，得到时域音频特征；

对所述二维频域权重值与所述频域信号特征的乘积进行多个层次的卷积处理，得到频域音频特征；

对所述时域音频特征进行缩放处理，得到二维时域音频特征；

对所述二维时域音频特征与所述频域音频特征进行融合处理，得到所述片段的音频特征。

8.如权利要求7所述的方法，其特征在于，所述对所述二维时域音频特征与所述频域音频特征进行融合处理，得到所述片段的音频特征，包括：

对所述二维时域音频特征与所述频域音频特征进行叠加处理，对所述叠加处理得到的叠加特征进行二维卷积处理，得到二维卷积结果，获取所述二维卷积结果的最大叠加特征与平均叠加特征；

对所述最大叠加特征与所述平均叠加特征之间的加和进行线性激活处理，得到所述片段的音频特征。

9.如权利要求1所述的方法，其特征在于，所述对所述音频特征序列进行编码处理，得到所述音频数据的注意力参数序列，包括：

针对所述音频特征序列中每个所述音频特征执行以下处理：基于注意力机制对所述音频特征与其他片段的每个所述音频特征分别进行融合处理，得到所述音频特征对应的每个加权相关度；将每个所述加权相关度相加，得到所述音频特征对应的注意力参数，其中，所述其他片段是所述音频数据中除所述片段之外的片段；

基于每个所述音频特征对应的片段的顺序，将每个所述注意力参数组合形成所述音频数据的注意力参数序列。

10.如权利要求9所述的方法，其特征在于，在所述基于注意力机制对所述音频特征与其他片段的每个所述音频特征分别进行融合处理，得到所述音频特征对应的每个加权相关度之前，所述方法还包括：

对所述音频数据的每个所述片段的音频特征进行全连接处理，得到每个所述音频特征的嵌入向量；

所述基于注意力机制对所述音频特征与其他片段的每个所述音频特征分别进行融合处理，得到所述音频特征对应的每个加权相关度，包括：

针对所述音频特征与其他片段的每个所述音频特征执行以下处理：

对所述音频特征的嵌入向量与其他片段的嵌入向量相乘处理，得到所述音频特征与其他片段的音频特征之间的相关度；

将所述音频特征与所述相关度相乘，得到所述音频特征对应的加权相关度。

11.如权利要求1所述的方法，其特征在于，所述对所述注意力参数序列与所述权重值序列进行融合处理，得到每个所述片段的融合参数，并基于每个所述融合参数确定每个所述片段的目标参数，包括：

针对每个所述片段执行以下处理：

从所述注意力参数序列获取所述片段对应的注意力参数，将所述片段的权重值与所述片段的注意力参数相乘，得到所述片段的融合参数；

对所述融合参数进行归一化处理，得到所述片段的目标参数。

12.如权利要求1所述的方法，其特征在于，所述基于每个所述片段的目标参数，确定所述音频数据中的目标片段，包括：

通过以下任意一种方式确定所述音频数据的目标片段：

基于每个所述片段的目标参数对每个所述片段进行降序排序，将降序排序的头部的至少一个片段作为所述音频数据的目标片段；

将目标参数大于目标参数阈值的片段作为目标片段。

13.如权利要求1所述的方法，其特征在于，

在所述对所述注意力参数序列与所述权重值序列进行融合处理，得到每个所述片段的融合参数，并基于每个所述融合参数确定每个所述片段的目标参数之后，所述方法还包括：

基于所述每个所述片段的目标参数，生成所述音频数据的目标参数曲线；

响应于播放触发操作，在播放界面显示所述音频数据的目标参数曲线，其中，所述目标参数曲线的横坐标为所述音频数据的播放时间，所述目标参数曲线的纵坐标为所述目标参数。

14.如权利要求13所述的方法，其特征在于，在所述基于每个所述片段的目标参数，确定所述音频数据中的目标片段之后，所述方法还包括：

在所述播放界面显示所述目标片段的标签，其中，所述标签用于表征所述目标片段的时间段落；

响应于针对任意一个所述标签的选择操作，跳转到选中的所述标签对应的目标片段的起点开始播放。

15.如权利要求1所述的方法，其特征在于，所述信源分离处理通过调用音频处理模型的金字塔场景解析模块实现，从所述每个片段提取音频特征通过调用音频处理模型的音频语义信息提取模块实现，所述编码处理与所述融合处理通过调用音频处理模型的注意力模块实现；

其中，通过以下方式训练所述音频处理模型：

基于所述音频数据的每个实际目标片段的标签值，组合形成所述音频数据的实际目标参数序列；

基于所述音频数据的每个所述片段的目标参数，组合形成所述音频数据的预测目标参数序列；

基于所述实际目标参数序列与所述预测目标参数序列获取所述音频处理模型的交叉熵损失；

将所述交叉熵损失除以所述音频数据的片段数量，得到平均预测损失，基于所述平均预测损失对所述音频处理模型进行反向传播处理，得到更新后的所述音频处理模型。

16.一种音频数据的处理装置，其特征在于，所述装置包括：

17.一种电子设备，其特征在于，所述电子设备包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至15任一项所述的方法。

18.一种计算机可读存储介质，存储有可执行指令，其特征在于，所述可执行指令被处理器执行时实现权利要求1至15任一项所述的方法。