CN112435641A

CN112435641A - 音频处理方法、装置、计算机设备及存储介质

Info

Publication number: CN112435641A
Application number: CN202011237858.1A
Authority: CN
Inventors: 黄灵; 龚淑宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-03-02
Anticipated expiration: 2040-11-09
Also published as: CN112435641B

Abstract

本申请提供了一种音频处理方法、装置、计算机设备及存储介质，属于多媒体技术领域。所述方法包括：获取第一音频片段的第一音频数据和第二音频片段的第二音频数据，所述第二音频片段与所述第一音频片段的播放顺序相邻；根据所述第一音频数据和所述第二音频数据，确定目标音频数据，所述目标音频数据为所述第一音频片段和所述第二音频片段中间衔接的音频片段的音频数据；基于所述目标音频数据，确定目标音频片段，所述目标音频片段用于在所述第一音频片段和所述第二音频片段之间播放。上述技术方案，能够实现对两个音频片段的无缝衔接。

Description

音频处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及多媒体技术领域，特别涉及一种音频处理方法、装置、计算机设备及存储介质。

背景技术

随着多媒体技术的发展，用户能够在各种场景通过终端播放喜欢的歌曲，如在午睡场景听喜欢的歌曲入睡、婚礼场景播放喜庆的歌曲作为背景音乐等。然而，当用户循环播放或者顺序播放多首歌曲时，由于前后两首歌曲之间会产生一个静音过渡的切换时间差或风格差异非常大的一个转换，导致用户沉浸在场景中时会感到突兀。

目前，通常采用的是淡入淡出的方式进行前后歌曲的衔接，即将前一首歌曲结尾部分的音量逐渐降低到预设的音量，然后再衔接后一首歌曲，此时将后一首歌曲的开头部分由预设的音量逐渐升高到正常的音量进行播放，以避免转换过于突兀。

上述方案存在的问题是，对于午睡和婚礼等要求连续性非常强的场景，淡入淡出的方式在歌曲衔接时的音量很小甚至听不到，仍旧会导致用户感觉到突兀，不能有效的实现前后两首歌曲之间的无缝衔接。

发明内容

本申请实施例提供了一种音频处理方法、装置、计算机设备及存储介质，能够实现对两个音频片段的无缝衔接。所述技术方案如下：

一方面，提供了一种音频处理方法，所述方法包括：

获取第一音频片段的第一音频数据和第二音频片段的第二音频数据，所述第二音频片段与所述第一音频片段的播放顺序相邻；

根据所述第一音频数据和所述第二音频数据，确定目标音频数据，所述目标音频数据为所述第一音频片段和所述第二音频片段中间衔接的音频片段的音频数据；

基于所述目标音频数据，确定目标音频片段，所述目标音频片段用于在所述第一音频片段和所述第二音频片段之间播放。

另一方面，提供了一种音频处理装置，所述装置包括：

音频数据获取模块，用于获取第一音频片段的第一音频数据和第二音频片段的第二音频数据，所述第二音频片段与所述第一音频片段的播放顺序相邻；

音频数据确定模块，用于根据所述第一音频数据和所述第二音频数据，确定目标音频数据，所述目标音频数据为所述第一音频片段和所述第二音频片段中间衔接的音频片段的音频数据；

音频片段确定模块，用于基于所述目标音频数据，确定目标音频片段，所述目标音频片段用于在所述第一音频片段和所述第二音频片段之间播放。

在一种可选的实现方式中，所述音频数据获取模块包括：

音符特征提取单元，用于分别提取所述第一音频片段和所述第二音频片段的音符特征，所述音符特征用于以向量的形式表示音符；

节奏特征提取单元，用于分别提取所述第一音频片段和所述第二音频片段的节奏特征，所述节奏特征用于以向量的形式表示每一帧是否为节拍；

音频数据确定单元，用于基于所述音符特征和所述节奏特征，确定所述第一音频数据和所述第二音频数据。

在一种可选的实现方式中，所述音符特征提取单元，用于确定所述第一音频片段的第一基音信息和所述第二音频片段的第二基音信息，所述第一基音信息和所述第二基音信息用于表示音频片段中的基音，一个基音对应一个音符；根据所述第一基音信息确定所述第一音频片段的第一音符特征；根据所述第二基音信息确定所述第二音频片段的第二音符特征。

在一种可选的实现方式中，所述节奏特征提取单元，用于确定所述第一音频片段的第一音频采样信息和所述第二音频片段的第二音频采样信息，所述第一音频采样信息和所述第二音频采样信息用于表示音频片段中的采样点；根据所述第一音频采样信息，确定所述第一音频片段的第一节奏特征；根据所述第二音频采样信息，确定所述第二音频片段的第二节奏特征。

在一种可选的实现方式中，所述音频数据确定模块，用于将所述第一音频数据和所述第二音频数据合成为音频输入数据，所述音频输入数据的首部为所述第一音频数据，尾部为所述第二音频数据，中部为空；将所述音频输入数据输入音频处理模型，得到所述音频处理模型输出的所述目标音频数据，所述音频处理模型用于根据输入的音频数据的上下文，预测中间缺失的音频数据。

在一种可选的实现方式中，所述音频处理模型的训练步骤包括：

获取三个连续的样本音频片段依次对应的第一样本音频数据、第二样本音频数据和第三样本音频数据；

将所述第一样本音频数据和所述第三样本音频数据，输入本次迭代过程对应的音频处理模型，得到所述本次迭代过程对应的音频处理模型输出的音频结果数据；

响应于不满足目标条件，根据所述音频结果数据与所述第二样本音频数据之间的差异，调整所述本次迭代过程对应的音频处理模型的参数；

响应于满足所述目标条件，将所述本次迭代过程对应的音频处理模型确定为训练完毕的音频处理模型。

在一种可选的实现方式中，所述获取三个连续的样本音频片段依次对应的第一样本音频数据、第二样本音频数据和第三样本音频数据，包括：

获取样本音频对应的样本音频数据；

从所述样本音频数据中随机选择目标比例的音频数据，确定为所述第二样本音频数据；

将所述样本音频数据中顺序排在所述第二样本音频数据之前的音频数据，确定为所述第一样本音频数据；

将所述样本音频数据中顺序排在所述第二样本音频数据之后的音频数据，确定为所述第三样本音频数据。

在一种可选的实现方式中，所述装置还包括：

歌曲获取模块，用于获取第一歌曲和第二歌曲，所述第二歌曲和所述第一歌曲的播放顺序相邻且靠后；

音频片段截取模块，用于截取所述第一歌曲的结尾片段，确定为所述第一音频片段；

所述音频片段截取模块，还用于截取所述第二歌曲的开头片段，确定为所述第二音频片段。

另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段计算机程序，所述至少一段计算机程序由所述处理器加载并执行以实现本申请实施例中的音频处理方法中所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一段计算机程序，所述至少一段计算机程序由处理器加载并执行以实现如本申请实施例中的音频处理方法中所执行的操作。

另一方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述各个方面或者各个方面的各种可选实现方式中提供的音频处理方法。

本申请实施例提供的技术方案带来的有益效果是：

在本申请实施例中，提供了一种音频处理方法，通过在不改变原有的音频片段的前提下，根据顺序相邻的两个音频片段的音频数据，来确定在两个音频片段之间播放的目标音频片段，因此能够实现对两个音频片段的无缝衔接。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例提供的音频处理方法的实施环境示意图；

图2是根据本申请实施例提供的一种音频处理方法的流程图；

图3是根据本申请实施例提供的一种音频处理方法的流程图；

图4是根据本申请实施例提供的一种模型处理流程示意图；

图5是根据本申请实施例提供的一种播放界面的示意图；

图6是根据本申请实施例提供的一种音频处理装置的框图；

图7是根据本申请实施例提供的一种终端的结构框图；

图8是根据本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

以下介绍本申请实施例涉及的一些名词。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

基音，一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动，由它发出的音就是基音(fundamental tone)，其余为泛音。乐音是由“基音”和“泛音”组成的。不同乐器，在发出同一个“音符”时，基音的“频率”是相同的。我们能够区别不同乐器发出的同一个音符，就是同一个音符所包含的“泛音组成和多少”不同。

谐波峰值法，由于音高与频率的对应关系，在频域识别音高更为直接，通过将音频信号进行快速傅里叶变换，然后根据谐波和基音的关系来确定基音。

音高，是指各种音调高低不同的声音，即音的高度，音的基本特征的一种。音的高低是由振动频率决定的，两者成正相关关系：频率(即单位时间内振动次数的多少)高则音“高”，反之则“低”。

快速傅里叶变换(fast Fourier transform),即利用计算机计算离散傅里叶变换(DFT)的高效、快速计算方法的统称，简称FFT。计算离散傅里叶变换的快速方法，有按时间抽取的FFT算法和按频率抽取的FFT算法。前者是将时域信号序列按偶奇分排，后者是将频域信号序列按偶奇分排。它们都借助于的两个特点：一是周期性；二是对称性，这里符号*代表其共轭。这样，便可以把离散傅里叶变换的计算分成若干步进行，计算效率大为提高。

BERT(Bidirectional Encoder Representations from Transformers)网络架构使用的是《Attention is all you need》中提出的多层Transformer结构，其最大的特点是抛弃了传统的RNN和CNN，通过Attention机制将任意位置的两个单词的距离转换成1，有效的解决了NLP中棘手的长期依赖问题。

以下，介绍本申请实施例提供的音频处理方法的实施环境。图1是根据本申请实施例提供的音频处理方法的实施环境示意图。参见图1，该实施环境包括终端101和服务器102。

终端101和服务器102能够通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

可选的，终端101是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端101安装和运行有支持音频播放的应用程序，如音乐播放器、浏览器或者电子书阅读器等。示意性的，终端101是用户使用的终端，登录有用户的用户账户。

可选的，服务器102是独立的物理服务器，也能够是多个物理服务器构成的服务器集群或者分布式系统，还能够是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器102用于为支持音频播放的应用程序提供后台服务。可选地，服务器102承担主要计算工作，终端101承担次要计算工作；或者，服务器102承担次要计算工作，终端101承担主要计算工作；或者，服务器102和终端101二者之间采用分布式计算架构进行协同计算。

本领域技术人员知晓，上述终端的数量能够更多或更少。比如上述终端仅为一个，或者上述终端为几十个或几百个，或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。

可选的，上述的无线网络或有线网络使用标准通信技术和/或协议。网络通常为因特网、但也能够是任何网络，包括但不限于局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，使用包括超文本标记语言(Hyper Text Mark-up Language，HTML)、可扩展标记语言(Extensible MarkupLanguage，XML)等的技术和/或格式来代表通过网络交换的数据。此外还能够使用诸如安全套接字层(Secure Socket Layer，SSL)、传输层安全(Transport Layer Security，TLS)、虚拟专用网络(Virtual Private Network，VPN)、网际协议安全(Internet ProtocolSecurity，IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中，还能够使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

在一种可选的实现方式中，本申请实施例提供的音频处理方法，能够应用于用户听音乐入睡场景中。例如用户在准备入睡前打开音乐播放器，然后选择了某个歌手的一个专辑(包括十首歌)进行播放。用户希望通过歌曲能够让自己更好的入睡，然而由于歌曲与歌曲之间切换时，会让用户感到突兀，打破用户的沉浸感，影响用户入睡。此时用户开启无痕衔接功能，由终端或者服务器基于本申请实施例提供的音频处理方法，在相邻播放的歌曲之间插入生成的音频片段，起到衔接作用，使歌曲之间的切换更加顺畅，从而用户能够沉浸在歌曲中，更好的入睡。

在一种可选的实现方式中，本申请实施例提供的音频处理方法，能够应用于婚礼场景中。例如婚礼仪式总共计划有10分钟，新郎选择了三首与新娘有关联的歌曲进行播放，由于婚礼仪式是一个连续性非常强的场景，当前歌曲之间进行衔接时，会影响整个仪式的气氛。此时，由终端基于本申请实施例提供的音频处理方法，根据第一首歌的结尾部分和第二首歌的开头部分，生成一段新的音频对第一首歌和第二首歌进行衔接，同样地，根据第二首歌的结尾部分和第三首歌的开头部分，生成一段新的音频对第二首歌和第三首歌进行衔接，使歌曲之间的切换更加顺畅，从而使得三首歌具有很强的连续性，使整个仪式的气氛的整体性很好。

图2是根据本申请实施例提供的一种音频处理方法的流程图，如图2所示，在本申请实施例中以应用于计算机设备为例进行说明。该音频处理方法包括以下步骤：

201、计算机设备获取第一音频片段的第一音频数据和第二音频片段的第二音频数据，该第二音频片段与该第一音频片段的播放顺序相邻。

在本申请实施例中，第一音频片段和第二音频片段为播放顺序相邻的两首完整的歌曲，或者第一音频片段为播放顺序在前的歌曲的结尾部分，第二音频片段为播放顺序在后的歌曲的开头部分。计算机设备能够通过向量的形式表示该第一音频片段和该第二音频片段，得到第一音频数据和第二音频数据，该第一音频数据和第二音频数据能够表示音频片段中包括的音符以及节拍的特征。

202、计算机设备根据该第一音频数据和该第二音频数据确定目标音频数据，该目标音频数据为该第一音频片段和该第二音频片段中间衔接的音频片段的音频数据。

在本申请实施例中，计算机设备能够基于获取到的第一音频数据和第二音频数据，构造一个中间缺失的音频输入数据，通过音频处理模型来进行预测，确定一个目标音频数据，该目标音频数据对应的音频片段能够对上述第一音频片段和第二音频片段进行衔接。其中，该音频处理模型能够根据输入的音频数据的上下文，预测中间缺失的音频数据。

203、计算机设备基于该目标音频数据，确定目标音频片段，该目标音频片段用于在该第一音频片段和该第二音频片段之间播放。

在本申请实施例中，计算机设备在得到目标音频数据之后，能够对该目标音频数据进行解码，得到对应的目标音频片段。然后，计算机设备在播放完成第一音频片段后，通过播放该目标音频片段来实现与第二音频片段的衔接。

图3是根据本申请实施例提供的一种音频处理方法的流程图，如图3所示，在本申请实施例中以应用于终端为例进行说明。该音频处理方法包括以下步骤：

301、终端获取音频处理模型，该音频处理模型用于根据输入的音频数据的上下文，预测中间缺失的音频数据。

在本申请实施例中，该音频处理模型由终端训练得到，由终端从终端的本地存储空间中获取；或者由服务器训练得到，由终端从服务器获取；当然也能够由服务器通过其他方式获取并存储已训练完毕的音频处理模型，在终端请求该音频处理模型时，返回该音频处理模型。本申请实施例对音频处理模型的获取方式不进行限制。其中，该音频处理模型的输入为中间具有缺失的音频输入数据，该音频处理模型能够根据输入的音频输入数据的上下文进行预测，得到中间缺失的音频数据。相应的，如果将两个音频片段的音频数据合成为一个中间缺失的音频数据输入，则该音频处理模型所输出的音频数据，在解码后得到的音频片段，能够对上述两个音频片段进行衔接。

在一种可选的实现方式中，以服务器训练得到音频处理模型为例，上述音频处理模型的训练步骤为：在一次迭代过程中，首先，服务器获取三个连续的样本音频片段依次对应的第一样本音频数据、第二样本音频数据和第三样本音频数据；然后，服务器将上述第一样本音频数据和第三样本音频数据，输入本次迭代过程对应的音频处理模型，得到本次迭代过程对应的音频处理模型输出的音频结果数据；最后，响应于不满足目标条件，根据该音频结果数据与该第二样本音频数据之间的差异，调整该本次迭代过程对应的音频处理模型的参数；响应于满足该目标条件，将该本次迭代过程对应的音频处理模型确定为训练完毕的音频处理模型。其中，第一样音频数据和第三样本音频数据为训练数据，第二样本音频数据为监督数据。可选的，该第一样本音频数据、第二样本音频数据以及第三样本音频数据为向量形式。该目标条件为音频结果数据与第二样本音频数据之间的差异在预设的误差范围内、达到预设的迭代次数或者模型损失在预设的损失范围之内等。通过上述训练步骤，能够在每次迭代过程中，通过调整模型的参数，使模型输出的音频结果数据与监督数据之间的差异越来越小，从而得到上述训练完毕的音频处理模型。

在一种可选的实现方式中，上述三个连续的样本音频片段，来自于同一个样本音频。相应的，服务器获取三个连续的样本音频片段依次对应的第一样本音频数据、第二样本音频数据和第三样本音频数据的步骤为：首先，服务器获取样本音频对应的样本音频数据；然后，服务器从该样本音频数据中随机选择目标比例的音频数据，确定为第二样本音频数据；然后，服务器将样本音频数据中顺序排在第二样本音频数据之前的音频数据，确定为第一样本音频数据；最后，服务器将样本音频数据中顺序排在第二样本音频数据之后的音频数据，确定为第三样本音频数据。其中，目标比例为10％、15％或者17％等，本申请实施例对目标比例不进行限制。相应的，终端将样本音频数据中的第二样本音频数据置空，作为训练音频处理模型的训练数据。通过随机选择作为监督数据的音频数据，使得训练得到的音频处理模型具有鲁棒性。

例如，目标比例为15％，通过遮蔽的方式进行置空，对于一首歌曲，服务器先获取该歌曲的音频数据，然后随机选择15％的音频数据进行遮蔽，被遮蔽的音频数据即为作为监督数据的第二样本音频数据，而在被遮蔽的音频数据之前的音频数据即为第一样本音频数据，剩下的为第三音频数据。由于训练数据和监督数据来自于同一首歌曲，使得模型能够基于上下文预测被遮蔽的音频数据。

需要说明的是，该音频处理模型能够采用自然语言处理领域的BERT网络架构，将样本音频数据中处于首部的音频数据和处于尾部的音频数据作为上下文信息，来预测位于中间的被遮蔽的音频数据，使得训练得到的音频处理模型所输出的音频结果数据，能够解码出与前后两个音频片段较为相似的音频片段，从而实现无缝衔接。

302、终端获取第一音频片段的第一音频数据和第二音频片段的第二音频数据，该第二音频片段与该第一音频片段的播放顺序相邻。

在本申请实施例中，终端在连续播放多个音频时，对于任意两个播放顺序相邻的音频，终端能够获取第一音频片段和第二音频片段。其中，该第一音频片段为播放顺序在前的音频，该第二音频片段为播放顺序在后的音频，也即第一音频片段和第二音频片段为完整的音频，如一首歌曲、一首钢琴曲或者一首轻音乐等；或者，该第一音频片段为播放顺序在前的音频的结尾部分，该第二音频片段为播放顺序在后的音频的开头部分，也即终端先获取第一歌曲和第二歌曲，该第二歌曲和第一歌曲的播放顺序相邻且靠后；然后，终端截取第一歌曲的结尾片段，确定为第一音频片段；以及，终端截取第二歌曲的开头片段，确定为第二音频片段。

另外，音频片段的音频数据用于表示音频片段中包括的音符以及节拍的特征，因此，上述第一音频数据和第二音频数据均由终端基于音符特征和节奏特征确定。相应的，终端获取第一音频片段的第一音频数据和第二音频片段的第二音频数据的步骤包括：首先，终端分别提取第一音频片段和第二音频片段的音符特征，该音符特征用于以向量的形式表示音符；以及分别提取第一音频片段和第二音频片段的节奏特征，该节奏特征用于以向量的形式表示每一帧是否为节拍；然后，终端基于音符特征和节奏特征，确定第一音频数据和第二音频数据。

在一种可选的实现方式中，终端能够使用基于快速傅里叶变换(FFT)的谐波峰值法来识别音符，即利用音高和频率之间存在的对应关系，先对音频片段进行FFT，然后根据谐波和基音的关系来确定基音，由于一个基音对应一个音符，从而能够确定音频片段的音符特征。相应的，终端分别提取第一音频片段和第二音频片段的音符特征的步骤为：首先，终端确定第一音频片段的第一基音信息和第二音频片段的第二基音信息，该第一基音信息和该第二基音信息用于表示音频片段中的基音，一个基音对应一个音符；然后，终端根据第一基音信息确定第一音频片段的第一音符特征；以及终端根据第二基音信息确定第二音频片段的第二音符特征。

例如，终端通过将七位数字中不同位置的数字置为1来分别表示七个音符，其中，“1000000”表示“1”，发音为“do”；“0100000”表示“2”，发音为“re”；“0010000”表示“3”，发音为“mi”；“0001000”表示“4”，发音为“fa”；“0000100”表示“5”，发音为“so”；“0000010”表示“6”，发音为“la”；“0000001”表示“7”，发信为“si”。对于第一音频片段，终端对该第一音频片段进行FFT，然后确定对应的基音，再根据基音确定对应的音符，将音符对应的数字确定为该第一音频片段的第一音符特征。第二音符特征的确定方式类似，不再赘述。另外，在一个音频片段包括多个音符时，终端按照音符出现的时间顺序进行排列，确定每一帧对应的音符特征。

需要说明的是，如果一帧对应至少两个音符时，终端将该帧对应的七位数字中的至少两位置为1。例如，对应“1”和“3”的帧对应的音符特征表示为“1010000”，对应“2”和“5”的帧对应的音符特征表示为“0100100”，对应“1”、“4”和“7”的帧对应的音符特征表示为“1001001”，在此不再一一举例。

在一种可选的实现方式中，终端能够根据当前帧的采样平均值，与历史时刻多个帧的采样平均值之间的关系，来确定当前帧是否为节拍。相应的，终端分别提取第一音频片段和第二音频片段的节奏特征的步骤为：首先，终端确定第一音频片段的第一音频采样信息和第二音频片段的第二音频采样信息，该第一音频采样信息和所述第二音频采样信息用于表示音频片段中的采样点；然后，终端根据第一音频采样信息，确定第一音频片段的第一节奏特征；以及终端根据第二音频采样信息，确定第二音频片段的第二节奏特征。

例如，从第一音频片段的第一帧开始，对每一帧进行采样，得到每一帧对应的1024个采样点的采样值，作为该第一音频片段的第一音频采样信息。然后，由于节拍通常每个一定的帧数出现一次，每次持续若干帧，因此，终端将任一帧作为当前帧，将该当前帧对应的1024个采样点的采样值的平均值，与该当前帧相邻且靠前的N帧的平均采样值进行比较，如果当前帧的平均值优于前N帧的平均采样值，则该当前帧为节拍，用1表示当前帧的节奏特征；如果当前帧的平均值不优于前N帧的平均采样值，则该当前帧不为节拍，用0表示当前帧的节奏特征。其中，N为正整数，如25帧、43帧、59帧等，本申请实施例对此不进行限制。

终端在得到上述第一音频片段和第二音频片段的音符特征，以及第一音频片段和第二音频片段的节奏特征之后，从帧的维度确定对应的音频数据。

例如，第一音频片段包括100帧，第一帧对应的音符特征为“1000000”，节拍特征为“0”，则第一帧对应的音频数据为“10000000”；第二帧对应的音符特征为“0100000”，节拍特征为“0”，则第二帧对应的音频数据为“01000000”；第三帧对应的音符特征为“0001000”，节拍特征为“1”，则第三帧对应的音频数据为“00010001”；第五十帧对应的音符特征为“0100100”，节拍特征为“1”，则第五十帧对应的音频数据为“01001001”；第八十帧对应的音符特征为“1001101”，节拍特征为“0”，则第八十帧对应的音频数据为“10011010”；第一百帧对应的音符特征为“0000010”，节拍特征为“1”，则第一百帧对应的音频数据为“00000101”。因此，第一音频片段对应的音频数据为[10000000,01000000,00010001,…,01001001,…,10011010,…,00000101]。

303、终端根据第一音频数据和该第二音频数据，确定目标音频数据，该目标音频数据为该第一音频片段和第二音频片段中间衔接的音频片段的音频数据。

在本申请实施中，终端在得到上述第一音频数据和第二音频数据之后，能够将该第一音频数据和该第二音频数据合成为音频输入数据，该音频输入数据的首部为该第一音频数据，该音频数据输入数据的尾部为该第二音频数据，该音频输入数据的中部为空，也即缺失的部分。其中，该缺失的部分占该音频输入数据的比例为上述目标比例。因此，终端能够将该音频输入数据输入上述获取到的音频处理模型中，由该音频处理模型以第一音频数据和第二音频数据为上下文信息，来预测中间缺失的音频数据，从而得到目标音频数据。其中，音频处理模型对输入的音频输入数据进行编码，然后根据第一音频数据和第二音频数据之间的关联关系，以第一音频数据为上文数据、第二音频数据为下文数据进行预测，从而得到第一音频数据和第二音频数据中间缺失的目标音频数据，该目标音频数据和第一音频数据和第二音频数据具有关联。

304、终端基于该目标音频数据，确定目标音频片段，该目标音频片段用于在该第一音频片段和该第二音频片段之间播放。

在本申请实施中，终端得到音频处理模型输出的目标音频数据之后，能够对该目标音频数据进行解码，得到目标音频片段，然后，将该目标音频片段补充到第一音频片段和该第二音频片段之间，即在播放完成第一音频片段后，播放该目标音频片段，再播放第二音频片段，从而实现第一音频片段和第二音频片段的无缝衔接。

需要说明的是，为了使音频处理模型的训练和处理过程更为清晰，参见图4所示，图4是根据本申请实施例提供的一种模型处理流程示意图。如图4所示，音频处理模型为BERT网络结构，处理流程包括两个阶段：训练阶段和生成阶段，并且两个阶段都包括模型输入和模型输出两个步骤。在训练阶段，首先随机屏蔽音乐片段，然后基于BERT网络结果进行预测，从而预测出被屏蔽的音乐片段。然后在生成阶段，将两个音乐片段的音频数据输入BERT网络结构，然后由BERT网络进行预测，输出目标音频数据，通过对该目标音频数据解码得到前后两个音乐片段中间的片段。

需要说明的是，用户能够通过终端显示的播放界面来选择开启“无痕模式”，也即由终端执行本申请实施例提供的音频处理方法，以实现自动补全两首歌曲之间的衔接部分。

例如，参见图5所示，图5是根据本申请实施例提供的一种播放界面的示意图。如图5所示，501表示手机端的播放界面，在该播放界面的左下角设置有“无痕模式”的开启选项。502表示PC(Personal Computer，个人计算机)端的播放界面的工具栏，该工具栏的中部设置有“无痕模式”的开启选项。当然，该“无痕模式”的开启选项还能够设置在其他位置，本申请实施例对此不进行限制。

在本申请实施例中，提供了一种音频处理方法，提供了一种音频处理方法，通过在不改变原有的音频片段的前提下，根据顺序相邻的两个音频片段的音频数据，来确定在两个音频片段之间播放的目标音频片段，因此能够实现对两个音频片段的无缝衔接。

图6是根据本申请实施例提供的一种音频处理装置的框图。该装置用于执行上述音频处理方法执行时的步骤，参见图6，装置包括：音频数据获取模块601、音频数据确定模块602以及音频片段确定模块603。

音频数据获取模块601，用于获取第一音频片段的第一音频数据和第二音频片段的第二音频数据，所述第二音频片段与所述第一音频片段的播放顺序相邻；

音频数据确定模块602，用于根据所述第一音频数据和所述第二音频数据，确定目标音频数据，所述目标音频数据为所述第一音频片段和所述第二音频片段中间衔接的音频片段的音频数据；

音频片段确定模块603，用于基于所述目标音频数据，确定目标音频片段，所述目标音频片段用于在所述第一音频片段和所述第二音频片段之间播放。

在一种可选的实现方式中，该音频数据获取模块601包括：

音符特征提取单元，用于分别提取该第一音频片段和该第二音频片段的音符特征，该音符特征用于以向量的形式表示音符；

节奏特征提取单元，用于分别提取该第一音频片段和该第二音频片段的节奏特征，该节奏特征用于以向量的形式表示每一帧是否为节拍；

音频数据确定单元，用于基于该音符特征和该节奏特征，确定该第一音频数据和该第二音频数据。

在一种可选的实现方式中，该音符特征提取单元，用于确定该第一音频片段的第一基音信息和该第二音频片段的第二基音信息，该第一基音信息和该第二基音信息用于表示音频片段中的基音，一个基音对应一个音符；根据该第一基音信息确定该第一音频片段的第一音符特征；根据该第二基音信息确定该第二音频片段的第二音符特征。

在一种可选的实现方式中，该节奏特征提取单元，用于确定该第一音频片段的第一音频采样信息和该第二音频片段的第二音频采样信息，该第一音频采样信息和该第二音频采样信息用于表示音频片段中的采样点；根据该第一音频采样信息，确定该第一音频片段的第一节奏特征；根据该第二音频采样信息，确定该第二音频片段的第二节奏特征。

在一种可选的实现方式中，该音频数据确定模块602，用于将该第一音频数据和该第二音频数据合成为音频输入数据，该音频输入数据的首部为该第一音频数据，尾部为该第二音频数据，中部为空；将该音频输入数据输入音频处理模型，得到该音频处理模型输出的该目标音频数据，该音频处理模型用于根据输入的音频数据的上下文，预测中间缺失的音频数据。

在一种可选的实现方式中，该音频处理模型的训练步骤包括：

将该第一样本音频数据和该第三样本音频数据，输入本次迭代过程对应的音频处理模型，得到该本次迭代过程对应的音频处理模型输出的音频结果数据；

响应于不满足目标条件，根据该音频结果数据与该第二样本音频数据之间的差异，调整该本次迭代过程对应的音频处理模型的参数；

响应于满足该目标条件，将该本次迭代过程对应的音频处理模型确定为训练完毕的音频处理模型。

在一种可选的实现方式中，该获取三个连续的样本音频片段依次对应的第一样本音频数据、第二样本音频数据和第三样本音频数据，包括：

获取样本音频对应的样本音频数据；

从该样本音频数据中随机选择目标比例的音频数据，确定为该第二样本音频数据；

将该样本音频数据中顺序排在该第二样本音频数据之前的音频数据，确定为该第一样本音频数据；

将该样本音频数据中顺序排在该第二样本音频数据之后的音频数据，确定为该第三样本音频数据。

在一种可选的实现方式中，该装置还包括：

歌曲获取模块604，用于获取第一歌曲和第二歌曲，该第二歌曲和该第一歌曲的播放顺序相邻且靠后；

音频片段截取模块605，用于截取该第一歌曲的结尾片段，确定为该第一音频片段；

该音频片段截取模块605，还用于截取该第二歌曲的开头片段，确定为该第二音频片段。

需要说明的是：上述实施例提供的音频处理装置在运行应用程序时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频处理装置与音频处理方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在本申请实施例中，计算机设备能够被配置为终端或者服务器，当计算机设备被配置为终端时，由终端作为执行主体来实施本申请实施例提供的技术方案，当计算机设备被配置为服务器时，由服务器作为执行主体来实施本申请实施例提供的技术方案，能够通过终端和服务器之间的交互来实施本申请提供的技术方案，如终端将用户选定的播放列表发送至服务器，由服务器根据该播放列表中的歌曲生成至少一个用于衔接的音频片段，将该至少一个用于衔接的音频片段发送是终端，由终端进行播放，本申请实施例对此不作限定。

图7是根据本申请实施例提供的一种终端700的结构框图。该终端700可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts GroupAudio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture ExpertsGroup Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端700包括有：处理器701和存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个计算机程序，该至少一个计算机程序用于被处理器701所执行以实现本申请中方法实施例提供的音频处理方法。

在一些实施例中，终端700还可选包括有：外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地，外围设备包括：射频电路704、显示屏705、摄像头组件706、音频电路707、定位组件708和电源709中的至少一种。

外围设备接口703可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时，显示屏705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏705可以为一个，设置在终端700的前面板；在另一些实施例中，显示屏705可以为至少两个，分别设置在终端700的不同表面或呈折叠设计；在另一些实施例中，显示屏705可以是柔性显示屏，设置在终端700的弯曲表面上或折叠面上。甚至，显示屏705还可以设置成非矩形的不规则图形，也即异形屏。显示屏705可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件706用于采集图像或视频。可选地，摄像头组件706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路707还可以包括耳机插孔。

定位组件708用于定位终端700的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源709用于为终端700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于：加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。

加速度传感器711可以检测以终端700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号，控制显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器712可以检测终端700的机体方向及转动角度，陀螺仪传感器712可以与加速度传感器711协同采集用户对终端700的3D动作。处理器701根据陀螺仪传感器712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器713可以设置在终端700的侧边框和/或显示屏705的下层。当压力传感器713设置在终端700的侧边框时，可以检测用户对终端700的握持信号，由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在显示屏705的下层时，由处理器701根据用户对显示屏705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器714用于采集用户的指纹，由处理器701根据指纹传感器714采集到的指纹识别用户的身份，或者，由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器701授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置在终端700的正面、背面或侧面。当终端700上设置有物理按键或厂商Logo时，指纹传感器714可以与物理按键或厂商Logo集成在一起。

光学传感器715用于采集环境光强度。在一个实施例中，处理器701可以根据光学传感器715采集的环境光强度，控制显示屏705的显示亮度。具体地，当环境光强度较高时，调高显示屏705的显示亮度；当环境光强度较低时，调低显示屏705的显示亮度。在另一个实施例中，处理器701还可以根据光学传感器715采集的环境光强度，动态调整摄像头组件706的拍摄参数。

接近传感器716，也称距离传感器，通常设置在终端700的前面板。接近传感器716用于采集用户与终端700的正面之间的距离。在一个实施例中，当接近传感器716检测到用户与终端700的正面之间的距离逐渐变小时，由处理器701控制显示屏705从亮屏状态切换为息屏状态；当接近传感器716检测到用户与终端700的正面之间的距离逐渐变大时，由处理器701控制显示屏705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图7中示出的结构并不构成对终端700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图8是根据本申请实施例提供的一种服务器的结构示意图，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central ProcessingUnits，CPU)801和一个或一个以上的存储器802，其中，该存储器802中存储有至少一条计算机程序，该至少一条计算机程序由该处理器801加载并执行以实现上述各个方法实施例提供的音频处理方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质应用于计算机设备，该计算机可读存储介质中存储有至少一段计算机程序，该至少一段计算机程序由处理器加载并执行以实现上述实施例的音频处理方法中计算机设备所执行的操作。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序代码，处理器执行该计算机程序代码，使得该计算机设备执行上述各种可选实现方式中提供的音频处理方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取第一音频片段的第一音频数据和第二音频片段的第二音频数据，包括：

分别提取所述第一音频片段和所述第二音频片段的音符特征，所述音符特征用于以向量的形式表示音符；

分别提取所述第一音频片段和所述第二音频片段的节奏特征，所述节奏特征用于以向量的形式表示每一帧是否为节拍；

基于所述音符特征和所述节奏特征，确定所述第一音频数据和所述第二音频数据。

3.根据权利要求2所述的方法，其特征在于，所述分别提取所述第一音频片段和所述第二音频片段的音符特征，包括：

确定所述第一音频片段的第一基音信息和所述第二音频片段的第二基音信息，所述第一基音信息和所述第二基音信息用于表示音频片段中的基音，一个基音对应一个音符；

根据所述第一基音信息确定所述第一音频片段的第一音符特征；

根据所述第二基音信息确定所述第二音频片段的第二音符特征。

4.根据权利要求2所述的方法，其特征在于，所述分别提取所述第一音频片段和所述第二音频片段的节奏特征，包括：

确定所述第一音频片段的第一音频采样信息和所述第二音频片段的第二音频采样信息，所述第一音频采样信息和所述第二音频采样信息用于表示音频片段中的采样点；

根据所述第一音频采样信息，确定所述第一音频片段的第一节奏特征；

根据所述第二音频采样信息，确定所述第二音频片段的第二节奏特征。

5.根据权利要求1所述的方法，其特征在于，所述根据所述第一音频数据和所述第二音频数据，确定目标音频数据，包括：

将所述第一音频数据和所述第二音频数据合成为音频输入数据，所述音频输入数据的首部为所述第一音频数据，尾部为所述第二音频数据，中部为空；

将所述音频输入数据输入音频处理模型，得到所述音频处理模型输出的所述目标音频数据，所述音频处理模型用于根据输入的音频数据的上下文，预测中间缺失的音频数据。

6.根据权利要求5所述的方法，其特征在于，所述音频处理模型的训练步骤包括：

7.根据权利要求6所述的方法，其特征在于，所述获取三个连续的样本音频片段依次对应的第一样本音频数据、第二样本音频数据和第三样本音频数据，包括：

获取样本音频对应的样本音频数据；

8.一种音频处理装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器用于存储至少一段计算机程序，所述至少一段计算机程序由所述处理器加载并执行权利要求1至7任一权利要求所述的音频处理方法。

10.一种存储介质，其特征在于，所述存储介质用于存储至少一段计算机程序，所述至少一段计算机程序用于执行权利要求1至7任一权利要求所述的音频处理方法。