CN113823318A

CN113823318A - 一种基于人工智能的倍率确定方法、音量调节方法及装置

Info

Publication number: CN113823318A
Application number: CN202110712666.XA
Authority: CN
Inventors: 高俊
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-06-25
Filing date: 2021-06-25
Publication date: 2021-12-21

Abstract

本发明实施例公开一种基于人工智能的倍率确定方法、音量调节方法及装置，该基于人工智能的倍率确定方法包括：获取第一音频数据，所述第一音频数据包括多帧音频信号；确定所述多帧音频信号的平均音量，得到第一音量；使用第一神经网络提取所述多帧音频信号中每帧音频信号的风格特征，得到第一风格特征向量；将所述第一风格特征向量输入第二神经网络，得到第二音量；根据所述第一音量和所述第二音量确定第一音量调节倍率。本发明实施例，可以提高用户体验。

Description

一种基于人工智能的倍率确定方法、音量调节方法及装置

技术领域

本发明实施例涉及语音技术领域，尤其涉及一种基于人工智能的倍率确定方法、音量调节方法及装置。

背景技术

由于音频数据的来源、风格等不同，导致不同音频数据的音量大小不同。在用户边听音频数据边做其他事(如学习或工作)的过程中，由于不同音频数据之间的音量不同，以致会出现音量忽高忽低的情况，而用户为了保证音量合适需要通过手动调节音量，影响用户做事，降低了用户体验。

发明内容

本发明实施例公开了一种基于人工智能的倍率确定方法、音量调节方法及装置，用于提高用户体验。

第一方面公开一种基于人工智能的倍率确定方法，其特征在于，包括：

获取第一音频数据，所述第一音频数据包括多帧音频信号；

确定所述多帧音频信号的平均音量，得到第一音量；

使用第一神经网络提取所述多帧音频信号中每帧音频信号的风格特征，得到第一风格特征向量；

将所述第一风格特征向量输入第二神经网络，得到第二音量；

根据所述第一音量和所述第二音量确定第一音量调节倍率。

作为一种可能的实施方式，所述方法还包括：

将用户信息输入第三神经网络，得到用户特征向量；

所述将所述第一风格特征向量输入第二神经网络，得到第二音量包括：

将所述第一风格特征向量和所述用户特征向量输入第二神经网络，得到第二音量。

作为一种可能的实施方式，所述第三神经网络包括第一层全连接层(fullyconnected layer，FC)、第一层非线性层(non liner layer，NL)、第二层FC、第二层NL和第三层FC，所述用户信息包括用户的M个信息，所述将用户信息输入第三神经网络，得到用户特征向量包括：

通过所述第一层FC提取所述M个信息中每个信息的特征，得到M个向量；

通过所述第一层NL对所述M个向量进行非线性变换，得到M个变换向量；

通过所述第二层FC对所述M个变换向量中对应信息间相似度大于阈值的变换向量进行线性变换，得到N个向量；

通过所述第二层NL对所述N个向量进行非线性变换得到，N个变换向量；

通过所述第三层FC对所述N个变换向量进行线性变换，得到用户特征向量，N为大于1的整数，M为大于N的整数。

作为一种可能的实施方式，所述方法还包括：

根据所述第一风格特征向量和历史音频数据信息，确定第二音量调节倍率；

将所述第一风格特征向量和所述第二音量调节倍率输入第二神经网络，得到第二音量。

作为一种可能的实施方式，所述历史音频数据信息包括多个音频数据的风格特征向量和第三音量调节倍率；

所述根据所述第一风格特征向量和历史音频数据信息，确定第二音量调节倍率包括：

根据所述第一风格特征向量以及所述多个音频数据的风格特征向量，计算所述第一音频数据与所述多个音频数据中每个音频数据的相似度，得到多个相似度；

根据所述多个相似度以及所述多个相似度对应的第三音量调节倍率，计算第二音量调节倍率。

第二方面公开一种基于人工智能的音量调节方法，包括：

获取待播放的第一音频数据，所述第一音频数据包括多帧音频信号；

确定所述多帧音频信号的平均音量，得到第一音量；

根据所述第一音量和所述第二音量确定第一音量调节倍率；

根据所述第一音量调节倍率以及所述多帧音频信号中每帧音频信号的实际音量，确定所述每帧音频信号的播放音量。

作为一种可能的实施方式，所述方法还包括：

将用户信息输入第三神经网络，得到用户特征向量；

作为一种可能的实施方式，所述第三神经网络包括第一层FC、第一层NL、第二层FC、第二层NL和第三层FC，所述用户信息包括用户的M个信息，所述将用户信息输入第三神经网络，得到用户特征向量包括：

作为一种可能的实施方式，所述方法还包括：

第三方面公开一种基于人工智能的倍率确定装置，包括：

获取单元，用于获取第一音频数据，所述第一音频数据包括多帧音频信号；

确定单元，用于确定所述多帧音频信号的平均音量，得到第一音量；

提取单元，用于使用第一神经网络提取所述多帧音频信号中每帧音频信号的风格特征，得到第一风格特征向量；

输入单元，用于将所述第一风格特征向量输入第二神经网络，得到第二音量；

所述确定单元，还用于根据所述第一音量和所述第二音量确定第一音量调节倍率。

作为一种可能的实施方式，所述输入单元，还用于将用户信息输入第三神经网络，得到用户特征向量；

所述输入单元将所述第一风格特征向量输入第二神经网络，得到第二音量包括：

作为一种可能的实施方式，所述第三神经网络包括第一层FC、第一层NL、第二层FC、第二层NL和第三层FC，所述用户信息包括用户的M个信息，所述输入单元将用户信息输入第三神经网络，得到用户特征向量包括：

作为一种可能的实施方式，所述确定单元，还用于根据所述第一风格特征向量和历史音频数据信息，确定第二音量调节倍率；

所述输入单元，具体用于将所述第一风格特征向量和所述第二音量调节倍率输入第二神经网络，得到第二音量。

所述确定单元根据所述第一风格特征向量和历史音频数据信息，确定第二音量调节倍率包括：

第四方面公开一种基于人工智能的音量调节装置，包括：

获取单元，用于获取待播放的第一音频数据，所述第一音频数据包括多帧音频信号；

所述确定单元，还用于根据所述第一音量和所述第二音量确定第一音量调节倍率；

所述确定单元，还用于根据所述第一音量调节倍率以及所述多帧音频信号中每帧音频信号的实际音量，确定所述每帧音频信号的播放音量。

第五方面公开一种电子设备，该电子设备可以包括处理器和存储器，存储器用于存储一组计算机程序代码，当处理器用于调用所述存储器中存储的计算机程序代码时，使得处理器执行第一方面或第一方面的任一可能的实施方式所公开的方法，或者使得处理器执行第二方面或第二方面的任一可能的实施方式所公开的方法。

第六方面公开一种电子设备，该电子设备可以包括处理器、存储器、输入接口和输出接口，存储器用于存储一组计算机程序代码，输入接口用于接收来自该电子设备之外的其它电子设备的信息，输出接口用于向该电子设备之外的其它电子设备输出信息。当处理器用于调用所述存储器中存储的计算机程序代码时，使得处理器执行第一方面或第一方面的任一可能的实施方式所公开的方法，或者使得处理器执行第二方面或第二方面的任一可能的实施方式所公开的方法。

第七方面公开一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序或计算机指令，当该计算机程序或计算机指令运行时，实现如第一方面或第一方面的任一可能的实施方式所公开的方法，或者第二方面或第二方面的任一可能的实施方式所公开的方法。

第八方面公开一种计算机程序产品，当其在计算机上运行时，使得计算机执行第一方面或第一方面的任一可能的实施方式所公开的方法，或者第二方面或第二方面的任一可能的实施的方式所公开的方法。

本发明实施例中，可以自动根据音频数据确定第一音量调节倍率，以便音乐播放器可以根据第一音量调节倍率以及音频数据中每帧音频信号的实际音量，确定音频数据中每帧音频信号的播放音量，不需要用户手动调节，可以提高用户体验。此外，音频数据不同，确定的第一音量调节倍率可能不同，可以避免所有音频数据使用同一第一音量调节倍率的情况，从而可以进一步提高用户体验。

附图说明

图1是本发明实施例公开的一种电子设备的结构示意图；

图2是本发明实施例公开的一种基于人工智能的倍率确定方法的流程示意图；

图3是本发明实施例公开的一种第一神经网络的结构示意图；

图4是本发明实施例公开的一种第二神经网络的结构示意图；

图5是本发明实施例公开的另一种基于人工智能的倍率确定方法的流程示意图；

图6是本发明实施例公开的一种第三神经网络的结构示意图；

图7是本发明实施例公开的又一种基于人工智能的倍率确定方法的流程示意图；

图8是本发明实施例公开的一种基于人工智能的音量调节方法的流程示意图；

图9是本发明实施例公开的另一种基于人工智能的音量调节方法的流程示意图；

图10是本发明实施例公开的又一种基于人工智能的音量调节方法的流程示意图；

图11是本发明实施例公开的一种装置的结构示意图；

图12是本发明实施例公开的另一种电子设备的结构示意图。

具体实施方式

本发明实施例公开了一种基于人工智能的倍率确定方法、音量调节方法及装置，用于提高用户体验。以下分别进行详细说明。

为了更好地理解本发明实施例，下面先对相关技术进行描述。人工智能(artificial intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能、感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术包括语音技术。

语音技术(speech technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

本发明是通过语音技术来实现对音频数据的音量的自动调节。具体通过如下实施例进行说明。

为了更好地理解本发明实施例，下面先对本发明实施例使用的电子设备的结构进行描述。请参阅图1，图1是本发明实施例公开的一种电子设备的结构示意图。如图1所示，该电子设备可以包括音频播放器101和音量调节倍率确定装置102。音频播放器101可以向音量调节倍率确定装置102发送待播放的音频数据。音量调节倍率确定装置102接收到来自音频播放器101的音频数据之后，可以根据音频数据确定第一音量调节倍率，可以向音频播放器101发送确定的第一音量调节倍率。音频播放器101接收到来自音量调节倍率确定装置102的第一音量调节倍率之后，可以根据音频数据中每帧音频信号的实际音量和第一音量调节倍率确定音频数据中每帧音频信号的播放音量，根据音频数据中每帧音频信号的播放音量播放音频数据。

为了更好地理解本发明实施例，下面先对相关技术进行描述。

在一种情况下，第一音量调节倍率为第一音量与第二音量的比值。第三音量调节倍率为第一音量与第三音量的比值。第二音量调节倍率为多个第三音量调节倍率的加权平均。第一音量为音频数据包括的所有帧音频信号的实际音量的平均值。第二音量为预测的音频数据包括的所有帧音频信号的平均音量。第三音量为音频数据包括的所有帧音频信号的播放音量的平均值。音频信号的实际音量为音频信号的原始音量，即未被调整之前的音量。音频信号的播放音量为音频信号的音量被调整后实际播放的音量。音频信号的实际音量与音频信号的播放音量不同。

在另一种情况下，第一音量调节倍率为第二音量与第一音量的比值。第三音量调节倍率为第三音量与第一音量的比值。

用户信息为同一个用户的信息。用户信息可以包括用户的年龄、用户的性别、用户调节音量的频次、用户调节音量后的平均音量、用户创建账号的时间、用户关注的歌手数量、用户收藏的歌曲数量、用户的爱好、用户的星座、用户的性格等中的多个。用户调节音量的频次可以为用户在固定时间段内调节音量的次数。用户调节后的平均音量可以为用户在固定时间段内调节音量后音频数据包括的每帧音频信号的播放音量的均值的平均值。

基于上述电子设备的结构，请参阅图2，图2是本发明实施例公开的一种基于人工智能的倍率确定方法的流程示意图。其中，该基于人工智能的倍率确定方法是从音量调节倍率确定装置102的角度来描述的。如图2所示，该基于人工智能的倍率确定方法可以包括以下步骤。

201、获取包括多帧音频信号的第一音频数据。

当音频播放器播放音频数据时，音量调节倍率确定装置102可以获取包括多帧音频信号的第一音频数据。第一音频数据为音频播放器中待播放的音频数据。第一音频数据可以为歌曲、小说、相声、评书、娱乐等各种音频数据。音量调节倍率确定装置102可以主动从音频播放器获取第一音频数据，也可以被动从音频播放器获取第一音频数据。

202、确定多帧音频信号的平均音量得到第一音量。

获取到第一音频数据之后，可以确定第一音频数据包括的多帧音频信号的平均音量得到第一音量。第一音频数据可以包括音量字段，音量字段可以包括多个音量。多帧音频信号与多个音量一一对应，可见，每帧音频信号对应一个音量。可以先从第一音频数据中提取音量字段，之后可以对音频字段包括的多个音量求平均得到第一音量。音量字段可以以向量的形式存在。

举例说明，假设第一音频数据为歌曲，歌曲的时长为300s，1s包括10帧音频信号。可见，音频字段为3000维的向量。例如，音频字段可以为(0.1,0.5,…,0.2)。

203、使用第一神经网络提取多帧音频信号中每帧音频信号的风格特征，得到第一风格特征向量。

获取到第一音频数据之后，可以使用第一神经网络提取第一音频数据包括的多帧音频信号中每帧音频信号的风格特征，得到第一风格特征向量。步骤202与步骤203可以并行执行，也可以串行执行。

应理解，多帧音频信号中的每帧音频信号为一个向量。例如，假设第一音频数据为歌曲，歌曲的时长为300s，1s包括10帧音频信号，则第一音频数据包括3000个向量。

第一神经网络可以为循环(recycle)-区域(region，R)-CNN模型。第一神经网络可以包括第一循环神经网络(recurrent neural network，RNN)、卷积神经网络(convolutional neural network，CNN)和第二RNN，第一RNN的输入为多帧音频信号，CNN的输入为第一RNN的输出，第二RNN的输入为CNN的输出，第二RNN的输出为第一风格特征向量。

请参阅图3，图3是本发明实施例公开的一种第一神经网络的结构示意图。如图3所示，可以先将第一音频数据输入第一RNN，第一音频数据中的每一个向量会被当作一个时刻进行处理。图3只示意出了5个时刻。每一个时刻的向量经过第一RNN之后会输出一个向量，输出的向量会输入CNN。CNN可以包括两个全连接层和一个卷积层，第一RNN的输出可以依次经过CNN中的一个全连接层、卷积层和另一个全连接层。一方面CNN可以改变输入CNN的向量的维度，使维度适配于CNN。另一方面，CNN可以增加第一神经网络的深度，由于模型越深效果越好，因此，可以提高第一神经网络的效果。第一RNN输出的每个时刻的向量经过CNN之后输出，即CNN的输出也为每个时刻一个向量。之后可以将CNN的输出输入第二RNN。第二RNN的结构与第一RNN的结构类似，区别在于：1、第一RNN的输入为第一音频数据，而第二RNN的输入为CNN的输出；2、第一RNN的输出为每个时刻一个向量，而第二RNN只输出最后一个时刻的向量。由于最后一个时刻的向量包括了前面所有时刻的信息，因此，第二RNN只需要输出最后一个时刻的向量。

第一RNN可以为门控循环单元(grated recurrent unit，GRU)模型，也可以为长短期记忆(long short term memory，LSTM)模型。第二RNN可以为GRU模型，也可以为LSTM模型。

应理解，图3是对第一神经网络的结构的示意性说明，并不对第一神经网络的结构构成限定。例如，CNN可以包括三个全连接层。再例如，CNN可以包括两个卷积层。

应理解，第一神经网络为训练好的神经网络。

204、将第一风格特征向量输入第二神经网络，得到第二音量。

得到第一风格特征向量之后，可以将第一风格特征向量输入第二神经网络得到第二音量。即第二神经网络根据第一风格特征向量对第一音频数据的音量进行预测得到第二音量。可见，第二神经网络具有预设音频数据的音量的作用。

请参阅图4，图4是本发明实施例公开的一种第二神经网络的结构示意图。如图4所示，第二神经网络可以包括两个全连接层。风格特征向量输入第一个全连接层，以便对风格特征向量进行降维，之后可以将输出结果输入第二个全连接层，再次进行降维，降到维度为1，使得输出为一个值，这个值为打分，即预测音量。

应理解，第二神经网络为训练好的模型。

在对第二神经网络进行训练时，第一神经网络已经为训练好的模型。可见，先需要对第一神经网络进行训练，等第一神经网络训练好之后，在对第二神经网络进行训练。训练第二神经网络之前，需要记录用于训练的音频数据和最终音量。记录的音频数据作为第一神经网络的输入，最终音量作为监督数据。当第二神经网络根据第一神经网络的输出预测出一个音量之后，可以根据这个音量与对应的最终音量计算损失，根据损失优化第二神经网络的参数。

应理解，第二神经网络预测的音量为平均音量。

205、根据第一音量和第二音量确定第一音量调节倍率。

得到第一音量和第二音量之后，可以根据第一音量和第二音量确定第一音量调节倍率。

确定出第一音量调节倍率之后，可以向音频播放器发送第一音量调节倍率。音频播放器接收到第一音量调节倍率之后，当第一音量调节倍率为第一音量与第二音量之间的比值时，第一音频数据包括的多帧音频信号中每帧音频信号的播放音量为每帧音频信号的实际音量与第一音量调节倍率的比值。当第一音量调节倍率为第二音量与第一音量之间的比值时，第一音频数据包括的多帧音频信号中每帧音频信号的播放音量为每帧音频信号的实际音量与第一音量调节倍率的乘积。

在图2所描述的方法中，可以自动根据音频数据确定第一音量调节倍率，以便音乐播放器可以根据第一音量调节倍率以及音频数据中每帧音频信号的实际音量，确定音频数据中每帧音频信号的播放音量，不需要用户手动调节，可以提高用户体验。此外，音频数据不同，确定的第一音量调节倍率可能不同，可以避免所有风格的音频数据使用同一第一音量调节倍率的情况，从而可以进一步提高用户体验。

基于上述电子设备的结构，请参阅图5，图5是本发明实施例公开的另一种基于人工智能的倍率确定方法的流程示意图。其中，该基于人工智能的倍率确定方法是从音量调节倍率确定装置102的角度来描述的。如图5所示，该基于人工智能的倍率确定方法可以包括以下步骤。

501、获取包括多帧音频信号的第一音频数据。

其中，步骤501与步骤201相同，详细描述参考步骤201。

502、确定多帧音频信号的平均音量得到第一音量。

其中，步骤502与步骤202相同，详细描述参考步骤202。

503、使用第一神经网络提取多帧音频信号中每帧音频信号的风格特征得到第一风格特征向量。

其中，步骤503与步骤203相同，详细描述参考步骤203。

504、将用户信息输入第三神经网络得到用户特征向量。

可以将用户信息输入第三神经网络得到用户特征向量。用户信息可以包括用户的M个信息，即可以包括一个用户的M个信息。

第三神经网络可以包括第一层、第一层、第二层FC、第二层NL和第三层FC，可以通过第一层FC提取M个信息中每个信息的特征得到M个向量，可以通过第一层NL对M个向量进行非线性变换得到M个变换向量，可以通过第二层FC对M个变换向量中对应信息间相似度大于阈值的变换向量进行线性变换得到N个向量，可以通过第二层NL对N个向量进行非线性变换得到N个变换向量，可以通过第三层FC对N个变换向量进行线性变换得到用户特征向量。N为大于1的整数，M为大于N的整数。

第一层FC可以包括M个FC，第一层NL可以包括M个NL，第二层FC可以包括N个FC，第二层NL可以包括N个NL，第三层FC可以包括一个FC。M个FC的输入与M个信息一一对应，可以理解为第一层FC包括的M个FC中每个FC的输入为用户的一个信息，且这些信息不同。M个FC的输出与M个NL的输入一一对应，可以理解为第一层FC包括的M个FC的输出分别为第一层NL包括的M个NL的输入。N个FC中每个FC的输入对应M个NL中多个NL的输出，可以理解为第一层NL包括的M个NL中的多个NL的输出可以为第二层FC包括的N个FC中一个FC的输入，但N个FC中不同FC的输入来自不同NL。N个FC的输出与N个NL的输入一一对应，可以理解为第二层FC包括的N个FC的输出分别为第二层NL包括的N个NL的输入，也可以理解为第二层NL包括的每个NL的输入来自第二层FC包括的N个FC中的不同FC。第三层FC的输入为N个NL的输出。N个FC中每个FC对应的M个NL中多个NL对应的用户的信息之间的相似度大于阈值。

FC用于进行特征提取和抽象，用的FC的层次越多，提取的特征越好。NL夹在两层FC之间，使两层FC不会退化成一层FC。由于FC进行线性变换，如果不在两层FC之间加NL，两个线性变换相当于一个线性变换，等价于一层FC。

在第一层FC中用户的每个信息被一个专门的FC进行处理，在第二层FC中用户的相似信息对应的向量被同一个FC进行处理，在第三层FC中用户的所有信息对应的向量被同一个FC进行处理，然后输出一个用户特征向量。

请参阅图6，图6是本发明实施例公开的一种第三神经网络的结构示意图。图6是以M为7、N为3的第三神经网络的结构示意图。应理解，图6是对第三神经网络的结构的示例性说明，并不对第三神经网络的结构构成限定。例如，M和N的值可以为其它值。再例如，输入的用户的信息可以为用户的其它信息。

其中，步骤502、步骤503与步骤504可以并行执行，也可以串行执行。

505、将第一风格特征向量和用户特征向量输入第二神经网络得到第二音量。

得到第一风格特征向量和用户特征向量之后，可以将第一风格特征向量和用户特征向量输入第二神经网络得到第二音量。可以将第一风格特征向量和用户特征向量拼成一个长向量之后再输入第二神经网络。拼接时可以是第一风格特征向量在前，也可以是用户特征向量在前。

506、根据第一音量和第二音量确定第一音量调节倍率。

其中，步骤506与步骤205相同，详细描述参考步骤205。

在图5所描述的方法中，可以自动根据音频数据和用户信息确定第一音量调节倍率，以便音乐播放器可以根据第一音量调节倍率以及音频数据中每帧音频信号的实际音量，确定音频数据中每帧音频信号的播放音量，不需要用户手动调节，可以提高用户体验。此外，音频数据不同，确定的第一音量调节倍率可能不同，可以避免所有音频数据使用同一第一音量调节倍率的情况，从而可以进一步提高用户体验。进一步地，针对同一音频数据，不同用户对应的用户信息可能不同，以致确定的第一音量调节倍率可能不同，可以避免所有用户使用同一第一音量调节倍率的问题，可以提高第一音量调节倍率确定的个性化，从而可以进一步提高用户体验。

基于上述电子设备的结构，请参阅图7，图7是本发明实施例公开的又一种基于人工智能的倍率确定方法的流程示意图。其中，该基于人工智能的倍率确定方法是从音量调节倍率确定装置102的角度来描述的。如图7所示，该基于人工智能的倍率确定方法可以包括以下步骤。

701、获取包括多帧音频信号的第一音频数据。

其中，步骤701与步骤201相同，详细描述参考步骤201。

702、确定多帧音频信号的平均音量得到第一音量。

其中，步骤702与步骤202相同，详细描述参考步骤202。

703、使用第一神经网络提取多帧音频信号中每帧音频信号的风格特征得到第一风格特征向量。

其中，步骤703与步骤203相同，详细描述参考步骤203。

704、根据第一风格特征向量和历史音频数据信息确定第二音量调节倍率。

预先可以存储有历史音频数据信息。历史音频数据信息可以包括多个音频数据的风格特征向量和第三音量调节倍率。同一个用户对这多个音频数据的音量均进行了调整。此处的风格特征向量可以通过第一神经网络得到。应理解，每个音频数据对应一个风格特征向量和一个第三音量调节倍率。

得到第一风格特征向量之后，可以根据第一风格特征向量和历史音频数据信息确定第二音量调节倍率。

可以先根据第一风格特征向量以及多个音频数据的风格特征向量，计算第一音频数据与多个音频数据中每个音频数据的相似度得到多个相似度。可以通过余弦相似度计算第一音频数据与多个音频数据中每个音频数据的相似度得到多个相似度，公式可以表示如下：

其中，I_i表示第一音频数据与多个音频数据中第i个音频数据的相似度，a表示第一风格特征向量，b_i表示多个音频数据中第i个音频数据的风格特征向量，|a|表示第一风格特征向量的模，|b_i|表示多个音频数据中第i个音频数据的风格特征向量的模。i＝1,2,…,K。K为多个音频数据包括的音频数据的数量。

之后可以根据这多个相似度以及这多个相似度对应的第三音量调节倍率计算第二音量调节倍率。可以将这多个音频数据中每个音频数据对应的相似度确定为每个音频数据的权重，对这多个音频数据对应的第三音量调节倍率进行加权平均，可以得到第二音量调节倍率。公式可以表示如下：

其中，J表示第二音量，P_i表示多个音频数据中第i个音频数据的第三音量调节倍率。

705、将第一风格特征向量和第二音量调节倍率输入第二神经网络得到第二音量。

得到第一风格特征向量和第二音量调节倍率之后，可以将第一风格特征向量和第二音量调节倍率输入第二神经网络得到第二音量。可以将第一风格特征向量和第二音量调节倍率拼成一个长向量之后再输入第二神经网络。拼接时可以是第一风格特征向量在前，也可以是第二音量调节倍率在前。

706、根据第一音量和第二音量确定第一音量调节倍率。

其中，步骤706与步骤205相同，详细描述参考步骤205。

在图7所描述的方法中，可以自动根据音频数据和历史音频数据信息确定第一音量调节倍率，以便音乐播放器可以根据第一音量调节倍率以及音频数据中每帧音频信号的实际音量，确定音频数据中每帧音频信号的播放音量，不需要用户手动调节，可以提高用户体验。此外，音频数据不同，确定的第一音量调节倍率可能不同，可以避免所有音频数据使用同一第一音量调节倍率的情况，从而可以进一步提高用户体验。进一步地，针对同一音频数据，不同用户对应的历史音频数据信息可能不同，以致确定的不同的用户的第一音量调节倍率可能不同，可以避免所有用户使用同一第一音量调节倍率的问题，可以提高第一音量调节倍率确定的个性化，从而可以进一步提高用户体验。

请参阅图8，图8是本发明实施例公开的一种基于人工智能的音量调节方法的流程示意图。其中，该基于人工智能的音量调节方法可以应用于音频播放器。如图8所示，该基于人工智能的音量调节方法可以包括以下步骤。

801、获取包括多帧音频信号的待播放的第一音频数据。

当音频播放器播放音频数据时，可以获取包括多帧音频信号的第一音频数据。第一音频数据为音频播放器中待播放的音频数据。第一音频数据可以为歌曲、小说、相声、评书、娱乐等各种音频数据。

802、确定多帧音频信号的平均音量得到第一音量。

其中，步骤802与步骤202相同，详细描述参考步骤202。

803、使用第一神经网络提取多帧音频信号中每帧音频信号的风格特征，得到第一风格特征向量。

其中，步骤803与步骤203相同，详细描述参考步骤203。

804、将第一风格特征向量输入第二神经网络得到第二音量。

其中，步骤804与步骤204相同，详细描述参考步骤204。

805、根据第一音量和第二音量确定第一音量调节倍率。

其中，步骤805与步骤205相同，详细描述参考步骤205。

806、根据第一音量调节倍率以及多帧音频信号中每帧音频信号的实际音量确定每帧音频信号的播放音量。

确定出第一音量调节倍率之后，当第一音量调节倍率为第一音量与第二音量之间的比值时，第一音频数据包括的多帧音频信号中每帧音频信号的播放音量为每帧音频信号的实际音量与第一音量调节倍率的比值。当第一音量调节倍率为第二音量与第一音量之间的比值时，第一音频数据包括的多帧音频信号中每帧音频信号的播放音量为每帧音频信号的实际音量与第一音量调节倍率的乘积。

在图8所描述的方法中，可以自动根据音频数据确定第一音量调节倍率，进而可以根据确定的第一音量调节倍率以及音频数据中每帧音频信号的实际音量，确定音频数据中每帧音频信号的播放音量，不需要用户手动调节，可以提高用户体验。此外，音频数据不同，确定的第一音量调节倍率可能不同，可以避免所有音频数据使用同一音量进行播放的情况，从而可以进一步提高用户体验。

请参阅图9，图9是本发明实施例公开的另一种基于人工智能的音量调节方法的流程示意图。其中，该基于人工智能的音量调节方法可以应用于音频播放器。如图9所示，该基于人工智能的音量调节方法可以包括以下步骤。

901、获取包括多帧音频信号的待播放的第一音频数据。

其中，步骤901与步骤801相同，详细描述参考步骤801。

902、确定多帧音频信号的平均音量得到第一音量。

其中，步骤902与步骤202相同，详细描述参考步骤202。

903、使用第一神经网络提取多帧音频信号中每帧音频信号的风格特征，得到第一风格特征向量。

其中，步骤903与步骤203相同，详细描述参考步骤203。

904、将用户信息输入第三神经网络得到用户特征向量。

其中，步骤904与步骤504相同，详细描述参考步骤504。

905、将第一风格特征向量和用户特征向量输入第二神经网络得到第二音量。

其中，步骤905与步骤505相同，详细描述参考步骤505。

906、根据第一音量和第二音量确定第一音量调节倍率。

其中，步骤906与步骤205相同，详细描述参考步骤205。

907、根据第一音量调节倍率以及多帧音频信号中每帧音频信号的实际音量确定每帧音频信号的播放音量。

其中，步骤907与步骤806相同，详细描述参考步骤806。

在图9所描述的方法中，可以自动根据音频数据和用户信息确定第一音量调节倍率，进而可以根据第一音量调节倍率以及音频数据中每帧音频信号的实际音量，确定音频数据中每帧音频信号的播放音量，不需要用户手动调节，可以提高用户体验。此外，音频数据不同，确定的第一音量调节倍率可能不同，可以避免所有音频数据使用同一音量进行播放的情况，从而可以进一步提高用户体验。进一步地，针对同一音频数据，不同用户对应的用户信息可能不同，确定的第一音量调节倍率可能不同，可以避免所有用户使用同一播放音量播放同一音频数据的问题，可以提高音量调节的个性化，从而可以进一步提高用户体验。

请参阅图10，图10是本发明实施例公开的又一种基于人工智能的音量调节方法的流程示意图。其中，该基于人工智能的音量调节方法可以应用于音频播放器。如图10所示，该基于人工智能的音量调节方法可以包括以下步骤。

1001、获取包括多帧音频信号的待播放的第一音频数据。

其中，步骤1001与步骤801相同，详细描述参考步骤801。

1002、确定多帧音频信号的平均音量得到第一音量。

其中，步骤1002与步骤202相同，详细描述参考步骤202。

1003、使用第一神经网络提取多帧音频信号中每帧音频信号的风格特征，得到第一风格特征向量。

其中，步骤1003与步骤203相同，详细描述参考步骤203。

1004、根据第一风格特征向量和历史音频数据信息确定第二音量调节倍率。

其中，步骤1004与步骤704相同，详细描述参考步骤704。

1005、将第一风格特征向量和第二音量调节倍率输入第二神经网络得到第二音量。

其中，步骤1005与步骤705相同，详细描述参考步骤705。

1006、根据第一音量和第二音量确定第一音量调节倍率。

其中，步骤1006与步骤205相同，详细描述参考步骤205。

1007、根据第一音量调节倍率以及多帧音频信号中每帧音频信号的实际音量确定每帧音频信号的播放音量。

其中，步骤1006与步骤806相同，详细描述参考步骤806。

在图10所描述的方法中，可以自动根据音频数据和历史音频数据信息确定第一音量调节倍率，进而可以根据第一音量调节倍率以及音频数据中每帧音频信号的实际音量，确定音频数据中每帧音频信号的播放音量，不需要用户手动调节，可以提高用户体验。此外，音频数据不同，确定的第一音量调节倍率可能不同，可以避免所有音频数据使用同一音量进行播放的情况，从而可以进一步提高用户体验。进一步地，针对同一音频数据，不同用户对应的历史音频数据信息可能不同，确定的第一音量调节倍率可能不同，可以避免所有用户使用同一播放音量播放同一音频数据的问题，可以提高音量调节的个性化，从而可以进一步提高用户体验。

请参阅图11，图11是本发明实施例公开的一种装置的结构示意图。如图11所示，该装置可以包括获取单元1101、确定单元1102、提取单元1103和输入单元1104。

在一种情况下，该装置可以为基于人工智能的倍率确定装置，其中：

获取单元1101，用于获取第一音频数据，第一音频数据包括多帧音频信号；

确定单元1102，用于确定多帧音频信号的平均音量，得到第一音量；

提取单元1103，用于使用第一神经网络提取多帧音频信号中每帧音频信号的风格特征，得到第一风格特征向量；

输入单元1104，用于将第一风格特征向量输入第二神经网络，得到第二音量；

确定单元1102，还用于根据第一音量和第二音量确定第一音量调节倍率。

在一个实施例中，输入单元1104，还用于将用户信息输入第三神经网络，得到用户特征向量；

输入单元1104将第一风格特征向量输入第二神经网络，得到第二音量包括：

将第一风格特征向量和用户特征向量输入第二神经网络，得到第二音量。

在一个实施例中，第三神经网络包括第一层FC、第一层NL、第二层FC、第二层NL和第三层FC，用户信息包括用户的M个信息，输入单元1104将用户信息输入第三神经网络，得到用户特征向量包括：

通过第一层FC提取M个信息中每个信息的特征，得到M个向量；

通过第一层NL对M个向量进行非线性变换，得到M个变换向量；

通过第二层FC对M个变换向量中对应信息间相似度大于阈值的变换向量进行线性变换，得到N个向量；

通过第二层NL对N个向量进行非线性变换得到，N个变换向量；

通过第三层FC对N个变换向量进行线性变换，得到用户特征向量，N为大于1的整数，M为大于N的整数。

在一个实施例中，确定单元1102，还用于根据第一风格特征向量和历史音频数据信息，确定第二音量调节倍率；

输入单元1104，具体用于将第一风格特征向量和第二音量调节倍率输入第二神经网络，得到第二音量。

在一个实施例中，历史音频数据信息包括多个音频数据的风格特征向量和第三音量调节倍率；

确定单元1102根据第一风格特征向量和历史音频数据信息，确定第二音量调节倍率包括：

根据第一风格特征向量以及多个音频数据的风格特征向量，计算第一音频数据与多个音频数据中每个音频数据的相似度，得到多个相似度；

根据多个相似度以及多个相似度对应的第三音量调节倍率，计算第二音量调节倍率。

在一个实施例中，第一神经网络包括第一RNN、CNN和第二RNN，第一RNN的输入为多帧音频信号，CNN的输入为第一RNN的输出，第二RNN的输入为CNN的输出，第二RNN的输出为第一风格特征向量。

有关上述获取单元1101、确定单元1102、提取单元1103和输入单元1104详细的描述可以直接参考上述图2、图5和图7所示的方法实施例得到，这里不加赘述。

在另一种情况下，该装置可以为基于人工智能的音量调节装置，其中：

获取单元1101，用于获取待播放的第一音频数据，第一音频数据包括多帧音频信号；

确定单元1102，还用于根据第一音量和第二音量确定第一音量调节倍率；

确定单元1102，还用于根据第一音量调节倍率以及多帧音频信号中每帧音频信号的实际音量，确定每帧音频信号的播放音量。

通过第一层FC提取M个信息中每个信息的特征，得到M个向量；

通过第一层NL对M个向量进行非线性变换，得到M个变换向量；

通过第二层NL对N个向量进行非线性变换得到，N个变换向量；

有关上述获取单元1101、确定单元1102、提取单元1103和输入单元1104详细的描述可以直接参考上述图8、图9和图10所示的方法实施例得到，这里不加赘述。

请参阅图12，图12是本发明实施例公开的另一种电子设备的结构示意图。如图12所示，该电子设备可以包括处理器1201、存储器1202和连接线1203。此外，该电子设备还可以包括输入接口1204和输出接口1205。存储器1202可以是独立存在，连接线1203与处理器1201相连接。存储器1202也可以和处理器1201集成在一起。连接线1203可包括一通路，在上述组件之间传送信息。其中，存储器1202中存储有计算机程序指令，处理器1201用于执行存储器1202中存储的计算机程序指令。其中：

该电子设备可以设置有基于人工智能的倍率确定装置，也可以设置有基于人工智能的音量调节装置。存储器1202中存储的程序指令被执行时，该处理器1201用于调用存储器1202存储的程序指令执行上述实施例中获取单元1101、确定单元1102、提取单元1103和输入单元1104执行的操作。输入接口1204用于接收来自其它电子设备的信息。输出接口1205用于向其它电子设备发送信息。

本发明实施例还公开一种计算机可读存储介质，其上存储有指令，该指令被执行时执行上述方法实施例中的方法。

本发明实施例还公开一种包含指令的计算机程序产品，该指令被执行时执行上述方法实施例中的方法。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

1.一种基于人工智能的倍率确定方法，其特征在于，包括：

获取第一音频数据，所述第一音频数据包括多帧音频信号；

确定所述多帧音频信号的平均音量，得到第一音量；

根据所述第一音量和所述第二音量确定第一音量调节倍率。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将用户信息输入第三神经网络，得到用户特征向量；

3.根据权利要求2所述的方法，其特征在于，所述第三神经网络包括第一层全连接层FC、第一层非线性层NL、第二层FC、第二层NL和第三层FC，所述用户信息包括用户的M个信息，所述将用户信息输入第三神经网络，得到用户特征向量包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述历史音频数据信息包括多个音频数据的风格特征向量和第三音量调节倍率；

6.一种基于人工智能的音量调节方法，其特征在于，包括：

确定所述多帧音频信号的平均音量，得到第一音量；

根据所述第一音量和所述第二音量确定第一音量调节倍率；

7.一种基于人工智能的倍率确定装置，其特征在于，包括：

8.一种基于人工智能的音量调节装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器用于存储一组计算机程序代码，所述处理器用于调用所述存储器中存储的计算机程序代码实现如权利要求1-6任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序或计算机指令，当所述计算机程序或计算机指令被运行时，实现如权利要求1-6任一项所述的方法。