CN110910862B

CN110910862B - 音频调整方法、装置、服务器及计算机可读存储介质

Info

Publication number: CN110910862B
Application number: CN201911239934.XA
Authority: CN
Inventors: 肖纯智; 劳振锋
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2019-12-06
Filing date: 2019-12-06
Publication date: 2024-03-08
Anticipated expiration: 2039-12-06
Also published as: CN110910862A

Abstract

本申请公开了一种音频调整方法、装置、服务器及计算机可读存储介质，属于多媒体领域。该方法包括：通过对音频调整请求中携带的第一音频片段进行识别，得到与该第一音频片段对应的第二音频片段，该第二音频片段是第一音频片段的模板片段。再提取该第一音频片段和第二音频片段中对应音频字段的特征，从而得到两组音频字段特征。计算两组音频字段特征中每一个音频字段特征之间的距离。根据该距离，确定第一音频片段中需要进行特征调整的音频字段，按照该距离和第二音频片段中的特征对该需要特征调整的音频字段进行调整，使得调整后的第一音频片段的效果更好，更加符合用户的要求，一定程度上提升了用户的演唱水平。

Description

音频调整方法、装置、服务器及计算机可读存储介质

技术领域

本申请实施例涉及多媒体领域，特别涉及一种音频调整方法、装置、服务器及计算机可读存储介质。

背景技术

随着多媒体技术的飞速发展，越来越多的移动客户端支持歌曲的演唱和发布，当用户不满足于自己的演唱水平时，可以利用修音功能对其所演唱的歌曲进行调整，即实现音频调整，以使得调整后的歌曲效果更好。

相关技术中，用户在移动客户端上任意选择一首歌曲进行演唱并录制，将录制的音频上传至服务器，服务器接收该音频，基于动态时间规整(Dynamic Time Warping，DTW)方法将用户演唱音频和模板音频进行时间上的对齐，也即是将每个歌词在演唱音频和模板音频中的起始时间进行对齐，从而可以按照模板音频中每一个歌词的起始时间，对演唱音频中的对应歌词进行变速。还可以提取演唱音频和模板音频中每一个歌词的音高，将演唱音频中音高与模板音频中音高不同的歌词进行音高的调整。从而得到调整节奏和音高之后的演唱音频，调整之后的演唱音频的效果更好。

上述音频调整的过程针对用户演唱的一整首歌曲与模板音频中的一整首歌曲进行对齐并调整。由于歌词经常会有重复片段，当用户只针对一首歌曲中的某个片段进行演唱并录音，可能会将用户的演唱音频分散对齐到模板音频中的不同片段，而同一个音频在不同片段中的节奏和音高是不同的，导致调整后的音频的效果不佳。

发明内容

本申请实施例提供了一种音频调整方法、装置、服务器及计算机可读存储介质，可用于解决相关技术中的问题。该技术方案如下：

一方面，本申请实施例提供了一种音频调整方法，该方法包括：

接收终端发送的音频调整请求，该音频调整请求中携带待调整的第一音频片段，该第一音频片段为用户演唱的一首歌曲的片段；

响应于该音频调整请求，获取与该第一音频片段对应的第二音频片段，该第二音频片段为模板片段；

计算该第一音频片段和该第二音频片段对应音频字段的特征之间的距离；

基于该距离，调整该第一音频片段中的音频字段的特征，得到调整后的第一音频片段，该音频字段的特征包括音高和/或节奏。

在一种可能的实现方式中，该响应于该音频调整请求，获取与该第一音频片段对应的第二音频片段，包括：

提取该第一音频片段对应的歌曲的全部模板片段；

在该歌曲的全部模板片段中，确定与该第一音频片段对应的第二音频片段。

在一种可能的实现方式中，该在该歌曲的全部模板片段中，确定与该第一音频片段对应的第二音频片段，包括：

计算该第一音频片段和该歌曲的全部模板片段中任意两个字之间的距离，形成距离矩阵，该距离矩阵中每一个矩阵元素表示对应的两个字之间的距离；

计算该距离矩阵中任意两个矩阵元素之间的最小路径距离，形成最小路径距离矩阵，该最小路径距离矩阵的第一列矩阵元素与该距离矩阵的第一列矩阵元素相同；

在该最小路径距离矩阵的最后一列，确定最小路径的结束点，该结束点为该最小路径距离矩阵的最后一列中数值最小的矩阵元素；

基于该最小路径的结束点，回溯该最小路径，得到该最小路径的起始点；

根据该最小路径的起始点和结束点，确定该第一音频片段对应的第二音频片段。

在一种可能的实现方式中，该计算该第一音频片段和该第二音频片段对应音频字段的特征之间的距离，包括：

提取该第一音频片段中音频字段的第一特征；

提取该第二音频片段中与该第一音频片段中音频字段对应的第二特征；

计算该第一特征和第二特征之间的距离。

在一种可能的实现方式中，该基于该距离，调整该第一音频片段中的音频字段的特征，得到调整后的第一音频片段，包括下述任一项：

若该距离为第一数值，则该第一音频片段中的特征不需要调整；

若该距离为第二数值，则按照该第二音频片段中的音频字段的特征对该第一音频片段中的音频字段的特征进行调整。

一方面，提供一种音频调整装置，该装置包括：

接收模块，用于接收终端发送的音频调整请求，该音频调整请求中携带待调整的第一音频片段，该第一音频片段为用户演唱的一首歌曲的片段；

获取模块，用于响应于该音频调整请求，获取与该第一音频片段对应的第二音频片段，该第二音频片段为模板片段；

计算模块，用于计算该第一音频片段和该第二音频片段对应音频字段的特征之间的距离；

调整模块，用于基于该距离，调整该第一音频片段中的音频字段的特征，得到调整后的第一音频片段，该音频字段的特征包括音高和/或节奏。

在一种可能的实现方式中，该获取模块包括下述子模块：

提取子模块，用于提取该第一音频片段对应的歌曲的全部模板片段；

确定子模块，用于在该歌曲的全部模板片段中，确定与该第一音频片段对应的第二音频片段。

在一种可能的实现方式中，该确定子模块用于执行下述步骤：

在一种可能的实现方式中，该计算模块用于执行下述步骤：

提取该第一音频片段中音频字段的第一特征；

计算该第一特征和第二特征之间的距离。

在一种可能的实现方式中，该调整模块用于执行下述步骤：

另一方面，提供了一种服务器，该服务器包括处理器和存储器，该存储器中存储有至少一条程序代码，该至少一条程序代码由该处理器加载并执行，以实现上述任一该的音频调整方法。

另一方面，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现上述任一该的音频调整方法。

本申请通过对音频调整请求中携带的第一音频片段进行识别，得到与该第一音频片段对应的第二音频片段，该第二音频片段是第一音频片段的模板片段。再提取该第一音频片段和第二音频片段中对应音频字段的特征，从而得到两组音频字段特征。计算两组音频字段特征中每一个音频字段特征之间的距离。根据该距离，确定第一音频片段中需要进行特征调整的音频字段，按照该距离和第二音频片段中的特征对该需要特征调整的音频字段进行调整，使得调整后的第一音频片段的效果更好，更加符合用户的要求，一定程度上提升了用户的演唱水平。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种音频调整的实时环境示意图；

图2是本申请实施例提供的一种音频调整方法的流程图；

图3是本申请实施例提供的一种音频调整方法的实现流程图；

图4是本申请实施例提供的一种距离矩阵的示意图；

图5是本申请实施例提供的一种最小路径距离矩阵的示意图；

图6是本申请实施例提供的一种最小路径的示意图；

图7是本申请实施例提供的一种音频调整装置的结构图；

图8是本申请实施例提供的一种服务器的结构示意图；

图9是本申请实施例提供的一种终端的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1所示为本申请实施例提供的一种实施环境示意图，参见图1，该实施环境包括：终端101和服务器102。

终端101通过无线网络或有线网络与服务器102相连。上述终端101可以是智能手机、游戏主机、台式计算机、平板电脑、MP3(Moving Picture Experts Group Audio LayerIII，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机等中的至少一种。该终端101中可以安装和运行有支持歌曲录制和发布的应用程序客户端，该客户端应用程序可以是社交应用客户端、娱乐应用客户端和即时通讯客户端中的任一种。

服务器102可以是一台服务器，也可以是多台服务器组成的服务器集群，还可以是云计算平台和虚拟化中心中的至少一种。服务器102中存储有歌曲曲库，该歌曲曲库包括歌曲的歌词、歌词中每一个字的特征，也即是每一个音频字段的特征，音频字段的特征可以包括音高和/或节奏。当然，该服务器102还可以包括其他功能服务器，以便提供更加全面且多样化的服务。

终端101可以泛指多个终端中的一个终端，本申请实施例仅以终端101来举例说明。本领域技术人员可以知晓，上述终端101的数量可以更多或更少。比如上述终端可以仅为几个，或者上述终端为几十个或几百个，或者数量更多，本申请实施例对终端的数量和设备类型不加以限定。

图2所示为本申请实施例提供的一种音频调整的流程图，如图2所示，包括下述步骤：

在步骤201中，接收终端发送的音频调整请求，该音频调整请求中携带待调整的第一音频片段，该第一音频片段为用户演唱的一首歌曲的片段。

在本步骤中，服务器接收到终端发送的音频调整请求后，解析该音频调整请求，得到该音频调整请求中携带的第一音频片段，该第一音频片段为待调整的音频片段。

在步骤202中，响应于该音频调整请求，获取与该第一音频片段对应的第二音频片段，该第二音频片段为模板片段。

服务器获取与该第一音频片段对应的第二音频片段的方法可以有下述步骤：

步骤2021、服务器对该第一音频片段进行识别，得到该第一音频片段对应的歌词。

在该步骤中，服务器可以将第一音频片段输入语音识别系统，根据语音识别系统的输出结果，得到该第一音频片段对应的文字。

在一种可能的实现方式中，终端用户想要进行修音调整的第一音频片段为整首歌曲的部分片断，则需要将该第一音频片段输入语音识别系统，以得到该第一音频片段对应的歌词。其中，语音识别系统的基础是语音识别技术，语音识别技术是让机器通过识别和理解的过程，将语音信号转变为相应的文字或命令的技术。

服务器中存储有一个文字库，该文字库包括所有常见字。服务器收集用户对文字的读音，利用该读音和文字库，训练语音识别系统，由于经过训练，使得该语音识别系统的识别准确率有了一定的提高。服务器可以将第一音频片段拆分为目标个数个帧，通常情况下每一帧的时长为10ms-30ms，当然，每一帧的时长还可以更长或更短，本申请实施例对每一帧的时长不做限定。将每一帧音频输入语音识别系统，根据语音识别系统的输出结果，得到该段音频片段对应的文字，以及每个文字所对应的时间范围，即每个文字从第几帧开始，到第几帧结束。若一个文字占用目标个数个帧时，通过该文字的起始帧和结束帧的计算，输出的文字为该时间范围中任一帧对应的文字，而不是该时间范围中每一帧对应的文字。由于在进行歌曲演唱的时候，可能会出现两段歌词之间会有间隔等情况，因此会出现识别到的文字中会有不属于该首歌曲的歌词的情况。例如，语音识别之后得到的第一音频片段对应的歌词为“AB口CD”，其中“口”为两个歌词之间的空白时间间隔，也即是两个歌词之间的停顿。

在一种可能的实现方式中，用户想要进行修音调整的第一音频片段为整首歌曲时，由于服务器中存储有该首歌曲的全部歌词，因此不需要对该第一音频片段的歌词进行识别。

步骤2022、服务器提取该音频调整请求对应的歌曲的全部歌词。

服务器解析该音频调整请求，获取该音频调整请求对应的歌曲名称。由于服务器中存储有多首歌曲的名称和其对应的歌词，从而服务器可以在存储空间中提取该歌曲名称对应的全部歌词。例如，音频调整请求中携带的歌曲名称为《**》，搜索得到的“EFABCDE口C”。

步骤2023、服务器在该全部歌词中确定与第一音频片段的歌词相对应的第二音频片段。

服务器计算该歌曲对应的全部歌词和该第一音频片段对应的歌词中任意两个字之间的距离，形成距离矩阵，该距离矩阵的每一个矩阵元素对应的数值表示对应的两个字之间的距离，也即是两个字之间的相似度。如果两个字一致，该距离可以用第一值例如0表示；如果两个字不一致，该距离可以用第二值例如1表示。当然，任意两个字之间的距离也可以用其他数值表示，本申请实施例只是以0和1举例，并不对任意两个字之间的距离的具体表示形式做限制。如图3所示为本申请实施例中距离矩阵的示意图，距离矩阵的横坐标为第一音频片段对应的歌词，距离矩阵的纵坐标为该首歌曲的全部歌词。该图中的每一个矩阵元素表示第一音频片段中的字和第二音频片段中的字之间的相似度，例如，由于第一音频片段中的A和第二音频片段中的E不是同一个字，所以A和E之间的距离为1，在该距离矩阵中表示为坐标为(1,1)的矩阵元素对应的数值为1。由于第一音频片段中的A和第二音频片段中的A是同一个字，所以A和A之间的距离为0，在该距离矩阵中表示为坐标为(1,3)的矩阵元素对应的数值为0。

服务器基于该距离矩阵，确定当前矩阵元素的值，该值即为距离矩阵中每一个矩阵元素中的数值。基于当前矩阵元素的值，计算从起始点到当前元素的整个路径的最小路径距离，形成最小路径距离矩阵。其中，当前矩阵元素的最小路径距离为邻近矩阵元素的最小路径距离与当前矩阵元素的值的和。

其中，当前矩阵元素的最小路径距离的计算方法可以有下述步骤：

步骤1、计算当前矩阵元素的左侧矩阵元素到当前矩阵元素的第一距离，第一距离的计算公式如下：

第一距离＝g_(N-1,M)+d(N,M)，g_(N-1,M)为左侧矩阵元素的最小路径距离，d(N,M)为当前矩阵元素的值，N为当前矩阵元素的横坐标，M为当前矩阵元素的纵坐标；

步骤2、计算当前矩阵元素的左下方矩阵元素到当前矩阵元素的第二距离，

第二距离的计算公式如下：

第二距离＝g_(N-1,M-1)+d(N,M)，g_(N-1,M-1)为左下方矩阵元素的最小路径距离；

步骤3、计算当前矩阵元素的下方矩阵元素到当前矩阵元素的第三距离，第三距离的计算公式如下：

第三距离＝g_(N,M-1)+d(N,M)，g_(N,M-1)为下方矩阵元素的最小路径距离；

步骤4、在该第一距离、第二距离和第三距离中选择数值最小的距离作为当前矩阵元素的最小路径距离，

基于最小路径距离，形成最小路径距离矩阵。在该最小路径距离矩阵的最后一列，选择数值最小的矩阵元素作为最小路径的结束点，根据该结束点回溯最小路径，从而可以得到该最小路径的起始点。根据该结束点和起始点，在该最小路径距离矩阵的纵坐标中确定与横坐标一致的片段，也即是，在全部歌词中，确定该第一音频片段的歌词对应的模板片段。

如图4所示为最小路径距离矩阵，该图4中4-1为最小距离的计算过程，4-2为计算之后得到的最小路径距离矩阵，图4-2中每一个矩阵元素即为最小路径距离，图中的箭头表示最小路径的方向。在该图4-2中的最小路径距离矩阵中，第一列的最小路径距离等于距离矩阵中相应的值，也即是，第一列中每一个点都从自身位置开始累加路径，使得第一列中的每一个点都有可能是起始点。在该图4-2的最后一列中选择数值最小的矩阵元素作为该最小路径的结束点，也即是横坐标为D，纵坐标为D，矩阵元素为1的点。根据该结束点回溯最小路径，得到如图5所示的最小路径，在该图5中，黑色加粗线条为最小路径。从而可以根据该最小路径确定最小路径的起始点，也即为横坐标为A、纵坐标为A的点为起始点。根据该最小路径，可以得出与横坐标中歌词“AB口CD”一致的歌词片段即为纵坐标中的“ABCD”，从而获取到该第一音频片段对应的第二音频片段。

在步骤203中，计算该第一音频片段和该第二音频片段对应音频字段的特征之间的距离。

其中，音频字段是指第一音频片段的歌词和第二音频片段的歌词中的文字，用户对每一个文字的演唱都带有音高和节奏等特征，因此，将带有特征的字用音频字段来表示。在本申请实施例中，服务器获取第一音频片段中第一音频字段的特征，作为第一特征，获取第二音频片段中与第一音频字段对应的音频字段的特征，作为第二特征。将第一音频字段的第一特征与第二特征进行比对，根据比对结果，得到第一音频字段的两个特征之间的距离，该距离即为第一音频片段中第一音频字段和第二音频片段中第一音频字段之间的距离，该距离为进行第一音频片段中音频字段的调整的依据。音频字段的特征包含但不限于音频的音高、节奏等特征。提取同一音频字段的第一特征和第二特征，计算这两个特征之间的距离，若距离为第一数值，则该音频字段的第一特征不需要进行调整；若距离为第二数值，则该音频字段的第一特征需要进行调整。示例性的，第一数值可以用0表示，第二数值可以用1表示。

例如，服务器提取第一音频片段中“A”的音高，作为第一特征，提取第二音频片段中“A”的音高，作为第二特征。计算该第一特征和第二特征之间的距离，如果距离为0，则说明这两个片段中“A”的音高一样，则第一音频片段中的“A”不需要进行调整。如果距离为1，则说明这两个片段中“A”的音高不一样，需要对第一音频片段中的“A”进行调整。

在步骤204中，基于该距离，调整该第一音频片段中的音频字段的特征，得到调整后的第一音频片段，该音频字段的特征包括音高和/或节奏。

在本申请实施例中，计算两个特征之间的距离，根据该距离调整该音频字段的第一特征，使得调整后的第一特征与第二特征一致。根据计算结果，服务器提取出第一音频片段中需要进行调整的音频字段，按照第二音频片段中对应音频字段的特征，对该需要进行调整的音频字段进行调整。将特征不一致的音频字段依次进行调整，得到调整后的第一音频片段，调整后的第一音频片段与第二音频片段之间的相似度达到一定阈值。例如，服务器检测到第一音频片段中某一个音频字段的音高与第二音频片段中该音频字段的音高不一致，则根据第二音频片段中该音频字段的音高对第一音频片段中的音频字段的音高进行调整。

在一种可能的实现方式中，第一音频片段中有些音频字段的特征与第二音频片段中对应音频字段的特征一致，则该音频字段的特征不需要进行调整。

上述方法通过对音频调整请求中携带的第一音频片段进行识别，得到与该第一音频片段对应的第二音频片段，该第二音频片段是第一音频片段的模板片段。再提取该第一音频片段和第二音频片段中对应音频字段的特征，从而得到两组音频字段特征。计算两组音频字段特征中每一个音频字段特征之间的距离。根据该距离，确定第一音频片段中需要进行特征调整的音频字段，按照该距离和第二音频片段中的特征对该需要特征调整的音频字段进行调整，使得调整后的第一音频片段的效果更好，更加符合用户的要求，一定程度上提升了用户的演唱水平。

图6所示为本申请实施例示出的一种音频调整的整体流程图，如图6所示，包括下述步骤：

在步骤601中，终端获取待调整的第一音频片段。

在本申请实施例中，终端中安装和运行有支持歌曲录制和发布的客户端应用程序。用户登录该客户端，在该客户端的首页中选择一首歌曲，或者在该客户端的搜索框中搜索一首歌曲。针对该首歌曲进行演唱，并使用终端的录音功能对用户演唱的声音数据进行采集，将采集到的声音数据作为用户演唱的该首歌曲的音频，将该音频作为待发布的音频。终端还可以在存储空间中获取一段已经录制好的音频作为第一音频片段。

在一种可能的实现方式中，用户完成整首歌曲的录制后，可以点击完成按钮，终端检测到用户点击完成按钮的操作后，在终端上显示发布界面。用户可以在发布界面中对待发布的音频进行收听，方便用户对自己的演唱情况进行检查。若用户对该待发布的音频不满意，可以点击发布界面中的修音按钮，当终端检测到用户点击修音按钮的操作后，在终端上显示修音片段截取界面，用户可以在该修音片段截取界面中截取用户不满意的片段，将该不满意的片段作为第一音频片段，该第一音频片段为待调整的音频片段。该第一音频片段可以是整首歌曲的部分片段，也可以是整首歌曲的全部片段，本申请实施例对此不做限定。

在步骤602中，终端根据获取到的第一音频片段，生成音频调整请求，该音频调整请求中携带该第一音频片段。

在本申请实施例中，当用户确定该待发布音频中的第一音频片段后，点击修音片段截取界面中的确认按钮，终端检测到用户对确认按钮的点击后，自动为该第一音频片段生成音频调整请求。

在步骤603中，终端向服务器发送该音频调整请求。

在本申请实施例中，终端可以在生成音频调整请求后，自动向服务器发送该音频调整请求，也可以在接收到用户的发送指令后，向服务器发送该音频调整请求，本申请实施例对此不做限定。

在步骤604中，服务器响应于该音频调整请求，获取与该第一音频片段对应的第二音频片段。

在本申请实施例中，服务器接收到该音频调整请求后，对该音频调整请求进行解析，从而得到该音频调整请求中携带的第一音频片段。服务器获取与该第一音频片段对应的第二音频片段的方法与上述步骤202中的方法一致，在此不再赘述。

在步骤605中，服务器根据第一音频片段中每一个音频字段的特征和第二音频片段中对应音频字段的特征，计算两个音频字段的特征之间的距离。

在本申请实施例中，服务器计算两个音频字段的特征之间的距离的方法与上述步骤203一致，在此不再赘述。

在步骤606中，服务器基于两个音频字段的特征之间的距离，调整第一音频片段中音频字段的特征，得到调整后的第一音频片段。

在本申请实施例中，服务器对第一音频片段的调整的方法与上述步骤204中的方法一致，在此不再赘述。

在步骤607中，服务器向终端发送该调整后的第一音频片段。

在本申请实施例中，服务器可以将调整后的第一音频片段发送至终端，由终端用户对调整后的第一音频片段进行检查。

在步骤608中，终端接收服务器发送的调整后的第一音频片段，将该调整后的第一音频片段进行发布。

在本申请实施例中，终端接收到调整后的第一音频片段之后，可以对该调整后的第一音频片段进行收听，若该调整后的第一音频片段符合该用户的要求，可以将该调整后的第一音频片段发布至客户端上。

上述方案通过对音频调整请求中携带的第一音频片段进行识别，得到与该第一音频片段对应的第二音频片段，该第二音频片段是第一音频片段的模板片段。再提取该第一音频片段和第二音频片段中对应音频字段的特征，从而得到两组音频字段特征。计算两组音频字段特征中每一个音频字段之间的距离。根据该距离，确定第一音频片段中需要进行特征调整的音频字段，按照该距离和第二音频片段中的特征对该需要特征调整的音频字段进行调整，使得调整后的第一音频片段的效果更好，更加符合用户的要求，一定程度上提升了用户的演唱水平。

图7是本申请实施例提供的一种音频调整装置的结构图，参见图7，该装置包括：

接收模块701，用于接收终端发送的音频调整请求，该音频调整请求中携带待调整的第一音频片段，该第一音频片段为用户演唱的一首歌曲的片段；

获取模块702，用于响应于音频调整请求，获取与第一音频片段对应的第二音频片段，该第二音频片段为模板片段；

计算模块703，用于计算第一音频片段和第二音频片段对应音频字段的特征之间的距离；

调整模块704，用于基于距离，调整第一音频片段中的音频字段的特征，得到调整后的第一音频片段，该音频字段的特征包括音高和/或节奏。

在一种可能的实现方式中，该获取模块702包括：

在一种可能的实现方式中，该计算模块703用于执行下述步骤：

提取该第一音频片段中音频字段的第一特征；

计算该第一特征和第二特征之间的距离。

在一种可能的实现方式中，该调整模块704用于执行下述步骤：

若该距离为第二数值，则该第一音频片段中的特征需要调整。

上述装置通过对音频调整请求中携带的第一音频片段进行识别，得到与该第一音频片段对应的第二音频片段，该第二音频片段是第一音频片段的模板片段。再提取该第一音频片段和第二音频片段中对应音频字段的特征，从而得到两组音频字段特征。计算两组音频字段特征中每一个音频字段特征之间的距离。根据该距离，确定第一音频片段中需要进行特征调整的音频字段，按照该距离和第二音频片段中的特征对该需要特征调整的音频字段进行调整，使得调整后的第一音频片段的效果更好，更加符合用户的要求，一定程度上提升了用户的演唱水平。

需要说明的是：上述实施例提供的音频调整装置在进行音频调整时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频调整装置与音频调整方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8是本申请实施例提供的一种服务器的结构示意图。该服务器800可以包括一个或多个处理器(Central Processing Units，CPU)801和一个或多个存储器802，其中，该一个或多个存储器802中存储有至少一条指令，该至少一条指令由该一个或多个处理器801加载并执行以实现上述方法实施例提供的音频调整方法。当然，该服务器800还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器800还可以包括其他用于实现设备功能的部件，在此不做赘述。

图9是本申请实施例提供的一种终端的结构示意图。该终端900可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端900还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端900包括有：一个或多个处理器901和一个或多个存储器902。

处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器901可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器901还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器901所执行以实现本申请中方法实施例提供的音频调整方法。

在一些实施例中，终端900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、显示屏905、摄像头906、音频电路907、定位组件908和电源909中的至少一种。

外围设备接口903可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器901和存储器902。在一些实施例中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施例中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路904用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路904还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏905用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏905可以为一个，设置终端900的前面板；在另一些实施例中，显示屏905可以为至少两个，分别设置在终端900的不同表面或呈折叠设计；在再一些实施例中，显示屏905可以是柔性显示屏，设置在终端900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件906还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路907还可以包括耳机插孔。

定位组件908用于定位终端900的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件908可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源909用于为终端900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端900还包括有一个或多个传感器910。该一个或多个传感器910包括但不限于：加速度传感器911、陀螺仪传感器912、压力传感器913、指纹传感器914、光学传感器915以及接近传感器916。

加速度传感器911可以检测以终端900建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器911可以用于检测重力加速度在三个坐标轴上的分量。处理器901可以根据加速度传感器911采集的重力加速度信号，控制显示屏905以横向视图或纵向视图进行用户界面的显示。加速度传感器911还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器912可以检测终端900的机体方向及转动角度，陀螺仪传感器912可以与加速度传感器911协同采集用户对终端900的3D动作。处理器901根据陀螺仪传感器912采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器913可以设置在终端900的侧边框和/或显示屏905的下层。当压力传感器913设置在终端900的侧边框时，可以检测用户对终端900的握持信号，由处理器901根据压力传感器913采集的握持信号进行左右手识别或快捷操作。当压力传感器913设置在显示屏905的下层时，由处理器901根据用户对显示屏905的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器914用于采集用户的指纹，由处理器901根据指纹传感器914采集到的指纹识别用户的身份，或者，由指纹传感器914根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器901授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器914可以被设置终端900的正面、背面或侧面。当终端900上设置有物理按键或厂商Logo时，指纹传感器914可以与物理按键或厂商Logo集成在一起。

光学传感器915用于采集环境光强度。在一个实施例中，处理器901可以根据光学传感器915采集的环境光强度，控制显示屏905的显示亮度。具体地，当环境光强度较高时，调高显示屏905的显示亮度；当环境光强度较低时，调低显示屏905的显示亮度。在另一个实施例中，处理器901还可以根据光学传感器915采集的环境光强度，动态调整摄像头组件906的拍摄参数。

接近传感器916，也称距离传感器，通常设置在终端900的前面板。接近传感器916用于采集用户与终端900的正面之间的距离。在一个实施例中，当接近传感器916检测到用户与终端900的正面之间的距离逐渐变小时，由处理器901控制显示屏905从亮屏状态切换为息屏状态；当接近传感器916检测到用户与终端900的正面之间的距离逐渐变大时，由处理器901控制显示屏905从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图9中示出的结构并不构成对终端900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括程序代码的存储器，上述程序代码可由处理器执行以完成上述实施例中的音频调整方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(RandomAccess Memory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来程序代码相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频调整方法，其特征在于，所述方法包括：

接收终端发送的音频调整请求，所述音频调整请求中携带待调整的第一音频片段，所述第一音频片段为用户演唱的一首歌曲的片段；

将所述第一音频片段拆分为目标个数个帧，将每一帧音频片段输入语音识别系统，得到所述第一音频片段对应的歌词；

提取所述音频调整请求对应的歌曲的全部歌词；

计算所述第一音频片段对应的歌词和所述歌曲的全部歌词中任意两个字之间的距离，形成距离矩阵，所述距离矩阵中每一个矩阵元素表示对应的两个字之间的距离；

基于所述距离矩阵中矩阵元素的值，计算所述距离矩阵中任意两个矩阵元素之间的最小路径距离，形成最小路径距离矩阵，所述最小路径距离矩阵的第一列矩阵元素与所述距离矩阵的第一列矩阵元素相同；

在所述最小路径距离矩阵的最后一列，确定最小路径的结束点，所述结束点为所述最小路径距离矩阵的最后一列中数值最小的矩阵元素；

基于所述最小路径的结束点，回溯所述最小路径，得到所述最小路径的起始点；

根据所述最小路径的起始点和结束点，确定所述第一音频片段对应的第二音频片段，所述第二音频片段为模板片段；

计算所述第一音频片段和所述第二音频片段对应音频字段的特征之间的距离；

基于所述第一音频片段和所述第二音频片段对应音频字段的特征之间的距离，调整所述第一音频片段中的音频字段的特征，得到调整后的第一音频片段，所述音频字段的特征包括音高和/或节奏。

2.根据权利要求1所述的方法，其特征在于，所述计算所述第一音频片段和所述第二音频片段对应音频字段的特征之间的距离，包括：

提取所述第一音频片段中音频字段的第一特征；

提取所述第二音频片段中与所述第一音频片段中音频字段对应的第二特征；

计算所述第一特征和第二特征之间的距离。

3.根据权利要求1所述的方法，其特征在于，所述基于所述第一音频片段和所述第二音频片段对应音频字段的特征之间的距离，调整所述第一音频片段中的音频字段的特征，得到调整后的第一音频片段，包括下述任一项：

若所述距离为第一数值，则所述第一音频片段中的特征不需要调整；

若所述距离为第二数值，则按照所述第二音频片段中的音频字段的特征对所述第一音频片段中的音频字段的特征进行调整。

4.一种音频调整装置，其特征在于，所述装置包括：

接收模块，用于接收终端发送的音频调整请求，所述音频调整请求中携带待调整的第一音频片段，所述第一音频片段为用户演唱的一首歌曲的片段；

获取模块，包括提取子模块和确定子模块，

所述提取子模块，用于将所述第一音频片段拆分为目标个数个帧，将每一帧音频片段输入语音识别系统，得到所述第一音频片段对应的歌词；提取所述音频调整请求对应的歌曲的全部歌词；

所述确定子模块，用于计算所述第一音频片段对应的歌词和所述歌曲的全部片段中任意两个字之间的距离，形成距离矩阵，所述距离矩阵中每一个矩阵元素表示对应的两个字之间的距离；基于所述距离矩阵中矩阵元素的值，计算所述距离矩阵中任意两个矩阵元素之间的最小路径距离，形成最小路径距离矩阵，所述最小路径距离矩阵的第一列矩阵元素与所述距离矩阵的第一列矩阵元素相同；在所述最小路径距离矩阵的最后一列，确定最小路径的结束点，所述结束点为所述最小路径距离矩阵的最后一列中数值最小的矩阵元素；基于所述最小路径的结束点，回溯所述最小路径，得到所述最小路径的起始点；根据所述最小路径的起始点和结束点，确定所述第一音频片段对应的第二音频片段，所述第二音频片段为模板片段；

计算模块，用于计算所述第一音频片段和所述第二音频片段对应音频字段的特征之间的距离；

调整模块，用于基于所述第一音频片段和所述第二音频片段对应音频字段的特征之间的距离，调整所述第一音频片段中的音频字段的特征，得到调整后的第一音频片段，所述音频字段的特征包括音高和/或节奏。

5.根据权利要求4所述的装置，其特征在于，所述计算模块用于执行下述步骤：

提取所述第一音频片段中音频字段的第一特征；

计算所述第一特征和第二特征之间的距离。

6.根据权利要求4所述的装置，其特征在于，所述调整模块用于执行下述步骤：

7.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述程序代码由所述处理器加载并执行以实现如权利要求1至权利要求3任一项所述的音频调整方法所执行的操作。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至权利要求3任一项所述的音频调整方法所执行的操作。