CN105788589B

CN105788589B - 一种音频数据的处理方法及装置

Info

Publication number: CN105788589B
Application number: CN201610292614.0A
Authority: CN
Inventors: 赵伟峰
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-05-04
Filing date: 2016-05-04
Publication date: 2021-07-06
Anticipated expiration: 2036-05-04
Also published as: US20180349495A1; CN105788589A; WO2017190674A1; US10789290B2

Abstract

本发明公开了一种音频数据的处理方法及装置，其中该方法包括:获取歌曲信息，根据歌曲信息确定歌曲的说唱部分及相应的乐谱信息，歌曲信息包括歌曲对应的歌词文件及乐谱文件；接收用户输入的与说唱部分相应的音频数据；确定音频数据中每个文字的时间信息；基于时间信息及乐谱信息，按照预设规则对文字的字时长进行处理，得到处理后的音频数据。本发明通过歌曲说唱部分的乐谱信息，及用户输入的音频数据中文字的时间信息，对文字的字时长进行音频处理，来对用户演唱音频和原始说唱音频进行匹配，相对于演唱说唱音乐需要演唱者具有一定的乐理知识以及歌唱技巧的方式，提高说唱演绎质量，并改善用户演唱音频和原始说唱音乐音频的匹配效果。

Description

一种音频数据的处理方法及装置

技术领域

本发明属于通信技术领域，尤其涉及一种音频数据的处理方法及装置。

背景技术

目前，Rap(说唱、饶舌)是目前流行的一种音乐形式，它是以在机械的节奏声背景下，快速地诉说一连串押韵的词句为特征。随着用户对个性元素的追求，用户在听别人演唱说唱音乐的同时，也希望自己能够演唱说唱音乐。

现有k歌产品中，可以模拟KTV、演唱会、剧场、露天广场等多种音效，让用户可以自由的演唱说唱音乐。

在对现有技术的研究和实践过程中，本发明的发明人发现，由于演唱说唱音乐往往需要演唱者具有一定的乐理知识以及歌唱技巧，因此对普通用户而言演唱说唱音乐有一定难度，从而导致用户演唱音频和原始说唱音乐音频的匹配效果差的问题。

发明内容

本发明的目的在于提供一种音频数据的处理方法及装置，旨在改善用户演唱音频和原始说唱音乐音频的匹配效果，提高说唱演绎质量。

为解决上述技术问题，本发明实施例提供以下技术方案：

一种音频数据的处理方法，其中包括：

获取歌曲信息，根据所述歌曲信息确定歌曲的说唱部分及所述说唱部分相应的乐谱信息，所述歌曲信息包括所述歌曲对应的伴奏文件、歌词文件以及乐谱文件；

接收用户输入的与所述说唱部分相应的音频数据；

确定所述音频数据中每个文字的时间信息；

基于所述时间信息以及所述乐谱信息，按照预设规则对相应的文字的字时长进行处理，得到处理后的音频数据。

为解决上述技术问题，本发明实施例还提供以下技术方案：

一种音频数据的处理装置，其中包括：

第一获取单元，用于获取歌曲信息，所述歌曲信息包括所述歌曲对应的伴奏文件、歌词文件以及乐谱文件；

第一确定单元，用于根据所述歌曲信息确定歌曲的说唱部分及所述说唱部分相应的乐谱信息；

接收单元，用于接收用户输入的与所述说唱部分相应的音频数据；

第二确定单元，用于确定所述音频数据中每个文字的时间信息；

处理单元，用于基于所述时间信息以及所述乐谱信息，按照预设规则对相应的文字的字时长进行处理，得到处理后的音频数据。

相对于现有技术，本发明实施例，首先获取歌曲信息，并确定歌曲的说唱部分及相应的乐谱信息；然后，接收用户输入的与说唱部分相应的音频数据，并确定音频数据中每个文字的时间信息；最后基于时间信息以及乐谱信息，对相应的文字的字时长进行处理，从而得到处理后的音频数据。本发明实施例通过歌曲说唱部分的乐谱信息，以及用户输入的音频数据中文字的时间信息，对文字的字时长进行音频处理，即通过对文字的音频处理，来对用户演唱音频和原始说唱音乐音频进行匹配，相对于现有演唱说唱音乐需要演唱者具有一定的乐理知识以及歌唱技巧的方式，提高了说唱演绎质量，并大大改善用户演唱音频和原始说唱音乐音频的匹配效果。

附图说明

下面结合附图，通过对本发明的具体实施方式详细描述，将使本发明的技术方案及其它有益效果显而易见。

图1a是本发明实施例提供的音频数据的处理方法的场景示意图；

图1b是本发明第一实施例提供的音频数据的处理方法的流程示意图；

图1c为本发明第一实施例提供的音频数据的处理方法中歌词文件示意图；

图1d为本发明第一实施例提供的音频数据的处理方法中乐谱文件示意图；

图2为本发明第二实施例提供的音频数据的处理方法的流程示意图；

图3a为本发明第三实施例提供的音频数据的处理装置的结构示意图；

图3b为本发明第三实施例提供的音频数据的处理装置的另一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例，其不应被视为限制本发明未在此详述的其它具体实施例。

在以下的说明中，本发明的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本发明原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本文所使用的术语「模块」可看做为在该运算系统上执行的软件对象。本文所述的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文所述的装置及方法优选的以软件的方式进行实施，当然也可在硬件上进行实施，均在本发明保护范围之内。

本发明实施例提供一种音频数据的处理方法及装置。

参见图1a，该图为本发明实施例所提供的音频数据的处理方法的场景示意图，该场景可以包括音频数据的处理装置，简称音频处理装置，主要用于获取歌曲信息，根据所述歌曲信息确定歌曲的说唱部分及所述说唱部分相应的乐谱信息，其中，所述歌曲信息包括所述歌曲对应的伴奏文件、歌词文件以及乐谱文件；然后，接收用户输入的音频数据，比如，用户根据歌曲的说唱部分所输入的音频数据；随后，确定该音频数据中每个文字的时间信息，基于确定的时间信息以及说唱部分的乐谱信息，按照预设规则对相应的文字的字时长进行处理，得到处理后的音频数据，等等。

此外，该场景还可以包括歌曲数据库，该歌曲数据库中存储有大量的歌曲信息，其中包含歌曲相应的伴奏文件、歌词文件以及乐谱文件；音频处理装置根据歌曲数据库中的歌词文件以及乐谱文件，可以确定出歌曲的说唱部分，其中该说唱部分携带相应的乐谱信息。当然，该场景中还可以包括用户终端，如手机、平板电脑等，该用户终端包括输入装置(如键盘、鼠标等)以及输出装置(如屏幕、功放等)，用户通过输入装置触发音频处理装置对音频数据进行处理，音频处理装置对音频数据进行处理后，通过输出装置向用户播放处理后的音频数据，等等。

以下将分别进行详细说明。

第一实施例

在本实施例中，将从音频处理装置的角度进行描述，该音频处理装置具体可以集成在服务器或网关等网络设备中。

一种音频数据的处理方法，包括：获取歌曲信息，根据所述歌曲信息确定歌曲的说唱部分及所述说唱部分相应的乐谱信息，所述歌曲信息包括所述歌曲对应的伴奏文件、歌词文件以及乐谱文件；接收用户输入的与说唱部分相应的音频数据；确定音频数据中每个文字的时间信息；基于时间信息以及乐谱信息，按照预设规则对相应的文字的字时长进行处理，得到处理后的音频数据。

请参阅图1b，图1b是本发明第一实施例提供的音频数据的处理方法的流程示意图。所述方法包括：

在步骤S101中，获取歌曲信息，根据歌曲信息确定歌曲的说唱部分及该说唱部分相应的乐谱信息。

其中歌曲可以为歌曲库中的任一歌曲，具体的，该歌曲可以为歌曲库中的任一包含说唱部分的歌曲。歌曲库中的每首歌曲的歌曲信息包括伴奏文件、歌词文件和乐谱文件，还可以包括原唱文件等。

其中伴奏文件是指伴随衬托歌唱该歌曲的演奏文件。

歌词文件是指记录了该歌曲对应的歌词以及歌词的时间信息的文件。本发明实施例中，该歌词文件包括该歌曲对应的歌词，以及歌词中每个字的起始时间和持续时长。请参阅图1c，示出了本发明实施例提供的歌词文件的示例。

乐谱文件可具体指乐器数字接口文件(midi，Musical Instrument DigitalInterface)，简称midi文件。该乐谱文件包括该歌曲包含的音符序列、音符序列中每个音符的起始时间和持续时长、以及每个音符的音高。请参阅图1d，示出了本发明实施例提供的歌词文件的示例。

进一步的，该实施例中，根据歌曲信息确定歌曲的说唱部分可以具体包括：

1、获取歌曲信息中歌词文件包含的每个字对应的起始时间和持续时长；

2、获取所述歌曲信息中乐谱文件中包含的每个音符对应的起始时间和持续时长、以及每个音符的音高；

3、根据歌词文件中包含的每个字对应的起始时间和持续时长，以及乐谱文件中包含的每个音符对应的起始时间和持续时长、以及每个音符的音高，确定歌曲的说唱部分。

可具体的，由于歌词文件中包含每个字对应的起始时间和持续时长，乐谱文件中包含每个音符对应的起始时间和持续时长、以及每个音符的音高，每个字可以对应一个或多个音符，因此当一个字对应一个音符时，可以从乐谱文件获取到每个字对应的起始时间、时长以及音高信息，当一个字对应多个音符时，可以根据这多个音符的起始时间、持续时长和音高，对应的得到这个字的起始时间和持续时长、以及音高。而歌曲说唱部分并非演唱内容，而是说话，因此没有音高信息，由此，将歌词文件与乐谱文件进行对齐比对后，可以得到每个字对应的音高，如果其中一部分字是没有音高的就可以确定为该歌曲的说唱部分。

在步骤S102中，接收用户输入的与所述说唱部分相应的音频数据。

比如，当用户选择歌曲后，将提示用户演唱该歌曲的说唱部分，用户可以按照该歌曲对应的歌词文件来进行朗读；在某些实施方式中，用户也可以自主发挥改变歌词，其中本实施例中说唱部分的歌词字数需要跟原始歌词文件的字数一致。

可以理解的是，本实施例中用户输入的音频数据可以是指由用户说唱而产生的语音数据；该音频数据带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体，为电信号，可以被音频设备如音响等设备接收，然后播放。

在步骤S103中，确定音频数据中每个文字的时间信息。

本发明实施例中，每个文字的时间信息可以具体指每个文字对应的拼音的时间信息，如包括对应的声母和韵母的起始时间信息和持续时间信息，等等。

可以理解的是，本发明实施例中，确定音频数据中每个文字的时间信息可以具体包括如下步骤：

A、将音频数据转换为文本数据。

B、确定说唱部分的歌词字数以及文本数据的字数。

C、在确定歌词字数与文本数据的字数相同时，对文本数据中所指示文字的拼音进行切分，并确定该文字对应的时间信息。

其中，时间信息包括起始时间信息和持续时间信息。

比如，在接收到用户输入的音频数据后，先利用语音评测技术将用户输入的音频数据转换为音素序列，从而切分出每个字对应的声母及韵母的时间信息。

可具体的，将所述音频数据转换成音素序列，并根据预设的声学模型对所述音素序列进行替换，生成模型序列；确定所述音频数据中每一帧的特征，计算每一帧的特征在所述模型序列中的置信度，得到置信度计算结果；根据所述置信度计算结果，确定文字对应的声母及韵母的时间信息。

也就是说，首先需要建立声学模型，可以先收集大量语料，将语料人工切分成声母和韵母后，为所有声母和韵母训练模型，其中此模型可以根据不同的场景采用GMM-HMM或DNN-HMM等多种形式，也可以选择mfcc(Mel频率倒谱系数)、lpcc(线性预测倒谱系数)等不同的特征。由于每个声母和/或韵母的具体发音情况受到上下文的影响，所以在训练模型的时候把不同上下文的音素分开训练，如同样是音素a，在不同上下文环境下，如n-a+m(表示在此语料中韵母a前面的是声母n，后面的声母是m)、k-a+m这两个同一音素在实际情况下是训练成两个模型的，这样的话，如果声母和/或韵母总数是n个的话，实际训练的模型数是n^3。

其次，将用户要说的内容(即音频数据)转换为音素序列，比如“我们”就可以转成sil-w+o w-o+m m-en+sil(其中sil表示静音)的音素序列，之后可以将整个音素序列用前述声学模型代替，从而得到一个模型序列。

当用户朗读完毕后，将用户的音频数据分帧后求得每一帧的特征，将每一帧的数据在模型序列中计算置信度，比如，一个模型可以对应多帧，每一帧数据与一个模型都可以算出一个0～1的匹配度，由于经过的模型一定是按顺序的，所以最终可以得到一种将所有帧匹配度最大化的路径，将之称为最优路径，如有5帧数据，有两个模型，则一共可能有5种不同的路径，分别是(5，0)(表示5帧对应模型1，0帧对应模型2，此种情况的总置信度就是5帧数据每一帧与模型1的匹配度的乘积)、(4，1)…)，最后根据最优路径我们就能知道用户是在什么时间读了哪个声母或韵母，也能知道用户发音的置信度。

可以理解的是，本实施例中仅以前述语音评测技术为例对文字拼音的切分进行说明，并不构成对本发明的限定。

优选的，在将音频数据转换为文本数据后，判断用户输入的文字个数(即文本数据的个数)是否与歌词(说唱部分的歌词)文字个数一致，如果不一致，则提示用户进行重新输入；如果一致，则利用前述语音评测方案，将音频数据中的每个文字的时间信息进行切分，从而得到对应的声母或韵母的起始时间信息和持续时间信息。

在步骤S104中，基于时间信息以及乐谱信息，按照预设规则对相应的文字的字时长进行处理，得到处理后的音频数据。

可以理解的是，在确定出音频数据中每个文字的时间信息后，可以按照该时间信息以及说唱部分的乐谱信息，对相应的文字的字时长进行处理，如，对用户输入的音频数据进行拉伸或压缩，从而得到处理后的音频数据。

比如，在一种可能的实施方式中，基于时间信息以及乐谱信息，按照预设规则对相应的文字的字时长进行处理，得到处理后的音频数据可以具体包括：

a、基于时间信息，从音频数据中提取每个文字对应的音频数据，得到音频段。

b、根据音频段，确定对应的字时长。

c、基于字时长以及乐谱信息中对应的音频时长，按照预设规则对相应的文字的字时长进行音频处理，得到音频处理后的文字。

d、将音频处理后的文字进行拼接，得到处理后的音频数据。

其中按照预设规则对相应的文字的字时长进行音频处理可包括：若所述乐谱信息中对应的音频时长大于字时长，则拉伸所述字时长；若所述乐谱信息中对应的音频时长等于字时长，则保持所述字时长不变；若所述乐谱信息中对应的音频时长小于字时长，则压缩所述字时长。

即将说唱部分的乐谱信息与音频数据进行按照时间进行对齐，以使得可以按照字时长以及乐谱信息中对应的音频时长，对字时长进行拉伸或压缩等；最后，将音频处理后的文字进行拼接，从而可以得到处理后的音频数据。

可以理解的是，对文字进行音频处理的方式有很多，比如：

c1、若所述乐谱信息中对应的音频时长大于字时长，则控制声母时长保持不变，拉伸韵母时长。

c2、若所述乐谱信息中对应的音频时长等于字时长，则控制声母时长与韵母时长保持不变。

c3、若所述乐谱信息中对应的音频时长小于字时长，则对声母时长与韵母时长同时进行压缩。

即根据前述对文本数据中所指示文字的拼音进行切分的结果，可以确定每一个字对应的声母时长与韵母时长。

优选的，在将音频处理后的文字进行拼接，得到处理后的音频数据(步骤d)之后，如在歌词中字与字之间有时间差，还可以进行补零处理。

其中，本实施例中补零处理包括两部分，一部分是真实歌词字与字之间会有间隔，比如演唱者中间换气或换句时，需要进行补零，以使得合成的音频与原始的伴奏对齐；另一部分是由于拉伸与压缩后的时长可能不够精确，因此需要用补零的方式对齐，为了使合成音频与伴奏对齐。

进一步的，得到处理后的音频数据之后，还可以包括：

e、获取歌曲的伴奏文件；

f、将处理后的音频数据与该伴奏文件进行混音，得到混音后的音频数据。

比如，从预设歌曲库中，获取歌曲对应的伴奏文件，并将经过字时长拉伸或压缩处理、拼接等处理后的音频数据与该伴奏文件进行混音，从而得到最终的音频(即混音后的音频数据)。

在得到混音后的音频数据之后，还可以将混音后的音频数据展示给用户，如供用户试听；若用户满意，则可以将该混音后的音频数据合并到此歌曲的用户整体演绎中。

由上述可知，本实施例提供的音频数据的处理方法，首先获取歌曲信息，并确定歌曲的说唱部分及相应的乐谱信息；然后，接收用户输入的与说唱部分相应的音频数据，并确定音频数据中每个文字的时间信息；最后基于时间信息以及乐谱信息，对相应的文字的字时长进行处理，从而得到处理后的音频数据。本发明实施例通过歌曲说唱部分的乐谱信息，以及用户输入的音频数据中文字的时间信息，对文字的字时长进行音频处理，即通过对字时长的音频处理，来对用户演唱音频和原始说唱音乐音频进行匹配，相对于现有演唱说唱音乐需要演唱者具有一定的乐理知识以及歌唱技巧的方式，提高了说唱演绎质量，并大大改善用户演唱音频和原始说唱音乐音频的匹配效果。

第二实施例

根据第一实施例所描述的方法，以下将举例作进一步详细说明。

首先，音频处理装置通过将用户输入的音频数据转换为文本数据，从而获取到音频数据中文字的时间信息，其后结合歌曲说唱部分的乐谱信息，对字时长进行拉伸或压缩处理，即通过对文字进行时长变换，来对用户演唱音频和原始说唱音乐音频进行匹配。以下将进行详细说明。

请参阅图2，图2为本发明第二实施例提供的音频数据的处理方法的流程示意图。所述方法包括：

在步骤S201中，音频处理装置确定歌曲信息，并获取歌曲相应的歌词文件以及乐谱文件。

在步骤S202中，音频处理装置根据歌词文件以及乐谱文件，确定歌曲的说唱部分及该说唱部分相应的乐谱信息。

在步骤S203中，音频处理装置接收用户根据该歌曲所输入的音频数据。

其中，所述步骤S201至步骤S203可具体为：

可以理解的是，在预设歌曲库中，存储有大量歌曲，具体的，该歌曲可以为任一包含说唱部分的歌曲。其中每一首歌曲的歌曲信息包括伴奏文件、歌词文件以及乐谱文件，还可以包括原唱文件等，用户可以根据这些文件选择想要演唱的歌曲。

比如，在XX k歌应用对应的XX歌曲库中，确定出歌曲A，并获取相应的歌词文件以及乐谱文件，其中歌词文件格式可具体参考图1c，其包含该歌曲对应的歌词，以及歌词中每个字的起始时间和持续时长；乐谱文件格式可具体参考图1d，其包含该歌曲包含的音符序列、音符序列中每个音符的起始时间和持续时长、以及每个音符的音高。

比如，如图1c和图1d，为歌曲A的歌词文件与乐谱文件，其中“MC”(说唱歌手，Microphone Controller)演唱的部分为说唱部分rap，“岳”演唱的部分为普通演唱。首先，需要在XX歌曲库中进行rap句子的标记，由于rap句子的特点并非演唱，而是说话，所以没有音高信息，因此通过将歌词文件与乐谱文件这两个文件进行时间对齐后，则将没有音高信息部分的歌词标记为rap，当用户选择此歌曲A后，将提示用户歌曲A的rap部分，用户可以按照歌曲A的歌词来朗读。

容易想到的是，在某些实施方式中，用户也可以自主发挥改变歌词，但rap部分的歌词字数需要跟原始歌词文件的字数一致。

在步骤S204中，音频处理装置利用语音评测技术将音频数据转换为音素序列，并切分出每个字对应的声母及韵母的时间信息。

可以理解的是，用户输入音频后，由于需要对节奏进行改变，所以需要明确的知道演唱者演唱每个字的准确时间信息，具体步骤可以包括如下：

(1)利用业界现有的语音识别服务将音频数据转换为文本数据。

(2)确定说唱部分的歌词字数以及文本数据的字数。

(3)在确定歌词字数与文本数据的字数相同时，对文本数据中所指示文字的拼音进行切分，并确定该文字对应的时间信息。

比如，将音频数据转换为文本数据后，需要判断用户输入的文字个数(即文本数据的个数)是否与歌词(说唱部分的歌词)文字个数一致，如果不一致，则提示用户进行重新输入；如果一致，则利用现有的语音评测方案，将音频数据中的每个文字的时间信息进行切分，从而得到对应的声母或韵母的起始时间信息和持续时间信息。

在步骤S205中，音频处理装置按照说唱部分的乐谱信息以及文字的时间信息，对相应的声母及韵母进行处理。

比如，本实施例中，音频处理装置按照说唱部分的乐谱信息以及文字的时间信息，对相应的声母及韵母进行处理可具体包括如下步骤：

(一)根据文字对应的起始时间信息以及持续时间信息，从用户音频(即音频数据)中提取每个文字对应的音频。

(二)根据文字对应的音频，确定对应的字时长。

(三)基于字时长以及乐谱信息中对应的音频时长，按照预设规则对相应的文字的字时长进行音频处理，得到音频处理后的文字。

将说唱部分的乐谱信息与音频数据进行按照时间进行对齐，以使得可以按照字时长以及乐谱信息中对应的音频时长，对声母和/或韵母进行拉伸或压缩等音频处理，其中对文字的字时长进行音频处理的方式可具体如下：

首先，对于歌词中的每一个字，根据相应的字时长，确定对应的声母时长与韵母时长，如一个字的录音时长为n，其声母录音时长为n1，韵母录音时长为n2，对应的歌词时长(即乐谱信息中对应的音频时长)为m：若m>n，则需要将用户录音进行拉伸，此时声母时长保持不变，只拉伸韵母时长；若m＝n，则控制声母时长与韵母时长保持不变；若m<n，则需要将用户录音进行压缩，此时可以对声母时长与韵母时长同时压缩。

优选的，由于声母部分大多为清音，无法提取基频(基音的频率即为基频，决定整个音的音高)，因此拉伸和压缩声母时长或韵母时长的方式可如下：

1)以30ms为帧长，5ms为帧移，提取原始音频的基音序列；其中基音序列是指由发音体发出的一系列频率、振幅各不相同的振动复合而成的声音。

2)对原始音频进行拉伸和压缩，其中拉伸采用内插法，压缩采用抽取法，随着压缩和拉伸的进行，原始基音序列的基频会被改变，处理原始音频的同时，对步骤1)提取的基音序列进行同步拉伸和压缩。

3)利用LPC(Linear Predictive Coding，线性预测编码)合成滤波方法对拉伸和压缩后的音频进行基音恢复。

需要说明的是，本发明实施例中，采用内插法对原始音频进行拉伸、采用抽取法对原始音频进行压缩、采用LPC合成滤波方法对音频进行基音恢复等均可以采用现有方法实现，此处不再赘述。

(四)将音频处理后的文字进行拼接。

根据前述(一)至(三)处理完全部的字后，将拉伸或压缩后的音频拼接起来，得到处理后的音频数据，如在歌词中字与字之间有时间差，还可以进行补零处理。

在步骤S206中，音频处理装置将拼接后的音频数据与伴奏文件进行混音，得到混音后的音频数据。

比如，假设伴奏音频与用户音频(即拼接后的音频数据)全部为44k16bit格式，首先计算伴奏音频平均能量，将伴奏音频每个采样点的值取绝对值后得到n个(0～32768)的值，从而求出这n个值的平均值x，然后再利用同样的方法求得用户音频的平均值y；最后，对每个采样点进行处理，如第i个采样点，伴奏的值为xi，用户音频的值为yi，则最终混音合并后的能量为xi*(0.4*y/x)+yi*(1-0.4*y/x)。

进一步的，在得到混音后的音频数据之后，还可以将混音后的音频数据展示给用户，如供用户试听；若用户满意，则可以将该混音后的音频数据合并到此歌曲的用户整体演绎中。因此，通过本发明方法实现将用户以任意节奏朗读的普通朗读语音转换为与标准节奏一致的rap演绎，使用户随意朗读都能得到很好的rap演绎效果。

由上述可知，本实施例提供的音频数据的处理方法，首先获取歌曲信息，并确定歌曲的说唱部分及相应的乐谱信息；然后，接收用户输入的与说唱部分相应的音频数据，并确定音频数据中每个文字的时间信息；最后基于时间信息以及乐谱信息，对相应的文字的字时长进行处理，从而得到处理后的音频数据。本发明实施例通过歌曲说唱部分的乐谱信息，以及用户输入的音频数据中文字的时间信息，对文字的字时长进行音频处理，即通过对文字的音频处理，来对用户演唱音频和原始说唱音乐音频进行匹配，相对于现有演唱说唱音乐需要演唱者具有一定的乐理知识以及歌唱技巧的方式，提高了说唱演绎质量，并大大改善用户演唱音频和原始说唱音乐音频的匹配效果。

第三实施例

为便于更好的实施本发明实施例提供的音频数据的处理方法，本发明实施例还提供一种基于上述音频数据的处理方法的装置。其中名词的含义与上述音频数据的处理的方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图3a，图3a为本发明实施例提供的音频数据的处理装置的结构示意图，可以包括第一获取单元301、第一确定单元302、接收单元303、第二确定单元304以及处理单元305。

其中，所述第一获取单元301，用于获取歌曲信息，所述歌曲信息包括所述歌曲对应的伴奏文件、歌词文件以及乐谱文件；第一确定单元302，用于根据所述歌曲信息确定歌曲的说唱部分及所述说唱部分相应的乐谱信息。

其中伴奏文件是指伴随衬托歌唱该歌曲的演奏文件。歌词文件是指记录了该歌曲对应的歌词以及歌词的时间信息的文件。本发明实施例中，该歌词文件包括该歌曲对应的歌词，以及歌词中每个字的起始时间和持续时长。乐谱文件可具体指乐器数字接口文件，简称midi文件。该乐谱文件包括该歌曲包含的音符序列、音符序列中每个音符的起始时间和持续时长、以及每个音符的音高。

接收单元303，用于接收用户输入的与所述说唱部分相应的音频数据；第二确定单元304，用于确定所述音频数据中每个文字的时间信息；处理单元305，用于基于所述时间信息以及所述乐谱信息，按照预设规则对相应的文字的字时长进行处理，得到处理后的音频数据。

可一并参考图3b，为本发明实施例提供的音频数据的处理装置的另一结构示意图，本发明实施例中，所述第一确定单元302可以包括：

获取子单元3021，用于获取所述歌曲信息中歌词文件包含的每个字对应的起始时间和持续时长，以及获取所述歌曲信息中乐谱文件中包含的每个音符对应的起始时间和持续时长、以及每个音符的音高；第一确定子单元3022，用于根据所述歌词文件包含的每个字对应的起始时间和持续时长，和所述乐谱文件中包含的每个音符对应的起始时间和持续时长、以及每个音符的音高，确定歌曲的说唱部分。

接着所述接收单元303接收用户输入的与所述说唱部分相应的音频数据。

可以理解的是，本发明实施例中，所述第二确定单元304可以包括：

转换子单元3041，用于将所述音频数据转换为文本数据；

第二确定子单元3042，用于确定所述说唱部分的歌词字数以及所述文本数据的字数；

切分子单元3043，用于在确定所述歌词字数与所述文本数据的字数相同时，对所述文本数据中所指示文字的拼音进行切分，并确定所述文字对应的时间信息，所述时间信息包括起始时间信息和持续时间信息。

其中，切分子单元3043在确定所述文字对应的时间信息时，可具体用于将所述音频数据转换成音素列表，并根据预设的声学模型对所述音素列表进行替换，生成模型序列；确定所述音频数据中每一帧的特征，计算每一帧的特征在所述模型序列中的置信度，得到置信度计算结果；根据所述置信度计算结果，确定文字对应的声母及韵母的时间信息。

优选的，在将音频数据转换为文本数据后，判断用户输入的文字个数(即文本数据的个数)是否与歌词(说唱部分的歌词)文字个数一致，如果不一致，则提示用户进行重新输入；如果一致，则利用语音评测方案，将音频数据中的每个文字的时间信息进行切分，从而得到对应的声母或韵母的起始时间信息和持续时间信息。

比如，在一种可能的实施方式中，所述处理单元305可以包括：

提取子单元3051，用于基于所述时间信息，从所述音频数据中提取每个文字对应的音频数据，得到音频段。

第三确定子单元3052，用于根据所述音频段，确定对应的字时长。

音频处理子单元3053，用于基于所述字时长以及所述乐谱信息中对应的音频时长，按照预设规则对相应的文字的字时长进行音频处理，得到音频处理后的文字。

拼接子单元3054，用于将所述音频处理后的文字进行拼接，得到处理后的音频数据。

其中所述音频处理子单元3053，可用于若所述乐谱信息中对应的音频时长大于字时长，则拉伸所述字时长；若所述乐谱信息中对应的音频时长等于字时长，则保持所述字时长不变；若所述乐谱信息中对应的音频时长小于字时长，则压缩所述字时长。

可以理解的是，对文字进行音频处理的方式有很多，比如，所述音频处理子单元3053可以具体用于：

若所述乐谱信息中对应的音频时长大于字时长，则控制声母时长保持不变，拉伸韵母时长；若所述乐谱信息中对应的音频时长等于字时长，则控制声母时长与韵母时长保持不变；若所述乐谱信息中对应的音频时长小于字时长，则对声母时长与韵母时长同时进行压缩。

优选的，在将音频处理后的文字进行拼接，得到处理后的音频数据之后，如在歌词中字与字之间有时间差，还可以进行补零处理。

进一步的，所述音频数据的处理装置还可以包括：

第二获取单元306，用于获取所述歌曲的伴奏文件；

混音单元307，用于将所述处理后的音频数据与所述伴奏文件进行混音，得到混音后的音频数据。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

该音频数据的处理装置具体可以集成在服务器或网关等网络设备中。

由上述可知，本实施例提供的音频数据的处理装置，首先获取歌曲信息，并确定歌曲的说唱部分及相应的乐谱信息；然后，接收用户输入的与说唱部分相应的音频数据，并确定音频数据中每个文字的时间信息；最后基于时间信息以及乐谱信息，对相应的文字的字时长进行处理，从而得到处理后的音频数据。本发明实施例通过歌曲说唱部分的乐谱信息，以及用户输入的音频数据中文字的时间信息，对文字的字时长进行音频处理，即通过对文字的音频处理，来对用户演唱音频和原始说唱音乐音频进行匹配，相对于现有演唱说唱音乐需要演唱者具有一定的乐理知识以及歌唱技巧的方式，提高了说唱演绎质量，并大大改善用户演唱音频和原始说唱音乐音频的匹配效果。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文针对音频数据的处理方法的详细描述，此处不再赘述。

本发明实施例提供的所述音频数据的处理装置，譬如为计算机、平板电脑、具有触摸功能的手机等等，所述音频数据的处理装置与上文实施例中的音频数据的处理方法属于同一构思，在所述音频数据的处理装置上可以运行所述音频数据的处理方法实施例中提供的任一方法，其具体实现过程详见所述音频数据的处理方法实施例，此处不再赘述。

需要说明的是，对本发明所述音频数据的处理方法而言，本领域普通测试人员可以理解实现本发明实施例所述音频数据的处理方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，所述计算机程序可存储于一计算机可读取存储介质中，如存储在终端的存储器中，并被该终端内的至少一个处理器执行，在执行过程中可包括如所述音频数据的处理方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)等。

对本发明实施例的所述音频数据的处理装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，所述存储介质譬如为只读存储器，磁盘或光盘等。

以上对本发明实施例所提供的一种音频数据的处理方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种音频数据的处理方法，其特征在于，包括：

接收用户输入的与所述说唱部分相应的音频数据；

将所述音频数据转换为文本数据，确定所述说唱部分的歌词字数以及所述文本数据的字数，在确定所述歌词字数与所述文本数据的字数相同时，对所述文本数据中所指示文字的拼音进行切分，将所述音频数据转换成音素序列，并根据预设的声学模型对所述音素序列进行替换，生成模型序列；

确定所述音频数据中每一帧的特征，计算每一帧的特征在所述模型序列中的置信度，得到置信度计算结果，并根据所述置信度计算结果，确定文字对应的声母及韵母的时间信息，所述时间信息包括起始时间信息和持续时间信息；

2.根据权利要求1所述的音频数据的处理方法，其特征在于，所述根据所述歌曲信息确定歌曲的说唱部分包括：

获取所述歌曲信息中歌词文件包含的每个字对应的起始时间和持续时长；

获取所述歌曲信息中乐谱文件中包含的每个音符对应的起始时间和持续时长、以及每个音符的音高；

根据所述歌词文件包含的每个字对应的起始时间和持续时长，和所述乐谱文件中包含的每个音符对应的起始时间和持续时长、以及每个音符的音高，确定歌曲的说唱部分。

3.根据权利要求1或2所述的音频数据的处理方法，其特征在于，所述基于所述时间信息以及所述乐谱信息，按照预设规则对相应的文字的字时长进行处理，得到处理后的音频数据包括：

基于所述时间信息，从所述音频数据中提取每个文字对应的音频数据，得到音频段；

根据所述音频段，确定对应的字时长；

基于所述字时长以及所述乐谱信息中对应的音频时长，按照预设规则对相应的文字的字时长进行音频处理，得到音频处理后的文字；

将所述音频处理后的文字进行拼接，得到处理后的音频数据。

4.根据权利要求3所述的音频数据的处理方法，其特征在于，所述基于所述字时长以及所述乐谱信息中对应的音频时长，按照预设规则对相应的文字的字时长进行音频处理，包括：

若所述乐谱信息中对应的音频时长大于字时长，则拉伸所述字时长；

若所述乐谱信息中对应的音频时长等于字时长，则保持所述字时长不变；

若所述乐谱信息中对应的音频时长小于字时长，则压缩所述字时长。

5.根据权利要求4所述的音频数据的处理方法，其特征在于，

若所述乐谱信息中对应的音频时长大于字时长，则拉伸所述字时长包括：若所述乐谱信息中对应的音频时长大于字时长，则控制声母时长保持不变，拉伸韵母时长；

若所述乐谱信息中对应的音频时长等于字时长，则保持所述字时长不变包括：若所述乐谱信息中对应的音频时长等于字时长，则控制声母时长与韵母时长保持不变；

若所述乐谱信息中对应的音频时长小于字时长，则压缩所述字时长包括：若所述乐谱信息中对应的音频时长小于字时长，则对声母时长与韵母时长同时进行压缩。

6.根据权利要求1所述的音频数据的处理方法，其特征在于，所述得到处理后的音频数据之后，还包括：

获取所述歌曲的伴奏文件；

将所述处理后的音频数据与所述伴奏文件进行混音，得到混音后的音频数据。

7.一种音频数据的处理装置，其特征在于，包括第一获取单元、第一确定单元、接收单元、第二确定单元和处理单元，所述第二确定单元包括转换子单元、第二确定子单元和切分子单元；

转换子单元，用于将所述音频数据转换为文本数据；

第二确定子单元，用于确定所述说唱部分的歌词字数以及所述文本数据的字数；

切分子单元，用于在确定所述歌词字数与所述文本数据的字数相同时，对所述文本数据中所指示文字的拼音进行切分，将所述音频数据转换成音素列表，并根据预设的声学模型对所述音素列表进行替换，生成模型序列；确定所述音频数据中每一帧的特征，计算每一帧的特征在所述模型序列中的置信度，得到置信度计算结果；根据所述置信度计算结果，确定文字对应的声母及韵母时间信息，所述时间信息包括起始时间信息和持续时间信息；

8.根据权利要求7所述的音频数据的处理装置，其特征在于，所述第一确定单元包括：

获取子单元，用于获取所述歌曲信息中歌词文件包含的每个字对应的起始时间和持续时长，以及获取所述歌曲信息中乐谱文件中包含的每个音符对应的起始时间和持续时长、以及每个音符的音高；

第一确定子单元，用于根据所述歌词文件包含的每个字对应的起始时间和持续时长，和所述乐谱文件中包含的每个音符对应的起始时间和持续时长、以及每个音符的音高，确定歌曲的说唱部分。

9.根据权利要求7或8所述的音频数据的处理装置，其特征在于，所述处理单元包括：

提取子单元，用于基于所述时间信息，从所述音频数据中提取每个文字对应的音频数据，得到音频段；

第三确定子单元，用于根据所述音频段，确定对应的字时长；

音频处理子单元，用于基于所述字时长以及所述乐谱信息中对应的音频时长，按照预设规则对相应的文字的字时长进行音频处理，得到音频处理后的文字；

拼接子单元，用于将所述音频处理后的文字进行拼接，得到处理后的音频数据。

10.根据权利要求9所述的音频数据的处理装置，其特征在于，所述音频处理子单元，用于若所述乐谱信息中对应的音频时长大于字时长，则拉伸所述字时长；若所述乐谱信息中对应的音频时长等于字时长，则保持所述字时长不变；若所述乐谱信息中对应的音频时长小于字时长，则压缩所述字时长。

11.根据权利要求10所述的音频数据的处理装置，其特征在于，所述音频处理子单元具体用于：

12.根据权利要求7所述的音频数据的处理装置，其特征在于，所述装置还包括：

第二获取单元，用于获取所述歌曲的伴奏文件；

混音单元，用于将所述处理后的音频数据与所述伴奏文件进行混音，得到混音后的音频数据。