CN106653037B

CN106653037B - 音频数据处理方法和装置

Info

Publication number: CN106653037B
Application number: CN201510738376.7A
Authority: CN
Inventors: 赵伟峰; 陈雪琪
Original assignee: Guangzhou Kugou Computer Technology Co Ltd
Current assignee: Guangzhou Kugou Computer Technology Co Ltd
Priority date: 2015-11-03
Filing date: 2015-11-03
Publication date: 2020-02-14
Anticipated expiration: 2035-11-03
Also published as: JP2018537732A; US20180247629A1; JP6669883B2; EP3373299A1; WO2017076304A1; EP3373299B1; EP3373299A4; US10665218B2; KR102083917B1; KR20180088824A; CN106653037A

Abstract

本发明提供了一种音频数据处理方法，所述方法包括：根据待处理的音频数据获取对应的歌词文件；按照所述歌词文件中的句子分割所述音频数据，以得到音频数据段；提取所述音频数据段中尾音所对应的数据；对所述尾音所对应的数据进行和声处理。此外，还提供了一种与该方法匹配的音频数据处理装置。上述音频数据处理方法和装置能够避免整个音频数据在整个时间段均附加和声音效，提高了和声模拟的真实性。

Description

音频数据处理方法和装置

技术领域

本发明涉及计算机应用技术领域，特别涉及一种音频数据处理方法和装置。

背景技术

随着媒体应用的发展，针对音频数据进行编辑的应用越来越多，不再仅限于实现各种音频数据的采集和播放，而更为专注于音频数据的编辑，以采集的音频数据为原声来实现丰富多样的音频数据输出。

例如，在为用户提供的K歌功能中，对于采集得到的音频数据，大都实际对其进行编辑，以附加了一定的音效之后才由输出，以供听众收听。在对音频数据所进行的编辑中，如需实现和声音效的模拟，所对应的实现方式是以采集的音频数据，即输入的人声作为原声，在此基础上将其它人声以某个数量某个比例叠加在原声上，便可得到用以输出的音频数据。

然而，这一和声音效模拟的实现是对整个原声都附加了和声音效，即在整个时间段上均进行了和声，这有悖于真实场景中的和声，存在着和声音效模拟失真的局限性。

发明内容

基于此，有必要提供一种音频数据处理方法，该方法能够避免整个音频数据在整个时间段均附加和声音效，提高和声模拟的真实性。

此外，还有必要提供一种音频数据处理装置，该装置能够避免整个音频数据在整个时间段均附加和声音效，提高和声模拟的真实性。

为解决上述技术问题，将采用如下技术方案：

一种音频数据处理方法，包括：

根据待处理的音频数据获取对应的歌词文件；

按照所述歌词文件中的句子分割所述音频数据，以得到音频数据段；

提取所述音频数据段中尾音所对应的数据；

对所述尾音所对应的数据进行和声处理。

一种音频数据处理装置，包括：

歌词获取模块，用于根据待处理的音频数据获取对应的歌词文件；

分割模块，用于按照所述歌词文件中的句子分割所述音频数据，以得到音频数据段；

提取模块，用于提取所述音频数据段中尾音所对应的数据；

尾音处理模块，用于对所述尾音所对应的数据进行和声处理。

由上述技术方案可知，对于任一需进行和声模拟的音频数据，首先获取该音频数据对应的歌词文件，按照歌词文件中的句子对音频数据进行分割，以得到音频数据段，提取音频数据段中尾音所对应的数据，以对该数据进行和声处理，也就是说，在对该音频数据所进行的编辑中，将在该音频数据中仅对尾音所对应的数据进行和声，而不再对整个音频数据在整个时间段进行和声，进而使得和声模拟的实现与实际唱歌时进行的和声相一致，提高了和声模拟的真实性。

附图说明

图1是本发明实施例提供的一种电子设备的结构示意图；

图2是一个实施例中音频数据处理方法的流程图；

图3是图2中根据待处理的音频数据获取对应的歌词文件的方法流程图；

图4是图2中按照歌词文件中的句子分割音频数据，以得到音频数据段的方法流程图；

图5是一个实施例中根据预设的尾音长度值在音频数据段中提取尾音所对应的数据的方法流程图；

图6是图2中对尾音所对应的数据进行和声处理的方法流程图；

图7是一个实施例中音频处理装置的结构示意图；

图8是图7中歌词获取模块的结构示意图；

图9是图7中分割模块的结构示意图；

图10是图7中提取模块的结构示意图；

图11是图7中尾音处理模块的结构示意图。

具体实施方式

体现本发明特征与优点的典型实施方式将在以下的说明中详细叙述。应理解的是本发明能够在不同的实施方式上具有各种的变化，其皆不脱离本发明的范围，且其中的说明及图示在本质上是当作说明之用，而非用以限制本发明。

如前所述的，对音频数据进行的各种编辑中，如若需要对输入的人声附加和声音效，则必须针对输入的整个人声进行，即对输入的整个人声均添加和声音效。因此，虽然现有的音频数据编辑中可对输入的任一音频数据添加所需要的音效，但是，对于和声音效而言，也仅仅是生硬地将其它人声直接叠加于该音频数据中，以使得整个音频数据均附带了和声音效，虽然达到了和声的目的，但是缺乏真实性，并无法呈现真实场景中的和声效果。

因此，为确保模拟的真实性，可呈现真实场景中的和声效果，特提出了一种音频数据处理方法，该音频数据处理方法由计算机程序实现，与之相对应的，所构建的音频数据处理装置则被存储于电子设备中，以在该电子设备中运行，进而实现任一音频数据的和声。

图1示出了本发明实施例提供的一种电子设备的结构。该电子设备100只是一个适配于本发明的示例，不能认为是提供了对本发明的使用范围的任何限制。该电子设备100也不能解释为需要依赖于或具有图示的示例性的电子设备100中的一个或者多个部件的组合。

如图1所示，电子设备100包括处理器110、存储器120和系统总线130。包括存储器120和处理器110在内的各种组件将连接到系统总线130上。处理器110是一个用于通过计算机系统中基本的算术和逻辑运算来执行计算机程序指令的硬件。存储器120是一个用于临时或永久性存储计算机程序或数据的物理设备。

其中，存储器120中存储了若干音频数据以及各种歌词文件；处理器110将执行存储器120中的程序指令。

便携终端设备100还包括各种输入接口170、输入装置140，以实现各种操作的输入。其中，该输入装置140可以是触摸屏幕、按键、键盘和鼠标等至少一种。

便携终端设备100还包括存储设备180，存储设备180可以从多种计算机可读存储介质中选择，计算机可读介质是指可以进行访问的任何可利用的介质，包括移动的和固定的两种介质。例如，计算机可读介质，包括但不限于闪速存储器（微型SD卡）、CD-ROM、数字通用光盘（DVD）或其它光盘、磁带盒、磁带存储或其它存储设备、或者可用于存储所需信息并可访问的任何其它介质。

如上面所详细描述的，适用本发明的电子设备100将执行实现和声音效的指定操作，即通过处理器110运行存储器120中的程序指令的形式执行该指定操作，以实现电子设备100中音频数据的处理。

此外，通过硬件电路或者硬件电路结合软件指令也能同样实现本发明，因此，实现本发明并不限于任何特定硬件电路、软件以及两者的组合。

在一个实施例中，具体的，该音频数据处理方法如图2所示，包括：

步骤210，根据待处理的音频数据获取对应的歌词文件。

该音频数据是当前进行编辑的音频数据，其可为用户在演唱某一歌曲时录入的音频数据，也可以是用户预先演唱某一歌曲而预先录入的音频数据。因此，对该音频数据的编辑可以是实时进行的，也可以是对该音频数据所进行的后续编辑。

根据该音频数据所属的歌曲，获取对应的歌词文件，以便以歌词文件为依据进行该音频数据的和声模拟。

步骤230，按照歌词文件中的句子分割音频数据，以得到音频数据段。

歌词文件的内容包含了歌曲的每一句歌词以及各种相关的时间点，因此，可按照歌词文件中的句子进行音频数据分割，以得到与句子相对应的音频数据段。例如，若该音频数据是针对整首歌曲所录入的，则根据歌词文件中句子所进行的分割，将得到每一句子所对应的音频数据段。

若该音频数据是当前实时录入的，则按照其在歌词文件中对应的句子进行分割，以随着音频数据的不断录入而不断分割得到音频数据段。

步骤250，提取音频数据段中尾音对应的数据。

在音频数据段中根据其尾音进行数据提取，以得到尾音所对应的数据。由此对于分割得到的若干音频数据段而言，便得到了每一音频数据段中尾音所对应的数据。

步骤270，对尾音所对应的数据进行和声处理。

仅针对音频数据段中尾音所对应的数据进行和声处理，以得到仅在尾音进行和声音效模拟的音频数据段，进而由该音频数据段构成了和声音效模拟的音频数据，输出的音频数据附带了和声音效，并且在该音频数据的输出中仅在尾音部分进行的和声音效的模拟，与真实场景中的和声相一致，进而保证了和声模拟的真实性。

进一步的，在本实施例中，如图3所示，在一个实施例中，该步骤210包括：

步骤211，根据待处理的音频数据得到所属歌曲。

步骤213，获取所属歌曲对应的歌词文件。

该音频数据对应的歌词文件可以为任意形式，但其内容则必定包含了多个句子以及每一句子对应的起止时间点，即每一句子的起始时间和终止时间。

进一步的，在实际运营中，歌词文件中的内容包含了歌词所对应的文字以及该文字所对应的时间点，在此，将首先确定每一句子首尾所分别对应的文字，进而得到该句子首尾所对应的时间点，该句子首尾所对应的时间点即为句子的起始时间和终止时间。

在一个实施例中，如图4所示，该步骤230包括：

步骤231，提取歌词文件中句子的起始时间和终止时间。

在歌词文件中进行句子的起始时间和终止时间的提取，句子之间将以时间为界线进行区分。

需要说明的是，如若歌词文件中句子之间存在着间隔，则该间隔可归属于上一句子的尾端或者下一句子的首端，与之相对应的，该终止时间将为间隔末端所对应的时间，或者，该起始时间为间隔前端所对应的时间。

步骤233，根据起始时间和终止时间分割音频数据，得到句子对应的音频数据段。

音频数据中的时间是与歌词文件中的时间相一致的，因此，可根据歌词文件中的时间分割得到句子对应的音频数据段。

也就是说，对于演唱歌曲所录入的音频数据而言，其演唱内容与歌词文件中的歌词和时间点相对应，因此，与歌词文件中的句子处于相同时间段的数据即为该句子所对应的音频数据段。

例如，一句歌词的尾音是3秒，则该句歌词对应的音频数据段中的3秒即为该音频数据段中的15秒至18秒所对应的数据，这一15秒至18秒所对应的数据即为该音频数据段中尾音所对应的数据。

进一步的，在本实施例中，该步骤250包括：根据预设的尾音长度值在音频数据段中提取尾音所对应的数据。

预先设定了尾音长度值，该尾音长度值为一时间值，将表征了尾音所对应的时间长度。优选地，该尾音长度值可预选设定为3秒。

在每一音频数据段中根据预设的尾音长度值即可确定尾音所对应的数据，进而直接提取即可。也就是说，每一音频数据段中尾部时间长度与该尾音长度值相匹配的数据即为尾音所对应的数据。

进一步的，在本实施例中，如图5所示，该根据预设的尾音长度值在音频数据段中提取尾音所对应的数据的步骤包括：

步骤251，根据音频数据段所属句子对应的终止时间和预设的尾音长度值得到尾音开始时间。

通过依据起始时间和终止时间所进行的音频数据分割，使得该分割的音频数据段与歌词文件中的句子相对应。由此，每一音频数据段均有所属的句子，进而得到该句子对应的终止时间。

终止时间和预设的尾音长度值之间的差值即为尾音开始时间，尾音开始时间将作为音频数据段中尾音所对应的数据提取的起始点。

步骤253，根据尾音开始时间和音频数据的采样率在音频数据段中定位尾音所对应的起始数据。

音频数据段中每一数据都有对应的时间，也就是说，可根据其所对应的时间可根据其在音频数据中的位置以及采样率确定，即t = n/fs，其中，t为数据所对应的时间，n是该数据在音频数据中的坐标，fs则是音频数据的采样率。

由此可知，根据尾音开始时间和音频数据的采样率即可运算得到时间为尾音开始时间所对应的音频数据中的坐标，进而在音频数据段中定位数据，以得到尾音所对应的起始数据。

步骤255，在音频数据段中由以起始数据为起始进行数据提取直至提取至音频数据段的尾端，以得到尾音所对应的数据。

在音频数据段中，将直接以起始数据为起始依次往后进行数据提取，直至提取至所在音频数据段的尾端，由此所得到的数据即为尾音所对应的数据，以待后续针对该提取的数据进行和声。

通过如上所述的过程，将使得分割得到的音频数据段均相应提取得到尾音所对应的数据，进而由该数据实现每一音频数据段中的和声音效模拟，从而完成整个音频数据中的和声音效模拟，并且提高了音效模拟的真实性。

需要说明的是，如若句子之间的间隔归属于上一句子对应的音频数据段，则尾音所对应的数据提取过程将对起始数据和间隔末端之间的数据提取过程。也就是说，对于附加了间隔的音频数据段，将仍然根据起始数据次往后进行数据提取，由此得到包含该间隔的尾音所对应的数据。

在后续的和声处理中，对于包含间隔的尾音所对应的数据，也将直接对其进行和声处理即可。

在一个实施例中，如图6所示，该步骤270包括：

步骤271，以尾音所对应的数据为原声，复制原声并进行降调处理得到中间数据。

复制一份尾音所对应的数据，以任一尾音所对应的数据为原声，对另一尾音所对应的数据进行降调处理，以得到中间数据。其中，用于实现降调处理的算法可以为任意的pitch shift相关的算法。

步骤273，复制若干份中间数据，以分别对每份中间数据进行随机延迟和衰减处理得到若干份和声音效数据。

通过如上所述的步骤得到一作为原声的尾音所对应的数据和中间数据，此时，将中间数据s’(n)复制成L份，每份加入一个随机的延迟和随机的衰减，即s’’ = r*s’(n -P)，其中r为纯小数，P正数，s’’即为任一和声音效数据。

步骤275，将原声和和声音效数据叠加得到模拟和声的音频数据。

将L个s’’与原声叠加在一起便可得到音频数据段中模拟了和声的尾音，进而实现了音频数据段中的和声模拟，多个音频数据段拼接在一起即可得到待输出的音频数据。

如若以包含了间隔的尾音所对应的数据为原声，和声音效数据也是以该包含了间隔的尾音所对应的数据为基础所处理得到的，因此，尾音所对应的数据中，与间隔对应的部分将为空，相对应的，和声音效数据中，与间隔对应的部分也将为空，因此，在原声和和声音效数据进行的叠加中，该数据为空的部分也将叠加在一起，得到模拟了和声并仍然包含间隔的尾音，从而既实现了尾音中和声的模拟，又不会对原有的音频数据中存在的间隔造成影响。

在具体的应用中，对于如上所述的音频数据处理方法，将首先需要获取一对应的歌词文件，歌词文件中每一句子的起始时间s(m)和终止时间d(m)，其中，m代表歌词文件中的第m句句子。起始时间s(m)和终止时间d(m)也为该句子对应的音频数据段的起始点和终止点。

假设待处理的音频数据为x(n)，n为小于N的整数，该音频数据的总长度为N。

预设尾音长度值为T，T=3秒，则由此得到音频数据段中的尾音开始时间ts(m)，即ts(m) = d（m）－Ｔ，从而在每一音频数据段中分别聚集出尾音所对应的数据s(n)。

复制一份s(n)，并对复制所得到的s(n)进行降调处理得到中间数据s’(n)。

此时，复制L份中间数据s’(n)，每一份中间数据s’(n)均加入随机的延迟和随机的衰减，即s’’= r*s’(n - P)，其中r为纯小数，P正数。

将L份s’’与s(n)进行叠加得到模拟了和声的尾音y(n)。

通过如上所述的过程便对音频数据精准实现了尾音的和声模拟。

通过如上所述的音频数据处理方法，将使得各种音频应用，例如，K唱应用可对音频数据实现和声模拟，极大地丰富了音频应用中的功能。

在一个实施例中，还相应地提供了一种音频数据处理装置，如图7所示，该装置包括歌词获取模块310、分割模块330、提取模块350和尾音处理模块370，其中：

歌词获取模块310，用于根据待处理的音频数据获取对应的歌词文件。

分割模块330，用于按照歌词文件中的句子分割音频数据，以得到音频数据段。

提取模块350，用于提取单元数据段中尾音所对应的数据。

尾音处理模块370，用于对尾音所对应的数据进行和声处理。

在一个实施例中，如图8所示，该歌词获取模块310包括所属歌曲获取单元311和文件获取单元313，其中：

所属歌曲获取单元311，用于根据待处理的音频数据得到所属歌曲。

文件获取单元313，用于获取所属歌曲对应的歌曲文件。

在一个实施例中，如图9所示，该分割模块330包括时间提取模块331和数据分割单元333，其中：

时间提取模块331，用于提取歌词文件中句子的起始时间和终止时间。

数据分割单元333，用于根据起始时间和终止时间分割音频数据，得到句子对应的音频数据段。

在一个实施例中，提取模块350进一步用于根据预设的尾音长度值在音频数据段中提取尾音所对应的数据。

进一步的，在本实施例中，如图10所示，该提取模块350包括尾音时间运算单元351、起始数据定位单元363和数据提取单元355，其中：

尾音时间运算单元351，用于根据音频数据所属句子对应的终止时间和预设的尾音长度值得到尾音开始时间。

起始数据定位单元353，用于根据尾音开始时间和音频数据的采样率在音频数据段中定位尾音所对应的起始数据。

数据提取单元355，用于在音频数据段中以起始数据为起始进行数据提取，直至提取至音频数据段的尾端，以得到尾音对应的数据。

在一个实施例中，如图 11所示，该尾音处理模块370包括降调处理单元371、音效生成单元373和叠加单元375，其中：

降调处理单元372，用于以尾音所对应的数据为原声，复制该原声并进行降调处理得到中间数据。

音效生成单元373，用于复制若干份中间数据，以分别对每份中间数据进行随机延迟和衰减处理得到若干份和声音效数据。

叠加单元375，用于将原声和和声音效数据混合叠加得到模拟和声的音频数据。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

虽然已参照几个典型实施方式描述了本发明，但应当理解，所用的术语是说明和示例性、而非限制性的术语。由于本发明能够以多种形式具体实施而不脱离发明的精神或实质，所以应当理解，上述实施方式不限于任何前述的细节，而应在随附权利要求所限定的精神和范围内广泛地解释，因此落入权利要求或其等效范围内的全部变化和改型都应为随附权利要求所涵盖。

Claims

1.一种音频数据处理方法，其特征在于，包括：

根据待处理的音频数据获取对应的歌词文件，所述音频数据是当前实时录入的；

按照所述歌词文件中的句子分割所述音频数据，以随着所述音频数据的不断录入而不断分割得到音频数据段；

提取所述音频数据段中尾音所对应的数据；

以所述尾音所对应的数据为原声，复制所述原声并进行降调处理得到中间数据；

复制若干份所述中间数据，以分别对每份中间数据进行随机延迟和衰减处理得到若干份和声音效数据；

将所述原声和所述若干份和声音效数据混合叠加得到模拟和声的音频数据，如果所述尾音包含间隔，则所述模拟和声的音频数据中仍然包括相同的所述间隔。

2.根据权利要求1所述的方法，其特征在于，所述根据待处理的音频数据获取对应的歌词文件的步骤包括：

根据所述待处理的音频数据得到所属歌曲；

获取所述所属歌曲对应的歌词文件。

3.根据权利要求1所述的方法，其特征在于，所述按照所述歌词文件中的句子分割所述音频数据，以得到音频数据段的步骤包括：

提取所述歌词文件中句子的起始时间和终止时间；

根据所述起始时间和终止时间分割所述音频数据，得到句子对应的音频数据段。

4.根据权利要求3所述的方法，其特征在于，所述提取所述音频数据段中尾音所对应的数据的步骤包括：

根据预设的尾音长度值在所述音频数据段中提取尾音所对应的数据。

5.根据权利要求4所述的方法，其特征在于，所述根据预设的尾音长度值在所述音频数据段中提取尾音所对应的数据的步骤包括：

根据所述音频数据段所属句子对应的终止时间和预设的尾音长度值得到尾音开始时间；

根据所述尾音开始时间和所述音频数据的采样率在所述音频数据段中定位尾音所对应的起始数据；

在所述音频数据段中以所述起始数据为起始进行数据提取，直至提取至所述音频数据段的尾端，以得到所述尾音所对应的数据。

6.一种音频数据处理装置，其特征在于，包括：

歌词获取模块，用于根据待处理的音频数据获取对应的歌词文件，所述音频数据是当前实时录入的；

分割模块，用于按照所述歌词文件中的句子分割所述音频数据，以随着所述音频数据的不断录入而不断分割得到音频数据段；

提取模块，用于提取所述音频数据段中尾音所对应的数据；

尾音处理模块，用于以所述尾音所对应的数据为原声，复制所述原声并进行降调处理得到中间数据；复制若干份所述中间数据，以分别对每份中间数据进行随机延迟和衰减处理得到若干份和声音效数据；将所述原声和所述和声音效数据混合叠加得到模拟和声的音频数据，如果所述尾音包含间隔，则所述模拟和声的音频数据中仍然包括相同的所述间隔。

7.根据权利要求6所述的装置，其特征在于，所述歌词获取模块包括：

所属歌曲获取单元，用于根据所述待处理的音频数据得到所属歌曲；

文件获取单元，用于获取所述所属歌曲对应的歌曲文件。

8.根据权利要求6所述的装置，其特征在于，所述分割模块包括：

时间提取单元，用于提取所述歌词文件中句子的起始时间和终止时间；

数据分割单元，用于根据所述起始时间和终止时间分割所述音频数据，得到句子对应的音频数据段。

9.根据权利要求8所述的装置，其特征在于，所述提取模块进一步用于根据预设的尾音长度值在所述音频数据段中提取尾音所对应的数据。

10.根据权利要求9所述的装置，其特征在于，所述提取模块包括：

尾音时间运算单元，用于根据所述音频数据段所属句子对应的终止时间和预设的尾音长度值得到尾音开始时间；

起始数据定位单元，用于根据所述尾音开始时间和所述音频数据的采样率在所述音频数据段中定位尾音所对应的起始数据；

数据提取单元，用于在所述音频数据段中以所述起始数据为起始进行数据提取，直至提取至所述音频数据段的尾端，以得到所述尾音对应的数据。