CN116486764A

CN116486764A - 音频数据处理方法、装置、设备及介质

Info

Publication number: CN116486764A
Application number: CN202310400192.4A
Authority: CN
Inventors: 郑思远; 潘颂声; 李鹏; 赵翔宇; 刘华平
Original assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Current assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-07-25

Abstract

本公开的实施方式提供了一种音频数据处理方法、装置、设备及介质。本公开通过在对原唱音频数据进行片段切分，得到原唱音频数据对应的多个原唱音频片段的情况下，获取每个原唱音频片段的第一歌词字符串以及至少一个备选翻唱音频数据中每个备选翻唱音频数据的第二歌词字符串，从而基于每个原唱音频片段对应的第一歌词字符串，在每个第二歌词字符串中进行匹配，以从至少一个备选翻唱音频数据中确定与该原唱音频片段匹配的翻唱音频片段，以实现原唱音频片段和翻唱音频片段的匹配，匹配的原唱音频片段和翻唱音频片段后续即可作为用于构建特征提取规则的训练数据，从而即可实现对训练数据的扩充。

Description

音频数据处理方法、装置、设备及介质

技术领域

本公开的实施方式涉及多媒体技术领域，更具体地，本公开的实施方式涉及一种音频数据处理方法、装置、设备及介质。

背景技术

本部分旨在为本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

随着短视频、综艺、直播的流行，翻唱歌曲的数量越来越多，需要识曲的场景也越来越复杂，传统的听歌识曲功能已经无法满足用户多元化、个性化的识别需求，因而，翻唱识别功能应运而生。通过翻唱识别功能，用户可以实现原唱歌曲片段和翻唱歌曲片段的匹配，让歌曲查找过程变得更加精准便捷。

在通过翻唱识别功能匹配原唱歌曲和翻唱歌曲时，按照预先确定好的规则，提取足够表征歌曲片段属性的特征，从而基于提取到的特征完成原唱歌曲片段和翻唱歌曲片段的相似度匹配，以找到翻唱歌曲片段对应的原唱歌曲。而构建规则的过程中需要大量的训练数据，因此，亟需一种音频数据处理方法，以找到原唱歌曲中的原唱歌曲片段对应的翻唱歌曲片段，进而将原唱歌曲片段及对应的翻唱歌曲片段构建为翻唱对，以将翻唱对作为用于构建规则的训练数据。

发明内容

但是，出于相关技术中作为训练数据的原唱歌曲和翻唱歌曲数量不足的原因，从而使得构建出的特征提取规则无法提取到能有效表征歌曲片段属性的特征，进而导致翻唱歌曲与原唱歌曲匹配的准确性较差。

基于这种情况，在本上下文中，本公开的实施方式期望提供一种音频数据处理方法，以基于有限数量的原唱歌曲和翻唱歌曲，获取原唱歌曲片段及对应的翻唱歌曲片段，以实现对作为用于构建规则的训练数据的扩充。

在本公开实施方式的第一方面中，提供了一种音频数据处理方法，该方法包括：

对原唱音频数据进行片段切分，得到原唱音频数据对应的多个原唱音频片段；

获取每个原唱音频片段的第一歌词字符串以及至少一个备选翻唱音频数据中每个备选翻唱音频数据的第二歌词字符串；

对于任一原唱音频片段，基于第一歌词字符串，在每个第二歌词字符串中进行匹配，以从至少一个备选翻唱音频数据中确定与原唱音频片段匹配的翻唱音频片段。

在本公开的一个实施例中，基于第一歌词字符串，在每个第二歌词字符串中进行匹配，以从至少一个备选翻唱音频数据中确定与原唱音频片段匹配的翻唱音频片段，包括：

基于第一歌词字符串在每个第二歌词字符串中进行匹配，以从至少一个第二歌词字符串中确定出与第一歌词字符串匹配的目标翻唱歌词字符串；

按照目标翻唱歌词字符串的起止位置所对应的时间戳，对目标翻唱歌词字符串对应的备选翻唱音频数据进行片段切分，得到与原唱音频片段匹配的翻唱音频片段。

在本公开的一个实施例中，基于第一歌词字符串在每个第二歌词字符串中进行匹配，以从至少一个第二歌词字符串中确定出与第一歌词字符串匹配的目标翻唱歌词字符串，包括：

基于第一歌词字符串中的部分字符，在每个第二歌词字符串中进行匹配，以从至少一个第二歌词字符串中确定至少一个备选翻唱歌词字符串；

按照第一歌词字符串的字符串长度，对至少一个备选翻唱歌词字符串进行扩展，得到至少一个待匹配歌词字符串；

基于每个待匹配歌词字符串与第一歌词字符串的相似度，从至少一个待匹配歌词字符串中确定与第一歌词字符串匹配的目标翻唱歌词字符串。

在本公开的一个实施例中，基于第一歌词字符串中的部分字符，在每个第二歌词字符串中进行匹配，以从至少一个第二歌词字符串中确定至少一个备选翻唱歌词字符串，包括：

对于任一第二歌词字符串，遍历第二歌词字符串，以确定第二歌词字符串所对应的多个字符串片段与第一歌词字符串中的部分字符的相似度；

将多个字符串片段中相似度满足第一预设条件的字符串片段确定为备选翻唱歌词字符串。

在本公开的一个实施例中，按照第一歌词字符串的字符串长度，对至少一个备选翻唱歌词字符串进行扩展，得到至少一个待匹配歌词字符串，包括：

对于任一备选翻唱歌词字符串，在备选翻唱歌词字符串所对应的第二歌词字符串中，获取以备选翻唱歌词字符串为中心、且字符串长度与第一歌词字符串的长度一致的歌词字符串，作为备选翻唱歌词字符串对应的待匹配歌词字符串。

在本公开的一个实施例中，基于每个待匹配歌词字符串与第一歌词字符串的相似度，从至少一个待匹配歌词字符串中确定与第一歌词字符串匹配的目标翻唱歌词字符串之前，该方法还包括：

确定每个待匹配歌词字符串与第一歌词字符串的相似度。

在本公开的一个实施例中，确定每个待匹配歌词字符串与第一歌词字符串的相似度，包括：

对于任一待匹配歌词字符串，基于待匹配歌词字符串与第一歌词字符串之间的编辑距离，确定待匹配歌词字符串与第一歌词字符串的相似度。

在本公开的一个实施例中，基于待匹配歌词字符串与第一歌词字符串之间的编辑距离，确定待匹配歌词字符串与第一歌词字符串的相似度，包括：

确定第一歌词字符串与待匹配歌词字符串的字符串长度差值，将编辑距离与字符串长度差值之差，确定为待匹配歌词字符串与第一歌词字符串的相似度。

在本公开的一个实施例中，基于每个待匹配歌词字符串与第一歌词字符串的相似度，从至少一个待匹配歌词字符串中确定与第一歌词字符串匹配的目标翻唱歌词字符串，包括：

将至少一个待匹配歌词字符串中与第一歌词字符串的相似度满足第二预设条件的待匹配歌词字符串确定为目标翻唱歌词字符串。

在本公开的一个实施例中，部分字符为位于第一字符串的中心处、且字符串长度为设定长度的多个字符。

在本公开的一个实施例中，对原唱音频数据进行片段切分，得到原唱音频数据对应的多个原唱音频片段，包括：

基于原唱音频数据中每句歌词的时间戳，将原唱音频数据划分为片段时长为预设时长的多个原唱音频片段。

在本公开的一个实施例中，对于任一原唱音频片段，原唱音频片段的第一歌词字符串的获取过程包括：

获取原唱音频片段的歌词文本；

去除原唱音频片段的歌词文本中的标点符号，并将原唱音频片段的歌词文本中的字符转换为设定格式的字符，以得到原唱音频片段的第一歌词字符串。

在本公开的一个实施例中，对于任一备选翻唱音频数据，备选翻唱音频数据的第二歌词字符串的获取过程包括：

获取备选翻唱音频数据的歌词文本；

去除备选翻唱音频数据的歌词文本中的标点符号，并将备选翻唱音频数据的歌词文本中的字符转换为设定格式的字符，以得到备选翻唱音频数据的第二歌词字符串。

在本公开实施方式的第二方面中，提供了一种音频数据处理装置，该装置包括：

切分模块，用于对原唱音频数据进行片段切分，得到原唱音频数据对应的多个原唱音频片段；

获取模块，用于获取每个原唱音频片段的第一歌词字符串以及至少一个备选翻唱音频数据中每个备选翻唱音频数据的第二歌词字符串；

确定模块，用于对于任一原唱音频片段，基于第一歌词字符串，在每个第二歌词字符串中进行匹配，以从至少一个备选翻唱音频数据中确定与原唱音频片段匹配的翻唱音频片段。

在本公开实施方式的第三方面中，提供了一种计算设备，计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行程序时实现如上述第一方面以及第一方面的任意实施例所提供的音频数据处理方法所执行的操作。

在本公开实施方式的第四方面中，提供了一种计算机可读存储介质，计算机可读存储介质上存储有程序，程序被处理器执行上述第一方面以及第一方面的任意实施例所提供的音频数据处理方法所执行的操作。

在本公开实施方式的第五方面中，提供了一种计算机程序产品，计算机程序产品包括计算机程序，程序被处理器执行时实现如上述第一方面以及第一方面的任意实施例所提供的音频数据处理方法所执行的操作。

本公开通过在对原唱音频数据进行片段切分，得到原唱音频数据对应的多个原唱音频片段的情况下，获取每个原唱音频片段的第一歌词字符串以及至少一个备选翻唱音频数据中每个备选翻唱音频数据的第二歌词字符串，从而基于每个原唱音频片段对应的第一歌词字符串，在每个第二歌词字符串中进行匹配，以从至少一个备选翻唱音频数据中确定与该原唱音频片段匹配的翻唱音频片段，以实现原唱音频片段和翻唱音频片段的匹配，匹配的原唱音频片段和翻唱音频片段后续即可作为用于构建特征提取规则的训练数据，从而即可实现对训练数据的扩充。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1是本公开根据一示例性实施例示出的一种音频数据处理方法的流程图；

图2是本公开根据一示例性实施例示出的一种音频数据处理方法的流程示意图；

图3是本公开根据一示例性实施例示出的一种音频数据处理装置的框图；

图4是本公开根据一示例性实施例示出的一种计算机可读存储介质的示意图；

图5是本公开根据一示例性实施例示出的一种计算设备的结构示意图；

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提出了一种音频数据处理方法，用于识别与各个原唱音频片段匹配的翻唱音频片段，以生成原唱音频片段和翻唱音频片段的翻唱数据对，所生成的翻唱数据对即可作为训练数据，以获取到更多的训练数据来训练特征提取规则，以使通过训练所得到的特征提取规则可以提取到更加可靠的、表征歌曲片段属性的特征。

上述音频数据处理方法可以由计算设备执行，计算设备可以为终端设备，如台式计算机、便携式计算机、笔记本电脑、智能手机、平板电脑、智能手表等，或者，计算设备可以为服务器，如一台服务器、多台服务器、服务器集群、云计算平台等，本公开对计算设备的设备类型不加以限定。

需要注意的是，上述应用场景仅是为了便于理解本公开的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

下面结合上述有关应用场景的介绍，来对本公开所提供的音频数据处理方法进行详细介绍。为便于理解本公开所提供的方法，首先对本公开中所涉及到的相关术语进行介绍。

翻唱识别：给定一首翻唱歌曲，其该翻唱歌曲的歌手、时长、节奏、编曲可能与任一首原唱歌曲都不相同，但该翻唱歌曲的主旋律与某一原唱歌曲相同，通过提取特定特征(如能够表征翻唱歌曲的主旋律的特征)，从而基于提取到的特征与原唱歌曲库中各个原唱歌曲所对应的相应特征进行匹配，以从原唱歌曲库中确定出与翻唱歌曲相似度最高的原唱歌曲。

片段翻唱识别：给定一个短时翻唱版本的音乐片段(如15秒左右的音乐片段)，提取该音乐片段的片段表征，与原唱歌曲库中已有的音乐片段表征进行匹配，返回相似度最高的音乐片段所属的原唱歌曲的歌曲标识(Identification，ID)，以实现通过一个翻唱的歌曲片段找到对应的原唱歌曲。

编辑距离：针对两个字符串的差异程度的量化量测指标，量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。常用的编辑距离定义方式是莱文斯坦(Levenshtein)距离，指两个字符串之间，由一个字符串转变为另一个字符串所需的最少编辑操作次数。允许的编辑操作包括将一个字符替换成另一个字符、插入一个字符以及删除一个字符。

在介绍了本公开所涉及的相关术语之后，下面参考图1来描述根据本公开示例性实施方式所提供的音频数据处理方法。

参见图1，图1是本公开根据一示例性实施例示出的一种音频数据处理方法的流程图，如图1所示，该方法包括：

S101、对原唱音频数据进行片段切分，得到原唱音频数据对应的多个原唱音频片段。

需要说明的是，计算设备可以维护有一个原唱音频数据库，该原唱音频数据库可以用于存储多个原唱音频数据，对于原唱音频数据库中的任一原唱音频数据，均可以通过本公开所提供的音频数据处理方法，来获取该原唱音频数据中的各个原唱音频片段所对应的翻唱音频片段。

可选地，原唱音频数据库中还可以存储有原唱音频数据的音频信息，如演唱歌手、词作者、曲作者、歌曲时长、歌曲发布时间、曲风、节奏等多种类型的音频信息，本公开对此不加以限定。

S102、获取每个原唱音频片段的第一歌词字符串以及至少一个备选翻唱音频数据中每个备选翻唱音频数据的第二歌词字符串。

需要说明的是，计算设备还可以维护有一个翻唱音频数据库，该翻唱音频数据库可以用于存储多个备选翻唱音频数据，以便可以基于翻唱音频数据库中所存储的多个备选翻唱音频数据，来与原唱音频数据库中的原唱音频数据进行匹配。

可选地，翻唱音频数据库中还可以存储有翻唱音频数据的音频信息，如演唱歌手、词作者、曲作者、歌曲时长、歌曲发布时间、曲风、节奏等多种类型的音频信息，本公开对此不加以限定。

S103、对于任一原唱音频片段，基于第一歌词字符串，在每个第二歌词字符串中进行匹配，以从至少一个备选翻唱音频数据中确定与原唱音频片段匹配的翻唱音频片段。

需要说明的是，对于每个原唱音频片段，均可以基于原唱音频片段的第一歌词字符串，来与多个备选翻唱音频数据的第二歌词字符串进行匹配，以从多个第二歌词字符串中找到与第一歌词字符串匹配的字符串片段，从而基于所匹配出的字符串片段实现翻唱音频片段的获取。

本公开通过在对原唱音频数据进行片段切分，得到原唱音频数据对应的多个原唱音频片段的情况下，获取每个原唱音频片段的第一歌词字符串以及至少一个备选翻唱音频数据中每个备选翻唱音频数据的第二歌词字符串，从而基于每个原唱音频片段对应的第一歌词字符串，在每个第二歌词字符串中进行匹配，以从至少一个备选翻唱音频数据中确定与该原唱音频片段匹配的翻唱音频片段，以实现原唱音频片段和翻唱音频片段的匹配，匹配的原唱音频片段和翻唱音频片段后续即可作为用于构建特征提取规则的训练数据，从而即可实现对训练数据的扩充，以获取到更多的训练数据来训练特征提取规则，以使通过训练所得到的特征提取规则可以提取到更加可靠的、表征歌曲片段属性的特征，提高特征提取过程的准确性。

在介绍了本公开的基本原理之后，下面具体介绍本公开的各种非限制性实施方式。

在一些实施例中，对于步骤S101，在对原唱音频数据进行片段切分，得到原唱音频数据对应的多个原唱音频片段时，可以通过如下方式实现：

其中，预设时长可以为任意时长，例如，预设时长可以为15秒，或者，预设时长还可以为其他取值，本公开对预设时长的具体取值不加以限定。时间戳可以表示这句歌词中第一个字对应的演唱时间，可选地，时间戳还可以为其他类型，本公开对此不加以限定。

需要说明的是，在对原唱音频数据进行切分时，切分到最后一部分时，可能出现最后一部分的时长不足预设时长的情况，此时，直接对应时长将不足预设时长的最后一部分作为一个原唱音频片段即可，无需保证每个原唱音频片段的时长均满足预设时长。

可选地，在完成对原唱音频数据的切分后，还可以记录切分得到的各个原唱音频片段的起止时间戳，例如，对于任一原唱音频片段，可以将该原唱音频片段中第一句歌词的时间戳作为该原唱音频片段的起始时间戳，将该原唱音频片段中最后一句歌词的时间戳作为该原唱音频片段的结束时间戳。

在通过上述过程将原唱音频数据切分为多个原唱音频片段后，即可通过步骤S102，来获取每个原唱音频片段的第一歌词字符串，并且，还可以通过步骤S102，来获取至少一个备选翻唱音频数据中每个备选翻唱音频数据的第二歌词字符串。

在一些实施例中，对于步骤S102，在获取每个原唱音频片段的第一歌词字符串时，可以通过如下方式实现：

对于任一原唱音频片段，获取该原唱音频片段的歌词文本；去除该原唱音频片段的歌词文本中的标点符号，并将该原唱音频片段的歌词文本中的字符转换为设定格式的字符，以得到该原唱音频片段的第一歌词字符串。

其中，对于歌词文本中的英文文本，设定格式的字符可以为小写字母字符，对于歌词文本中的中文字符，设定格式的字符可以为简体中文字符。

以歌词文本为英文文本为例，例如，歌词文本可以为“We make it happen,causewe believe it.Look who we are,we are the dreamers”，则可以去除上述歌词文本中的标点符号，并将上述歌词文本中的大写字母转换为小写字母字符，以得到如“wemakeithappencausewebelieveitlookwhowe arewearethedreamers”所示的第一歌词字符串。

需要说明的是，上述实施例是以一个原唱音频片段的第一歌词字符串的获取过程为例来进行说明的，其他原唱音频片段的第一歌词字符串的获取过程与之同理，此处不再赘述。

在一些实施例中，对于步骤S102，在获取至少一个备选翻唱音频数据中每个备选翻唱音频数据的第二歌词字符串时，可以通过如下方式实现：

对于任一备选翻唱音频数据，获取该备选翻唱音频数据的歌词文本；去除该备选翻唱音频数据的歌词文本中的标点符号，并将该备选翻唱音频数据的歌词文本中的字符转换为设定格式的字符，以得到该备选翻唱音频数据的第二歌词字符串。

以歌词文本为英文文本为例，在获取任一备选翻唱音频数据的第二字符串时，可以将该备选翻唱音频数据的歌词文本中的标点符号全部去除，并将歌词文本中的字母全部改为小写字母。

可选地，在获取到该备选翻唱音频数据的第二歌词字符串之后，可以设置第二歌词字符串中每个字符所对应的时间戳，对于任一字符，可以其所属的那句歌词的时间戳设置为该字符的时间戳。

需要说明的是，上述实施例是以一个备选翻唱音频数据的第二歌词字符串的获取过程为例来进行说明的，其他备选翻唱音频数据的第二歌词字符串的获取过程与之同理，此处不再赘述。

在通过上述过程获取到第一歌词字符串和第二歌词字符串之后，对于任一原唱音频片段，即可通过步骤S103，基于该原长音频片段的第一歌词字符串，在每个第二歌词字符串中进行匹配，以从至少一个备选翻唱音频数据中确定与原唱音频片段匹配的翻唱音频片段。

在一些实施例中，对于步骤S103，在基于第一歌词字符串，在每个第二歌词字符串中进行匹配，以从至少一个备选翻唱音频数据中确定与原唱音频片段匹配的翻唱音频片段时，可以包括如下步骤：

S1031、基于第一歌词字符串在每个第二歌词字符串中进行匹配，以从至少一个第二歌词字符串中确定出与第一歌词字符串匹配的目标翻唱歌词字符串。

在一种可能的实现方式中，该步骤S1031可以包括如下步骤：

S1031-1、基于第一歌词字符串中的部分字符，在每个第二歌词字符串中进行匹配，以从至少一个第二歌词字符串中确定至少一个备选翻唱歌词字符串。

其中，部分字符可以为位于第一字符串的中心处、且字符串长度为设定长度的多个字符。例如，部分字符可以为作为字符串中心的10个字符。

可选地，对于任一第二歌词字符串，可以遍历该第二歌词字符串，以确定该第二歌词字符串所对应的多个字符串片段与第一歌词字符串中的部分字符的相似度；从而将多个字符串片段中相似度满足第一预设条件的字符串片段确定为备选翻唱歌词字符串。

也即是，可以基于第一歌词字符串中的部分字符，对第二歌词字符串进行遍历，在遍历到任一第二歌词字符串时，即可对当前遍历到的第二字符串中的各个字符进行遍历，以对第一歌词字符串中的部分字符与第二歌词字符串所对应的多个字符串片段进行比较，以从第二歌词字符串中找到与第一歌词字符串中的部分字符相似度较高的字符串片段。

可选地，可以采用计算编辑距离的方式，来计算第二歌词字符串所对应的多个字符串片段与第一歌词字符串中的部分字符的相似度，计算出的编辑距离越小，即表明两个字符串之间的相似度越高，反之，计算出的编辑距离越大，则表明两个字符串之间的相似度越低。

需要说明的是，在计算出第一歌词字符串中的部分字符与多个第二歌词字符串各自对应的多个字符串片段之间的编辑距离后，即可基于计算出的编辑距离，将编辑距离的取值大于设定阈值的字符串片段作为备选翻唱歌词字符串，或者，可以基于计算出的编辑距离，按照编辑距离从小到大的顺序，对多个字符串片段进行排序，以将排序结果位于预设位置之前的字符串片段作为备选翻唱歌词字符串。

参见下表1，以第一歌词字符串中的部分字符为“你真的懂唯一的定义并不简单如呼吸”为例，表1中即展示出了该字符串对应的多个备选翻唱歌词字符串：

表1

可选地，对于对应编辑距离取值在不同取值区间的备选翻唱歌词字符串，可以将取值在不同取值区间的编辑距离所对应的备选翻唱歌词字符串记录在不同的表格中，例如，可以将编辑距离小于2的备选翻唱歌词字符串记录在候选列表1中，将编辑距离大于等于2而小于4的备选翻唱歌词字符串记录在候选列表2中，以便后续可以对不同候选列表中所记录的备选翻唱歌词字符串采用不同的处理方式。

需要说明的是，可以在遍历过程中，即完成对备选翻唱歌词字符串的存储。以备选翻唱歌词字符串为与第一歌词字符串中的部分字符的编辑距离小于4的字符串片段为例，在遍历一个翻唱音频数据对应的第二歌词字符串的过程中，如果遍历到了编辑距离小于2的字符串片段，即可将该字符串片段作为备选翻唱歌词字符串记录到候选列表1中，进而继续遍历下一个字符串片段；如果遍历到了编辑距离大于等于2而小于4的字符串片段，则可以将该字符串片段作为备选翻唱歌词字符串记录到候选列表2中，进而继续遍历下一个字符串片段；如果遍历到了编辑距离大于等于4的字符串片段，则认为该字符串片段不满足相似度要求，无需对该字符串片段进行记录，而是直接遍历下一个字符串片段即可。在一个备选翻唱音频数据对应的第二歌词字符串遍历完成的情况下，即可继续遍历下一个备选翻唱音频数据对应的第二歌词字符串，直至多个备选翻唱音频数据对应的第二歌词字符串均遍历完成，至此，即完成备选翻唱歌词字符串的获取。

需要说明的是，采用计算编辑距离的方式来计算两个字符串之间的相似度仅为一种示例性方式，在更多可能的实现方式中，还可以采用其他方式来计算两个字符串之间的相似度，例如，可以采用Difflib模糊匹配的方式来计算两个字符串之间的相似度，本公开对具体采用哪种方式不加以限定。

S1031-2、按照第一歌词字符串的字符串长度，对至少一个备选翻唱歌词字符串进行扩展，得到至少一个待匹配歌词字符串。

在一种可能的实现方式中，对于任一备选翻唱歌词字符串，可以在备选翻唱歌词字符串所对应的第二歌词字符串中，获取以备选翻唱歌词字符串为中心、且字符串长度与第一歌词字符串的长度一致的歌词字符串，作为备选翻唱歌词字符串对应的待匹配歌词字符串。

也即是，可以在备选翻唱歌词字符串所对应的第二歌词字符串中，以备选翻唱歌词字符串为中心，分别向前向后进行字符扩展，以得到与第一歌词字符串的长度一致的待匹配歌词字符串。

需要说明的是，在基于备选翻唱歌词字符串进行字符串扩展的过程中，可能出现扩展到极限也无法匹配第一歌词字符串的长度的情况，此时，仅扩展至字符串无法扩展为止即可。例如，对于长度为30个字符的第一歌词字符串，若备选翻唱歌词字符串的长度为10个字符，且备选翻唱歌词字符串位于第二歌词字符串的尾部部分，距离第二歌词字符串结尾仅有7个字符，则在基于备选翻唱歌词字符串进行字符串扩展时，仅需在备选翻唱歌词字符串的基础上，向前扩展10个字符，向后扩展7个字符即可，最终扩展得到的待匹配歌词字符串的长度为27个字符。

可选地，若上述步骤S1031-1中将取值在不同取值区间的编辑距离所对应的备选翻唱歌词字符串记录在了不同的表格中的话，则可以仅基于对应编辑距离取值较小的表格中所记录的备选翻唱歌词字符串进行字符串扩展即可。

仍以候选列表1中记录的是编辑距离小于2的备选翻唱歌词字符串，候选列表2中记录的是编辑距离大于等于2而小于4的备选翻唱歌词字符串为例，则可以仅基于候选列表1中的备选翻唱歌词字符串来进行字符串扩展即可。

需要说明的是，在通过上述过程获取到待匹配歌词字符串之后，即可确定每个待匹配歌词字符串与第一歌词字符串的相似度。

在一种可能的实现方式中，对于任一待匹配歌词字符串，可以基于该待匹配歌词字符串与第一歌词字符串之间的编辑距离，确定该待匹配歌词字符串与第一歌词字符串的相似度。

需要说明的是，为避免待匹配歌词字符串长度与第一歌词字符串长度不等带来的编辑距离的增加，以对待匹配歌词字符串与第一歌词字符串的相似度确定过程造成影响，需要减去待匹配歌词字符串与第一歌词字符串不等的长度，以保证所确定出的待匹配歌词字符串与第一歌词字符串的相似度的准确性。

可选地，可以确定第一歌词字符串与该待匹配歌词字符串的字符串长度差值，以将编辑距离与字符串长度差值之差，确定为待匹配歌词字符串与第一歌词字符串的相似度。也即是，可以通过如下公式(1)，来确定该待匹配歌词字符串与第一歌词字符串的相似度：

D_ls＝D_Ls-(L_cover-L_trans) (1)

其中，D_Ls表示待匹配歌词字符串与第一歌词字符串的编辑距离，L_cover表示第一歌词字符串的长度，L_trans表示待匹配歌词字符串的长度，D_ls表示修正后的编辑距离，也即是待匹配歌词字符串与第一歌词字符串的相似度。

S1031-3、基于每个待匹配歌词字符串与第一歌词字符串的相似度，从至少一个待匹配歌词字符串中确定与第一歌词字符串匹配的目标翻唱歌词字符串。

在一种可能的实现方式中，可以将至少一个待匹配歌词字符串中与第一歌词字符串的相似度满足第二预设条件的待匹配歌词字符串确定为目标翻唱歌词字符串。

例如，可以将相似度(也即是修正后的编辑距离)小于第一歌词字符串长度的三分之一的待匹配歌词字符串，确定为目标翻唱歌词字符串。

上述匹配第一歌词字符串和目标翻唱歌词字符串的过程采取两步匹配方式，首先通过中心匹配的方式，基于部分字符实现对相似字符串的粗略定位，进而通过对第二歌词字符串进行片段匹配切分的方式，基于粗略定位的结果进行细化的匹配，放宽了匹配条件，使得原唱音频片段可以与翻唱音频片段中的改编部分歌词进行匹配，另外，不对时间戳进行强制匹配要求也可以让原唱音频片段与翻唱音频片段中可能存在多次副歌的情况进行多次匹配，进一步增加备选的训练数据量。经实验表明，通过上述匹配方式，对于2000首原唱音频数据与6000首翻唱音频数据，总计可以产生15万个翻唱数据对，相对原唱音频数据和翻唱音频数据的数量扩大了近20倍，极大地扩充了用于训练特征提取规则的训练数据的数据量。

S1032、按照目标翻唱歌词字符串的起止位置所对应的时间戳，对目标翻唱歌词字符串对应的备选翻唱音频数据进行片段切分，得到与原唱音频片段匹配的翻唱音频片段。

需要说明的是，由于第二歌词字符串中的每个字符均已记录了时间戳，而目标翻唱歌词字符串作为第二歌词字符串的一部分，目标翻唱歌词字符串中每个字符的时间戳也是已知的，因而即可获取到目标翻唱歌词字符串的起止位置所对应的时间戳，以便可以按照所获取到的时间戳来进行片段切分，以获取与原唱音频片段匹配的翻唱音频片段。

需要说明的是，当获取到一个原唱音频片段对应的翻唱音频片段之后，即可通过如上述过程同理的步骤，来获取下一个原唱音频片段对应的翻唱音频片段。在多个备选翻唱音频数据中重复上述操作，以获取每个原唱音频片段对应的翻唱音频片段，每个原唱音频片段与其对应的翻唱音频片段均可组成翻唱数据对，以作为训练特征提取规则的训练数据。

参见图2，图2是本公开根据一示例性实施例示出的一种音频数据处理方法的流程示意图，如图2所示，在基于原唱音频数据进行原唱片段切分，并基于翻唱音频数据完成翻唱歌词获取之后，即可通过中心匹配定位的方式，实现对与原唱音频片段的字符相似的字符串的粗略定位，从而通过对翻唱歌词字符串进行片段匹配切分的方式，基于粗略定位的结果进行细化的匹配，以获取与原唱音频片段匹配的翻唱音频片段，得到可以作为训练数据的翻唱数据对。

通过本公开所提供的方案，对于一批原唱音频数据和翻唱音频数据，只需要提供包含每句歌词时间戳的歌词文本，即可自动化匹配生成翻唱数据对，匹配歌词无需严格要求与原唱歌曲时长一致，能较好利用翻唱音频数据中存在原唱音频数据的DJ快速版本或抒情慢速版本的情况，更加贴近实际业务需求。

在介绍了本公开示例性实施方式的音频数据处理方法之后，接下来，对本公开示例性实施方式的音频数据处理装置以及用于实现音频数据处理方法的计算设备的结构进行说明。

参见图3，图3是本公开根据一示例性实施例示出的一种音频数据处理装置的框图，该装置包括：

切分模块301，用于对原唱音频数据进行片段切分，得到原唱音频数据对应的多个原唱音频片段；

获取模块302，用于获取每个原唱音频片段的第一歌词字符串以及至少一个备选翻唱音频数据中每个备选翻唱音频数据的第二歌词字符串；

确定模块303，用于对于任一原唱音频片段，基于第一歌词字符串，在每个第二歌词字符串中进行匹配，以从至少一个备选翻唱音频数据中确定与原唱音频片段匹配的翻唱音频片段。

在本公开的一个实施例中，确定模块303，在用于基于第一歌词字符串，在每个第二歌词字符串中进行匹配，以从至少一个备选翻唱音频数据中确定与原唱音频片段匹配的翻唱音频片段时，用于：

在本公开的一个实施例中，确定模块303，在用于基于第一歌词字符串在每个第二歌词字符串中进行匹配，以从至少一个第二歌词字符串中确定出与第一歌词字符串匹配的目标翻唱歌词字符串时，用于：

在本公开的一个实施例中，确定模块303，在用于基于第一歌词字符串中的部分字符，在每个第二歌词字符串中进行匹配，以从至少一个第二歌词字符串中确定至少一个备选翻唱歌词字符串时，用于：

在本公开的一个实施例中，确定模块303，在用于按照第一歌词字符串的字符串长度，对至少一个备选翻唱歌词字符串进行扩展，得到至少一个待匹配歌词字符串时，用于：

在本公开的一个实施例中，确定模块303，还用于确定每个待匹配歌词字符串与第一歌词字符串的相似度。

在本公开的一个实施例中，确定模块303，在用于确定每个待匹配歌词字符串与第一歌词字符串的相似度时，用于：

在本公开的一个实施例中，确定模块303，在用于基于待匹配歌词字符串与第一歌词字符串之间的编辑距离，确定待匹配歌词字符串与第一歌词字符串的相似度时，用于：

在本公开的一个实施例中，确定模块303，在用于基于每个待匹配歌词字符串与第一歌词字符串的相似度，从至少一个待匹配歌词字符串中确定与第一歌词字符串匹配的目标翻唱歌词字符串时，用于：

在本公开的一个实施例中，切分模块301，在用于对原唱音频数据进行片段切分，得到原唱音频数据对应的多个原唱音频片段时，用于：

在本公开的一个实施例中，获取模块302，在用于获取任一原唱音频片段的第一歌词字符串时，用于：

获取原唱音频片段的歌词文本；

在本公开的一个实施例中，获取模块302，在用于获取任一备选翻唱音频数据的第二歌词字符串的获取过程包括：

获取备选翻唱音频数据的歌词文本；

应当注意，尽管在上文详细描述中提及了数据处理装置的若干模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块的特征和功能可以在一个模块中具体化。反之，上文描述的一个模块的特征和功能可以进一步划分为由多个模块来具体化。

本公开实施例还提供了一种计算机可读存储介质。图4是本公开根据一示例性实施例示出的一种计算机可读存储介质的示意图，如图4所示，该存储介质上存储有计算机程序401，该计算机程序401被处理器执行时可以执行本公开任一实施例所提供的音频数据处理方法。

本公开实施例还提供了一种计算设备，该计算设备可以包括存储器、处理器，该存储器用于存储可在处理器上运行的计算机指令，该处理器用于在执行该计算机指令时实现本公开任一实施例所提供的音频数据处理方法。参见图5，图5是本公开根据一示例性实施例示出的一种计算设备的结构示意图，该计算设备500可以包括但不限于：处理器510、存储器520、连接不同系统组件(包括存储器520和处理器510)的总线530。

其中，存储器520存储有计算机指令，该计算机指令可以被处理器510执行，使得处理器510能够执行本公开任一实施例所提供的音频数据处理方法。存储器520可以包括随机存取存储单元RAM521、高速缓存存储单元522和/或只读存储单元ROM523。该存储器520还可以包括：具有一组程序模块524的程序工具525，该程序模块524包括但不限于：操作系统、一个或多个应用程序、其他程序模块和程序数据，这些程序模块一种或多种组合可以包含网络环境的实现。

总线530例如可以包括数据总线、地址总线和控制总线等。该计算设备500还可以通过I/O接口540与外部设备550通信，该外部设备550例如可以是键盘、蓝牙设备等。该计算设备500还可以通过网络适配器560与一个或多个网络通信，例如，该网络可以是局域网、广域网、公共网络等。如图5所示，该网络适配器560还可以通过总线530与计算设备500的其他模块进行通信。

本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，程序被计算设备500的处理器510执行时，可以实现本公开任一实施例所提供的音频数据处理方法。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种音频数据处理方法，其特征在于，所述方法包括：

对原唱音频数据进行片段切分，得到所述原唱音频数据对应的多个原唱音频片段；

对于任一原唱音频片段，基于所述第一歌词字符串，在每个第二歌词字符串中进行匹配，以从所述至少一个备选翻唱音频数据中确定与所述原唱音频片段匹配的翻唱音频片段。

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一歌词字符串，在每个第二歌词字符串中进行匹配，以从所述至少一个备选翻唱音频数据中确定与所述原唱音频片段匹配的翻唱音频片段，包括：

基于所述第一歌词字符串在每个第二歌词字符串中进行匹配，以从至少一个第二歌词字符串中确定出与所述第一歌词字符串匹配的目标翻唱歌词字符串；

按照所述目标翻唱歌词字符串的起止位置所对应的时间戳，对所述目标翻唱歌词字符串对应的备选翻唱音频数据进行片段切分，得到与所述原唱音频片段匹配的翻唱音频片段。

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一歌词字符串在每个第二歌词字符串中进行匹配，以从至少一个第二歌词字符串中确定出与所述第一歌词字符串匹配的目标翻唱歌词字符串，包括：

基于所述第一歌词字符串中的部分字符，在每个第二歌词字符串中进行匹配，以从至少一个第二歌词字符串中确定至少一个备选翻唱歌词字符串；

按照所述第一歌词字符串的字符串长度，对所述至少一个备选翻唱歌词字符串进行扩展，得到至少一个待匹配歌词字符串；

基于每个待匹配歌词字符串与所述第一歌词字符串的相似度，从所述至少一个待匹配歌词字符串中确定与所述第一歌词字符串匹配的目标翻唱歌词字符串。

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一歌词字符串中的部分字符，在每个第二歌词字符串中进行匹配，以从至少一个第二歌词字符串中确定至少一个备选翻唱歌词字符串，包括：

对于任一第二歌词字符串，遍历所述第二歌词字符串，以确定所述第二歌词字符串所对应的多个字符串片段与所述第一歌词字符串中的部分字符的相似度；

将所述多个字符串片段中相似度满足第一预设条件的字符串片段确定为所述备选翻唱歌词字符串。

5.根据权利要求3所述的方法，其特征在于，所述基于每个待匹配歌词字符串与所述第一歌词字符串的相似度，从所述至少一个待匹配歌词字符串中确定与所述第一歌词字符串匹配的目标翻唱歌词字符串之前，所述方法还包括：

确定每个待匹配歌词字符串与所述第一歌词字符串的相似度。

6.根据权利要求5所述的方法，其特征在于，所述确定每个待匹配歌词字符串与所述第一歌词字符串的相似度，包括：

对于任一待匹配歌词字符串，基于所述待匹配歌词字符串与所述第一歌词字符串之间的编辑距离，确定所述待匹配歌词字符串与所述第一歌词字符串的相似度。

7.根据权利要求6所述的方法，其特征在于，所述基于所述待匹配歌词字符串与所述第一歌词字符串之间的编辑距离，确定所述待匹配歌词字符串与所述第一歌词字符串的相似度，包括：

确定所述第一歌词字符串与所述待匹配歌词字符串的字符串长度差值，将所述编辑距离与所述字符串长度差值之差，确定为所述待匹配歌词字符串与所述第一歌词字符串的相似度。

8.一种音频数据处理装置，其特征在于，所述装置包括：

切分模块，用于对原唱音频数据进行片段切分，得到所述原唱音频数据对应的多个原唱音频片段；

确定模块，用于对于任一原唱音频片段，基于所述第一歌词字符串，在每个第二歌词字符串中进行匹配，以从所述至少一个备选翻唱音频数据中确定与所述原唱音频片段匹配的翻唱音频片段。

9.一种计算设备，其特征在于，所述计算设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1至7中任一项所述的音频数据处理方法所执行的操作。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有程序，所述程序被处理器执行如权利要求1至7中任一项所述的音频数据处理方法所执行的操作。