CN111428074A

CN111428074A - 音频样本生成方法、装置、计算机设备及存储介质

Info

Publication number: CN111428074A
Application number: CN202010199777.0A
Authority: CN
Inventors: 缪畅宇
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-07-17
Anticipated expiration: 2040-03-20
Also published as: CN111428074B

Abstract

本申请公开了一种音频样本生成方法、装置、计算机设备及存储介质，涉及音频技术领域。该方法包括：根据音频属性特征对音频库中的音频进行聚类，得到音频类簇，音频属性特征包括至少两个不同维度的属性特征；根据音频类簇中的音频生成候选音频对，候选音频对中包含两段音频；根据音频库中音频的历史播放记录，确定候选音频对中的音频正样本对和音频负样本对，音频正样本对中的音频属于同一音频类簇，音频负样本对中的音频属于不同音频类簇。通过融合音频多维度的属性特征进行聚类，并基于用户的音频播放记录筛选正负样本对，使生成音频样本对能够从多角度反映音频之间的相似性，在实现自动生成音频样本对的同时，提高了生成的音频样本对的质量。

Description

音频样本生成方法、装置、计算机设备及存储介质

技术领域

本申请实施例涉及音频技术领域，特别涉及一种音频样本生成方法、装置、计算机设备及存储介质。

背景技术

音乐推荐是音频播放应用程序中的常用功能，能够根据用户的喜好向用户推荐音乐。

在一种实现音乐推荐的方式中，音频播放应用程序的后台服务器通过音频匹配模型，对曲库中的音乐进行匹配，从而确定出匹配程度较高的音乐，进而根据匹配结果进行音乐推荐。在使用音频匹配模型进行音频匹配之前，需要使用音频样本进行模型训练，而模型训练质量与音频样本密切相关。

相关技术中，通过常用人工标注的方式生成音频样本，即由专门人员确定出相似度较高的音乐，以及相似度较低的音乐。然而，采用上述方式生成的音频样本的效率较低，且质量较差(过于主观)，进而导致模型训练质量较差，影响后续利用音频匹配模型进行音频匹配的准确性。

发明内容

本申请实施例提供了一种音频样本生成方法、装置、计算机设备及存储介质，可以提高音频样本的生成效率以及质量，从而提高利用音频样本训练得到的模型的质量。所述技术方案如下：

一方面，本申请实施例提供了一种音频样本生成方法，所述方法包括：

根据音频属性特征对音频库中的音频进行聚类，得到音频类簇，所述音频属性特征包括至少两个不同维度的属性特征，且不同音频类簇中音频的特征相似度低于同一音频类簇中音频的特征相似度；

根据所述音频类簇中的音频生成候选音频对，所述候选音频对中包含两段音频，且所述两段音频属于同一音频类簇或不同音频类簇；

根据所述音频库中音频的历史播放记录，确定所述候选音频对中的音频正样本对和音频负样本对，其中，所述音频正样本对中的音频属于同一音频类簇，所述音频负样本对中的音频属于不同音频类簇。

另一方面，本申请实施例提供了一种音频样本生成装置，所述装置包括：

聚类模块，用于根据音频属性特征对音频库中的音频进行聚类，得到音频类簇，所述音频属性特征包括至少两个不同维度的属性特征，且不同音频类簇中音频的特征相似度低于同一音频类簇中音频的特征相似度；

生成模块，用于根据所述音频类簇中的音频生成候选音频对，所述候选音频对中包含两段音频，且所述两段音频属于同一音频类簇或不同音频类簇；

确定模块，用于根据所述音频库中音频的历史播放记录，确定所述候选音频对中的音频正样本对和音频负样本对，其中，所述音频正样本对中的音频属于同一音频类簇，所述音频负样本对中的音频属于不同音频类簇。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的音频样本生成方法。

另一方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的音频样本生成方法。

另一方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行如上述方面所述的音频样本生成方法。

本申请实施例提供的技术方案带来的有益效果至少包括:

本申请实施例中，首先根据不同维度的音频属性特征，对音频库中具有相似特征的音频进行聚类得到音频类簇，然后对属于相同或不同音频类簇进行组合，得到若干候选音频对，进而基于音频的历史播放记录，从候选音频对中筛选出音频正样本对和音频负样本对，用于后续模型训练；通过融合音频多维度的属性特征进行聚类，并基于用户的音频播放记录筛选正负样本对，使生成音频样本对能够从多角度反映音频之间的相似性(包括音频本身属性和用户收听习惯)，在实现自动生成音频样本对的同时，提高了生成的音频样本对的质量，进而提高了后续基于音频样本进行模型训练的质量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的音频样本生成方法的原理示意图；

图2示出了本申请一个示例性实施例提供的实施环境的示意图；

图3示出了本申请另一个示例性实施例提供的实施环境的示意图；

图4示出了本申请一个示例性实施例提供的音频样本生成方法的流程图；

图5示出了本申请另一个示例性实施例提供的音频样本生成方法的流程图；

图6是一个示例性实施例提供的音频特征获取过程的实施示意图；

图7是一个示例性实施例提供的音频样本生成过程的实施示意图；

图8是一个示例性实施例提供的筛选音频正样本对过程的流程图；

图9是一个示例性实施例提供的划分音频共现集合过程的实施示意图；

图10是一个示例性实施例提供的第一评分分布的示意图；

图11是一个示例性实施例提供的筛选音频负样本对过程的流程图；

图12是本申请一个示例性实施例提供音频样本生成装置的结构框图；

图13示出了本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

为了方便理解，下面对本申请实施例中涉及的名词进行说明。

聚类：一种将具有相似特征(或特性)的对象进行聚集的过程被称为聚类，而经过聚类得到的具有相似特征(或特性)的对象集合则被称为类簇。本申请实施例中的聚类过程则是指根据音频在至少两个属性维度上的特征，对相似音频进行聚集的过程。

常用的聚类算法包括K均值(K-Means)聚类算法、均值漂移聚类算法、基于密度的聚类算法、谱聚类算法、层次聚类算法、最大期望(Expectation-Maximization，EM)聚类算法、高斯混合模型(Mixture Of Gaussian，MOG)聚类算法。

样本：指用于模型训练和测试的对象，该对象包含标注信息，该标注信息为模型输出结果的参考值(或称为真值或监督值)，其中，标注信息为1的样本为正样本，标注信息为0的样本为负样本。本申请实施例中的样本指用于训练音频匹配模型的音频样本，且该音频样本采用样本对的形式，即音频样本中包含两段音频。可选的，当音频样本(对)的标注信息为1时，表明音频样本对中的两段音频为相似音频，即音频正样本对；当音频样本(对)的标注信息为0时，表明音频样本对中的两段音频不是相似音频，即音频负样本对。

数据分布：本申请实施例中数据分布是指根据不同评分(或评分区间)下音频对的数量分布情况。在一个示意性的例子中，根据各个音频对的评分，确定出10个评分区间，并统计各个评分区间内音频对的数量，从而得到评分的数据分布。

为了提高音频样本(用于训练音频匹配模型)的样本质量以及样本生成效率，如图1所示，本申请实施例提供的音频样本生成方法中，计算机设备首先根据音频库11中音频在不同维度上的属性特征，对音频进行多维度聚类，得到若干音频类簇。属于同一音频类簇的音频具有相似的音频属性特征，而属于不同音频类簇的音频具有不同(与同一音频类簇中的音频相比)的音频属性特征，因此可以基于音频类簇初步生成音频正样本对和音频负样本对。

初步生成的音频正样本对中包含大量低质量的正样本对(比如由不同演唱者演唱的同一段音频所构成的样本对)，类似的，初步生成的音频负样本对中包含大量低质量的负样本对(比如由风格完全不同的两段音频所构成的样本对)，因此直接利用初步生成的音频样本对进行模型训练，将影响模型训练质量。

为了进一步提高音频样本的质量，生成音频类簇后，计算机设备进一步从播放行为数据库12中获取音频的历史播放记录，从而基于相似音频播放行为的共现性(即用户连续播放的音乐具有相似性，但是并非完全相同)，对初步生成的音频样本对进行筛选，得到高质量的音频样本13。

整个生成音频样本的过程由计算机设备自动完成，且基于音频库中的海量音频能够生成大量音频样本，提高了音频样本生成效率和数量；同时，在生成音频样本过程中不仅考虑了多维度的音频属性特征，还结合了用户行为特征，即融合了多角度的相似度表达得到音频之间的相似性，避免人为生成音频样本的主观性和单一性，提高了音频样本的质量。

本申请实施例提供的音频样本生成方法可以应用音乐推荐场景。在该场景下，服务器采用本申请实施例提供的音频样本生成方法对曲库中的音乐进行聚类，然后基于聚类结果和音乐的历史播放记录，生成音频样本对，从而利用该音频样本对训练音乐匹配模型，该音乐匹配模型用于确定两首音乐的匹配程度(或相似程度)。进一步的，进行音乐推荐时，服务器获取用户帐号的音乐播放记录，从而利用训练得到音乐匹配模型，从曲库中筛选出与音乐播放记录中音乐相似的推荐音乐，将该推荐音乐推荐给用户。

采用上述方式生成的音乐样本对，由于综合考虑了音乐本身的多维度属性特征，并融合了用户收听音乐是的行为特征，因此音乐样本对中音乐相似性的描述更加准确，即音乐样本对的质量更高，相应的，基于该音乐样本对训练得到的音乐匹配模型的质量更高，进而提高了后续音乐推荐的准确性。

当然，上述应用场景仅为示意性说明，本申请实施例提供的方法可以应用于其他需要使用到音频样本的音频匹配场景(比如音频检索、音频比对等等)，本实施例对此不作限定。

本申请实施例提供的音频样本生成方法可以应用于诸如计算机、工作站、服务器或服务器集群等具有较强数据处理能力的计算机设备。

请参考图2，其示出了本申请一个示例性实施例提供的实施环境的示意图。该实施环境中包括终端210和服务器220，其中，终端210与服务器220之间通过通信网络进行数据通信，可选地，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。

终端210是安装有音频播放应用程序的电子设备。可选的，终端210可以是平板电脑、膝上便携式笔记本电脑等移动终端，也可以是台式电脑、投影式电脑等终端，本申请实施例对此不做限定。

在一些实施例中，终端210通过用户账号登录音频播放应用程序后，即可通过音频播放应用程序播放本地存储的音乐或者播放网络音乐。

在其他一些可能的实施方式中，终端210也可以通过用户账号登录音频播放网站，并通过音频播放网站播放在线音乐，本申请实施例对此不作限定。

服务器220可以实现为一台服务器，也可以实现为一组服务器构成的服务器集群，其可以是物理服务器，也可以实现为云服务器。在一些实施例中，服务器220是音频播放平台(提供音频播放服务的应用程序或者网站)的后台服务器。比如，服务器220是终端210中安装的音频播放应用程序的后台服务器。

在一种可能的实施方式中，如图2所示，终端210中安装有音频播放应用程序，使用音频播放应用程序播放音乐过程中，终端210将音频播放记录同步至音频播放应用程序的服务器220，相应的，服务器220将用户帐号与音频播放记录进行关联存储。基于大量用户帐号对应的音频播放记录，以及音频库中音频的多维度属性信息，服务器220从音频库中确定出用于训练音频匹配模型的音频样本，从而利用音频样本对音频匹配模型进行训练。进一步的，服务器220根据训练得到的音频匹配模型，确定与用户历史播放音乐相似的推荐音乐，并将相似音乐推荐给相应的用户帐号，以便终端210通过音频播放应用程序播放推荐音乐。

针对服务器220的设置方式，在一种可能的实施方式中，服务器220是由行为数据服务器221，音频库服务器222和推荐服务器223构成的服务器集群，其中，行为数据服务器221用于对各个终端210上传的音频播放记录进行存储，音频库服务器222用于响应终端210的音频播放请求，并将音频数据发送至终端210，推荐服务器223则用于进行音乐推荐。在模型训练过程中，推荐服务器223从音频库服务器222处获取音频的多维度属性信息，并从行为数据服务器221处获取各个用户帐号对应的历史播放记录，从而确定出音频样本，进而进行模型训练。

当然，上述实施例仅是对实施环境的示意性说明，在其他可能场景下，也可以由其他可能的计算机设备实现音频样本生成以及模型训练，本申请实施例对此并不构成限定。

为了方便表述，下述各个实施例以音频样本生成由计算机设备执行为例进行说明。

请参考图4，其示出了本申请一个示例性实施例提供的音频样本生成方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤401，根据音频属性特征对音频库中的音频进行聚类，得到音频类簇，音频属性特征包括至少两个不同维度的属性特征，且不同音频类簇中音频的特征相似度低于同一音频类簇中音频的特征相似度。

其中，音频库中存储有大量音频，该音频可以包括歌曲、纯音乐、交响曲、钢琴曲或其他演奏乐曲等等，本申请实施例并不对音频库中音频的类型进行限定。可选的，该音频库为音频播放应用程序的曲库。

可选的，音频具有各自的音频属性特征，该音频属性特征可以是音频自身的属性特征，也可以是人为赋予的属性特征，且同一段音频可以包含多个不同维度的属性特征。

在一种可能的实施方式中，音频的音频属性特征包括如下至少一种：文本特征、音频特征、情感特征和场景特征。可选的，文本特征可以包括音频本身的文本特征(比如歌词、作曲者、作词者、流派等等)，也可以包括人为赋予的文本特征(比如评论)；音频特征用于表征音频本身的旋律、节奏、时长等音频特性；情感特征用于表征音频所表达的情感；场景特征用于表征音频所使用的播放场景。当然，除了上述音频属性特征外，音频还可以包括其他维度的属性特征，本实施例对此不作限定。

本申请实施例中，基于音频属性特征进行音频聚类的过程可以被称为初筛，用于初步筛选出音频属性特征相似的音频。为了提高初筛质量，计算机设备根据至少两个不同维度的属性特征进行聚类，避免基于单一维度属性特征进行聚类造成的聚类偏差。

经过聚类后，计算机设备得到若干音频类簇，同一音频类簇中的音频具有相似的音频属性特征(与其它音频类簇中的音频相比)。其中，音频类簇的数量可以是在聚类阶段预先设置(可以基于经验值)，避免聚类过于泛化或者过于细化。

步骤402，根据音频类簇中的音频生成候选音频对，候选音频对中包含两段音频，且两段音频属于同一音频类簇或不同音频类簇。

由于同一音频类簇中的音频具有相似音频属性特征，而不同音频类簇中的音频在音频属性特征上存在较大差异，因此计算机设备可以基于音频类簇初步生成音频样本，其中，每一条音频样本是由两首音频构成的候选音频对。

由于音频库中包含大量音频，因此基于音频类簇生成候选音频对的数量也十分庞大，比如，对于包含k段音频的音频库，生成的候选音频对的数量为C(k，2)。然而，虽然基于音频类簇能够生成海量候选音频对，但是并非所有候选音频对均能够用于后续模型训练。比如，当候选音频对中音频为同一歌曲(比如不同歌手演唱的同一歌曲)，或者，候选音频对中的音频完全不同(比如一首英国民谣，一首唢呐曲)时，将该候选音频对作为模型训练样本过于简单，无法训练得到高质量的模型。

为了提高音频样本的质量，本申请实施例中，计算机设备通过精筛，进一步从候选音频对中筛选出高质量的音频对作为音频样本。

步骤403，根据音频库中音频的历史播放记录，确定候选音频对中的音频正样本对和音频负样本对，其中，音频正样本对中的音频属于同一音频类簇，音频负样本对中的音频属于不同音频类簇。

通过分析发现，用户的音频播放行为与音频之间的相似度存在密切关系，比如用户经常会连续播放相似度较高，但是并不完全相同的音频。因此本申请实施例中，计算机设备基于音频的历史播放记录，对生成的候选音频对进行精筛，得到音频样本对。其中，精筛得到的音频样本对包括由相似音频构成的音频正样本对(从由同一音频类簇中音频构成的候选音频对中筛选得到)，以及由差异音频构成的音频负样本对(从由不同音频类簇中音频构成的候选音频对中筛选得到)。

可选的，该历史播放记录为各个用户帐号下的音频播放播放记录，其可以是根据播放先后顺序形成的音频播放列表。比如，该历史播放记录可以是音频播放应用程序服务器收集的各个用户的歌曲播放记录。

在一些实施例中，基于历史播放记录筛选出的音频正样本对和音频负样本对之间的区分度较低，从而提高后续基于音频样本对训练得到模型的质量。

综上所述，本申请实施例中，首先根据不同维度的音频属性特征，对音频库中具有相似特征的音频进行聚类得到音频类簇，然后对属于相同或不同音频类簇进行组合，得到若干候选音频对，进而基于音频的历史播放记录，从候选音频对中筛选出音频正样本对和音频负样本对，用于后续模型训练；通过融合音频多维度的属性特征进行聚类，并基于用户的音频播放记录筛选正负样本对，使生成音频样本对能够从多角度反映音频之间的相似性(包括音频本身属性和用户收听习惯)，在实现自动生成音频样本对的同时，提高了生成的音频样本对的质量，进而提高了后续基于音频样本进行模型训练的质量。

在一种可能的实施方式中，生成音频正负样本对后，计算机设备根据音频正样本对和音频负样本对训练音频匹配模型，该音频匹配模型用于根据输入音频输出音频之间的匹配程度。

在一些实施例中，音频正样本对对应的样本标签为1，音频负样本对对应的样本标签为0，而音频匹配模型的输入的两段音频，输出为0至1的音频匹配度。模型训练过程中，计算机设备将音频样本对中的两段音频输入音频匹配模型，由音频匹配模型对两段音频进行特征提取，并根据音频各自对应的特征输出音频匹配度。

可选的，计算机设备将音频样本的样本标签作为模型输出的监督，通过反向传播算法或者梯度下降算法，对模型中的网络权重进行调整。当模型的损失满足收敛条件时，即完成模型训练。

在一种可能的实施方式中，计算机设备基于音频的文本特征和音频特征对音频进行聚类，进而根据历史播放记录中音频的共现性确定出高质量的音频正负样本对，下面采用示例性的实施例进行说明。

请参考图5，其示出了本申请另一个示例性实施例提供的音频样本生成方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤501，获取音频的文本特征和音频特征。

通常情况下，用户期望获取的推荐音频通常是与自身喜好音频具有相似演唱者、作曲者、流派、歌词、评价，或者，与自身喜好音频具有相似的旋律、节奏、和弦，因此，本申请实施例中，计算机设备基于文本特征和音频特征这两个维度的属性特征，对音频库中的音频进行聚类。

在一些实施例中，计算机设备获取音频库中所有音频的文本特征和音频特征，或者，计算机设备获取部分音频(比如抽样获取音频库中50％的音频)的文本特征和音频特征。

为了便于后续进行聚类，音频的文本特征和音频特征均采用向量化表示。在一种可能的实施方式中，计算机设备获取文本特征可以包括如下步骤。

一、获取音频的文本数据，所述文本数据包括作曲者、作词者、演唱者、音频风格、音频年代、演奏乐器、歌词和评论中的至少一种。

在一些实施例中，音频库中收录的音频包含对应的文本数据(或称为文字描述信息)，该文本数据可以包括音频的作曲者、作词者、演唱者、音频风格、音频年代、演奏乐器、歌词和评论中的至少一种。在获取音频的文本特征时，计算机设备即从音频库中读取文本数据。

可选的，为了保证后续文本特征向量化的统一性，计算机设备获取文本数据的种类相同。比如，计算机设备获取的文本数据包括作曲者、作词者、演唱者、音频风格、演奏乐器、歌词和热门评论。

二、对文本数据进行向量化编码处理，得到文本特征。

针对文本数据的向量化编码过程，在一种可能的实施方式中，计算机设备首先对获取到的文本数据进行分词处理，得到分词结果，并基于词向量库，确定分词结果中各个分词对应的词向量，进而根据若干个词向量得到文本数据对应的文本特征。

其中，计算机设备可以采用结巴分词、自然语言处理(Natural LanguageProcessing，NLP)等分词算法对文本数据进行分词；并且，计算机设备可以采用词汇-向量(word to vector，w2v)预先训练得到词向量库，本申请实施例对分词以及词向量的转化过程不作限定。

在一种可能的实施方式中，对于获取到的若干个词向量，计算机设备采用词向量加权平均的方式得到文本特征，或者采用预训练的基于Transformer的双向编码器表征(Bidirectional Encoder Representation from Transformers，BERT)模型或生成性预训练(Generative Pre-Training，GPT)模型得到文本特征，本申请实施例对此不作限定。

可选的，各个音频对应的文本特征的向量维度相同。

示意性的，计算机设备获取到文本数据W_x1，对文本数据进行分词得到n个分词{W_x1_1,W_x1_2,…,W_x1_n}，通过对n个分词进行词向量化处理，并对词向量进行编码，得到文本特征V_x1。

与获取文本特征相似的，在一种可能的实施方式中，计算机设备获取音频特征可以包括如下步骤。

一、获取音频中预设音频片段的音频数据，预设音频片段包括前奏片段、高潮片段和尾奏片段中的至少一种。

通常情况下，相似音频中部分音频片段在节奏、旋律等方面具有相似性，因此，计算机设备可以提取音频中预设音频片段的音频数据，从而基于该音频数据确定音频特征，进而将音频特征作为后续音频聚类的一个属性维度。

可选的，该音频数据为预设音频片段的频谱图、时频图或其他音频谱图，本实施例对此不作限定。

在一些实施例中，由于音频中的高潮片段最具有代表性，因此计算机设备可以获取音频中高潮片段的音频数据。

针对音频中高潮片段的识别方式，在一种可能的实施方式中，预先通过人工方式对音频库中音频的高潮片段进行标注，计算机设备即通过该标注识别高潮片段。

在另一种可能的实施方式中，计算机设备对音频进行采样，得到音频的采样数据，该采样数据包括采样时间以及信号强度。基于音频的音符时值和节奏型，计算机设备将采样数据划分为多个音频段落，从而确定各个音频段落对应的和旋。基于音频的和旋走向以及音频段落的和旋，计算机设备确定出高潮片段。

可选的，计算机设备还可以根据音频的歌词对高潮片段进行修正(比如修正高潮片段包括的和旋周期)，以此提高识别出的高潮片段的准确性。

当然，除了获取高潮片段的音频数据外，计算机设备还可以获取前奏片段或尾奏片段的音频数据，本实施例仅以高潮片段为例进行说明，但对此不作限定。

二、对音频数据进行向量化编码处理，得到音频特征。

为了便于后续聚类，对于获取到的音频数据，计算机设备对音频数据进行向量化编码(即将音频数据压缩为向量)，得到音频数据对应的音频特征。

关于音频数据向量化的过程，在一种可能的实施方式中，如图6所示，计算机设备根据时间对音频数据61进行分组，得到多个音频时间序列62，然后对各个音频时间序列62进行时频变换，得到音频频域序列63，并对音频频域序列63进行采样，得到多个频域向量64。

计算机设备沿时间方向对多个频域向量64进行时域特性处理，得到时域特征处理结果65(向量化结果)；沿频域方向对多个频域向量64进行频域特性处理，得到频域特征处理结果66(向量化结果)。进一步的，计算机设备对时域特征处理结果65和频域特征处理结果66进行拼接，得到音频数据61的音频特征67(能够表征音频数据的时域特征和频域特征)。

可选的，计算机设备根据利用时域卷积核对音频时间序列进行卷积处理，得到时域卷积向量(即时域特征处理结果)，利用频域卷积核对频域向量进行卷积处理，得到频域卷积向量(即频域特征处理结果)。其中，时域卷积向量包括多个元素，时域卷积向量的每个元素用于表示进行卷积前与一个时域卷积核大小对应的多个时间序列分组之间的关联关系，时域卷积核的行向量的大小与频域向量的大小相同；频域卷积向量包括多个元素，频域卷积向量的每个元素用于表示进行卷积前与一个频域卷积核大小对应的多个频域向量之间的关联关系，频域卷积核的列向量的大小与频域向量的大小相同。

需要说明的是，上述实施例仅以音频特征融合时频域特征为例进行说明，计算机设备还可以通过其他方式提取其他维度的音频特征，本实施例对此并不做限定。

步骤502，根据文本特征和音频特征生成音频特征向量。

在一些实施例中，计算机设备可以对文本特征和音频特征进行拼接(特征融合)，得到音频特征向量。

比如，计算机设备根据获取到的文本特征X'1和音频特征X'2，生成音频特征向量X'＝[X'1,X'2]。

示意性的，如图7所示，对于音频库701中的音频，计算机设备提取音频的文本数据701，并对文本数据701进行向量化，得到文本特征702；提取音频的音频数据703，并对音频数据703进行向量化，得到音频特征704。计算机设备进一步对文本特征702和音频特征704进行特征融合，得到音频特征向量705。

步骤503，根据音频特征向量对音频库中的音频进行聚类，得到音频类簇。

在一些实施例中，计算机设备根据音频特征向量，通过预设聚类算法对音频进行聚类，得到若干个音频类簇。本申请实施例并不对具体的音频聚类算法进行限定。

在一个示例性的例子中，计算机设备采用K-Means算法对音频进行聚类，其过程为：1、确定K个候选簇中心；2、计算音频特征向量与各个候选簇中心之间的向量距离；3、将音频划分至最小向量距离对应候选簇中心所属的候选类簇；4、完成所有音频划分后，根据候选类簇中包含的音频特征向量，确定各个候选类簇的聚类中心；5、若候选簇中心与聚类中心的距离大于距离阈值，将聚类中心作为新的候选簇中心，并重新进行聚类；6、若候选簇中心与聚类中心的距离小于距离阈值，停止聚类。

示意性的，如图7所示，计算机设备基于音频特征向量705对音频进行聚类后，得到k个音频类簇706。

步骤504，根据同一音频类簇中的音频生成第一候选音频对，并根据不同音频类簇中的音频生成第二候选音频对。

完成音频聚类后，计算机设备从同一音频类簇中选取两段音频，得到第一候选音频对(即候选音频正样本对)，从不同音频类簇中选取分别选取一段音频，得到第二候选音频对(即候选音频负样本对)。

示意性的，如图7所示，计算机设备从同一音频类簇706中选取两段音频，得到第一候选音频对707；从不同音频类簇706中选取两段音频，得到第二候选音频对708。

步骤505，根据历史播放记录，从第一候选音频对中确定音频正样本对。

在一种可能的实施方式中，计算机设备基于相似音频播放行为的共现性，根据不同用户的历史播放记录，从第一候选音频对中筛选出音频正样本对。如图8所示，本步骤可以包括如下步骤。

步骤505A，获取历史播放记录中的音频播放序列，音频播放序列用于表征用户帐号下音频的先后播放顺序，且不同音频播放序列对应不同用户帐号。

在一种可能的实施方式中，计算机设备从行为数据服务器221中获取各个用户账号对应的历史播放记录，并从中获取指示音频选后播放顺序的音频播放序列。其中，该音频播放序列可以表征预定时长内(比如7天内)音频的先后播放顺序。

在一个示意性的例子中，如图9所示，计算机设备获取到用户账号“张三”对应的音频播放序列为：[s1，s2，s3，s4，s5，s6，…，sn]。

步骤505B，对音频播放序列进行划分，得到音频共现集合，音频共现集合中包含至少两段连续播放的音频，且不同音频共现集合中包含的音频不同。

可选的，由于用户连续播放的音频之间具有相似性，因此计算机设备可以根据预设窗口尺寸，对音频播放序列进行划分，从而将窗口中的音频确定为音频共现集合。

其中，同一音频播放序列对应的不同音频共现集合中包含的音频不同(不完全相同)。在一些实施例中，计算机设备按照窗口尺寸m(m大于等于2)，以步长m滑动窗口，从而得到音频共现集合。示意性的，如图9所示，计算机设备按照窗口尺寸5，以步长5滑动窗口，得到的每个音频共现集合中包含连续播放的5段音频。

在其他实施例中，计算机设备可以按照窗口尺寸m，以步长n(n小于m)滑动窗口，从而得到音频共现集合，得到的相邻音频共现集合之间存在交集。

需要说明的是，划分音频共现集合时采用的窗口尺寸将影响音频样本的质量，其中，窗口尺寸越大，最终得到的音频样本的质量越差，窗口尺寸越小，最终得到的音频样本的质量越高。然而，过小的窗口尺寸会增加后续的运算量，因此窗口尺寸综合质量和运算量确定。

此外，划分音频共现集合过程中，若音频播放序列中剩余的音频数量小于窗口尺寸且大于等于2，计算机设备将剩余的音频划分至音频共现集合。

步骤505C，根据音频共现集合，从第一候选音频对中确定音频正样本对。

通过上述步骤得到大量音频共现集合后，计算机设备进一步根据第一候选音频对在音频共现集合中的共现情况，筛选出音频样本对。

在一些实施例中，当第一候选音频对中的两段音频频繁出现在同一音频共现集合时，表明这两段音频具有播放行为相似性，因此，计算机设备可以基于第一候选音频对在音频共现集合中的出现次数，筛选出高质量的音频正样本对。

在一种可能的实施方式中，本步骤可以包括如下步骤。

一、获取第一候选音频对在音频共现集合中的第一共现次数。

对于任一第一候选音频对，当音频共现集合中包含该第一候选音频对时，计算机设备即对第一候选音频对的共现次数进行加一操作。当遍历完所有音频共现集合时，计算机设备即得到第一候选音频对的第一共现次数。

在一个示例性的例子中，对于第一候选音频对(s1，s3)，由于音频共现集合(s1，s2，s3，s4，s5)中同时包含第一候选音频对中的两段视频，因此，计算机设备对(s1，s3)的共现次数进行加一操作。

在其他可能的实施方式中，计算机设备根据第一候选音频对中两段音频在音频共现集合中的间隔，为共现次数设置权重值，从而统计得到第一共现次数，其中，该共现次数的权重值与间隔呈负相关关系。

二、根据第一共现次数和音频共现集合的集合数，确定第一候选音频对的第一评分。

获取到各个第一候选音频对的第一共现次数后，计算机设备根据第一共现次数以及音频共现集合的集合数，计算各个第一候选音频对的第一评分。其中，第一评分＝第一共现次数/集合数。

在一个示例性的例子中，若第一候选音频对的第一共现次数为510000次，而集合数为10000000时，第一评分即为0.051。

三、根据第一评分的第一评分分布以及正样本数量，确定第一评分区间，第一评分分布为第一评分的降序分布，且属于第一评分区间的第一候选音频对位于第一评分分布的前半部。

进一步的，计算机设备根据各个第一候选音频对的第一评分，确定第一候选音频对的第一评分分布，该第一评分分布即为不同第一评分(或第一评分区间)下第一候选音频对的数量分布情况。

在一种可能的实施方式中，计算机设备对第一评分进行截断(比如保留小数点后2位)，从而统计截断后的第一评分下第一候选音频对的数量。进一步的，根据各个第一评分下第一候选音频对的数量的降序，计算机设备生成第一评分分布。示意性的，计算机设备得到的第一评分分布如图10所示。

可选的，确定出第一评分分布后，计算机设备根据预先设置的正样本数量，确定出第一评分区间，即属于该第一评分区间内的第一候选样本对的数量为正样本数量。

在一个示意性的实施方式中，计算机设备根据正样本数量，确定第一评分区间的评分区间下限和评分区间上限，其中，属于第一评分区间的第一候选音频对位于前第一评分的前50％，避免选取第一评分过高或过低的第一候选音频对。

比如，当正样本数量为20％时，计算机设备将第一评分处于10％至30％这一区间内的第一候选音频对确定为正样本，即确定评分区间下限为第一评分分布中第10％个第一候选音频对对应的第一评分，评分区间上限为第一评分分布中第30％个第一候选音频对对应的第一评分。

示意性的，如图10所示，第一评分分布中第10％个第一候选音频对对应的第一评分为0.05，第一评分分布中第30％个第一候选音频对对应的第一评分为0.21，计算机设备确定第一评分区间为[0.05，0.21]。

四、将属于第一评分区间的第一候选音频对确定为音频正样本对。

最终，计算机设备将属于第一评分区间的第一候选音频对确定为音频正样对。

示意性的，如图10所示，计算机设备将第一评分属于[0.05，0.21]的第一候选音频对确定为音频正样对(即阴影部分的第一候选音频对)。

在图7所示的示例中，计算机设备根据历史播放记录709，确定出各个第一候选音频对707的第一评分710，从而根据各个第一评分710的评分分布，得到第一评分分布图711，进而基于第一评分分布图711，筛选出音频正样本对712。

步骤506，根据历史播放记录，从第二候选音频对中确定音频负样本对。

在一种可能的实施方式中，计算机设备基于相似音频播放行为的共现性，根据不同用户的历史播放记录，从第二候选音频对中筛选出音频负样本对。如图11所示，本步骤可以包括如下步骤。

步骤506A，获取历史播放记录中的音频播放序列，音频播放序列用于表征用户帐号下音频的先后播放顺序，且不同音频播放序列对应不同用户帐号。

步骤506B，对音频播放序列进行划分，得到音频共现集合，音频共现集合中包含至少两段连续播放的音频，且不同音频共现集合中包含的音频不同。

其中，获取音频播放序列以及划分音频共现集合的过程可以参考上述步骤505A和505B，本实施例在此不再赘述。

步骤506C，根据音频共现集合，从第二候选音频对中确定音频负样本对。

通过上述步骤得到大量音频共现集合后，计算机设备进一步根据第二候选音频对在音频共现集合中的共现情况，筛选出音频样本对。

在一些实施例中，当第二候选音频对中的两段音频出现在同一音频共现集合中的次数较少时，表明这两段音频的播放行为相似性较低，因此，计算机设备可以基于第二候选音频对在音频共现集合中的出现次数，筛选出高质量的音频负样本对。

在一种可能的实施方式中，本步骤可以包括如下步骤。

一、获取第二候选音频对在音频共现集合中的第二共现次数。

与上述步骤中统计第一候选音频过程相似的，计算机设备统计第二候选音频在音频共现集合中的第二共现次数。

二、根据第二共现次数和音频共现集合的集合数，确定第二候选音频对的第二评分。

获取到各个第二候选音频对的第二共现次数后，计算机设备根据第二共现次数以及音频共现集合的集合数，计算各个第二候选音频对的第二评分。其中，第二评分＝第二共现次数/集合数。

三、根据第二评分的第二评分分布以及负样本数量，确定第二评分区间，第二评分分布为第二评分的升序分布，且属于第二评分区间的第二候选音频对位于第二评分分布的后半部。

进一步的，计算机设备根据各个第二候选音频对的第二评分，确定第二候选音频对的第二评分分布，该第二评分分布即为不同第二评分(或第二评分区间)下第二候选音频对的数量分布情况。

在一种可能的实施方式中，计算机设备对第二评分进行截断(比如保留小数点后2位)，从而统计截断后的第二评分下第二候选音频对的数量。进一步的，根据各个第二评分下第二候选音频对的数量的升序，计算机设备生成第二评分分布。

可选的，确定出第二评分分布后，计算机设备根据预先设置的负样本数量，确定出第二评分区间，即属于该第二评分区间内的第二候选样本对的数量为负样本数量。

在一个示意性的实施方式中，计算机设备根据负样本数量，确定第二评分区间的评分区间下限和评分区间上限，其中，属于第二评分区间的第二候选音频对位于前第二评分分布的后50％，避免选取第二评分过高或过低的第二候选音频对。

比如，当负样本数量为20％时，计算机设备将第二评分处于50％至70％这一区间内的第二候选音频对确定为负样本，即确定评分区间下限为第二评分分布中第50％个第二候选音频对对应的第二评分，评分区间上限为第二评分分布中第70％个第二候选音频对对应的第二评分。

四、将属于第二评分区间的第二候选音频对确定为音频负样本对。

最终，计算机设备将属于第二评分区间的第二候选音频对确定为音频负样对。

在图7所示的示例中，计算机设备根据历史播放记录709，确定出各个第二候选音频对708的第二评分713，从而根据各个第二评分710的评分分布，得到第二评分分布图714，进而基于第二评分分布图714，筛选出音频负样本对715。

本实施例中，基于相似音频的在播放行为中的共现性，计算机设备将历史播放记录中的音频播放序列划分为若干音频共现集合，并根据候选音频对在音频共现集合中的共现次数，生成各个候选音频对对应的评分，从而根据评分的分布情况，从中筛选出音频样本对，提高了生成的音频样本的质量。

此外，本实施例中，计算机设备基于音频的文本数据和音频数据，提取音频的文本特征和音频特征，从而基于这两个维度的属性特征进行音频聚类，避免因基于单一维度属性聚类造成的聚类准确性较低的问题。

图12是本申请一个示例性实施例提供的音频样本生成装置的结构框图，该装置可以设置于上述实施例所述的计算机设备，如图12所示，该装置包括：

聚类模块1201，用于根据音频属性特征对音频库中的音频进行聚类，得到音频类簇，所述音频属性特征包括至少两个不同维度的属性特征，且不同音频类簇中音频的特征相似度低于同一音频类簇中音频的特征相似度；

生成模块1202，用于根据所述音频类簇中的音频生成候选音频对，所述候选音频对中包含两段音频，且所述两段音频属于同一音频类簇或不同音频类簇；

确定模块1203，用于根据所述音频库中音频的历史播放记录，确定所述候选音频对中的音频正样本对和音频负样本对，其中，所述音频正样本对中的音频属于同一音频类簇，所述音频负样本对中的音频属于不同音频类簇。

在一些实施例中，生成模块1202，用于：

根据同一音频类簇中的音频生成第一候选音频对，并根据所述不同音频类簇中的音频生成第二候选音频对；

所述确定模块1203，包括：

第一确定单元，用于根据所述历史播放记录，从所述第一候选音频对中确定所述音频正样本对；

第一确定单元，用于根据所述历史播放记录，从所述第二候选音频对中确定所述音频负样本对。

在一些实施例中，第一确定单元，用于：

获取所述历史播放记录中的音频播放序列，所述音频播放序列用于表征用户帐号下音频的先后播放顺序，且不同音频播放序列对应不同用户帐号；

对所述音频播放序列进行划分，得到音频共现集合，所述音频共现集合中包含至少两段连续播放的音频，且不同音频共现集合中包含的音频不同；

根据所述音频共现集合，从所述第一候选音频对中确定所述音频正样本对。

在一些实施例中，第一确定单元，用于：

获取所述第一候选音频对在所述音频共现集合中的第一共现次数；

根据所述第一共现次数和所述音频共现集合的集合数，确定所述第一候选音频对的第一评分；

根据所述第一评分的第一评分分布以及正样本数量，确定第一评分区间，所述第一评分分布为所述第一评分的降序分布，且属于所述第一评分区间的所述第一候选音频对位于所述第一评分分布的前半部；

将属于所述第一评分区间的所述第一候选音频对确定为所述音频正样本对。

在一些实施例中，第二确定单元，用于：

根据所述音频共现集合，从所述第二候选音频对中确定所述音频负样本对。

在一些实施例中，第二确定单元，用于：

获取所述第二候选音频对在所述音频共现集合中的第二共现次数；

根据所述第二共现次数和所述音频共现集合的集合数，确定所述第二候选音频对的第二评分；

根据所述第二评分的第二评分分布以及负样本数量，确定第二评分区间，所述第二评分分布为所述第二评分的升序分布，且属于所述第二评分区间的所述第二候选音频对位于所述第二评分分布的后半部；

将属于所述第二评分区间的所述第二候选音频对确定为所述音频负样本对。

在一些实施例中，聚类模块1201，包括：

特征获取单元，用于获取音频的文本特征和音频特征；

向量化单元，用于根据所述文本特征和所述音频特征生成音频特征向量；

聚类单元，用于根据所述音频特征向量对所述音频库中的音频进行聚类，得到所述音频类簇。

在一些实施例中，所述特征获取单元，用于：

获取音频的文本数据，所述文本数据包括作曲者、作词者、演唱者、音频风格、音频年代、演奏乐器、歌词和评论中的至少一种；对所述文本数据进行向量化编码处理，得到所述文本特征；

获取音频中预设音频片段的音频数据，所述预设音频片段包括前奏片段、高潮片段和尾奏片段中的至少一种；对所述音频数据进行向量化编码处理，得到所述音频特征。

在一些实施例中，所述装置还包括：

训练模块，用于根据所述音频正样本对和所述音频负样本对训练音频匹配模型，所述音频匹配模型用于根据输入音频输出音频之间的匹配程度。

需要说明的是：上述实施例提供的音频样本生成装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频样本生成装置与音频样本生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图13，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲：所述计算机设备1300包括中央处理单元(Central Processing Unit，CPU)1301、包括随机存取存储器1302和只读存储器1303的系统存储器1304，以及连接系统存储器1304和中央处理单元1301的系统总线1305。所述计算机设备1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output，I/O系统)1306，和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。

所述基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中所述显示器1308和输入设备1309都通过连接到系统总线1305的输入输出控制器1310连接到中央处理单元1301。所述基本输入/输出系统1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读介质为计算机设备1300提供非易失性存储。也就是说，所述大容量存储设备1307可以包括诸如硬盘或者驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取记忆体(RAM，Random Access Memory)、只读存储器(ROM，Read Only Memory)、闪存或其他固态存储其技术，只读光盘(Compact Disc Read-Only Memory，CD-ROM)、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1301执行，一个或多个程序包含用于实现上述方法的指令，中央处理单元1301执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述计算机设备1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1300可以通过连接在所述系统总线1305上的网络接口单元1311连接到网络1312，或者说，也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述任一实施例所述的音频样本生成方法。

本申请还提供了一种计算机程序产品，当计算机程序产品在计算机上运行时，使得计算机执行上述各个方法实施例提供的音频样本生成方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述任一方法实施例所述的音频样本生成方法。

可选地，该计算机可读存储介质可以包括：ROM、RAM、固态硬盘(SSD，Solid StateDrives)或光盘等。其中，RAM可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频样本生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述音频类簇中的音频生成候选音频对，包括：

所述根据所述音频库中音频的历史播放记录，确定所述候选音频对中的音频正样本对和音频负样本对，包括：

根据所述历史播放记录，从所述第一候选音频对中确定所述音频正样本对；

根据所述历史播放记录，从所述第二候选音频对中确定所述音频负样本对。

3.根据权利要求2所述的方法，其特征在于，所述根据所述历史播放记录，从所述第一候选音频对中确定所述音频正样本对，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述音频共现集合，从所述第一候选音频对中确定所述音频正样本对，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据所述历史播放记录，从所述第二候选音频对中确定所述音频负样本对，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据所述音频共现集合，从所述第二候选音频对中确定所述音频负样本对，包括：

7.根据权利要求1至6任一所述的方法，其特征在于，所述根据音频属性特征对音频库中的音频进行聚类，得到音频类簇，包括：

获取音频的文本特征和音频特征；

根据所述文本特征和所述音频特征生成音频特征向量；

根据所述音频特征向量对所述音频库中的音频进行聚类，得到所述音频类簇。

8.根据权利要求7所述的方法，其特征在于，所述获取音频的文本特征和音频特征，包括：

9.根据权利要求1至6任一所述的方法，其特征在于，所述根据所述音频库中音频的历史播放记录，确定所述候选音频对中的音频正样本对和音频负样本对之后，所述方法还包括：

根据所述音频正样本对和所述音频负样本对训练音频匹配模型，所述音频匹配模型用于根据输入音频输出音频之间的匹配程度。

10.一种音频样本生成装置，其特征在于，所述装置包括：

11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一所述的音频样本生成方法。

12.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一所述的音频样本生成方法。