CN106528678B

CN106528678B - 一种歌曲处理方法及装置

Info

Publication number: CN106528678B
Application number: CN201610931744.4A
Authority: CN
Inventors: 赵伟峰
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2016-10-24
Filing date: 2016-10-24
Publication date: 2019-07-23
Anticipated expiration: 2036-10-24
Also published as: CN106528678A

Abstract

本发明实施例提供了一种歌曲处理方法及装置，其中，该方法包括：歌曲处理装置可以在将某一歌曲按照歌词信息划分为n个音频句后，提取每个音频句的音频特征，从而根据音频特征将n个音频句划分为指定的段落，最终按照划分的段落输出该歌曲的歌词信息。通过本发明实施例，歌曲处理装置可以基于音频特征对歌曲划分段落，能够明显提升歌曲分段的效果，从而可以保证用户合唱衔接的连贯，提高合唱的流畅度。

Description

一种歌曲处理方法及装置

技术领域

本发明涉及多媒体技术领域，具体涉及一种歌曲处理方法及装置。

背景技术

唱歌类应用是目前深受用户尤其是年轻用户喜爱与追捧的一类应用，其具备在线独唱和在线合唱等多种功能。在线合唱功能是将多个用户针对同一歌曲演唱的不同部分进行合成，从而达到合唱的效果。为了实现在线合唱功能，后台需要预先对歌曲进行分段，划分为多个部分，以供不同用户演唱。

目前的歌曲分段方式一般是基于歌词进行的，比如，当歌曲需要两个用户演唱时，将歌曲按照歌词句数平分的方式进行划分。在实践中发现，这种歌曲分段方式可能会出现一个用户演唱到歌曲高潮部分时需要切换到另一用户演唱的情况，从而使得用户在合唱时容易出现衔接不连贯的问题。

发明内容

本发明实施例提供了一种歌曲处理方法及装置，可以保证合唱的衔接连贯，从而提高合唱的流畅度。

本发明实施例第一方面提供了一种歌曲处理方法，包括：

按照目标歌曲的歌词信息将所述目标歌曲划分为n个音频句，并提取每个音频句的音频特征；

根据所述每个音频句的音频特征将所述n个音频句划分为m个段落，得到每个段落的音频句列表，其中，n和m为正整数，n大于或等于m；

按照所述每个段落的音频句列表输出所述目标歌曲的歌词信息。

可选的，所述提取每个音频句的音频特征，包括：

对每个音频句进行分帧处理，得到帧序列；

提取所述帧序列中每帧数据的第一音频特征；

根据所述第一音频特征确定所述帧序列的第二音频特征，并将所述第二音频特征确定为所述每个音频句的音频特征。

可选的，所述根据所述每个音频句的音频特征将所述n个音频句划分为m个段落，得到每个段落的音频句列表，包括：

将所述n个音频句划分为m个段落，得到每个段落的第一音频句列表；

根据所述第一音频句列表中音频句的音频特征，训练每个段落的音频特征模型；

针对所述n个音频句中的每个音频句，分别计算所述每个音频句的音频特征与每个段落的所述音频特征模型的匹配度，并将所述每个音频句划分到与所述每个音频句的匹配度最高的段落中；

获得音频句重新划分后的每个段落的第二音频句列表；

针对每个段落，判断所述每个段落的第二音频句列表的音频句与所述每个段落的第一音频句列表的音频句是否相同；

如果相同，则将所述第二音频句列表确定为所述每个段落的音频句列表。

可选的，所述方法还包括：

如果所述每个段落的第二音频句列表的音频句与所述每个段落的第一音频句列表的音频句不相同，则将所述第二音频句列表确定为所述每个段落的第一音频句列表，并返回执行所述根据所述第一音频句列表中音频句的音频特征，训练每个段落的音频特征模型的操作。

可选的，所述对每个音频句进行分帧处理，得到帧序列，包括：

针对每个音频，以第一时长为帧移，第二时长为帧长对所述每个音频句进行分帧处理，得到帧序列。

本发明实施例第二方面提供了一种歌曲处理装置，包括：

第一划分模块，用于按照目标歌曲的歌词信息将所述目标歌曲划分为n个音频句；

提取模块，用于提取每个音频句的音频特征；

第二划分模块，用于根据所述每个音频句的音频特征将所述n个音频句划分为m个段落，得到每个段落的音频句列表，其中，n和m为正整数，n大于或等于m；

输出模块，用于按照所述每个段落的音频句列表输出所述目标歌曲的歌词信息。

可选的，所述提取模块包括：

处理单元，用于对每个音频句进行分帧处理，得到帧序列；

提取单元，用于提取所述帧序列中每帧数据的第一音频特征；

第一确定单元，用于根据所述第一音频特征确定所述帧序列的第二音频特征，并将所述第二音频特征确定为所述每个音频句的音频特征。

可选的，所述第二划分模块包括：

划分单元，用于将所述n个音频句划分为m个段落，得到每个段落的第一音频句列表；

训练单元，用于根据所述第一音频句列表中音频句的音频特征，训练每个段落的音频特征模型；

计算单元，用于针对所述n个音频句中的每个音频句，分别计算所述每个音频句的音频特征与每个段落的所述音频特征模型的匹配度；

所述划分单元，还用于将所述每个音频句划分到与所述每个音频句的匹配度最高的段落中；

获取单元，用于获得音频句重新划分后的每个段落的第二音频句列表；

判断单元，用于针对每个段落，判断所述每个段落的第二音频句列表的音频句与所述每个段落的第一音频句列表的音频句是否相同；

第二确定单元，用于在所述判断单元的判断结果为是时，将所述第二音频句列表确定为所述每个段落的音频句列表。

可选的，所述第二确定单元，还用于在所述判断单元的判断结果为否时，将所述第二音频句列表确定为所述每个段落的第一音频句列表，并触发所述训练单元执行所述根据所述第一音频句列表中音频句的音频特征，训练每个段落的音频特征模型的操作。

可选的，所述处理单元对每个音频句进行分帧处理，得到帧序列的具体方式为：

本发明实施例中，歌曲处理装置可以在将某一歌曲按照歌词信息划分为n个音频句后，提取每个音频句的音频特征，从而根据音频特征将n个音频句划分为指定的段落，最终按照划分的段落输出该歌曲的歌词信息。通过本发明实施例，歌曲处理装置可以基于音频特征对歌曲划分段落，能够明显提升歌曲分段的效果，从而可以保证用户合唱衔接的连贯，提高合唱的流畅度。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种歌曲处理方法的流程示意图；

图2a是本发明实施例提供的歌词文件格式的示意图；

图2b是本发明实施例提供的歌曲分段后的歌词展示界面示意图；

图3是本发明实施例提供的一种歌曲处理设备的结构示意图；

图4是本发明实施例提供的一种歌曲处理装置的结构示意图；

图5是本发明实施例提供的提取模块的分解示意图；

图6是本发明实施例提供的第二划分模块的分解示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种歌曲处理方法及装置，可以基于音频特征对歌曲划分段落，能够明显提升歌曲分段的效果，从而可以保证用户合唱衔接的连贯，提高合唱的流畅度。以下分别进行详细说明。

请参阅图1，图1是本发明实施例提供的一种歌曲处理方法的流程示意图。本实施例中所描述的方法，包括以下步骤：

101、歌曲处理装置按照目标歌曲的歌词信息将目标歌曲划分为n个音频句，并提取每个音频句的音频特征。

本发明实施例中，歌曲处理装置可以应用于客户端、唱歌类应用的服务器等，其中，客户端可以为唱歌类应用、可以为安装唱歌类应用的终端设备，该终端设备可以是笔记本电脑、台式电脑、手机、平板电脑、车载终端、智能可穿戴设备等，本发明实施例不做限定。

本发明实施例中，目标歌曲是指需要对其进行分段的歌曲，可以是用户指定的需要合唱的歌曲，也可以是歌曲处理装置的数据库中的任意一首歌曲，本发明实施例不做限定。当歌曲处理装置获取到目标歌曲的文件信息后，确定出目标歌曲的歌词信息，从而依据歌词信息将目标歌曲划分为n个音频句。其中，n为正整数。

具体实现中，歌曲处理装置按照目标歌曲的歌词信息将目标歌曲划分为n个音频句的具体方式可以为：

请一并参阅图2a，图2a是本发明实施例提供的歌词文件格式的示意图。由图2a可以看出，歌词信息中每行歌词就是连续演唱的一句话，在句子行开始就表示了这句话在歌曲中的起始时间和持续时间，一般以毫秒计算。例如，第一句是从第1.03秒到3.76秒结束，持续了2.73秒，而第一句与第二句之间有一段纯伴奏，在第3.76秒到4.2秒，如图2a中的歌词一共37句，则按照下面步骤进行处理：

歌曲处理装置首先将目标歌曲文件解码为16k16bit单通道音频，然后按照图2a中的歌词信息对音频进行切分，如歌词为n句，则切分为n段。例如，图2a的第一句为第1.03秒到3.76秒，第二句为第4.20秒到6.86秒，歌曲处理装置则将音频中的第1.03秒到3.76秒的音频作为第一句音频句，第4.20秒到6.86秒作为第二句音频句，其余没有歌词的音频部分暂时不用，这样就得到了n个音频句，每个音频句可以用x_i表示，其中，i∈[1,n]。

进一步的，歌曲处理装置在对目标歌曲划分为n个音频句后，会针对每一个音频句提取该音频句的音频特征。其中，该音频特征可以为梅尔频率倒谱系数(Mel FrequencyCepstrum Coefficient，MFCC)特征。

具体的，歌曲处理装置提取每个音频句的音频特征的具体方式可以为：

1)对每个音频句进行分帧处理，得到帧序列。

2)提取帧序列中每帧数据的第一音频特征。

3)根据第一音频特征确定帧序列的第二音频特征，并将第二音频特征确定为该每个音频句的音频特征。

具体实现中，歌曲处理装置对每个音频句进行分帧处理，得到帧序列的具体方式可以为：针对每个音频句，以第一时长为帧移，第二时长为帧长对该音频句进行分帧处理，得到该音频句的帧序列。其中，第一时长可以是10ms，第二时长可以是30ms，本发明实施例不做限定。

也就是说，歌曲处理装置首先会将n个音频句中任意一个音频句x_i以第一时长为帧移，第二时长为帧长对其进行分帧，从而得到该音频句的帧序列，然后对帧序列中每帧的数据提取13维静态MFCC特征，具体为：对每帧的数据以及进行离散傅里叶变换、取模平方、三角滤波函数组处理、取对数、离散余弦变换，从而得到每帧数据的MFCC特征向量序列。最后在利用对每帧数据提取出的13维静态MFCC特征分别计算一阶差分和二阶差分，从而得到该帧序列的39维MFCC特征序列，该特征序列即为该音频句x_i的音频特征，可以用y_i表示。同理，歌曲处理装置会按照上述方式对n个音频句中的每个音频句提取音频特征。

102、歌曲处理装置根据每个音频句的音频特征将n个音频句划分为m个段落，得到每个段落的音频句列表。

本发明实施例中，歌曲处理装置在对每个音频句提取音频特征之后，会根据每个音频句的音频特征将n个音频句划分为m个段落，得到每个段落的音频句列表。其中，m表示该歌曲需要合唱的用户数量，为正整数，n大于或等于m，可以是歌曲处理装置按照歌曲类型或歌词结构定义的，也可以是用户发起合唱时自定义的，一般情况下，合唱用户数量m设置为2，本发明实施例不做限定。

本发明实施例中，歌曲处理装置可以按照每个音频句的音频特征的相似度将其划分为同一个段落，从而分别得到每个段落对应的音频句列表。

作为一种可行的实施方式，歌曲处理装置根据每个音频句的音频特征将n个音频句划分为m个段落，得到每个段落的音频句列表的具体方式可以包括以下步骤：

1)将n个音频句划分为m个段落，得到每个段落的第一音频句列表；

2)根据第一音频句列表中音频句的音频特征，训练每个段落的音频特征模型；

3)针对n个音频句中的每个音频句，分别计算每个音频句的音频特征与每个段落的音频特征模型的匹配度，并将每个音频句划分到与其匹配度最高的段落中；

4)获得音频句重新划分后的每个段落的第二音频句列表；

5)针对每个段落，判断每个段落的第二音频句列表的音频句与每个段落的第一音频句列表的音频句是否相同；

6)如果相同，则将第二音频句列表确定为该每个段落的音频句列表。

针对1)，歌曲处理装置首先可以对n个音频句进行初始化分段，可以是随机分段，也可以是平均分段，还可以是其他方式，本发明实施例不做限定。为了减少后续迭代训练的步骤，歌曲处理装置可以将n个音频句按照以下方式进行初始化分段：将n个音频句中第k句划分到第k％m段，其中，％是模运算，即求余数，k为小于或等于n的正整数。

举例来说，假设n为5，m为2，即目标歌曲共分为5个音频句，需要划分为2个段落，供两人合唱，那么歌曲处理装置就可以通过模运算将第1、3、5句音频句划分到第1段，第2、4句音频句划分到第2段，从而完成对n个音频句划分为2个段落的初始化划分。

针对2)，在将n个音频句初始划分为m个段落后，每个段落划分的多个音频句各自组成该段落的第一音频句列表。歌曲处理装置会针对每个段落，进行训练迭代，即，根据每个段落对应的第一音频句列表中每个音频句的音频特征(MFCC特征)，训练该段落的音频特征模型。具体可以是高斯模型，也可以是其他模型，本发明实施例不做限定。

又举例来说，假设第1段落的第一音频句列表所包含的音频句为x₁、x₃、x₅，歌曲处理装置会将其对应的音频特征y₁、y₃、y₅合并到一起，从而可以采用最大期望(ExpectationMaximization，EM)算法训练该段落的256维混合高斯模型(即音频特征模型)。可选的，歌曲处理装置还可以采用其他算法训练该段落的音频特征模型，如k-means算法等，本发明实施例不做限定。

通过上述方式，歌曲处理装置可以分别训练出每个段落的音频特征模型，记为z_j，其中，j∈[1,m]。

针对3)本发明实施例中，歌曲处理装置在训练出每个段落的音频特征模型后，会针对n个音频句中的每个音频句，计算该音频句的音频特征y_i分别与m个段落各自的音频特征模型z_j的似然值，从而得到每个音频句分别与每个段落之间的匹配度。匹配度越高，则说明该音频句更有可能属于该段落。下面以音频特征模型为混合高斯模型为例进行举例说明。

混合高斯模型由m个单高斯表示，

其中，表示每个单高斯的权重，N、μ为常量，每个段落的取值可能会有所不同；表示第j个混合高斯模型的似然值估计。

那么匹配度I计算的似然函数如下：

表示每个音频句在每个高斯模型上计算似然的概率，再加权求和，最后n个特征的概率相乘。其中，Θ＝(θ₁,...,θ_m)^T，θ_j＝(a_j,μ_j,∑_j)。

通过上述方法从而可以计算出y_i与z_j的似然值I_ij。

进一步的，歌曲处理装置在计算出每个音频句分别与每个段落的匹配度后，会依据匹配度将n个音频句重新划分段落，即，将音频句划分到与其匹配度最高的段落中。以第一句为例，假设I₁₁＝0.5，I₁₂＝0.8，I₁₃＝0.6，那么歌曲处理装置就会将其划分到第二段落，这样每个段落就会有新的音频句列表。

针对4)和5)，歌曲处理装置在将每个音频句按照匹配度重新划分段落后，就会得到重新划分的每个段落的第二音频句列表。进一步的，歌曲处理装置会针对重新划分的每个段落，判断该段落的第二音频句列表中包括的音频句与该段落的第一音频句列表包括的音频句是否相同，即，针对该段落，判断重新划分段落后的所有音频句包含的歌词信息是否均与重新划分段落前的所有音频句包含的歌词信息一致，如果一致，则说明第一音频句列表的音频句和第二音频句列表的音频句相同。

针对6)，通过上述方式，如果所有段落的第一音频句列表的音频句与第二音频句列表的音频句相同，那么歌曲处理装置就会将第二音频句列表确定为该段落的音频句列表，最终得到每个段落的音频句列表。

可选的，针对每个段落，如果该段落的第一音频句列表的音频句与第二音频句列表的音频句不相同，则说明迭代不稳定，歌曲处理装置则会将第二音频句列表作为第一音频句列表，从而返回执行2)～5)的操作，再次进行迭代，即，重新训练段落的音频特征模型，重新划分段落，直到迭代稳定，即，每个段落的第一音频句列表的音频句与第二音频句列表的音频句相同为止。

通过这种方式，可以将音色相同的音频句划分为同一个段落，供同一人演唱，这样会使得用户在合唱时能够达到最佳效果，使得用户在合唱切换时衔接连贯。其中，音色是指伴奏乐器类型、演唱频段分布等，本发明实施例不做限定。

103、歌曲处理装置按照每个段落的音频句列表输出目标歌曲的歌词信息。

本发明实施例中，歌曲处理装置在将n个音频句按照音频特征划分为m个段落后，会按照不同段落的音频句列表来输出目标歌曲的歌词信息。

请一并参阅图2b，图2b是本发明实施例提供的歌曲分段后的歌词展示界面示意图。在图2b中，可以看出，歌曲处理装置在将音频句分段后，加粗的歌词信息，即，第1～4句、9～11句为一段，由一个用户演唱，不加粗的歌词信息，即，第5～8句为一段，由另一个用户演唱，这样用户按照这种歌曲划分方式对歌曲进行合唱，就会达到更好的合唱效果。

可见，在图1所描述的方法中，歌曲处理装置可以在将某一歌曲按照歌词信息划分为n个音频句后，提取每个音频句的音频特征，从而根据音频特征将n个音频句划分为指定的段落，最终按照划分的段落输出该歌曲的歌词信息。通过本发明实施例，歌曲处理装置可以基于音频特征对歌曲划分段落，能够明显提升歌曲分段的效果，从而可以保证用户合唱衔接的连贯，提高合唱的流畅度。

基于上述实施例所示的歌曲处理方法，本发明实施例还提供了一种歌曲处理设备，该歌曲处理设备可以是唱歌类应用客户端，也可以是服务器，还可以是终端设备，该歌曲处理设备可用于执行上述图1所示方法流程的相应步骤。请参见图3，图3是本发明实施例公开的一种歌曲处理设备的结构示意图。该歌曲处理设备的内部结构可包括但不限于：处理器、网络接口及存储器。其中，歌曲处理设备内的处理器、网络接口及存储器可通过总线或其他方式连接，在本发明实施例所示图3中以通过总线连接为例。

其中，处理器(或称CPU(Central Processing Unit，中央处理器))是歌曲处理设备的计算核心以及控制核心。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI、移动通信接口等)。存储器(Memory)是歌曲处理设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的存储装置。存储器提供存储空间，该存储空间存储了服务平台的操作系统，可包括但不限于：Windows系统(一种操作系统)、Linux(一种操作系统)系统等等，本发明对此并不作限定。存储器的存储空间还存储了歌曲处理装置。

在本发明实施例中，歌曲处理设备通过运行存储器中的歌曲处理装置来执行上述1所示方法流程的相应步骤。请一并参见图4，图4是本发明实施例提供的一种歌曲处理装置的结构示意图。如图4所示，在执行歌曲分段过程中，该装置运行如下单元：

第一划分模块401，用于按照目标歌曲的歌词信息将该目标歌曲划分为n个音频句。

提取模块402，用于提取每个音频句的音频特征。

第二划分模块403，用于根据每个音频句的音频特征将n个音频句划分为m个段落，得到每个段落的音频句列表，其中，n和m为正整数，n大于或等于m。

输出模块404，用于按照每个段落的音频句列表输出目标歌曲的歌词信息。

本发明实施例中，目标歌曲是指需要对其进行分段的歌曲，可以是用户指定的需要合唱的歌曲，也可以是歌曲处理装置的数据库中的任意一首歌曲，本发明实施例不做限定。音频特征可以为MFCC特征。

作为一种可行的实施方式，请一并参阅图5，图5是本发明实施例提供的提取模块的分解示意图，如图5所示，提取模块402可以包括处理单元4021、提取单元4022以及第一确定单元4023，可以应用于图4所示的提取模块402，用于执行以下操作：

处理单元4021，用于对每个音频句进行分帧处理，得到帧序列.

提取单元4022，用于提取帧序列中每帧数据的第一音频特征。

第一确定单元4023，用于根据第一音频特征确定帧序列的第二音频特征，并将第二音频特征确定为每个音频句的音频特征。

可选的，处理单元4021对每个音频句进行分帧处理，得到帧序列的具体方式可以为：

针对每个音频，以第一时长为帧移，第二时长为帧长对每个音频句进行分帧处理，得到帧序列。

作为另一种可行的实施方式，请一并参阅图6，图6是本发明实施例提供的第二划分模块的分解示意图，如图6所示，第二划分模块403包括划分单元4031、训练单元4032、计算单元4033、获取单元4034、判断单元4035以及第二确定单元4036，可以应用于图4所示的第二划分模块403，用于执行以下操作：

划分单元4031，用于将n个音频句划分为m个段落，得到每个段落的第一音频句列表。

训练单元4032，用于根据第一音频句列表中音频句的音频特征，训练每个段落的音频特征模型。

计算单元4033，用于针对n个音频句中的每个音频句，分别计算每个音频句的音频特征与每个段落的音频特征模型的匹配度。

所述划分单元4031，还用于将每个音频句划分到与其匹配度最高的段落中。

获取单元4034，用于获得音频句重新划分后的每个段落的第二音频句列表。

判断单元4035，用于针对每个段落，判断每个段落的第二音频句列表的音频句与其对应的第一音频句列表的音频句是否相同；

第二确定单元4036，用于在判断单元4035的判断结果为是时，将第二音频句列表确定为每个段落的音频句列表。

进一步的，第二确定单元4036，还用于在判断单元4035的判断结果为否时，将第二音频句列表确定为每个段落的第一音频句列表，并触发训练单元4032执行根据第一音频句列表中音频句的音频特征，训练每个段落的音频特征模型的操作。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存取存储器(Random AccessMemory，简称RAM)等。

以上对本发明实施例所提供的一种歌曲处理方法及装置进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种歌曲处理方法，其特征在于，包括：

将所述n个音频句划分为m个段落，得到每个段落的第一音频句列表，其中，n和m为正整数，n大于或等于m；

获得音频句重新划分后的每个段落的第二音频句列表；

如果相同，则将所述第二音频句列表确定为所述每个段落的音频句列表；

2.根据权利要求1所述的方法，其特征在于，所述提取每个音频句的音频特征，包括：

对每个音频句进行分帧处理，得到帧序列；

提取所述帧序列中每帧数据的第一音频特征；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求2所述的方法，其特征在于，所述对每个音频句进行分帧处理，得到帧序列，包括：

5.一种歌曲处理装置，其特征在于，包括：

提取模块，用于提取每个音频句的音频特征；

第二划分模块，所述第二划分模块包括：划分单元，用于将所述n个音频句划分为m个段落，得到每个段落的第一音频句列表，其中，n和m为正整数，n大于或等于m；

第二确定单元，用于在所述判断单元的判断结果为是时，将所述第二音频句列表确定为所述每个段落的音频句列表；

6.根据权利要求5所述的装置，其特征在于，所述提取模块包括：

处理单元，用于对每个音频句进行分帧处理，得到帧序列；

7.根据权利要求5所述的装置，其特征在于，

所述第二确定单元，还用于在所述判断单元的判断结果为否时，将所述第二音频句列表确定为所述每个段落的第一音频句列表，并触发所述训练单元执行所述根据所述第一音频句列表中音频句的音频特征，训练每个段落的音频特征模型的操作。

8.根据权利要求6所述的装置，其特征在于，所述处理单元对每个音频句进行分帧处理，得到帧序列的具体方式为：