CN111402898A

CN111402898A - 音频信号处理方法、装置、设备及存储介质

Info

Publication number: CN111402898A
Application number: CN202010189291.9A
Authority: CN
Inventors: 邓菁; 王秋明
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2020-03-17
Filing date: 2020-03-17
Publication date: 2020-07-10
Anticipated expiration: 2040-03-17
Also published as: CN111402898B

Abstract

本申请提供一种音频信号处理方法、装置、设备及存储介质，涉及语音处理技术领域。该方法包括：获取待检测音频信号中多个语音片段的语音特征；根据第一个语音片段之后的每个待分类语音片段的语音特征和至少一个已分类语音片段的语音特征，确定每个待分类语音片段的类别；其中，第一个语音片段的类别为预设类别，至少一个已分类语音片段为每个待分类语音片段之前的至少一个语音片段；根据第一个语音片段的类别以及每个待分类语音片段的类别，确定待检测音频信号的总类别个数，并根据总类别个数，确定待检测音频信号的说话人数。相对于现有技术，避免了分离说话人所需的时间太长，影响确定说话人数目的实时性的问题。

Description

音频信号处理方法、装置、设备及存储介质

技术领域

本申请涉及语音处理技术领域，具体而言，涉及一种音频信号处理方法、装置、设备及存储介质。

背景技术

对于声纹识别系统来说，一般要求输入的语音数据只包含有单一的说话人。若输入语音中含有多个说话人的声音，则会导致提取的声纹特征错误，从而影响声纹识别系统的性能。所以一般在声纹识别之前，需要先判别输入语音中说话人的数目，若判定语音中含有多个说话人，则该条语音不送入声纹识别系统中。

现有技术中一般通过说话人分离技术来判断当前输入语音中的说话人数，该技术一般分为三个步骤：初始分割：找到说话人发生切换的时间点，并将输入语音分割为多段语音；聚类：按照一定的距离准则或者模式识别方法来对初始分割后的语音段按说话人聚类；重分割：利用聚类结果，对每个说话人的声纹特征进行更新，重新对原始语音进行分割。

但是现有技术的复杂度较高，耗时较长，会大大的增加分离说话人所需的时间，影响确定说话人数目的实时性。

发明内容

本申请的目的在于，针对上述现有技术中的不足，提供一种音频信号处理方法、装置、设备及存储介质，以解决现有技术中分离说话人所需的时间太长，影响确定说话人数目的实时性的问题。

为实现上述目的，本申请实施例采用的技术方案如下：

第一方面，本申请一实施例提供了一种音频信号处理方法，所述方法包括：

获取待检测音频信号中多个语音片段的语音特征；

根据第一个语音片段之后的每个待分类语音片段的语音特征和至少一个已分类语音片段的语音特征，确定所述每个待分类语音片段的类别；其中，所述第一个语音片段的类别为预设类别，所述至少一个已分类语音片段为所述每个待分类语音片段之前的至少一个语音片段；

根据所述第一个语音片段的类别以及所述每个待分类语音片段的类别，确定所述待检测音频信号中的总类别个数，并根据所述总类别个数，确定所述待检测音频信号的说话人数。

可选地，所述根据第一个语音片段之后的每个待分类语音片段的语音特征和至少一个已分类语音片段的语音特征，确定所述每个待分类语音片段的类别，包括：

根据第一个语音片段之后的每个待分类语音片段的语音特征和所述至少一个已分类语音片段的语音特征，分别计算所述每个待分类语音片段与所述至少一个已分类语音片段之间的第一特征距离；

根据所述第一特征距离，确定所述每个待分类语音片段的类别。

可选地，所述根据所述第一特征距离，确定所述每个待分类语音片段的类别，包括：

根据所述第一特征距离，判断是否存在与所述待分类语音片段的类别相同的所述已分类语音片段；

若存在，则确定所述已分类语音片段的类别为所述待分类语音片段的类别；

若所述至少一个已分类语音片段中不存在与所述每个待分类语音片段的类别相同的已分类语音片段，则建立新类别，并确定所述待分类语音片段的类别为所述新类别。

可选地，所述根据所述第一特征距离，判断是否存在与所述待分类语音片段的类别相同的所述已分类语音片段，包括：

若所述第一特征距离小于第一预设阈值，则确定所述每个待分类语音片段与对应已分类语音片段的类别不同；

若所述第一特征距离大于或等于所述第一预设阈值，则根据所述特征距离以及所述每个待分类语音片段的内部特征距离，判断所述每个待分类语音片段的类别与每个已分类语音片段的类别是否相同。

可选地，所述根据所述第一特征距离以及所述每个待分类语音片段的内部特征距离，判断所述每个待分类语音片段的类别与每个已分类语音片段的类别是否相同，包括：

若所述第一特征距离以及所述每个待分类语音片段的内部特征距离的差值，大于第二预设阈值，则确定所述每个待分类语音片段与对应已分类语音片段的类别不同。

可选地，所述根据所述第一特征距离以及所述每个待分类语音片段的内部特征距离，判断所述每个待分类语音片段的类别与每个已分类语音片段的类别是否相同之前，所述方法还包括：

根据所述每个待分类语音片段的语音特征，和所述每个待分类语音片段的两个语音子片段的语音特征，确定所述每个待分类语音片段的内部特征距离。

可选地，所述根据第一个语音片段之后的每个待分类语音片段的语音特征和至少一个已分类语音片段的语音特征，确定所述每个待分类语音片段的类别包括：

根据所述每个待分类语音片段的两个语音子片段的语音特征和每个已分类语音片段的语音特征，分别确定所述两个语音子片段与所述每个已分类语音片段的第二特征距离；

根据所述两个语音子片段与所述每个已分类语音片段的第二特征距离的绝对差值，确定所述每个待分类语音片段的类别。

可选地，所述根据所述两个语音子片段与所述每个已分类语音片段的第二特征距离的绝对差值，确定所述每个待分类语音片段的类别，包括：

若所述绝对差值，大于第三预设阈值，则确定所述每个待分类语音片段的类别为对应已分类语音片段的类别不同。

第二方面，本申请另一实施例提供了一种音频信号处理装置，所述装置包括：获取模块和确定模块，其中：

所述获取模块，用于获取待检测音频信号中多个语音片段的语音特征；

所述确定模块，用于根据第一个语音片段之后的每个待分类语音片段的语音特征和至少一个已分类语音片段的语音特征，确定所述每个待分类语音片段的类别；其中，所述第一个语音片段的类别为预设类别，所述至少一个已分类语音片段为所述每个待分类语音片段之前的至少一个语音片段；

所述确定模块，还用于根据所述第一个语音片段的类别以及所述每个待分类语音片段的类别，确定所述待检测音频信号中的总类别个数，并根据所述总类别个数，确定所述待检测音频信号的说话人数。

可选地，所述装置还包括：计算模块，用于根据第一个语音片段之后的每个待分类语音片段的语音特征和所述至少一个已分类语音片段的语音特征，分别计算所述每个待分类语音片段与所述至少一个已分类语音片段之间的第一特征距离；

所述确定模块，还用于根据所述第一特征距离，确定所述每个待分类语音片段的类别。

可选地，所述装置还包括：判断模块，用于根据所述第一特征距离，判断是否存在与所述待分类语音片段的类别相同的所述已分类语音片段；

所述确定模块，还用于若存在，则确定所述已分类语音片段的类别为所述待分类语音片段的类别；

所述确定模块，还用于若所述至少一个已分类语音片段中不存在与所述每个待分类语音片段的类别相同的已分类语音片段，则建立新类别，并确定所述待分类语音片段的类别为所述新类别。

可选地，所述确定模块，还用于若所述第一特征距离小于第一预设阈值，则确定所述每个待分类语音片段与对应已分类语音片段的类别不同；

所述确定模块，还用于若所述第一特征距离大于或等于所述第一预设阈值，则根据所述特征距离以及所述每个待分类语音片段的内部特征距离，判断所述每个待分类语音片段的类别与每个已分类语音片段的类别是否相同。

可选地，所述确定模块，还用于若所述第一特征距离以及所述每个待分类语音片段的内部特征距离的差值，大于第二预设阈值，则确定所述每个待分类语音片段与对应已分类语音片段的类别不同。

可选地，所述确定模块，还用于根据所述每个待分类语音片段的语音特征，和所述每个待分类语音片段的两个语音子片段的语音特征，确定所述每个待分类语音片段的内部特征距离。

可选地，所述确定模块，还用于根据所述每个待分类语音片段的两个语音子片段的语音特征和每个已分类语音片段的语音特征，分别确定所述两个语音子片段与所述每个已分类语音片段的第二特征距离；

所述确定模块，还用于根据所述两个语音子片段与所述每个已分类语音片段的第二特征距离的绝对差值，确定所述每个待分类语音片段的类别。

可选地，所述确定模块，还用于若所述绝对差值，大于第三预设阈值，则确定所述每个待分类语音片段的类别为对应已分类语音片段的类别不同。

第三方面，本申请另一实施例提供了一种音频信号处理设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当音频信号处理设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上述第一方面任一所述方法的步骤。

第四方面，本申请另一实施例提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述第一方面任一所述方法的步骤。

本申请的有益效果是：采用本申请提供的方法，获取到待检测音频信号中的多个语音片段的语音特征后，只需根据第一个语音片段之后的每个待分类语音片段的语音特征，和至少一个已分类语音片段的语音特征，就可以确定每个待分类语音片段的类别，最终根据第一个语音片段的类别以及每个待分类语音片段的类别，确定待检测音频信号的总类别个数，这样的处理方法使得在确定待分类语音片段的类别时，只需将每个待分类语音片段的语音特征与已分类语音片段的语音特征之间进行对比即可，无需对比每个待分类语音片段之间的语音特征，使得对比效率提高，即减少了分离各说话人的时间，提高了确定待检测音频信号的说话人数的实时性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请一实施例提供的音频信号处理方法的流程示意图；

图2为本申请另一实施例提供的音频信号处理方法的流程示意图；

图3为本申请另一实施例提供的音频信号处理方法的流程示意图；

图4为本申请另一实施例提供的音频信号处理方法的流程示意图；

图5为本申请另一实施例提供的音频信号处理方法的流程示意图；

图6为本申请一实施例提供的音频信号处理装置的结构示意图；

图7为本申请另一实施例提供的音频信号处理装置的结构示意图；

图8为本申请另一实施例提供的音频信号处理装置的结构示意图；

图9为本申请一实施例提供的音频信号处理设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。

本申请下述各实施例提供的音频信号处理方法可由音频信号处理设备执行，该音频信号处理设备可以为安装有语音分离系统的终端设备或服务器等任一类型的设备。如下结合多个示例进行解释说明。图1为本申请一实施例提供的一种音频信号处理方法的流程示意图，如图1所示，该方法包括：

S101：获取待检测音频信号中多个语音片段的语音特征。

可选地，在本申请的一个实施例中，在获取待检测音频信号中多个语音片段的语音特征之前，需要先获取一段输入的待检测音频数据，并对该待检测音频数据进行预处理，再获取处理后的待检测音频信号中多个语音片段的语音特征。

示例地，可采用下述预处理过程对该待检测音频数据进行处理，得到多个语音片段的语音特征：

首先，可对该待检测音频信号进行直流降噪处理，以去除该待检测音频数据中的直流噪声，例如，可采用下述公式对该待检测音频信号进行直流降噪处理：

其中，

为直流降噪处理后的音频信号，μ是待检测音频信号x(n)的均值，n为待检测音频信号中的第n个采样点。

举例说明：若采样频率为8K，待检测音频数据的时长为10秒，则该待检测音频数据中包括8万个采样点,即该待检测音频信号所包括的采样点个数，可以根据采样频率以及该待检测音频的时长的乘积进行确定，此时μ为上述8万个采样点的均值。

可选的，还可对降噪处理后的待检测音频数据进行预加重处理，以减少尖锐噪音的影响，一定程度上弥补了高频部分的损耗，从而提升高频信号的辨析度。

在具体实现中，可采用下述预加重公式如下对音频信号进行预加重处理：y(n)＝x(n)-α×x(n-1)，其中，y(n)为经过预加重后的待检测音频中的各采样点，x(n)为待检测音频数据的各采样点，α为大于0，小于1的预设系数，如0.95-0.98之间的任一的数值。在本申请的一个实施例中，将α设置为0.97，但具体α的取值可以根据用户需要设计，本申请在此不做任何限制。

可选地，在本申请的一个实施例中，去除直流噪声后，再对预加重后的待检测音频数据进行分帧，得到多段待检测音频子数据。在本申请的一个实施例中，帧长可以为20ms，帧移可以为10ms，并且分帧时间也可以设置在预加重或去除噪音之前，只需保证在加窗前已完成分帧即可，具体分帧时间和分帧的帧长和帧移可以根据用户需要设计，本申请在此不做任何限制。

随后，对分帧后的各段待检测音频子数据的各帧信号加进行加窗处理，例如，加汉明(hamming)窗，可采用下述公式进行加窗：

y(n)＝x(n)×w(n)

其中，y(n)为加窗后的信号，x(n)为原始信号，w(n)为汉明窗系数。M为窗长，可根据采样频率和帧长进行确定，举例说明，采样频率为8K且帧长为20ms时，对应的窗长为160个点。

在加窗处理之后，还可对加窗处理后的各段待检测音频子数据进行快速傅里叶(fast Fourier transform，FFT)变换。由于本申请中的各段待检测音频子数据均为离散信号，所以选择离散傅里叶变换(Discrete Fourier Transform，DFT)对加窗后的各段待检测音频子数据进行处理，处理公式如下：

其中，N可根据采样率进行确定，举例说明，对于8k采样率的语音来说，N可取值为256；对于16k采样率的语音来说，N可取值为512。X(k)为傅里叶变化后的频域信号。

随后对傅里叶变换后的各段待检测音频子数据进行离散余弦变换(DiscreteCosine Transform，DCT)。由于离散余弦变换具有很强的"能量集中"特性，所以可以去除频率特征的相关性，降低特征的维度。

DCT的公式如下：

其中，u表示经过DCT变换后的待检测音频数据特征的第u维，N为待检测音频数据的初始频域特征维度。举例说明，若需要将当前加窗后的各段待检测音频子数据，从30维的特征降至12维，此时N为30，u的取值为0-11。F(u)为经过DCT变换后的各段待检测音频子数据。

该方法可对DCT变换后的各段待检测音频子数据进行音频特征的提取，如提取频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)特征。其中，在DCT变换之后，进行音频特征的提取，可以去除音频片段中各维的相关性(即降维)。

随后基于能量的有效语音检测(Voice Activity Detection，VAD)，得到输入语音的多个语音片段，并根据各语音片段的起始点对经过DCT变换后的待检测音频数据中的音频特征如MFCC特征进行切割，此时切割后的多个语音片段构成经过预处理后的S101中的待检测音频信号。

由于VAD可以找到语音的开始点和结束点，前述MFCC特征提取过程里，是对整条语音提取的，即提取的特征包括：语音的MFCC和非语音的MFCC，而此处是根据VAD的结果，来得到语音段的MFCC序列，即从语音分割，变为特征分割。

可选地，在本申请的一个实施例中，使用的VAD算法是基于短时平均子带能量的VAD，将语音在频域上分成四个子带，计算每个子带的平均能量，一般来说，语音在2kHz下包含有大量的能量，而噪声在2-4kHz或者4kHz以上相对有更好的能量。根据这一特性，设置不同的阈值，来判断当前时段的音频信号是语音还是非语音(静音或者噪声)。

S102：根据第一个语音片段之后的每个待分类语音片段的语音特征，和至少一个已分类语音片段的语音特征，确定每个待分类语音片段的类别。

其中，第一个语音片段的类别为预设类别，至少一个已分类语音片段为每个待分类语音片段之前的至少一个语音片段。

可选地，在本申请的一个实施例中，类别的标识选择按照顺序的正整数，确定各语音片段所属类别之前，假设第一个语音片段属于第一个说话人，则建立类别1，并将第一个语音片段分到类别1中；但是类别标识的具体方式并不以上述实施例给出的为限制，也可以选择字母作为类别标识，或根据其他规则确定类别标识，具体类别标识的设置方式可以根据用户需要设计，本申请在此不做任何限制。

可选地，在本申请的一个实施例中，确定第一个语音片段的类别后，按照时间序列顺序，依次获取下一个语音片段作为待分类语音片段，并将该待分类语音片段分别于各已分类语音片段的语音特征进行对比，从而确定该待分类语音片段所属的类别。

S103：根据第一个语音片段的类别以及每个待分类语音片段的类别，确定待检测音频信号的总类别个数，并根据总类别个数，确定待检测音频信号的说话人数。

其中，所有待分类语音片段均处理完成后，统计总类别个数，并将总类别个数作为待检测音频信号的说话人数，即若当前统计得到总类别个数为10个，说明当前待检测音频信号中，说话人数为10人。

采用本申请提供的方法，由于获取到待检测音频信号中的多个语音片段的语音特征后，只需根据第一个语音片段之后的每个待分类语音片段的语音特征，和至少一个已分类语音片段的语音特征，就可以确定每个待分类语音片段的类别，最终根据第一个语音片段的类别以及每个待分类语音片段的类别，确定待检测音频信号的总类别个数，这样的处理方法使得在确定待分类语音片段的类别时，只需将每个待分类语音片段的语音特征与已分类语音片段的语音特征之间进行对比即可，无需对比每个待分类语音片段之间的语音特征，使得对比效率提高，即减少了分离各个说话人的时间，提高了确定待检测音频信号的说话人数的实时性。

可选的，在上述实施例的基础上，本申请实施例还可提供一种音频处理处理方法，如下结合附图进行说明。图2为本申请另一实施例提供的一种音频信号处理方法的流程示意图，如图2所示，S102可包括：

S104：根据第一个语音片段之后的每个待分类语音片段的语音特征，和至少一个已分类语音片段的语音特征，分别计算每个待分类语音片段与至少一个已分类语音片段之间的第一特征距离。

可选地，在本申请的一个实施例中，各语音片段之间的特征距离通过贝叶斯信息准则(Bayesian Information Criterion，BIC)距离来表示，在计算BIC距离之前，需要先对各语音片段的语音特征数据，计算均值向量和协方差矩阵，其中，均值的计算公式如下：

其中，N为语音特征的个数，x_i为第i帧语音特征。协方差矩阵的计算公式如下：

随后再根据各语音片段的特征数据的均值向量和协方差矩阵，计算各语音片段之间的BIC距离。

S105:根据第一特征距离，确定每个待分类语音片段的类别。

其中，当第一特征距离为BIC距离时，可通过计算两个数据对应模型的复杂度差异，来判断两个数据是否是同一个类别。若两个语音片段之间的类别相同，其模型相近；若两个语音片段属于不同的类别，其对应的模型差异较大。

其中，通过计算各语音片段之间的第一特征距离，可以确定各待分类语音片段的类别，这样的计算方法复杂度低，从而可以快速确定当前待检测音频信号中的说话人数，提高了音频处理的实时性。

可选的，在上述实施例的基础上，本申请实施例还可提供一种音频处理处理方法，如下结合附图进行解释说明。图3为本申请另一实施例提供的一种音频信号处理方法的流程示意图，如图3所示，S105可包括：

S106：根据第一特征距离，判断是否存在与待分类语音片段的类别相同的已分类语音片段。

若至少一个已分类语音片段中存在与每个待分类语音片段的类别相同的已分类语音片段，则执行S107a：确定该已分类语音片段的类别为待分类语音片段的类别。

即将该与待分类语音片段类别相同的已分类语音片段的类别作为目标类别，并将待分类语音片段加入至目标类别中，至此待分类语音片段的分类已完成，此时待分类片段无需再与其他片段进行距离的计算。

若至少一个已分类语音片段中不存在与每个待分类语音片段的类别相同的已分类语音片段，则执行S107b：建立新类别，并确定待分类语音片段的类别为新类别。

这样的设置方式使得确定待分类语音片段的类别时，仅需将待分类语音片段的类别与已分类语音片段的类别进行对比，无需对比各待分类语音片段之间的类别，这样的对比方式大大减少了对比工作的耗时；并且边对比边确定待分类语音片段的类别，使得对比成功后，待分类语音片段的类别可以立即确定，即使还存在部分未对比的已分类语音片段进行，也无需再进行对比，从而减少了对比过程中的复杂度，提高了处理效率。

可选的，在上述实施例的基础上，本申请实施例还可提供一种音频处理处理方法，如下结合附图进行解释说明。图4为本申请另一实施例提供的一种音频信号处理方法的流程示意图，如图4所示，S106可包括：

S108：判断第一特征距离是否小于第一预设阈值。

其中，在本申请的一个实施例中，第一预设阈值设置为0，即若第一特征距离小于0，表示当前对比的两个语音片段属于不同的说话人，即确定每个待分类语音片段与对应已分类语音片段的类别不同。

若第一特征距离大于或等于0，则根据特征距离以及每个待分类语音片段的内部特征距离，判断每个待分类语音片段的类别与每个已分类语音片段的类别是否相同，即执行S109：判断第一特征距离以及每个待分类语音片段的内部特征距离的差值是否大于第二预设阈值。

在本申请的一个实施例中，第二预设阈值可以为100，即判断第一特征距离和对应的待分类语音片段的内部特征距离的差值是否大于100。

其中，每个待分类语音片段的内部特征距离是根据每个待分类语音片段的语音特征，和每个待分类语音片段的两个语音子片段的语音特征确定的。即根据每个待分类语音片段的两个语音子片段的语音特征和每个已分类语音片段的语音特征，分别确定两个语音子片段与每个已分类语音片段的第二特征距离。

其中，每个待分类语音片段分割后，可以得到该待分类语音片段对应的两个语音子片段。

可选地，在本申请的一个实施例中，对一个待分类语音片段S_i，可以将该语音片段从中间分为两段，得到S_i对应的两个语音子片段，分别记为

和

一个语音片段，可能有多秒音频数据。举例说明：假设当前待分类语音片段有3秒，则S_i表示整个3秒语音，

表示前1.5秒的语音段，

表示后1.5秒的语音段。每个语音段都有多帧的MFCC特征。一般语音帧的长度是0.01毫秒，语音段的单位是秒，一秒的语音段对应100个语音帧，即100个MFCC特征向量。随后按上述计算均值向量和协方差矩阵的方法，分别计算S_i、

和

的均值向量和协方差矩阵，并计算S_i的内部特征距离BIC距离。在实际应用中例如可采用下述公式计算S_i的内部特征距离：

ΔBIC(i)＝-R(i)+λP

其中，D表示音频特征的维度，ΔBIC(i)为S_i的内部特征距离BIC距离，其可被作为一个参考阈值，用于判断S_i与其他已分类语音片段是否属于同一类别。λ为可调平衡参数，在本申请的一个实施例中，λ的取值范围可以为0.5-2之间。

若计算得到第一特征距离以及每个待分类语音片段的内部特征距离的差值大于第二预设阈值，则确定每个待分类语音片段与对应已分类语音片段的类别不同，执行S107b：建立新类别，并确定待分类语音片段的类型为新类别。

若第一特征距离以及每个待分类语音片段的内部特征距离的差值小于或等于第二预设阈值，则执行S107a：确定该已分类语音片段的类别为待分类语音片段的类别。

可选的，在上述实施例的基础上，本申请实施例还可提供一种音频处理处理方法，如下结合附图进行解释说明。图5为本申请另一实施例提供的一种音频信号处理方法的流程示意图，如图5所示，该方法还包括：根据两个语音子片段与每个已分类语音片段的第二特征距离的绝对差值，确定每个待分类语音片段的类别。

即S110：判断两个语音子片段与每个已分类语音片段的第二特征距离的绝对差是否大于第三预设阈值。

可选地，在本申请的一个实施例中，第三阈值可以为300。

若绝对差值大于第三预设阈值，则确定每个待分类语音片段的类别为对应已分类语音片段的类别不同，执行S107b：建立新类别，并确定待分类语音片段的类型为新类别。

若绝对差值小于或等于第三预设阈值，则执行S107a：确定该已分类语音片段的类别为待分类语音片段的类别。

可选地，在本申请的一个实施例中，若某一类别中的语音片段数目少于3个，说明当前类别下，说话时间太短，所以将这种语音片段数目少于3个的类别予以删除，删除后的类别个数为最终总类别个数。这样的设置方式防止误判的情况，提高了语音识别的准确性。

为验证本申请提供的方法的有效性，从网络音视频资源、电话语音数据和桌面麦克风数据中，挑选了2000条语音座位待检测音频信号，其中，多人对话语音1000条，单人对话语音1000条，每条语音的长度为20秒-5分钟不等。

按照上述方法提供的步骤，计算每条待检测音频信号的说话人数，并统计判定的正确率，平均准确率的结果如表1所示。

	平均准确率
		多人语音	96.8％
单人语音	98.5％
		同一说话人	99.1％

表1：说话人数判定的正确率

表1中的“同一说话人”是指：对于待检测音频信号为单人语音的情况来说，若说话人数目判定为1，则表示当前判定正确；对于待检测音频信号为多人语音情况，若说话人数目判定大于1人，即使与真实说话人数目不相符，仍然为判定正确。

采用本申请提供的音频信号处理方法，再获取到待检测音频信号中的多个语音片段的语音特征后，只需根据第一个语音片段之后的每个待分类语音片段的语音特征，和至少一个已分类语音片段的语音特征之间的第一特征距离，就可以确定每个待分类语音片段的类别，最终根据第一个语音片段的类别以及每个待分类语音片段的类别，确定待检测音频信号的总类别个数，这样的处理方法使得在确定待分类语音片段的类别时，只需将每个待分类语音片段的语音特征与已分类语音片段的语音特征之间进行对比即可，无需对比每个待分类语音片段之间的语音特征，使得对比效率提高，确定待检测音频信号的说话人数的实时性提高，并且由于本申请提出的方法在对音频的处理过程中，没有进行复杂的聚类和重分割，因此不但算法的效率非常高，并且对于后续声纹识别系统的实时性能基本没有影响。

下述结合附图对本申请所提供的音频信号处理装置进行解释说明，该音频信号处理装置可执行上述图1-图5任一音频信号处理方法，其具体实现以及有益效果参照上述，如下不再赘述。

图6为本申请一实施例提供的音频信号处理装置的结构示意图，如图6所示，该装置包括：获取模块201和确定模块202，其中：

获取模块201，用于获取待检测音频信号中多个语音片段的语音特征。

确定模块202，用于根据第一个语音片段之后的每个待分类语音片段的语音特征和至少一个已分类语音片段的语音特征，确定每个待分类语音片段的类别；其中，第一个语音片段的类别为预设类别，至少一个已分类语音片段为每个待分类语音片段之前的至少一个语音片段。

确定模块202，还用于根据第一个语音片段的类别以及每个待分类语音片段的类别，确定待检测音频信号的总类别个数，并根据总类别个数，确定待检测音频信号的说话人数。

图7为本申请一实施例提供的音频信号处理装置的结构示意图，如图7所示，该装置还包括：计算模块203，用于根据第一个语音片段之后的每个待分类语音片段的语音特征和至少一个已分类语音片段的语音特征，分别计算每个待分类语音片段与至少一个已分类语音片段之间的第一特征距离。

确定模块202，还用于根据第一特征距离，确定每个待分类语音片段的类别。

图8为本申请一实施例提供的音频信号处理装置的结构示意图，如图8所示，该装置还包括：判断模块204，用于根据第一特征距离，判断是否存在与所述待分类语音片段的类别相同的所述已分类语音片段。

确定模块202，还用于若存在，则确定所述已分类语音片段的类别为所述待分类语音片段的类别。

确定模块202，还用于若至少一个已分类语音片段中不存在与每个待分类语音片段的类别相同的已分类语音片段，则建立新类别，并确定待分类语音片段的类别为新类别。

可选地，确定模块202，还用于若第一特征距离小于第一预设阈值，则确定每个待分类语音片段与对应已分类语音片段的类别不同。

确定模块202，还用于若第一特征距离大于或等于第一预设阈值，则根据特征距离以及每个待分类语音片段的内部特征距离，判断每个待分类语音片段的类别与每个已分类语音片段的类别是否相同。

可选地，确定模块202，还用于若第一特征距离以及每个待分类语音片段的内部特征距离的差值，大于第二预设阈值，则确定每个待分类语音片段与对应已分类语音片段的类别不同。

可选地，确定模块202，还用于根据每个待分类语音片段的语音特征，和每个待分类语音片段的两个语音子片段的语音特征，确定每个待分类语音片段的内部特征距离。

可选地，确定模块202，还用于根据每个待分类语音片段的两个语音子片段的语音特征和每个已分类语音片段的语音特征，分别确定两个语音子片段与每个已分类语音片段的第二特征距离。

确定模块202，还用于根据两个语音子片段与每个已分类语音片段的第二特征距离的绝对差值，确定每个待分类语音片段的类别。

可选地，确定模块202，还用于若绝对差值，大于第三预设阈值，则确定每个待分类语音片段的类别为对应已分类语音片段的类别不同。

以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital singnal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(CentralProcessing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

图9为本申请一实施例提供的音频信号处理设备的结构示意图，该音频信号处理设备可以集成于终端设备、服务器或者终端设备的芯片。

该音频信号处理设备包括：处理器501、存储介质502和总线503。

处理器501用于存储程序，处理器501调用存储介质502存储的程序，以执行上述图1-图5对应的方法实施例。具体实现方式和技术效果类似，这里不再赘述。

可选地，本申请还提供一种程序产品，例如存储介质，该存储介质上存储有计算机程序，包括程序，该程序在被处理器运行时执行上述方法对应的实施例。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(英文：Read-Only Memory，简称：ROM)、随机存取存储器(英文：Random Access Memory，简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种音频信号处理方法，其特征在于，所述方法包括：

获取待检测音频信号中多个语音片段的语音特征；

2.如权利要求1所述的方法，其特征在于，所述根据第一个语音片段之后的每个待分类语音片段的语音特征和至少一个已分类语音片段的语音特征，确定所述每个待分类语音片段的类别，包括：

3.如权利要求2所述的方法，其特征在于，所述根据所述第一特征距离，确定所述每个待分类语音片段的类别，包括：

若至少一个所述已分类语音片段中不存在与所述每个待分类语音片段的类别相同的已分类语音片段，则建立新类别，并确定所述待分类语音片段的类别为所述新类别。

4.如权利要求3所述的方法，其特征在于，所述根据所述第一特征距离，判断是否存在与所述待分类语音片段的类别相同的所述已分类语音片段，包括：

5.如权利要求4所述的方法，其特征在于，所述根据所述第一特征距离以及所述每个待分类语音片段的内部特征距离，判断所述每个待分类语音片段的类别与每个已分类语音片段的类别是否相同，包括：

6.如权利要求4所述的方法，其特征在于，所述根据所述第一特征距离以及所述每个待分类语音片段的内部特征距离，判断所述每个待分类语音片段的类别与每个已分类语音片段的类别是否相同之前，所述方法还包括：

7.如权利要求1所述的方法，其特征在于，所述根据第一个语音片段之后的每个待分类语音片段的语音特征和至少一个已分类语音片段的语音特征，确定所述每个待分类语音片段的类别包括：

8.如权利要求7所述的方法，其特征在于，所述根据所述两个语音子片段与所述每个已分类语音片段的第二特征距离的绝对差值，确定所述每个待分类语音片段的类别，包括：

9.一种音频信号处理设备，其特征在于，所述设备包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当音频信号处理设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行上述权利要求1-8任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述权利要求1-8任一项所述的方法。