CN113851136A

CN113851136A - 基于聚类的说话人识别方法、装置、设备及存储介质

Info

Publication number: CN113851136A
Application number: CN202111130681.XA
Authority: CN
Inventors: 张旭龙; 王健宗
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-09-26
Filing date: 2021-09-26
Publication date: 2021-12-28

Abstract

本发明公开了一种基于聚类的说话人识别方法、装置、设备及存储介质，应用于人工智能技术领域。本发明提供的方法包括：对待确定音频进行分割处理，得到至少两个目标语音段；提取每个所述目标语音段的梅尔倒谱系数，将所述梅尔倒谱系数输入到时延神经网络进行特征提取，得到每个所述目标语音段的声学特征；将每个所述声学特征输入到预先训练好的语音识别模型进行嵌入生成，得到每个所述目标语音段的说话人嵌入；通过聚类算法，对每个所述说话人嵌入进行聚类，得到聚类结果，并根据所述聚类结果确定说话人身份。本发明用于提高针对多个说话人进行识别的效率。

Description

基于聚类的说话人识别方法、装置、设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于聚类的说话人识别方法、装置、设备及存储介质。

背景技术

声纹识别(VoiceprintRecognition，VPR)属于生物信息识别技术的一种，也被称为说话人识别(SpeakerRecognition，SR)，是一种通过声音判断说话人身份的技术。与传统身份识别技术相比，声纹识别的优势在于，每个人的声纹特征具有唯一性，不易伪造和假冒。由于声纹识别具有安全、可靠、方便等特性，使其在需进行身份识别的场合得到广泛的应用。

在会议等多人交替说话的场景中，需要识别当前时间点的说话人是谁，从而确定当前时间点说话人的身份，进而生成记录文件，现有的说话人识别方法大多采用GMM模型(GaussianMixtureModel，高斯混合模型)，这种方法在已知说话人数量已知的情况下，需要对每个说话人都训练好对应的GMM模型，再根据待确定音频与每个GMM模型的相似度，确定待确定音频中的说话人身份。

上述方法需要预先确定说话人的数量，并对每个说话人都训练对应的模型，需要的训练数据过多，具有一定的局限性，并且，需要将待确定音频分别输入到每个说话人对应的GMM模型中进行识别，导致识别效率较低。

发明内容

本发明提供一种基于聚类的说话人识别方法、装置、设备及存储介质，以解决现有技术中针对多个说话人进行识别效率低的技术问题。

一种基于聚类的说话人识别方法，包括：

对待确定音频进行分割处理，得到至少两个目标语音段；

提取每个所述目标语音段的梅尔倒谱系数，将所述梅尔倒谱系数输入到预设的时延神经网络进行特征提取，得到每个所述目标语音段的声学特征；

将每个所述声学特征输入到预先训练好的语音识别模型进行嵌入生成，得到每个所述目标语音段的说话人嵌入；

通过聚类算法，对每个所述说话人嵌入进行聚类，得到聚类结果，并基于所述聚类结果，确定每个说话人的身份。

一种基于聚类的说话人识别装置，包括：

目标语音段分割模块，用于对待确定音频进行分割处理，得到至少两个目标语音段；

声学特征提取模块，用于提取每个所述目标语音段的梅尔倒谱系数，将所述梅尔倒谱系数输入到时延神经网络进行特征提取，得到每个所述目标语音段的声学特征；

说话人嵌入生成模块，用于将每个所述声学特征输入到预先训练好的语音识别模型进行嵌入生成，得到每个所述目标语音段的说话人嵌入；

聚类结果生成模块，用于通过聚类算法，对每个所述说话人嵌入进行聚类，得到聚类结果，并基于所述聚类结果，确定每个说话人的身份。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于聚类的说话人识别方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述基于聚类的说话人识别方法的步骤。

本发明提供的基于聚类的说话人识别方法、装置、计算机设备及存储介质，通过对待确定音频进行分割，得到多个目标语音段，通过时延神经网络提取每个目标语音段的声学特征；将每个声学特征输入到语音识别模型中进行识别，并生成每个声学特征的说话人嵌入；通过聚类算法，对每个目标语音段的说话人嵌入进行聚类，得到聚类结果，基于聚类结果确定每个目标语音段的说话人。将任意长度的目标语音段输入到时延神经网络会输出固定长度的声学特征，根据语音识别模型的可解释性和可插入性，为声学特征生成说话人嵌入，在不清楚说话人的数量的情况下，根据说话人嵌入进行聚类得到聚类结果，提高针对多个说话人进行识别的效率。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中基于聚类的说话人识别方法的一应用环境示意图；

图2是本发明一实施例中基于聚类的说话人识别方法的一流程图；

图3是本发明一实施例中基于聚类的说话人识别装置的结构示意图；

图4是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，生物识别技术是指通过计算机利用人类自身生理或行为特征进行身份认定的一种技术，以人体唯一的、可靠的、稳定的生理特征(如指纹、虹膜、脸部、掌纹等)或行为特征(话音、击键、步态、签名等)为依据，采用计算机的强大功能和网络技术进行图像处理和模式识别，用以鉴别人的身份。该技术具有很好的安全性、可靠性和有效性，与传统的的身份确认手段相比，不依赖各种人造的和附加的物品来证明人的自身，而用来证明自身的是人本身。

本申请实施例提供的基于聚类的说话人识别方法，可应用在如图1的应用环境中，其中，计算机设备通过网络与服务器进行通信。其中，计算机设备/可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、内容分发网络(ContentDeliveryNetwork，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

系统框架100可以包括终端设备、网络和服务器。网络用以在终端设备和服务器之间提供通信链路的介质。网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备通过网络104与服务器交互，以接收或者发送消息等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture EpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureEperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本发明实施例所提供的基于聚类的说话人识别方法由服务器执行，相应地，基于聚类的说话人识别装置设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的，根据实现需要，可以具有任意数目的终端设备、网络和服务器，本发明实施例中的终端设备具体可以对应的是实际生产中的应用系统。

在一实施例中，如图2所示，提供一种基于聚类的说话人识别方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤S201至S204。

S201、对待确定音频进行分割处理，得到至少两个目标语音段。

其中，待确定音频具体是记录多个说话人在进行交替发言时的发言内容的音频数据，可以用作会议或者涉及多个说话人的场景。

说话人具体是指做出发言行为的人，在本实施例的应用场景中，多个说话人交替进行发言，且每个说话人的发言次数并不只有一次，需要将待确定音频进行分割，将每个说话人的每一次发言分割出来，得到目标语音段。

具体的，通过提取待确定音频的时域特征或者频域特征，设置合理的阈值，以区分待确定音频中语音帧和非语音帧。其中，时域特征包括待确定音频的短时能量和短期过零率等；频域特征包括MFCC(Mel-scale Frequency Cepstral Coffcients，梅尔倒谱系数)、谱熵等。优选的，通过端点检测算法检测待确定音频，得到待确定音频中的非语音帧，将非语音帧作为分割点，将待确定音频分割成多个目标语音段。

S202、提取每个目标语音段的梅尔倒谱系数，将梅尔倒谱系数输入到预设的时延神经网络进行特征提取，得到每个目标语音段的声学特征。

梅尔倒谱系数(Mel-scale Frequency Cepstral Coffcients,MFCC)是在Mel标度频率与提取出来的倒谱参数，Mel标度描述了人耳频率的非线性特性，可根据公式(1)表示：

其中，Mel(f)是以梅尔(Mel)为单位的感知频域，f是以Hz为单位的实际语音频率。

根据人耳听觉机理的研究发现，人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响对大。两个响度不等的声音作用于人耳时，则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受，使其变得不易察觉，这种现象称为掩蔽效应。MFCC的非线性表示，更符合人耳的听觉特性，采用MFCC作为语音识别的特征具有更好的识别性能。

进一步的，MCFF的提取过程包括：对目标语音段进行预加重、分帧、加窗、FFT转换。经过Mel滤波器组、对数运算、DCT、FMCC特征参数。

其中，时延神经网络(Time-Delay Neural Network,TDNN)是一种应用于语音识别问题的卷积神经网络。进一步的，在TDNN的基础上，采用x-vectors系统提取目标语音段的声学向量特征。x-vectors包含多层帧级别的TDNN层，一个统计池化层和两层句子级别的全连接层以及一层softmax，采用x-vectors将梅尔倒谱系数中帧级别的输入特征转化为句子级别的特征表达embedding，输出每个目标语音段的x-vector作为声学向量特征，得到每个目标语音段的声学特征。

x-vectors网络接收任意长度的目标语音段，转化为固定长度的特征表达，根据固定长度的特征表达；在训练过程中引入了包含噪声和混响在内的数据增强策略，使得模型对于噪声和混响等干扰更加鲁棒。

S203、将每个声学特征输入到预先训练好的语音识别模型进行嵌入生成，得到每个目标语音段的说话人嵌入。

其中，嵌入生成是指通过语音识别模型中的嵌入层提取声学特征的低维固定向量，其中，低维固定向量包含说话人信息即说话人的声纹特征信息等，提取出来的低维固定向量作为说话人嵌入。其中，嵌入层(Embedding)具有很好的特征表达性能，并且能将输入的声学特征进行降维，并输出经过降维的说话人嵌入，用来表征说话人的编码。

在本实施例中，预先训练好的语音识别模型采用ClusterGAN模型结构，通过从one-hot离散编码变量和连续编码变量的混合变量中采样潜在变量，根据潜在变量生成隐含嵌入，将对应的隐含嵌入作为每个目标语音段的说话人嵌入。

其中，ClusterGAN模型由生成器(Generator)、判别器(Discriminator)和编码器(Encoder)组成，从每个目标语音段的声学特征的连续分布中采样，获得潜在变量，通过编码器对潜在变量进行编码，生成隐含嵌入，并将隐含嵌入作为每个目标语音段的说话人嵌入。

隐含嵌入是指声学特征经过ClusterGAN中的编码器，对其进行编码后生成的编码向量，用以表征声学特征的一种表现形式。在ClusterGAN模型中采用隐藏空间(LatentSpace)生成编码向量，则将生成的编码向量称为隐含嵌入。

S204、通过聚类算法，对每个说话人嵌入进行聚类，得到聚类结果，并基于聚类结果，确定每个说话人的身份。

其中，通过无监督聚类算法，在实施例中的优选的是k-means算法，对每个说话人嵌入进行聚类，将聚为一类的说话人嵌入，识别为同一说话人。进一步的，获取待确定音频中每个说话人的身份验证音频数据，从身份验证音频数据提取说话人的声纹特征，将声纹特征与聚类结果中的目标语音段的声纹特征进行匹配，识别每个聚类结果中的说话人身份。根据k-means算法将说话人嵌入聚类，得到多个聚类结果，每个聚类结果对应一个说话人，即根据聚类结果的数量得到说话人的数量，具体的，可以根据每个聚类中的说话人嵌入，识别出每个聚类结果对应的说话人的身份。其中，说话人的身份是指用于区分说话人的信息，可以表示某句语音是由谁说出来的。其中，说话人是指待确定音频中说话的对象。其中，待确定音频中的说话人数量可能有多个。

作为一种可选方式，采用S203中的ClusterGAN模型，通过特定聚类损失训练的反向映射网络，实现潜在空间的聚类。

在本实施例中，通过对待确定音频进行分割，得到多个目标语音段，通过时延神经网络提取每个目标语音段的声学特征；将每个声学特征输入到语音识别模型中进行识别，并生成每个声学特征的说话人嵌入；通过聚类算法，对每个目标语音段的说话人嵌入进行聚类，得到聚类结果，基于聚类结果确定每个目标语音段的说话人，通过时延神经网络提取每个目标语音段的声学特征，提取并通过聚类算法将属于同一个说话人的目标语音段进行聚类，提高针对多个说话人进行识别的效率。

作为一种可选方式，当识别并区分出待确定音频中说话人，在待确定音频中打上说话人的标签，通过语音转文字模型，将待确定音频中的语音转换成文字，每一段文字对应一个说话人。根据语音转文字的结果整理出待确定音频的文字记录。

进一步的，在将待确定音频进行分割，得到目标语音段时，每一段目标语音段带有该段目标语音段的开始时间标签与结束时间标签，若相邻时间段的目标语音段为同一个说话人，将两段目标语音段进行合并，以在文字记录将两段目标语音段的文字进行合并。

在本实施例中，作为一种可选的实现方式，步骤S201，对待确定音频进行分割处理，得到至少两个目标语音段包括如下步骤。

S2011、通过语音端点检测算法，对待确定音频进行端点检测，得到端点检测结果。

其中，语音端点检测算法也叫语音活动检测(VoiceActivityDetection，VAD)，用于对待确定音频的语音和非语音的区域进行区分，从待确定音频中定位出每一段语音的开始点和结束点。

作为一种可选方式，通过计算待确定音频的短时能量，判断待确定音频当前帧的短时能量是否超过预设的语音帧能量阈值，若超过则认为当前帧是语音帧，若没有超过，则确认是非语音帧。确定每段语音的开始点和结束点，得到端点检测结果。

S2012、基于端点检测结果，对待确定音频进行切分，得到至少两个目标语音段。

其中，可以理解的，上一段语音的结束点是下一段语音的开始点，去除上一段结束点和下一段开始点之间的噪音段，基于端点检测结果，对待确定音频进行裁剪，得到至少两个目标语音段。其中，每个说话人可能对应多个目标语音段。作为一种可选方式，每一个目标语音段应该带有对应的时间标签，即可根据时间标签对多个目标语音段进行时序排序。

在本实施例，通过对待确定音频进行端点检测，去除待确定音频中的静音部分，减少需要处理的音频数据帧，提高处理效率。将待确定音频分割成多个目标语音段，针对每一个目标语音段进行处理。

在本实施例中，作为一种可选的实现方式，步骤S203，将每个声学特征输入到预先训练好的语音识别模型进行嵌入生成，得到每个目标语音段的说话人嵌入包括如下步骤。

S2031、将目标语音段的声学特征输入到语音识别模型，获取声学特征的隐含变量，作为声学特征向量。

其中，语音识别模型采用基于ClusterGAN模型的框架，使用独热编码技术对声学特征进行特征离散化处理后映射到二进制向量，得到声学特征向量。

S2032、通过语音识别模型的编码器，对声学特征向量进行编码，得到隐含嵌入，将隐含嵌入作为每个目标语音段的说话人嵌入。

其中，语音识别模型的编码器由全连接层构成网络结构，以保证输出的说话人嵌入的正确性。

在本实施例中，通过ClusterGAN模型构建语音识别模型，将声学特征输入训练后的语音识别模型，通过编码器生成说话人嵌入，保证生成的说话人嵌入的结果准确，并在此基础上对说话人嵌入进行聚类。作为一种可选方式，利用ClusterGAN的潜在空间对说话人嵌入进行聚类，用以提高聚类结果的准确性，从而提高识别说话人的准确性。

在本实施例中，作为一种可选的实现方式，在步骤S203之前，包括如下步骤。

A、获取训练语音数据，对训练语音数据进行分割，得到语音分割数据。

其中，获取训练语音集，训练语音集中有多条训练语音数据，每条训练语音数据包括多个说话人交替发言，按照端点检测算法，识别出每个说话人的语音，进行分割，得到语音分割数据。语音分割数据带有对应说话人的标签。

B、提取语音分割数据的声学特征，并将声学特征输入到初始生成对抗网络中进行训练，并根据识别结果计算损失参数。

其中，初始生成对抗网络采用ClusterGAN模型的架构，其包括生成器、判别器以及编码器。采用独热编码向量对说话人标签进行编码，生成二进制向量。将二进制向量和正态随机变量作为生成器的输入，生成器从二进制向量和正态随机变量中采用获得潜在变量，该潜在变量输入到编码器中，生成语音分割数据的说话人嵌入。

C、将损失参数输入到生成对抗网络进行反向传播，得到预先训练好的语音识别模型。

在本实施例中，通过对基于ClusterGAN结构的语音识别模型进行训练，通过编码器和GAN对训练数据进行学习，既学习到高维空间中的数据的概率分布特征，又能确保潜在变量恢复的准确性，在需要对说话人嵌入进行聚类的情况下提高聚类结果的准确性，提高针对多个说话人进行识别的准确性。

在本实施例中，作为一种可选的实现方式，步骤S204，通过聚类算法，对每个说话人嵌入进行聚类，得到聚类结果，并根据聚类结果确定说话人身份包括如下步骤。

S2041、通过k-means聚类方法，计算每个说话人嵌入的相似度，得到相似度结果。

其中，获取语音识别模型输出的说话人嵌入，将所有的说话人嵌入分为预设的k组，随机选择每一组中的说话人嵌入作为聚类中心，根据每一个说话人嵌入与聚类中心的距离，作为相似度结果。

作为一种可选方式，利用S203中的ClusterGAN中的潜在空间对说话人嵌入进行聚类，得到聚类结果。

S2042、将相似度结果大于预设阈值的说话人嵌入聚类为同一类，并将同一类的说话人嵌入作为一个说话人，得到聚类结果。

其中，根据相似度结果，将预设阈值数量的说话人嵌入聚为一类，聚为一类的说话人嵌入对应同一个说话人。

S2043、基于预先采集的说话人的音频信息，对聚类结果进行匹配，确定说话人的身份。

其中，预先获取待确定音频中出现的说话人的音频数据，从音频数据中提取每个说话人的声纹特征，将聚类结果中的声学特征进行比对，从而确定说话人的身份，以对待确定音频中的说话人进行区分。

作为一种可选方式，在步骤S2043中，包括如下步骤：

D、获取待确定音频中每个说话人的音频信息，并提取音频信息的声纹特征向量。

E、通过余弦距离计算的方式，将声纹特征向量与聚类结果进行匹配，得到匹配结果，基于匹配结果确定说话人的身份。

在本实施例中，通过对说话人嵌入进行聚类，将同一个说话人的目标语音段通过说话人嵌入聚为一类，在待确定音频中包含的说话人的个数不明的情况下，可根据聚类结果的个数确定说话人的个数，提高针对多个说话人进行识别的效率。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种基于聚类的说话人识别装置，该基于聚类的说话人识别装置与上述实施例中基于聚类的说话人识别方法一一对应。如图3所示，该基于聚类的说话人识别装置包括如下模块：

目标语音段分割模块31，用于对待确定音频进行分割处理，得到至少两个目标语音段；

声学特征提取模块32，用于提取每个目标语音段的梅尔倒谱系数，将梅尔倒谱系数输入到时延神经网络进行特征提取，得到每个目标语音段的声学向量特征，将声学向量特征作为每个目标语音段的声学特征；

说话人嵌入生成模块33，用于将每个声学特征输入到预先训练好的语音识别模型进行嵌入生成，得到每个目标语音段的说话人嵌入；

聚类结果生成模块34，用于通过聚类算法，对每个说话人嵌入进行聚类，得到聚类结果，并基于聚类结果，确定每个说话人身份。

进一步的，目标语音段分割模块31包括如下单元：

端点检测结果单元，用于通过语音端点检测算法，对所述待确定音频进行端点检测，得到端点检测结果；

目标语音段获取单元，用于基于所述端点检测结果，对所述待确定音频进行切分，得到至少两个目标语音段。

进一步的，说话人嵌入生成模块33包括如下单元：

声学特征向量生成单元，用于将目标语音段的声学特征输入到语音识别模型，获取声学特征的隐含变量，作为声学特征向量。

说话人嵌入生成单元，用于通过语音识别模型的编码器，对声学特征向量进行编码，得到隐含嵌入，将隐含嵌入作为每个目标语音段的说话人嵌入。

进一步的，聚类结果生成模块34包括如下单元：

相似度结果生成单元，用于通过k-means聚类方法，计算每个说话人嵌入的相似度，得到相似度结果。

聚类结果生成单元，将相似度结果大于预设阈值的说话人嵌入聚类为同一类，同一类的说话人嵌入作为一个说话人，得到聚类结果。

说话人身份识别单元，用于基于预先采集的说话人的音频信息，对聚类结果进行匹配，确定说话人的身份。

进一步的，在说话人身份识别单元中还包括如下子单元：

声纹特征向量获取子单元，用于获取待确定音频中每个说话人的音频信息，并提取音频信息的声纹特征向量。

说话人身份确定子单元，用于通过余弦距离计算的方式，将声纹特征向量与聚类结果进行匹配，得到匹配结果，基于匹配结果确定说话人的身份。

进一步的，基于聚类的说话人识别装置还包括如下模块：

语音分割数据获取模块，用于获取训练语音数据，对训练语音数据进行分割，得到语音分割数据。

损失参数计算模块，用于提取语音分割数据的声学特征，并将声学特征输入到初始生成对抗网络中进行训练，并根据识别结果计算损失参数。

语音识别模型生成模块，用于将损失参数输入到生成对抗网络进行反向传播，得到预先训练好的语音识别模型。

其中上述模块/单元中的“第一”和“第二”的意义仅在于将不同的模块/单元加以区分，并不用于限定哪个模块/单元的优先级更高或者其它的限定意义。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式。

关于基于聚类的说话人识别装置的具体限定可以参见上文中对于基于聚类的说话人识别方法的限定，在此不再赘述。上述基于聚类的说话人识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于聚类的说话人识别方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于聚类的说话人识别方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中基于聚类的说话人识别方法的步骤，例如图2所示的步骤S201至步骤S204及该方法的其它扩展和相关步骤的延伸。或者，处理器执行计算机程序时实现上述实施例中基于聚类的说话人识别装置的各模块/单元的功能，例如图3所示模块31至模块34的功能。为避免重复，这里不再赘述。

所述处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述计算机装置的控制中心，利用各种接口和线路连接整个计算机装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述计算机装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、视频数据等)等。

所述存储器可以集成在所述处理器中，也可以与所述处理器分开设置。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中基于聚类的说话人识别方法的步骤，例如图2所示的步骤S201至步骤S204及该方法的其它扩展和相关步骤的延伸。或者，计算机程序被处理器执行时实现上述实施例中基于聚类的说话人识别装置的各模块/单元的功能，例如图3所示模块31至模块34的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于聚类的说话人识别方法，其特征在于，所述方法包括：

对待确定音频进行分割处理，得到至少两个目标语音段；

2.根据权利要求1所述的基于聚类的说话人识别方法，其特征在于，所述对待确定音频进行分割处理，得到至少两个目标语音段的步骤包括：

通过语音端点检测算法，对所述待确定音频进行端点检测，得到端点检测结果；

基于所述端点检测结果，对所述待确定音频进行切分，得到至少两个目标语音段。

3.根据权利要求1所述的基于聚类的说话人识别方法，其特征在于，所述将每个所述声学特征输入到预先训练好的语音识别模型进行嵌入生成，得到每个所述目标语音段的说话人嵌入的步骤包括：

将所述目标语音段的所述声学特征输入到所述语音识别模型，获取所述声学特征的隐含变量，作为声学特征向量；

通过语音识别模型的编码器，对所述声学特征向量进行编码，得到隐含嵌入，将所述隐含嵌入作为每个所述目标语音段的说话人嵌入。

4.根据权利要求1所述的基于聚类的说话人识别方法，其特征在于，在将每个所述声学特征输入到预先训练好的语音识别模型进行嵌入生成的步骤之前，所述方法包括：

获取训练语音数据，对所述训练语音数据进行分割，得到语音分割数据；

提取所述语音分割数据的声学特征，并将所述声学特征输入到初始生成对抗网络中进行训练，并根据识别结果计算损失参数；

将所述损失参数输入到所述生成对抗网络进行反向传播，得到所述预先训练好的语音识别模型。

5.根据权利要求1所述的基于聚类的说话人识别方法，其特征在于，所述通过聚类算法，对每个所述说话人嵌入进行聚类，得到聚类结果，并基于所述聚类结果，确定每个说话人的身份的步骤包括：

通过k-means聚类方法，计算每个所述说话人嵌入的相似度，得到相似度结果；

将所述相似度结果大于预设阈值的所述说话人嵌入聚类为同一类，并将同一类的所述说话人嵌入作为一个说话人，得到聚类结果；

基于预先采集的说话人的音频信息，对所述聚类结果进行匹配，识别每个所述说话人的身份。

6.根据权利要求5所述的基于聚类的说话人识别方法，其特征在于，所述基于预先采集的说话人的音频信息，对所述聚类结果进行说话人匹配，确定说话人的身份的步骤包括：

获取所述待确定音频中每个所述说话人的音频信息，并提取所述音频信息的声纹特征向量；

通过余弦距离计算的方式，将所述声纹特征向量与所述聚类结果进行匹配，得到匹配结果，基于所述匹配结果确定所述说话人的身份。

7.一种基于聚类的说话人识别装置，其特征在于，所述装置包括：

声学特征提取模块，用于提取每个所述目标语音段的梅尔倒谱系数，将所述梅尔倒谱系数输入到预设的时延神经网络进行特征提取，得到每个所述目标语音段的声学特征；

聚类结果生成模块，用于通过聚类算法，对每个所述说话人嵌入进行聚类，得到聚类结果，并根据所述聚类结果确定每个说话人的身份。

8.根据权利要求7所述的基于聚类的说话人识别装置，其特征在于，所述目标语音段分割模块包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6中任一项所述基于聚类的说话人识别方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述基于聚类的说话人识别方法的步骤。