CN111785284A

CN111785284A - 基于音素辅助的文本无关声纹识别方法、装置以及设备

Info

Publication number: CN111785284A
Application number: CN202010839084.3A
Authority: CN
Inventors: 张学阳; 高天
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-10-16
Anticipated expiration: 2040-08-19
Also published as: CN111785284B

Abstract

本发明公开了一种基于音素辅助的文本无关声纹识别方法、装置以及设备。本发明分析了现有的文本无关声纹识别技术的缺陷，提出在音素信息上统计帧级别声纹信息分布，并与帧级别特征的第一统计信息进行结合，以此补偿第一统计信息中缺失的个性声纹信息。其中在获得帧级别声纹信息分布过程中，利用到获得第一统计信息之前的输入语音的帧级别特征以及预先掌握到的全局的音素状态分布模板，计算突出了声纹信息的统计量，使得识别说话人的过程有效利用到声纹信息在音素上的分布规律，从而可以大幅提高文本无关场景的说话人识别效果。为了获得用全局音素分布模板，本发明还提出可以预先基于大量说话人语音以及音素分类结果进行海量样本级的分布统计。

Description

基于音素辅助的文本无关声纹识别方法、装置以及设备

技术领域

本发明涉及说话人识别技术领域，尤其涉及一种基于音素辅助的文本无关声纹识别方法、装置以及设备。

背景技术

声纹识别又称说话人识别(Speaker Recognition)，是指利用人的声音来检测说话人身份的技术，是一项重要且具有挑战性的研究课题。与其它生物识别技术相比，声纹识别利用语音信号进行身份确认，具有成本低廉、采集简便、易于存储、难于模仿、交互友好等特点，同时也可以通过电话或网络等方式进行远程操作。因此，声纹识别技术在多种领域都具有良好而广阔的应用前景。

通常，说话人识别任务按照文本的相关性可以被分成“文本无关”以及“文本相关”两类任务。文本相关任务是注册语音和测试语音需要是相同文本内容，例如数字密码认证等场景；文本无关场景中，目标说话人的注册和测试没有文本的限制，主要应用对目标说话人安全监控等场景，正是由于其与文本无关的特点，很容易受到音素信息的影响，导致相比于文本相关场景，文本无关声纹识别的处理难度也更大。

目前经典的声纹建模技术主要包含基于TV系统和使用深度神经网络的说话人空间映射两类。前者利用大量的无监督的训练语料数据训练得到覆盖各种环境和信道的全变量空间，利用此空间，将一段语音映射成一个低维度向量(i-vector)用于表征说话人；后者主要是应用前馈神经网络、卷积神经网络等经典网络结构以训练集说话人为目标进行分类，拟合说话人空间分布，从网络中抽取瓶颈层输出作为说话人表征。两者最后都是利用向量间的相似性来描述两段语音是否含有相同的声纹信息。

其中，采用深度神经网络的说话人识别方法在绝大多数场景上已经超越了基于因子分析的TV系统，例如xvector、renset等系统，近些年来逐渐成为说话人识别领域研究的热点，而引入音素信息辅助声纹训练可以进一步提升说话人识别的效果，因此一直是说话人识别领域的研究热点。

比如利用深度神经网络的multi-task方式对说话人声纹信息和音素信息分别进行区分性训练，一般来说，在此过程中提取帧级别表征信息时，可以对其中的音素信息进行分类，之后基于包含音素分类结果的帧级别表征信息统计其均值(及标准差)，进而基于获得的统计信息进行说话人分类识别。虽然音素在其中起到了一定的辅佐作用，并可以使识别效果获得相应提升，但由于此方式会着重关注某些对说话人声纹分类有利的语音帧，没有考虑全局音素状态分布的影响，因此，此种方式对说话人识别效果的提升能力仍然有限。

发明内容

由此背景，本发明旨在提供一种基于音素辅助的文本无关声纹识别方法、装置以及设备，并相应地提出一种计算机可读存储介质以及计算机程序产品，本发明针对文本无关的声纹识别场景，充分利用声纹信息在音素上的全局分布规律，从而可以大幅提高基于深度神经网络实现的文本无关说话人识别技术的处理精准度。

本发明采用的技术方案如下：

第一方面，本发明提供了一种基于音素辅助的文本无关声纹识别方法，包括：

提取输入语音的帧级别特征；

根据所述帧级别特征，获得相应于音素状态的音素分类结果，并求取输入语音的第一统计信息；

结合所述帧级别特征、所述音素分类结果以及预先确定的音素状态分布模板，对输入语音进行声纹信息分布统计，得到第二统计信息；

根据所述第一统计信息以及所述第二统计信息，对输入语音进行说话人识别。

在其中至少一种可能的实现方式中，所述结合所述帧级别特征、所述音素分类结果以及预先确定的音素状态分布模板，对输入语音进行声纹信息分布统计，得到第二统计信息包括：

利用所述音素分类结果，统计输入语音在各音素上的总体占比；

利用所述帧级别特征、所述音素分类结果以及预先确定的音素状态分布模板，统计输入语音中的声纹信息在各音素上的分布情况。

在其中至少一种可能的实现方式中，所述统计输入语音中的声纹信息在各音素上的分布情况包括：

基于预先确定的音素状态分布模板，削弱所述帧级别特征中音素信息的影响；

利用处理后的所述帧级别特征以及所述音素分类结果，统计出输入语音中声纹信息在各音素上的分布情况。

在其中至少一种可能的实现方式中，所述根据所述第一统计信息以及所述第二统计信息，对输入语音进行说话人识别包括：

融合所述第一统计信息以及所述第二统计信息；

基于融合后的统计信息，对输入语音的说话人进行识别。

在其中至少一种可能的实现方式中，确定所述音素状态分布模板包括：

预先基于大量的说话人语音样本，提取帧级别信息；

利用所述帧级别信息统计所有样本在每个音素状态上的均值，或者均值及标准差。

第二方面，本发明提供了一种基于音素辅助的文本无关声纹识别装置，包括：

帧级别特征提取模块，用于提取输入语音的帧级别特征；

音素分类模块，用于根据所述帧级别特征，获得相应于音素状态的音素分类结果

第一统计模块，用于根据所述帧级别特征，求取输入语音的第一统计信息；

第二统计模块，用于结合所述帧级别特征、所述音素分类结果以及预先确定的音素状态分布模板，对输入语音进行声纹信息分布统计，得到第二统计信息；

说话人识别模块，用于根据所述第一统计信息以及所述第二统计信息，对输入语音进行说话人识别。

在其中至少一种可能的实现方式中，所述第二统计模块包括：

音素占比统计单元，用于利用所述音素分类结果，统计输入语音在各音素上的总体占比；

声纹分布统计单元，用于利用所述帧级别特征、所述音素分类结果以及预先确定的音素状态分布模板，统计输入语音中的声纹信息在各音素上的分布情况。

在其中至少一种可能的实现方式中，所述声纹分布统计单元包括：

帧级别特征处理单元，用于基于预先确定的音素状态分布模板，削弱所述帧级别特征中音素信息的影响；

声纹分布统计单元，用于利用处理后的所述帧级别特征以及所述音素分类结果，统计出输入语音中声纹信息在各音素上的分布情况。

在其中至少一种可能的实现方式中，所述说话人识别模块包括：

统计信息融合单元，用于融合所述第一统计信息以及所述第二统计信息；

说话人识别单元，用于基于融合后的统计信息，对输入语音的说话人进行识别。

在其中至少一种可能的实现方式中，还包括分布模板确定模块；所述分布模板确定模块具体包括：

帧级别信息提取单元，用于预先基于大量的说话人语音样本，提取帧级别信息；

全局分布统计单元，用于利用所述帧级别信息统计所有样本在每个音素状态上的均值，或者均值及标准差。

第三方面，本发明提供了一种基于音素辅助的文本无关声纹识别设备，包括：

一个或多个处理器、存储器以及一个或多个计算机程序，所述存储器可以采用非易失性存储介质，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行如第一方面或者第一方面的任一可能实现方式中的所述方法。

第四方面，本发明提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机至少执行如第一方面或者第一方面的任一可能实现方式中的所述方法。

第五方面，本发明还提供了一种计算机程序产品，当所述计算机程序产品被计算机执行时，用于至少执行第一方面或者第一方面的任一可能实现方式中的所述方法。

在第五方面的至少一种可能的实现方式中，该产品涉及到的相关程序可以全部或者部分存储在与处理器封装在一起的存储器上，也可以部分或者全部存储在不与处理器封装在一起的存储介质上。

本发明考虑到现有的文本无关声纹识别技术的缺陷，提出在音素信息上统计帧级别声纹信息分布，并与帧级别特征的第一统计信息进行结合，以此补偿个性声纹信息。其中在获得帧级别声纹信息分布过程中，利用到获得第一统计信息之前的输入语音的帧级别特征以及预先统计出的全局的音素状态分布模板，计算突出了帧级别特征中声纹信息的统计量，使得识别说话人的过程有效利用到声纹信息在音素上的分布规律，从而可以大幅提高文本无关场景的说话人识别效果。

进一步地，为了获得全局分布模板，在一些实施例中本发明还提出可以预先基于海量说话人语音数据以及音素分类结果进行训练样本级的状态分布统计。

附图说明

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步描述，其中：

图1为本发明提供的基于音素辅助的文本无关声纹识别方法的实施例的流程图；

图2为本发明提供的基于音素辅助的文本无关声纹识别装置的实施例的方框图；

图3为本发明提供的基于音素辅助的文本无关声纹识别设备的实施例的示意图。

具体实施方式

下面详细描述本发明的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

在具体展开介绍本发明之前，对本发明的设计初衷和构思推导的前提做如下说明。基于神经网络结构预先经由多任务学习的说话人识别模型可选择多种框架，例如但可以不限定为基于时延神经网络(TDNN)的xvector网络框架等，其中多任务学习是指对音素信息和声纹信息进行多任务学习训练。这里以示意性方式介绍如下，该识别模型的训练数据主要可以采用包含声纹信息标注和音素信息标注的说话人语音样本，并可以从样本中提取声学特征输入至该模型中的帧级别信息提取层(frame level)，这里所述声学特征同样可以有多种选择，例如网络采用64维的Filterbank(FB)特征等。

这里提及的帧级别信息提取层(frame level)可以包含5层全连接层，在前述输入64维FB特征示例下，该帧级别信息提取层中各全连接层的输入输出节点数可分别为64-512-1536-512-512-1500，并且每层全连接层后面可添加Relu激活层和BN层，因为xvector对全连接层的输入采用扩帧策略，每层的输入扩帧数分别可以是5，3，3，1，1，跳帧数则分别可以是1，2，3，1，1。当然，本领域技术人员可以理解的是，以上仅为基于一种标准的xvector框架的示意性介绍，并非是对本发明相关方案的限定。

接着，对于帧级别信息提取层(frame level)输出的帧级别表征信息，或者称为帧级别特征、帧级别信息等，进行音素分类和说话人分类该多任务训练：

(1)帧级别表征信息输入至音素分类网络，该音素分类网络可采用3层全连接层，每层全连接层后面添加Relu激活层和BN层，该音素分类网络的输入输出节点数分别可以是1500-3000-512-10000，其中10000为该示例中音素分类状态数目。这里需要强调的是，这里的音素分类网络只是影响到帧级别信息提取层该共享网络部分，使帧级别信息提取层的输出可包含声纹信息和音素分布情况，

(2)说话人分类网络首先经统计池化层(statistics pooling)将帧级别表征信息转化为片段级别信息，也即是Statistics Pooling过程是对帧级别信息提取层输出的帧级别信息，统计其均值或者均值及标准差，然后可采用2层全连接层获得xvector，其中每层全连接层后面添加Relu激活层和BN层，这里各全连接层的输入输出节点数可分别为3000-512-N，其中N为说话人分类数目，最后经softmax层获得说话人的分类结果。

由于前述音素分类网络的作用只是起到辅助帧级别信息提取层(frame level)输出的作用，也即是学习出的规律会着重关注在当前输入语音种对说话人声纹分类更为有利的语音帧，那么在实际测试阶段，此方式仅是局限于甄别当前语音帧在某些音素上，声纹信息更强还是较弱，而不能站位于全局音素状态分布角度考察声纹信息的影响，使得参与后续说话人识别操作的说话人信息并不完整，且可能存在偏颇，因而并不能获得更为理想的说话人识别效果，换言之，前述音素辅助方式对说话人识别效果的提升能力依然有限。

在经由发明人对上述过程的尝试、分析和研究后，本发明提除了至少一种改进的基于音素辅助的文本无关声纹识别方法的实施例，如图1所示，可以包括如下步骤：

步骤S1、提取输入语音的帧级别特征；

步骤S2、根据所述帧级别特征，获得相应于音素状态的音素分类结果，并求取输入语音的第一统计信息。

实施时可以参考前文介绍，例如可通过提取当前输入语音的FB特征并送入至帧级别信息提取层提取出当前输入语音的帧级别信息，对此本发明不作赘述，而需要说明的是，本实施例的差异在于，帧级别网络输出的帧级别信息流向两条途径，其中一条途径与前文介绍相似，可以但不限于经TDNN网络中的statistic pooling获得当前输入语音的第一统计信息(经向量化后可记为V₁)，即可以直接对帧级别信息求取音素分布状态的均值或者均值及标准差，由此聚焦于当前语音的音素分布特点。而另一条途径虽然也是采用音素分类策略，但此处的音素分类结果并不是作用在帧级别信息提取层，而是与后续步骤息息相关，用于为声纹信息在全局状态分布统计做出铺垫。

步骤S3、结合所述帧级别特征、所述音素分类结果以及预先确定的音素状态分布模板，对输入语音进行声纹信息分布统计，得到第二统计信息。

此处提及的音素状态分布模板，是指经由预先统计获得的全局视角下的声纹分布规律，而此步骤的目的，即是考虑到在statistic pooling之前的帧级别信息中包含有个性声纹特点的声纹信息以及符合既定发音规律的音素信息，而在先步骤中已经对帧级别信息进行了统计，此步骤则是另开辟一种统计方式，将当前输入语音的帧级别信息以及前步得到的音素分类结果，结合全局的声纹分布规律，以此把握当前输入语音的声纹信息的分布情况，从而可以获得更为全面且可靠的当前输入语音的个性声纹特点。

其中涉及到的音素状态分布模板可以考虑在训练阶段学习获得，例如可以预先基于大量的说话人语音样本，提取出帧级别信息，并利用该帧级别信息统计出所有样本在每个音素状态上的均值或者均值及标准差，此处所述标准差可用于对后续统计操作的数据规整，因此此处对其进行统计计算可视为优选。具体可以参考如下：

利用训练好的音素分类训练网络，对海量的训练样本数据的帧级别信息进行统计，得到语音帧在每个音素状态上的均值u_k和标准差v_k，计算公式可参考如下：

其中M表示训练样本数目，T表示每个训练样本包含的语音帧数，x_i,t表示第i个训练样本的第t帧的帧级别信息，x_i,t′表示转置，P_k(x_i,t)表示x_i,t对应的第k个音素状态的后验概率(例如k可以取值1～10000)，也即是前文提及的音素分类结果。

本实施例采用statistic pooling之前的帧级别信息对所有训练数据的统计，如上所述此阶段的语音帧信息中不但包含音素信息，还包含说话人信息，相比基于FB特征提取的状态规律更具有声纹表征意义。实施时，统计所有说话人在第k个音素的均值u_k和标准差v_k，代表了当前音素状态的统计量，即表示的是整个训练数据在第k个音素的说话人特征全局情况，因而可以看作获得的是一种基本的音素状态分布模板。需要再次强调的是，这里获得的u_k和v_k虽然也是一种统计量，但其统计的是整个训练数据的分布情况，与前步求取第一统计信息时获得的均值和标准差没有可比性，由前文分析可知，帧级别信息提取网络直接接入统计池化层只是对当前这条语音进行统计，而此处获得的u_k和v_k则是训练数据级别的统计量。

上述获得基本声纹模板的过程对每一个音素进行统计后，便可以固化为“模板”，即一旦统计完成便可以得到该确定的所述音素状态分布模板，并不需要跟随网络训练，该模板将在测试阶段用于与前述帧级别信息及音素分类结果共同完成下文介绍的统计计算。

如何结合所述帧级别特征、所述音素分类结果以及预先确定的音素状态分布模板，三个因素对输入语音进行声纹信息分布统计，得到第二统计信息可以存在多种组合方式，在本发明至少一个实施例中可以利用其中的音素分类结果，统计出当前输入语音的帧级别信息在各音素上的一个总体占比情况；而进一步可以利用三者，即帧级别特征、音素分类结果以及音素状态分布模板，统计出当前输入语音中的声纹信息在各音素上的分布规律。

这里需要说明的是，如前文提及，帧级别信息包含有音素信息和个性声纹信息，本发明提出的“对输入语音进行声纹信息分布统计”即是要突出个性声纹的分布特点，因而前述实施例中对于总体占比的统计可以视为一种优选的统计参考量，可用于后续实施例中对第二统计信息进行向量表征的处理，而此处关键点在于对输入语音中的个性声纹信息进行考察，据此，进一步地本发明提供了如下至少一种统计输入语音中的声纹信息在各音素上的分布情况的实施参考：可以先基于预先确定的音素状态分布模板，对所述帧级别特征进行处理，处理的原则是削弱所述帧级别特征中音素信息的影响，从而可以突出其中的声纹信息；然后再利用处理后的所述帧级别特征以及在先获得的音素分类结果，统计出输入语音中声纹信息在各音素上的分布情况。首先输入语音经过帧级别网络可获取到第t帧的输出x_t，也即是所述帧级别信息，然后经过前述音素分类可计算出第k个音素状态的后验概率P_k(x_t)，结合在训练阶段得到的“模板”即每个音素状态的均值标准差u_k和v_k，计算出如下零阶和一阶统计量，具体公式可参考如下

N_k和F_k分别表示当前语音在每个音素状态的分布情况。结合前文优选实施例，这里的N_k表示的是当前语音在第k个音素占有多少比例；而F_k中包含的(x_t-u_k)，即是指本优选实施例是通过相减的方式，减弱了帧级别信息中音素信息的影响，从而可以体现出在第k个音素上的声纹信息的分布规律，其中v_k作为分母的作用可以看作是在统计中对计算数据的一种规整。当然，还可以指出的是上述过程同样可以在训练阶段予以实现，即通过学习的方式，使得说话人识别网络可以学习出前文提及的另一条统计途径，对此本发明不作赘述。

在获得了结合全局视角的个性声纹信息统计结果，即第二统计信息之后，可以根据每个状态的统计量评估出统计量的信息表征(即第二统计信息的向量表达)，也即是在前述实施例基础上，结合音素状态的声纹分布模板以及个性声纹信息的零阶和一阶统计量，可利用预先学习到的权重参数，便可以获得有效区分说话人的关键特征表示，具体实现可参考如下：

V₂表示说话人统计量的信息表征，W_k为可学习参数，其可以在训练阶段确定，且在实际操作中对于V₂的求取可采用1D卷积实现，例如当N_k和F_k维度分别为1500维时，W_k维度为1500*1500，那么卷积核大小可以为10000*1500，卷积核数目这些而可以是1500。当然，该过程非本发明重点，此处不再赘述，而需要说明的，此处N_k作为分母的作用也可以视为是一种优选的数据规整辅助措施，即从语音时长角度避免出现不合理或难以处理的数据。

最后，结合图1所示步骤S4、根据所述第一统计信息以及所述第二统计信息，对输入语音进行说话人识别。

通过两种统计信息进行说话人的分类，可实现的操作也有多样选择，例如先分别基于不同的统计信息进行说话人识别处理，也可以将两个统计信息结合，即融合所述第一统计信息以及所述第二统计信息，然后基于融合后的统计信息对输入语音的说话人进行识别。

例如在本发明至少一个实施例中提出将说话人统计量信息V₂与前步可经由statistics pooling输出的V₁进行拼接的方式，以此使两种不同的说话人表征信息可以有效地互补，从而能在很大程度上提升声纹识别效果。这其中的原理是，V₂表示的是当前输入语音的声学特征结合了全局分布特点的统计量，其中包含的信息相对更为全面，而V₁主要表示的是仅针对当前输入语音的统计情况，其中缺乏个性声纹信息的分布情况，只是保留了对说话人分类有利的信息，而两者的结合则可以起到互补作用。

具体说话人识别过程结合前文示例来说，将第一统计信息的向量表征V₁与上述求得的第二统计信息的向量表征V₂进行拼接，便可以获得4500维的融合向量表征V，具体公式如下

V＝f(concat(V₁,V₂))

接着，融合向量表征V可再经过两层全连接层和softmax层，得到说话人分类结果，其中输入输出维度可分别为4500-512-512，且每层全连接层后面可添加Relu激活层和BN层，这与前文介绍类似，此处不再赘述。

最后，为便于理解，综合上述实施例可以指出的是，本发明在一些实施例中的实现过程可以通过预先基于海量训练数据前提下，获取输入语音样本的帧级别特征在第k个音素状态上的u_k和v_k信息，即相当于获得第k个音素状态的声纹平均信息，以此可以表示一种站位于全局的声纹模板模型，而对于N_k和F_k统计量信息的计算，则是在上述全局模板基础上，表现出当前输入语音在第k个音素状态上的个性声纹信息。进而，在获得的N_k和F_k统计量信息基础上，通过预先学习到的权重参数W_k，将第二统计信息转化为声纹表征向量V₂。最终获得的V₂与基本统计途径获得的V₁进行拼接，从而可以站位于全局统计量的角度进一步补入声纹表征信息，进而能够较大地提升声纹识别的分类能力

也即是说，本发明考虑到现有的文本无关声纹识别技术的缺陷，提出在音素信息上统计帧级别声纹信息分布，并与帧级别特征的第一统计信息进行结合，以此补偿个性声纹信息。其中在获得帧级别声纹信息分布过程中，利用到获得第一统计信息之前的输入语音的帧级别特征以及预先统计出的全局的音素状态分布模板，计算突出了帧级别特征中声纹信息的统计量，使得识别说话人的过程有效利用到声纹信息在音素上的分布规律，从而可以大幅提高文本无关场景的说话人识别效果。

相应于上述各实施例及优选方案，本发明还提供了一种基于音素辅助的文本无关声纹识别装置的实施例，如图2所示，具体可以包括如下部件：

帧级别特征提取模块1，用于提取输入语音的帧级别特征；

音素分类模块2，用于根据所述帧级别特征，获得相应于音素状态的音素分类结果

第一统计模块3，用于根据所述帧级别特征，求取输入语音的第一统计信息；

第二统计模块4，用于结合所述帧级别特征、所述音素分类结果以及预先确定的音素状态分布模板，对输入语音进行声纹信息分布统计，得到第二统计信息；

说话人识别模块5，用于根据所述第一统计信息以及所述第二统计信息，对输入语音进行说话人识别。

应理解以上图2所示的基于音素辅助的文本无关声纹识别装置可中各个部件的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些部件可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分部件以软件通过处理元件调用的形式实现，部分部件通过硬件的形式实现。例如，某个上述模块可以为单独设立的处理元件，也可以集成在电子设备的某一个芯片中实现。其它部件的实现与之类似。此外这些部件全部或部分可以集成在一起，也可以独立实现。在实现过程中，上述方法的各步骤或以上各个部件可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些部件可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit；以下简称：ASIC)，或，一个或多个微处理器(Digital Singnal Processor；以下简称：DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array；以下简称：FPGA)等。再如，这些部件可以集成在一起，以片上系统(System-On-a-Chip；以下简称：SOC)的形式实现。

综合上述各实施例及其优选方案，本领域技术人员可以理解的是，在实际操作中，本发明适用于多种实施方式，本发明以下述载体作为示意性说明：

(1)一种基于音素辅助的文本无关声纹识别设备，其可以包括：

一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行前述实施例或等效实施方式的步骤/功能。

这里及下文提及的“计算机”是一种广义概念，可以包括多种具备运算处理能力的载体，例如但不限于PC、服务器、网络器材、智能计算平台以及各类电子产品等。

图3为本发明提供的基于音素辅助的文本无关声纹识别设备的实施例的结构示意图，其中，该设备可以是电子设备也可以是内置于上述电子设备的电路设备，本实施例对基于音素辅助的文本无关声纹识别设备的具体形式可不作限定。

具体如图3所示，基于音素辅助的文本无关声纹识别设备900包括处理器910和存储器930。其中，处理器910和存储器930之间可以通过内部连接通路互相通信，传递控制和/或数据信号，该存储器930用于存储计算机程序，该处理器910用于从该存储器930中调用并运行该计算机程序。上述处理器910可以和存储器930可以合成一个处理装置，更常见的是彼此独立的部件，处理器910用于执行存储器930中存储的程序代码来实现上述功能。具体实现时，该存储器930也可以集成在处理器910中，或者，独立于处理器910。

除此之外，为了使得基于音素辅助的文本无关声纹识别设备900的功能更加完善，该设备900还可以包括输入单元960、显示单元970、音频电路980、摄像头990和传感器901等中的一个或多个，所述音频电路还可以包括扬声器982、麦克风984等。其中，显示单元970可以包括显示屏。

进一步地，上述基于音素辅助的文本无关声纹识别设备900还可以包括电源950，用于给该设备900中的各种器件或电路提供电能。

应理解，图3所示的基于音素辅助的文本无关声纹识别设备900能够实现前述实施例提供的方法的各个过程。该设备900中的各个部件的操作和/或功能，可分别为了实现上述方法实施例中的相应流程。具体可参见前文中关于方法、装置等实施例的描述，为避免重复，此处适当省略详细描述。

应理解，图3所示的基于音素辅助的文本无关声纹识别设备900中的处理器910可以是片上系统SOC，该处理器910中可以包括中央处理器(Central Processing Unit；以下简称：CPU)，还可以进一步包括其他类型的处理器，例如：图像处理器(GraphicsProcessing Unit；以下简称：GPU)等，具体在下文中再作介绍。

总之，处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程，且各部分处理器或处理单元相应的软件程序可存储在存储器930中。

(2)一种可读存储介质，在可读存储介质上存储有计算机程序或上述装置，当计算机程序或上述装置被执行时，使得计算机执行前述实施例或等效实施方式的步骤/功能。

在本发明所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的某些技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以如下所述软件产品的形式体现出来。

(3)一种计算机程序产品(该产品可以包括上述装置)，该计算机程序产品在终端设备上运行时，使终端设备执行前述实施例或等效实施方式的基于音素辅助的文本无关声纹识别方法。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到上述实施方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，上述计算机程序产品可以包括但不限于是指APP；接续前文，上述设备/终端可以是一台计算机设备，并且，该计算机设备的硬件结构还可以具体包括：至少一个处理器，至少一个通信接口，至少一个存储器和至少一个通信总线；处理器、通信接口、存储器均可以通过通信总线完成相互间的通信。其中，处理器可能是一个中央处理器CPU、DSP、微控制器或数字信号处理器，还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units；以下简称：NPU)和图像信号处理器(Image Signal Processing；以下简称：ISP)，该处理器还可包括特定集成电路ASIC，或者是被配置成实施本发明实施例的一个或多个集成电路等，此外，处理器可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储器等存储介质中；而前述的存储器/存储介质可以包括：非易失性存储器(non-volatile memory)，例如非可移动磁盘、U盘、移动硬盘、光盘等，以及只读存储器(Read-Only Memory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)等。

本发明实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本领域技术人员可以意识到，本说明书中公开的实施例中描述的各模块、单元及方法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方式来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

以及，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可。尤其，对于装置、设备等实施例而言，由于其基本相似于方法实施例，所以相关之处可参见方法实施例的部分说明即可。以上所描述的装置、设备等实施例仅仅是示意性的，其中作为分离部件说明的模块、单元等可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个地方，例如系统网络的节点上。具体可根据实际的需要选择其中的部分或者全部模块、单元来实现上述实施例方案的目的。本领域技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上依据图式所示的实施例详细说明了本发明的构造、特征及作用效果，但以上仅为本发明的较佳实施例，需要言明的是，上述实施例及其优选方式所涉及的技术特征，本领域技术人员可以在不脱离、不改变本发明的设计思路以及技术效果的前提下，合理地组合搭配成多种等效方案；因此，本发明不以图面所示限定实施范围，凡是依照本发明的构想所作的改变，或修改为等同变化的等效实施例，仍未超出说明书与图示所涵盖的精神时，均应在本发明的保护范围内。

Claims

1.一种基于音素辅助的文本无关声纹识别方法，其特征在于，包括：

提取输入语音的帧级别特征；

2.根据权利要求1所述的基于音素辅助的文本无关声纹识别方法，其特征在于，所述结合所述帧级别特征、所述音素分类结果以及预先确定的音素状态分布模板，对输入语音进行声纹信息分布统计，得到第二统计信息包括：

3.根据权利要求2所述的基于音素辅助的文本无关声纹识别方法，其特征在于，所述统计输入语音中的声纹信息在各音素上的分布情况包括：

4.根据权利要求1所述的基于音素辅助的文本无关声纹识别方法，其特征在于，所述根据所述第一统计信息以及所述第二统计信息，对输入语音进行说话人识别包括：

融合所述第一统计信息以及所述第二统计信息；

基于融合后的统计信息，对输入语音的说话人进行识别。

5.根据权利要求1～4任一项所述的基于音素辅助的文本无关声纹识别方法，其特征在于，确定所述音素状态分布模板包括：

预先基于大量的说话人语音样本，提取帧级别信息；

6.一种基于音素辅助的文本无关声纹识别装置，其特征在于，包括：

帧级别特征提取模块，用于提取输入语音的帧级别特征；

7.根据权利要求6所述的基于音素辅助的文本无关声纹识别装置，其特征在于，所述第二统计模块包括：

8.根据权利要求6所述的基于音素辅助的文本无关声纹识别装置，其特征在于，所述说话人识别模块包括：

9.根据权利要求6～8任一项所述的基于音素辅助的文本无关声纹识别装置，其特征在于，还包括分布模板确定模块；所述分布模板确定模块具体包括：

10.一种基于音素辅助的文本无关声纹识别设备，其特征在于，包括：

一个或多个处理器、存储器以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行如权利要求1～5任一项所述的基于音素辅助的文本无关声纹识别方法。