CN111354364A

CN111354364A - 一种基于rnn聚合方式的声纹识别方法与系统

Info

Publication number: CN111354364A
Application number: CN202010326716.6A
Authority: CN
Inventors: 陈华官; 张志齐
Original assignee: Shanghai Yitu Network Science and Technology Co Ltd
Current assignee: Shanghai Yitu Network Science and Technology Co Ltd
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2020-06-30
Anticipated expiration: 2040-04-23
Also published as: CN111354364B

Abstract

本发明公开了一种基于RNN聚合方式的声纹识别方法与系统，声纹识别方法包括：获取原始音频；抽取原始音频中的原始频谱特征；从原始频谱特征中获得特征层；将特征层输入RNN中聚合，输出RNN中的隐藏状态特征；将隐藏状态特征进行说话人分类；声纹识别系统包括：音频采集模块，用于获取原始音频；频谱特征获取模块，用于抽取所述原始音频中的原始频谱特征数据；特征层获取模块，用于根据所述原始频谱特征数据进行特征层的抽取；聚合模块，用于将所述特征层输入RNN中进行聚合并输出RNN中的隐藏状态特征；说话人分类模块，用于对所述隐藏状态特征进行说话人分类。

Description

一种基于RNN聚合方式的声纹识别方法与系统

技术领域

本发明涉及声纹识别技术领域，具体涉及一种基于RNN聚合方式的声纹识别方法与系统。

背景技术

随着信息技术的发展，互联网的普及，需要用到人的身份识别的应用场合越来越多，传统的需求方面有各种网上账户的需要，在线支付、门禁等等，而随着互联网及人工智能的应用推广，根据不同的人的习惯特点需要不同的身份识别方法与系统，比如指纹、人脸、声纹识别，其中声纹识别是生物识别技术的一种，通过对语音进行处理可生成用于指示该语音输入者身份信息的身份向量，可通过计算两端语音的身份向量之间的相似度来确定这两段语音的输入者是否为同一用户，但是语音易受到信道的变性和环境的变性，会极大的降低其准确率，因此需要一种能够提升最终声纹识别的算法准确率性能的方法与系统。

发明内容

本发明要解决的技术问题是提供一种基于RNN（Recurrent Neural Network，即循环神经网络）聚合方式的声纹识别方法，提取音频中的特征层并输入到RNN中进行聚合形成聚合层，再进行隐藏状态特征的提取，提取出的隐藏状态特征具有较高的准确率；

将RNN与特征层进行聚合形成聚合层，能够有效提升聚合层的非线性表达能力；

由于F×N特征层具有多个时间方向维度的特征，能够提升最终声纹识别的算法准确率性能，用以解决现有技术导致的缺陷。

本发明还提供一种基于RNN聚合方式的声纹识别系统。

为解决上述技术问题本发明提供以下的技术方案：

第一方面，一种基于RNN聚合方式的声纹识别方法，其中，包括以下步骤（各步骤之间的先后顺序并不意味着方法必须按其先后次序进行，任何本领域技术人员所知晓的通过改变先后次序达到相同效果的都应是本方法的一种具体实施方式）：

获取原始音频；

抽取所述原始音频中的原始频谱特征；

从所述原始频谱特征中获得特征层；

将所述特征层输入RNN中聚合，输出RNN中的隐藏状态特征（hidden state特征）；

将所述隐藏状态特征进行说话人分类。优选地，可以输出最后一个RNN单元中的隐藏状态特征（hidden state特征）。

上述的一种基于RNN聚合方式的声纹识别方法，其中，所述特征层由所述原始频谱特征经过二维卷积神经网络（2D-CNN）进行抽取。

上述的一种基于RNN聚合方式的声纹识别方法，其中，所述特征层为F×N特征层，其中F是频率方向的维度，N是时间方向的维度。

上述的一种基于RNN聚合方式的声纹识别方法，其中，所述聚合包括以下步骤：

将所述F×N特征层输入单向RNN中，所述单向RNN中包含一个或多个RNN单元，将最后一个所述RNN单元的所述隐藏状态特征输出。

将所述F×N特征层输入双向RNN中，所述双向RNN中包含一个或多个RNN单元，将最后一个所述RNN单元的所述隐藏状态特征输出。

对所述F×N特征层按照时间维度方向算平均池化得出平均特征X；

将所述平均特征X复制N遍后与所述F×N特征层连接（Concat），输入所述RNN中；

取出最后一个所述RNN单元的所述隐藏状态特征与所述平均特征X连接（Concat）后输出。

上述的一种基于RNN聚合方式的声纹识别方法，其中，将所述隐藏状态特征通过批量梯度下降法（BGD）进行说话人分类。

上述的一种基于RNN聚合方式的声纹识别方法，其中，将所述隐藏状态特征通过随机梯度下降法（SGD）进行说话人分类。

上述的一种基于RNN聚合方式的声纹识别方法，其中，将所述隐藏状态特征通过小批量梯度下降法（MBGD）进行说话人分类。

第二方面，一种基于RNN聚合方式的声纹识别系统，其中，所述系统包括：

音频采集模块，用于获取原始音频；

频谱特征获取模块，用于抽取所述原始音频中的原始频谱特征数据；

特征层获取模块，用于根据所述原始频谱特征数据进行特征层的抽取；

聚合模块，用于将所述特征层输入RNN中进行聚合并输出，优选为输出RNN中的隐藏状态特征；

说话人分类模块，用于对所述隐藏状态特征或聚合模块的输出进行说话人分类。

上述的一种基于RNN聚合方式的声纹识别系统，其中，所述特征层由所述特征层获取模块根据所述原始频谱特征经过二维卷积神经网络（2D-CNN）进行抽取。

上述的一种基于RNN聚合方式的声纹识别系统，其中，所述特征层为F×N特征层，其中F是频率方向的维度，N是时间方向的维度。

上述的一种基于RNN聚合方式的声纹识别系统，其中，所述聚合模块为单向导入聚合模块，用于将所述F×N特征层输入单向RNN中进行聚合并输出最后一个RNN单元的所述隐藏状态特征，所述单向RNN中包含一个或多个RNN单元。

上述的一种基于RNN聚合方式的声纹识别系统，其中，所述聚合模块为双向导入聚合模块，用于将所述F×N特征层输入双向RNN中进行聚合并输出最后一个RNN单元的所述隐藏状态特征，所述双向RNN中包含一个或多个RNN单元。

上述的一种基于RNN聚合方式的声纹识别系统，其中，所述聚合模块内置有平均池化模块与复制模块；

所述平均池化模块用于对所述F×N特征层按照时间维度方向算平均池化得出平均特征X；

所述复制模块用于将所述平均特征X复制N遍，随后通过所述聚合模块与F×N特征层连接，输入所述RNN中进行聚合，取出最后一个所述RNN单元的所述隐藏状态特征与所述平均特征X连接后输出。

上述的一种基于RNN聚合方式的声纹识别系统，其中，所述说话人分类模块内置有执行模块，所述执行模块内置有批量梯度下降法程序，所述执行模块被处理器控制执行将所述隐藏状态特征通过批量梯度下降法进行说话人分类。

上述的一种基于RNN聚合方式的声纹识别系统，其中，所述说话人分类模块内置有执行模块，所述执行模块内置有随机梯度下降法程序，所述执行模块被处理器控制执行将所述隐藏状态特征通过随机梯度下降法进行说话人分类。

上述的一种基于RNN聚合方式的声纹识别系统，其中，所述说话人分类模块内置有执行模块，所述执行模块内置有小批量梯度下降法程序，所述执行模块被处理器控制执行将所述隐藏状态特征通过小批量梯度下降法进行说话人分类。

第三方面，一种系统处理装置，其中，包括至少一个处理器，与所述至少一个处理器耦合的存储器，所述存储器存储有可执行指令，其中，所述可执行指令在被所述至少一个处理器执行时使得实现如上述任一项所述的方法。

在系统处理装置的其中一个或多个具体实施方式中，可执行指令在被上述至少一个处理器执行时用于：

获取原始音频；

抽取所述原始音频中的原始频谱特征；

从所述原始频谱特征中获得特征层；

将所述特征层输入RNN中聚合并输出RNN中的隐藏状态特征；

将所述隐藏状态特征进行说话人分类。

在系统处理装置的其中一个或多个具体实施方式中，上述特征层由所述原始频谱特征经过二维卷积神经网络（2D-CNN）进行抽取。

在系统处理装置的其中一个或多个具体实施方式中，上述特征层为F×N特征层，其中F是频率方向的维度，N是时间方向的维度。

在系统处理装置的其中一个或多个具体实施方式中，上述聚合包括以下步骤：

（1）将所述F×N特征层输入单向RNN中，将最后一个RNN单元的所述隐藏状态特征输出。

或者

（2）将所述F×N特征层输入双向RNN中，将最后一个RNN单元的所述隐藏状态特征输出。

或者

（3）对所述F×N特征层按照时间维度方向算平均池化得出平均特征X；将所述平均特征X复制N遍后与所述F×N特征层连接，输入RNN中；取出最后一个RNN单元的所述隐藏状态特征与所述平均特征X连接后输出。

在系统处理装置的其中一个或多个具体实施方式中，将所述隐藏状态特征通过批量梯度下降法进行说话人分类。

在系统处理装置的其中一个或多个具体实施方式中，将所述隐藏状态特征通过随机梯度下降法进行说话人分类。

在系统处理装置的其中一个或多个具体实施方式中，将所述隐藏状态特征通过小批量梯度下降法进行说话人分类。

第四方面，一种计算机可读存储介质，其中，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一项所述方法的步骤。

在计算机可读存储介质的其中一个或多个具体实施方式中，计算机程序被处理器执行时用于：

获取原始音频；

抽取所述原始音频中的原始频谱特征；

从所述原始频谱特征中获得特征层；

将所述特征层输入RNN中聚合，并输出，优选输出RNN中的隐藏状态特征；

将所述隐藏状态特征或聚合的输出进行说话人分类。

在计算机可读存储介质的其中一个或多个具体实施方式中，上述特征层由所述原始频谱特征经过二维卷积神经网络（2D-CNN）进行抽取。

在计算机可读存储介质的其中一个或多个具体实施方式中，上述特征层为F×N特征层，其中F是频率方向的维度，N是时间方向的维度。

在计算机可读存储介质的其中一个或多个具体实施方式中，上述聚合包括以下步骤：

或者

在计算机可读存储介质的其中一个或多个具体实施方式中，将所述隐藏状态特征通过批量梯度下降法进行说话人分类。

在计算机可读存储介质的其中一个或多个具体实施方式中，将所述隐藏状态特征通过随机梯度下降法进行说话人分类。

在计算机可读存储介质的其中一个或多个具体实施方式中，将所述隐藏状态特征通过小批量梯度下降法进行说话人分类。

依据上述本发明一种基于RNN聚合方式的声纹识别方法与系统提供的技术方案具有以下技术效果：

提取音频中的特征层并输入到RNN中进行聚合形成聚合层，再进行隐藏状态特征的提取，提取出的隐藏状态特征具有较高的准确率；

由于F×N特征层具有多个时间方向维度的特征，能够提升最终声纹识别的算法准确率性能。

附图说明

图1为本发明一种基于RNN聚合方式的声纹识别方法的流程示意图。

图2为本发明一种基于RNN聚合方式的声纹识别系统的结构示意图。

图3为本发明一种基于RNN聚合方式的声纹识别系统的一种具体实施方式示意图。

其中，附图标记如下：

音频采集模块101、频谱特征获取模块102、特征层获取模块103、聚合模块104、说话人分类模块105。

具体实施方式

为了使发明实现的技术手段、创造特征、达成目的和功效易于明白了解，下结合具体图示，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

须知，本说明书所附图式所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容得能涵盖的范围内。

同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。

循环神经网络（Recurrent Neural Network，RNN）是一类以序列（sequence）数据为输入，在序列的演进方向进行递归（recursion）且所有节点（循环单元）按链式连接的递归神经网络（recursive neural network）；

循环神经网络具有记忆性、参数共享并且图灵完备（Turing completeness），因此在对序列的非线性特征进行学习时具有一定优势。

在深度学习方法中，RNN模型主要应用于自然处理领域，RNN模型通过隐藏状态（hidden state）可以保留历史信息，即可以对前面的信息进行记忆并应用于当前输出的计算中，例如在生成语句时，可以用前面的一个词语预测该语句中的下一个词语是什么，因此RNN模型特别适用于处理时序的信息。

卷积神经网络（Convolutional Neural Networks，CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学习（deeplearning）的代表算法之一；

卷积神经网络具有表征学习（representation learning）能力，能够按其阶层结构对输入信息进行平移不变分类（shift-invariant classification），因此也被称为“平移不变人工神经网络（Shift-Invariant Artificial Neural Networks, SIANN）

2D-CNN为二维卷积神经网络。

本发明要解决的技术问题是提供一种基于RNN聚合方式的声纹识别方法，提取音频中的特征层并输入到RNN中进行聚合形成聚合层，再进行隐藏状态特征的提取，提取出的隐藏状态特征具有较高的准确率；

本发明还提供一种基于RNN聚合方式的声纹识别系统。

本发明的一较佳实施例是提供一种基于RNN聚合方式的声纹识别方法与系统，目的是：提取音频中的特征层并输入到RNN中进行聚合形成聚合层，再进行隐藏状态特征的提取，提取出的隐藏状态特征具有较高的准确率；且使得系统更加容易被训练以获得满意的结果。

将RNN与特征层进行聚合形成聚合层，能够有效提升聚合层的非线性表达能力。

第一方面，如图1所示，本发明的一较佳实施例涉及一种基于RNN聚合方式的声纹识别方法，其中，包括以下步骤：

获取原始音频；

抽取原始音频中的原始频谱特征；

从原始频谱特征中获得特征层；

将特征层输入RNN中聚合并输出；可选的，输出可以是将最后一个RNN单元的隐藏状态特征进行输出。

将上述隐藏状态特征或上述聚合的输出进行说话人分类，区分说话人的性别和/或年龄段，优选地区分出每一个不同的说话人。

优选地，本实施例提供的一种基于RNN聚合方式的声纹识别方法，其中，特征层由原始频谱特征经过二维卷积神经网络（2D-CNN）进行抽取。

优选地，本实施例提供的一种基于RNN聚合方式的声纹识别方法，其中，特征层为F×N特征层，其中F是频率方向的维度，N是时间方向的维度。

优选地，本实施例提供的一种基于RNN聚合方式的声纹识别方法，其中，聚合包括以下步骤：

将F×N特征层输入单向RNN中，单向RNN中包含一个或多个RNN单元，将最后一个RNN单元的隐藏状态特征输出。

将F×N特征层输入双向RNN中，双向RNN中包含一个或多个RNN单元，将最后一个RNN单元的隐藏状态特征输出。

对F×N特征层按照时间维度方向算平均池化得出平均特征X；

将平均特征X复制N遍后与F×N特征层连接，将连接后的特征输入RNN中；

取出最后一个RNN单元的隐藏状态特征与平均特征X连接后输出。

对于上述的输出，可以进行说话人分类，优选为使用SGD方法进行训练。

根据上述优选的聚合方法，可以进一步降低RNN的训练难度及优化难度。

优选地，本实施例提供的一种基于RNN聚合方式的声纹识别方法，其中，将隐藏状态特征通过批量梯度下降法进行说话人分类。

优选地，本实施例提供的一种基于RNN聚合方式的声纹识别方法，其中，将隐藏状态特征通过随机梯度下降法进行说话人分类。

优选地，本实施例提供的一种基于RNN聚合方式的声纹识别方法，其中，将隐藏状态特征通过小批量梯度下降法进行说话人分类。

实施例1：

1) 原始音频输入。

2) 音频中提取原始频谱特征，经过二维卷积神经网络（2D-CNN）提取特征，形成一个F×N的特征层，其中F是频率方向的维度，N是时间方向的维度。

3) 直接把F×N的特征层输入双向或单向RNN，将最后一个RNN单元的hiddenstate作为输出。

4) 最终基于上面输出的特征，进行说话人分类。使用常规的SGD方法，进行训练。

实施例2：

1) 原始音频输入。

3) 对F×N特征层先按照时间维度方向计算average pooling（平均池化），求出一个平均特征X。

4) 将这个X特征复制N遍，并且和F×N的特征层连接(Concat)在一起，并输入RNN中。

5) 取出最后一个RNN单元的hidden state，然后将X和这个hidden state连接(Concat)在一起作为输出。

6) 最终基于上面输出的特征，进行说话人分类。使用常规的SGD方法，进行训练。

第二方面，如图2所示，一种基于RNN聚合方式的声纹识别系统，其中，系统包括：

音频采集模块101，用于获取原始音频；

频谱特征获取模块102，用于抽取原始音频中的原始频谱特征数据；

特征层获取模块103，用于根据原始频谱特征数据进行特征层的抽取；

聚合模块104，用于将特征层输入RNN中进行聚合并输出RNN中的隐藏状态特征；

说话人分类模块，用于对隐藏状态特征进行说话人分类。

优选地，本实施例提供的一种基于RNN聚合方式的声纹识别系统，其中，特征层由特征层获取模块103根据原始频谱特征经过二维卷积神经网络（2D-CNN）进行抽取。

优选地，本实施例提供的一种基于RNN聚合方式的声纹识别系统，其中，特征层为F×N特征层，其中F是频率方向的维度，N是时间方向的维度。

优选地，本实施例提供的一种基于RNN聚合方式的声纹识别系统，其中，聚合模块104为单向导入聚合模块104，用于将F×N特征层输入单向RNN中进行聚合并输出最后一个RNN单元的隐藏状态特征。

优选地，本实施例提供的一种基于RNN聚合方式的声纹识别系统，其中，聚合模块104为双向导入聚合模块104，用于将F×N特征层输入双向RNN中进行聚合并输出最后一个RNN单元的隐藏状态特征。

优选地，本实施例提供的一种基于RNN聚合方式的声纹识别系统，其中，聚合模块104内置有平均池化模块与复制模块；

平均池化模块用于对F×N特征层按照时间维度方向算平均池化得出平均特征X；

复制模块用于将平均特征X复制N遍，随后通过聚合模块104与F×N特征层连接，输入RNN中进行聚合，取出最后一个RNN单元的隐藏状态特征与平均特征X连接后输出。

优选地，本实施例提供的一种基于RNN聚合方式的声纹识别系统，其中，说话人分类模块内置有执行模块，执行模块内置有批量梯度下降法程序，执行模块被处理器控制执行将隐藏状态特征通过批量梯度下降法进行说话人分类。

优选地，本实施例提供的一种基于RNN聚合方式的声纹识别系统，其中，说话人分类模块内置有执行模块，执行模块内置有随机梯度下降法程序，执行模块被处理器控制执行将隐藏状态特征通过随机梯度下降法进行说话人分类。

优选地，本实施例提供的一种基于RNN聚合方式的声纹识别系统，其中，说话人分类模块内置有执行模块，执行模块内置有小批量梯度下降法程序，执行模块被处理器控制执行将隐藏状态特征通过小批量梯度下降法进行说话人分类。

实施例3：

1) 音频采集模块，用于获取原始音频；。

2) 频谱特征获取模块102，用于抽取原始音频中的原始频谱特征数据：音频采集模块所获取的原始音频经过二维卷积神经网络（2D-CNN）提取特征，形成一个F×N的特征层，其中F是频率方向的维度，N是时间方向的维度。

3) 特征层获取模块103，用于根据原始频谱特征数据进行特征层的抽取；聚合模块104，用于将特征层输入RNN中进行聚合并输出RNN中的隐藏状态特征：直接把F×N的特征层输入双向或单向RNN，将最后一个RNN单元的hidden state作为输出。

4) 说话人分类模块，用于对隐藏状态特征进行说话人分类：最终将基于上面输出的特征，进行说话人分类。使用常规的SGD方法，进行训练。

实施例4：

1) 音频采集模块，用于获取原始音频；。

3) 特征层获取模块103，用于根据原始频谱特征数据进行特征层的抽取；聚合模块104，用于将特征层输入RNN中进行聚合并输出RNN中的隐藏状态特征：先按照时间维度方向计算average pooling（平均池化），求出一个平均特征X；将这个X特征复制N遍，并且和F×N的特征层连接(Concat)在一起，并输入RNN中；取出最后一个RNN单元的hidden state，然后将X和这个hidden state连接(Concat)在一起作为输出。

实施例5，一种系统处理装置，其中，包括至少一个处理器，与至少一个处理器耦合的存储器，存储器存储有可执行指令，其中，可执行指令在被至少一个处理器执行时使得实现：

1) 原始音频输入。

实施例6，一种系统处理装置，其中，包括至少一个处理器，与至少一个处理器耦合的存储器，存储器存储有可执行指令，其中，可执行指令在被至少一个处理器执行时使得实现：

1) 原始音频输入。

实施例7，一种计算机可读存储介质，其中，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现：

1) 原始音频输入。

实施例8，一种计算机可读存储介质，其中，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现：

1) 原始音频输入。

例如，存储器可以包括随机存储器、闪存、只读存储器、可编程只读存储器、非易失性存储器或寄存器等；

处理器可以是中央处理器（Central Processing Unit，CPU）等，或者是图像处理器(Graphic Processing Unit, GPU)存储器可以存储可执行指令；

处理器可以执行在存储器中存储的执行指令，从而实现本文描述的各个过程。

可以理解，本实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者；

其中，非易失性存储器可以是ROM (Read-Only Memory，只读存储器)、PROM(Programmable ROM，可编程只读存储器)、EPROM (Erasable PROM，可擦除可编程只读存储器)、EEPROM (Electrically EPROM，电可擦除可编程只读存储器)或闪存。

易失性存储器可以是RAM (Random Access Memory，随机存取存储器)，其用作外部高速缓存；

通过示例性但不是限制性说明，许多形式的RAM可用，例如SRAM (Static RAM，静态随机存取存储器)、DRAM (Dynamic RAM，动态随机存取存储器)、SDRAM (Synchronous DRAM，同步动态随机存取存储器)、DDRSDRAM (Double Data Rate SDRAM，双倍数据速率同步动态随机存取存储器)、ESDRAM (Enhanced SDRAM，增强型同步动态随机存取存储器)、SLDRAM(Synchlink DRAM，同步连接动态随机存取存储器)和DRRAM (Direct Rambus RAM，直接内存总线随机存取存储器)。本文描述的存储器205旨在包括但不限于这些和任意其它适合类型的存储器205。

在一些实施方式中，存储器存储了如下的元素，升级包、可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序；

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

应用程序，包含各种应用程序，用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序中。

本领域技术人员可以明白的是，结合本文中所公开的实施例描述的各示例的单元及算法步骤能够以电子硬件、或者软件和电子硬件的结合来实现；

这些功能是以硬件还是软件方式来实现，取决于技术方案的特定应用和设计约束条件；

本领域技术人员可以针对每个特定的应用，使用不同的方式来实现所描述的功能，但是这种实现并不应认为超出本申请的范围。

在本申请实施例中，所公开的系统、装置和方法可以通过其它方式来实现；

例如，单元的划分仅仅为一种逻辑功能划分，在实际实现时还可以有另外的划分方式；

例如，多个单元或组件可以进行组合或者可以集成到另一个系统中；

另外，在本申请实施例中的各功能单元可以集成在一个处理单元中，也可以是单独的物理存在等等。

应理解，在本申请的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施例的实施过程构成任何限定。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在机器可读存储介质中；

因此，本申请的技术方案可以以软件产品的形式来体现，该软件产品可以存储在机器可读存储介质中，其可以包括若干指令用以使得电子设备执行本申请实施例所描述的技术方案的全部或部分过程；

上述存储介质可以包括ROM、RAM、可移动盘、硬盘、磁盘或者光盘等各种可以存储程序代码的介质。

综上，本发明的一种基于RNN聚合方式的声纹识别方法与系统，

以上对发明的具体实施例进行了描述。需要理解的是，发明并不局限于上述特定实施方式，其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施；本领域技术人员可以在权利要求的范围内做出各种变形或修改做出若干简单推演、变形或替换，这并不影响发明的实质内容。

Claims

1.一种基于RNN聚合方式的声纹识别方法，其特征在于，包括以下步骤：

获取原始音频；

抽取所述原始音频中的原始频谱特征；

从所述原始频谱特征中获得特征层；

将所述特征层输入RNN中聚合，输出RNN中的隐藏状态特征；

将所述隐藏状态特征进行说话人分类。

2.如权利要求1所述的一种基于RNN聚合方式的声纹识别方法，其特征在于，所述特征层由所述原始频谱特征经过二维卷积神经网络进行抽取。

3.如权利要求2所述的一种基于RNN聚合方式的声纹识别方法，其特征在于，所述特征层为F×N特征层，其中F是频率方向的维度，N是时间方向的维度。

4.如权利要求3所述的一种基于RNN聚合方式的声纹识别方法，其特征在于，所述聚合包括以下步骤：

将所述平均特征X复制N遍后与所述F×N特征层连接，输入所述RNN中；

取出最后一个所述RNN单元的所述隐藏状态特征与所述平均特征X连接后输出。

5.一种基于RNN聚合方式的声纹识别系统，其特征在于，所述系统包括：

音频采集模块，用于获取原始音频；

聚合模块，用于将所述特征层输入RNN中进行聚合并输出RNN中的隐藏状态特征；

说话人分类模块，用于对所述隐藏状态特征进行说话人分类。

6.如权利要求5所述的一种基于RNN聚合方式的声纹识别系统，其特征在于，所述特征层由所述特征层获取模块根据所述原始频谱特征经过二维卷积神经网络进行抽取。

7.如权利要求6所述的一种基于RNN聚合方式的声纹识别系统，其特征在于，所述特征层为F×N特征层，其中F是频率方向的维度，N是时间方向的维度。

8.如权利要求7所述的一种基于RNN聚合方式的声纹识别系统，其特征在于，所述聚合模块内置有平均池化模块与复制模块；

9.一种系统处理装置，其特征在于，包括至少一个处理器，与所述至少一个处理器耦合的存储器，所述存储器存储有可执行指令，其中，所述可执行指令在被所述至少一个处理器执行时使得实现如上权利要求1至4任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上权利要求1至4任一项所述方法的步骤。