CN112562691A

CN112562691A - 一种声纹识别的方法、装置、计算机设备及存储介质

Info

Publication number: CN112562691A
Application number: CN202011359381.4A
Authority: CN
Inventors: 陈闽川; 马骏; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-11-27
Filing date: 2020-11-27
Publication date: 2021-03-26
Anticipated expiration: 2040-11-27
Also published as: CN112562691B

Abstract

本申请公开了一种声纹识别的方法、装置、计算机设备及存储介质，属于人工智能技术领域，所述方法获取待识别语音并进行分帧处理，得到音频帧集合；对音频帧进行傅里叶变换，得到语音数据的序列信息；将序列信息输入到预先训练好的自注意力声纹识别模型，获取音频帧的声纹特征矩阵；拼接声纹特征矩阵，得到待识别语音的声纹识别结果。此外，本申请还涉及区块链技术，待识别语音可存储于区块链中。本申请通过采用神经网络来进行声纹识别模型的训练与预测，并采用自注意力机制将语音特征映射到隐空间分别进行处理，最后拼接所有音频帧的处理结果得到待识别语音的识别结果，本身可以实现并行操作，在保证识别效率的同时兼顾识别精度。

Description

一种声纹识别的方法、装置、计算机设备及存储介质

技术领域

本申请属于人工智能技术领域，具体涉及一种声纹识别的方法、装置、计算机设备及存储介质。

背景技术

声纹识别，属于生物信息识别技术的一种，也被称为说话人识别，是一种通过声音判断说话人身份的技术。由于声纹识别具有安全可靠性，使其可在几乎所有需求进行身份识别的安全性保护领域和个性化应用场合中使用。如在银行、证券、保险等金融机构的业务量持续扩大，产生大量的身份识别需求。与传统身份识别技术相比，声纹识别的优势在于，声纹提取过程简单且成本低、且每个人的声纹特征与其他人的声纹特征不相同，具有唯一性，不易伪造和假冒。由于声纹识别具有安全、可靠、方便等特性，使其在需进行身份识别的场合得到广泛的应用。

目前使用的从端到端的声纹识别大多基于RNN(Recurrent Neural Network,RNN，循环神经网络)或CNN(Cable News Network，卷积神经网络)，如百度的Deep Speaker、谷歌的G2G，由于声纹识别需要同时考虑语音中的多个帧来对说话人身份进行判断，传统的RNN递归式神经网络对音频序列进行建模，结构简单，但RNN无法并行实现并行操作，因而识别速度较慢，而且RNN无法很好学习到全局的结构信息，因为其本质是一个马尔科夫决策过程。CNN窗口式遍历功能，方便并行操作，但CNN实际只能获取局部信息，难以获取整段音频的全局结构信息，因此在整段音频的识别上存在精度不高的问题。

发明内容

本申请实施例的目的在于提出一种声纹识别的方法、装置、计算机设备及存储介质，以解决现有的声纹识别方式存在的无法同时兼顾识别效率和识别精度的技术问题。

为了解决上述技术问题，本申请实施例提供一种声纹识别的方法，采用了如下所述的技术方案：

获取待识别语音，并对获取到的待识别语音进行分帧处理，得到待识别语音的音频帧集合，其中，音频帧集合包括若干个音频帧；

提取每一个音频帧中的语音数据，对语音数据进行傅里叶变换，得到语音数据的序列信息；

将序列信息输入到预先训练好的自注意力声纹识别模型进行声纹特征识别，获取每一个音频帧的声纹特征矩阵；

按照矩阵拼接的形式对得到的每一个音频帧的声纹特征矩阵进行拼接，得到待识别语音的声纹识别结果。

进一步地，在将序列信息输入到预先训练好的自注意力声纹识别模型进行声纹特征识别，获取每一个音频帧的声纹特征矩阵的步骤之前，还包括：

在历史语音数据库中获取语音训练数据集，对语音训练数据集进行MFCC特征提取，以获取语音训练数据集的MFCC声学特征；

通过语音训练数据集的MFCC声学特征估算声纹识别模型的模型参数；

搭建自注意力网络函数，并将自注意力网络函数嵌入到预设的通用模型的隐藏层；

将声纹识别模型的模型参数导入到通用模型中，并利用语音训练数据集对通用模型进行训练，得到自注意力声纹识别模型。

进一步地，在将神经网络模型的模型参数导入到通用模型中，并利用语音训练数据集对通用模型进行训练，得到自注意力声纹识别模型的步骤之后，还包括：

在历史语音数据库中获取语音验证数据集，并将语音验证数据集导入到自注意力声纹识别模型中，输出预测结果；

基于预测结果与预设标准结果，使用反向传播算法进行拟合，获取预测误差；

将预测误差与预设阈值进行比较，若预测误差大于预设阈值，则对自注意力声纹识别模型进行迭代更新，直到预测误差小于或等于预设阈值为止，获取训练完成的自注意力声纹识别模型。

进一步地，自注意力声纹识别模型包括输入层、隐藏层和输出层，隐藏层包括若干个隐空间，将序列信息输入到预先训练好的自注意力声纹识别模型进行声纹特征识别，获取每一个音频帧的声纹特征矩阵的步骤，具体包括：

通过输入层在音频帧的序列信息中提取出音频帧的初始特征张量，以及对初始特征张量进行标准化，得到标准特征张量；

通过隐藏层对标准特征张量进行仿射变换，根据仿射变换的结果，将标准特征张量映射到隐空间内，以及基于标准特征张量计算音频帧的声纹特征矩阵；

通过输出层输出音频帧的声纹特征矩阵。

进一步地，基于标准特征张量计算音频帧的声纹特征矩阵的步骤，具体包括：

对标准特征张量进行矩阵特征转化，将标准特征张量转化为标准特征矩阵；

获取隐空间的参数矩阵；

基于标准特征矩阵和隐空间的参数矩阵计算音频帧的声纹特征矩阵。

进一步地，按照矩阵拼接的形式对得到的每一个音频帧的声纹特征矩阵进行拼接，得到待识别语音的声纹识别结果的步骤，具体包括：

根据自注意力网络函数中的注意力矩阵函数对音频帧的声纹特征矩阵进行注意力矩阵运算，得到权重矩阵；

通过权重矩阵对音频帧的声纹特征矩阵进行加权计算，得到音频帧的语音特征权值；

基于语音特征权值拼接每一个音频帧的声纹特征矩阵，得到待识别语音的声纹特征矩阵集合；

通过声纹特征矩阵集合获取待识别语音的声纹识别结果。

进一步地，在获取待识别语音，并对获取到的待识别语音进行分帧处理，得到待识别语音的音频帧集合的步骤之前，还包括：

接收语音识别请求，将语音识别请求导入消息队列；

获取消息队列中的语音识别请求，根据语音识别请求生成请求指令；

通过请求指令控制预设的语音采集设备运行，以采集待识别语音；以及

在采集待识别语音之后，还包括：

利用语音端点检测算法对待识别语音进行语音边界检测，去除待识别语音中的静音区段；

对去除静音区段的待识别语音进行预处理，其中，预处理包括预加重、前值滤波、高频补偿和加窗。

为了解决上述技术问题，本申请实施例还提供一种声纹识别的装置，采用了如下所述的技术方案：

一种声纹识别的装置，包括：

分帧模块，用于获取待识别语音，并对获取到的待识别语音进行分帧处理，得到待识别语音的音频帧集合，其中，音频帧集合包括若干个音频帧；

变换模块，用于提取每一个音频帧中的语音数据，对语音数据进行傅里叶变换，得到语音数据的序列信息；

识别模块，用于将序列信息输入到预先训练好的自注意力声纹识别模型进行声纹特征识别，获取每一个音频帧的声纹特征矩阵；

拼接模块，用于按照矩阵拼接的形式对得到的每一个音频帧的声纹特征矩阵进行拼接，得到待识别语音的声纹识别结果。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，采用了如下所述的技术方案：

一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，处理器执行计算机可读指令时实现如上述的声纹识别的方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，采用了如下所述的技术方案：

一种计算机可读存储介质，，计算机可读存储介质上存储有计算机可读指令，计算机可读指令被处理器执行时实现如上述的声纹识别的方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

本申请公开了一种声纹识别的方法、装置、计算机设备及存储介质，属于人工智能技术领域，所述方法通过获取待识别语音并进行分帧处理，得到音频帧集合；对音频帧进行傅里叶变换，得到语音数据的序列信息；通过预先训练好的自注意力声纹识别模型对语音数据的序列信息进行，获取音频帧的声纹特征矩阵；拼接所有音频帧的声纹特征矩阵，得到待识别语音的声纹识别结果。本申请通过采用自注意力声纹识别模型的神经网络来对声纹特征进行识别，获取每一个音频帧的声纹特征矩阵，实现并行处理的操作，最后拼接所有音频帧的处理结果得到待识别语音的识别结果，因此在保证识别效率的同时可以兼顾识别精度。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请可以应用于其中的示例性系统架构图；

图2示出了根据本申请的声纹识别的方法的一个实施例的流程图；

图3示出了根据本申请的声纹识别的方法的自注意力声纹识别模型训练过程的一种具体实施方式的流程图；

图4示出了根据本申请的声纹识别的方法中通过自注意力声纹识别模型进行声纹特征识别的一种具体实施方式的流程图；

图5示出了根据本申请的声纹识别的装置的一个实施例的结构示意图；

图6示出了根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的一种声纹识别的方法一般由服务器执行，相应地，一种声纹识别的装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的声纹识别的方法的一个实施例的流程图。所述的声纹识别的方法，包括以下步骤：

S201，获取待识别语音，并对获取到的待识别语音进行分帧处理，得到待识别语音的音频帧集合，其中，音频帧集合包括若干个音频帧。

具体的，取待识别语音的信号往往是连续变化的，为了将连续变化信号简化，以方便对取待识别语音的分析，需要对待识别语音进行分帧处理，以获得待识别语音的音频帧。在本申请具体的实施例中，假设在一个短时间尺度内，音频信号不发生改变，使得将信号以多个取样点集合成一个单位，即分帧，多个取样点集合成的单位称为“讯框”，即“一帧”。通常来说，“一帧”往往为20-40毫秒，如果讯框长度过短，那每个讯框内的取样点将不足以做出可靠的频谱计算，但若讯框长度太长，则每个讯框信号会变化太大，不利于分析音频的特征。

在本实施例中，声纹识别的方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式获取待识别语音。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

接收语音识别请求，将语音识别请求导入消息队列；

通过请求指令控制预设的语音采集设备运行，以采集待识别语音。

具体的，在产生语音识别时，根据需求生成语音识别请求，并将语音识别请求发送给服务器，服务器接收语音识别请求，将语音识别请求导入消息队列中等待处理，当服务器空闲时，采用异步机制对消息队列中的语音识别请求进行调度，获取消息队列中的语音识别请求，根据语音识别请求生成请求指令，通过请求指令控制预设的语音采集设备运行，以采集待识别语音。

其中，语音采集设备设置在用户的客户端上，客户端包括智能手机、笔记本、台式计算机等可与服务器通信相连的终端，客户端上设有用于采集语音的语音采集设备，如麦克风。语音采集设备对用户进行采样录音，获取wav音频格式的待识别语音，并将待识别语音通过客户端发送给服务器。

在上述实施例中，采用消息队列和异步机制对语音识别请求进行调度，使得服务器可同时接收大量的语音识别请求，并避免任一待处理语音识别请求的处理时间过长导致其他大量语音识别请求丢失。另一方面，采用消息队列和异步机制还可在服务器搭建分布式系统，可提高对语音识别请求的峰值处理能力和灵活性，降低进程间的耦合程度，保证每一语音识别请求均能被处理。

进一步地，在采集待识别语音之后，还包括：

其中，语音端点检测算法简称端点检测，也叫语音活动检测(Voice ActivityDetection，VAD)它的目的是对语音和非语音的区域进行区分，采用语音活动检测算法计算短时能量、短时过零率、短时自相关等语音特征参数，从而去除静音信号和非语音信号。通俗来理解，端点检测就是为了从带有噪声的语音中准确的定位出语音的开始点和结束点，以此去掉语音片段中静音的部分和噪声的部分，找到一段语音真正有效的内容。

具体的，在对待识别语音进行分帧处理之前，利用语音端点检测算法对待识别语音进行语音边界检测，去除待识别语音中的静音区段，然后对除静音区段后的待识别语音进行预处理，其中，预处理包括预加重、前值滤波、高频补偿和加窗。预加重、前值滤波和高频补偿可以看做是对待识别语音进行增强处理，加窗指的是对待识别语音施加汉明窗以消除吉布斯效应。

在上述实施例中，通过在对待识别语音进行分帧处理之前对待识别语音进行一系列的预处理操作，去除待识别语音无用信息，以获得真正有效的待识别语音的内容。

S202，提取每一个音频帧中的语音数据，对语音数据进行傅里叶变换，得到语音数据的序列信息。

具体的，提取每一个音频帧中的语音数据，对语音数据进行快速傅里叶变换FFT(Fast Fourier Transform)，得到语音数据的频谱，从语音数据的频谱中获取音频帧的序列信息。其中，快速傅里叶变换即利用计算机计算离散傅里叶变换(DFT)的高效、快速计算方法的统称，简称FFT。快速傅里叶变换是1965年由J.W.库利和T.W.图基提出的。通过FFT算法对语音信号的分析和合成，对时分制与频分制(TDM/FDM)的复用转换，将时域的信号快速转化为频域的信号，在频域对信号滤波以及相关分析。采用这种算法能使计算机计算离散傅里叶变换所需要的乘法次数大为减少，特别是被变换的抽样点数N越多，FFT算法计算量的节省就越显著。

S203，将序列信息输入到预先训练好的自注意力声纹识别模型进行声纹特征识别，获取每一个音频帧的声纹特征矩阵。

其中，声纹(Voiceprint)，是用电声学仪器显示的携带言语信息的声波频谱。相应地，声纹特征包括但不限于与人类的发音机制的解剖学结构有关的声学特征，如频谱、倒频谱、共振峰、基音、反射系数、鼻音、带深呼吸音、沙哑音、笑声等。声纹特征，即I-vector(identifyingvector，辨识矢量)特征。I-vector特征均可采用I-vector算法直接进行获取，i-vertor算法是一种估计隐变量的方法，用一固定长度的低维向量表示一段语音，在I-vector特征提取过程中没有把类内和类间的方差分开考虑，而是将其放在一个子空间，即总变量空间(total variablity space)中考虑，使其可采用无监督的方法进行训练，并可去除总变量空间中与语种无关的信息，在降维去噪的同时，最大限度保留了与语种相关的声学信息。

具体的，搭建自注意力网络函数，并将自注意力网络函数嵌入到预设的通用模型的隐藏层，在历史语音数据库中获取语音训练数据集，通过语音训练数据集对具有注意力网络函数的通用模型进行训练，得到自注意力声纹识别模型，自注意力声纹识别模型中包含多个隐空间，通过自注意力声纹识别模型对输入的序列信息进行仿射变换，根据仿射变换的结果，将序列信息映射到对应的隐空间内，在对应的隐空间对输入的序列信息进行声纹特征提取，以获得音频帧的声纹特征矩阵。

其中，通用模型即初步选取的用于进行声纹识别的模型，通过后续步骤对该通用模型进行训练，调整通用模型的相应参数，可以得到比较理想的声纹识别模型。隐空间是指神经网络模型为了表征不同维度的特征数据所构建的高维空间，通过将数据映射到高维空间来对不同特征进行处理。隐空间是神经网络基于无监督学习获得，可以反映不同特征数据不同的关系。在本申请具体的实施例中，如一个“隐空间”中的变量专门学习用来捕获一段音频的基频，另外一个“隐空间”中的变量专门学习提取一段音频的频谱能量等等。

S204，按照矩阵拼接的形式对得到的每一个音频帧的声纹特征矩阵进行拼接，得到待识别语音的声纹识别结果。

具体的，通过注意力矩阵运算和加权运算计算音频帧的语音特征权值，基于语音特征权值拼接每一个音频帧的声纹特征矩阵，得到待识别语音的声纹特征矩阵集合，该声纹特征矩阵集合即待识别语音的声纹识别结果。其中，每一个音频帧的声纹特征矩阵拼接就是根据语音特征权值将所有声纹特征矩阵按列拼接在一起，成为一个新的矩阵组合，这个新的矩阵组合代表了所有从待识别语音中提取到的信号信息。

本实施例公开了一种声纹识别的方法，属于人工智能技术领域，所述方法通过获取待识别语音并进行分帧处理，得到音频帧集合；对音频帧进行傅里叶变换，得到语音数据的序列信息；通过预先训练好的自注意力声纹识别模型对语音数据的序列信息进行，获取音频帧的声纹特征矩阵；拼接所有音频帧的声纹特征矩阵，得到待识别语音的声纹识别结果。本申请通过采用自注意力声纹识别模型的神经网络来对声纹特征进行识别，获取每一个音频帧的声纹特征矩阵，实现并行处理的操作，最后拼接所有音频帧的处理结果得到待识别语音的识别结果，因此在保证识别效率的同时可以兼顾识别精度。

进一步地，请参考图3，图3示出了根据本申请的声纹识别的方法的自注意力声纹识别模型训练过程的一种具体实施方式的流程图，在将序列信息输入到预先训练好的自注意力声纹识别模型进行声纹特征识别，获取每一个音频帧的声纹特征矩阵的步骤之前，还包括：

S301，在历史语音数据库中获取语音训练数据集，对语音训练数据集进行MFCC特征提取，以获取语音训练数据集的MFCC声学特征；

S302，通过语音训练数据集的MFCC声学特征估算声纹识别模型的模型参数；

S303，搭建自注意力网络函数，并将自注意力网络函数嵌入到预设的通用模型的隐藏层；

S304，将声纹识别模型的模型参数导入到通用模型中，并利用语音训练数据集对通用模型进行训练，得到自注意力声纹识别模型。

其中，历史语音数据库用于收集语音数据，MFCC(Mel Frequency CepstrumCoefficients,梅尔频率倒谱系数)，梅尔频率是基于人耳听觉特性提出来的，它与赫兹频率成非线性对应关系。梅尔频率倒谱系数则是利用它们之间的这种关系，计算得到的赫兹频谱特征。目前MFCC及其提取方法已经广泛地应用在语音识别领域。

具体的，在历史语音数据库中获取语音训练数据集，使用梅尔倒谱系数(MFCC)的提取方法，提取语音训练数据集的MFCC声学特征，计算MFCC声学特征的零阶、一阶、二阶的值，以用来估计高斯混合模型的参数，搭建自注意力网络函数，并将自注意力网络函数嵌入到预设的通用模型的隐藏层，同时将声纹识别模型的模型参数导入到通用模型中，得到初始声纹识别模型，并利用语音训练数据集对声纹识别模型进行训练，得到自注意力声纹识别模型。

在上述实施例中，通过获取语音训练数据集的MFCC声学特征，估算声纹识别模型的模型参数用来作为初始声纹识别模型的模型参数，同时搭建自注意力网络函数，并将自注意力网络函数嵌入到预设的通用模型的隐藏层，并利用语音训练数据集对声纹识别模型进行训练，得到自注意力声纹识别模型，使用时，采用自注意力声纹识别模型的神经网络来对声纹特征进行识别，获取每一个音频帧的声纹特征矩阵，实现并行处理的操作，最后拼接所有音频帧的处理结果得到待识别语音的识别结果，因此在保证识别效率的同时可以兼顾识别精度。

其中，反向传播算法，即误差反向传播算法(Backpropagation algorithm，BP算法)适合于多层神经元网络的一种学习算法，它建立在梯度下降法的基础上，用于深度学习网络的误差计算。BP网络的输入、输出关系实质上是一种映射关系：一个n输入m输出的BP神经网络所完成的功能是从n维欧氏空间向m维欧氏空间中一有限域的连续映射，这一映射具有高度非线性。BP算法的学习过程由正向传播过程和反向传播过程组成。在正向传播过程中，输入信息通过输入层经隐含层，逐层处理并传向输出层，并转入反向传播，逐层求出目标函数对各神经元权值的偏导数，构成目标函数对权值向量的梯量，以作为修改权值的依据。

具体的，将语音验证数据集输入到自注意力声纹识别模型，得到预测结果，通过反向传播算法对预测结果与预设标准结果进行拟合，获取预测误差，将预测误差与预设的标准阈值进行比较，若预测误差大于标准阈值，则对自注意力声纹识别模型进行迭代更新，若预测误差小于或等于标准阈值为止，输出自注意力声纹识别模型。通过获取预测误差以及对自注意力声纹识别模型进行迭代更新，可以提高自注意力声纹识别模型识别准确度。

进一步地，请参考图4，图4示出了根据本申请的声纹识别的方法中通过自注意力声纹识别模型进行声纹特征识别的一种具体实施方式的流程图，自注意力声纹识别模型包括输入层、隐藏层和输出层，隐藏层包括若干个隐空间，将序列信息输入到预先训练好的自注意力声纹识别模型进行声纹特征识别，获取每一个音频帧的声纹特征矩阵的步骤，具体包括：

S401，通过输入层在音频帧的序列信息中提取出音频帧的初始特征张量，以及对初始特征张量进行标准化，得到标准特征张量；

S402，通过隐藏层的对标准特征张量进行仿射变换，根据仿射变换的结果，将标准特征张量映射到隐空间内，以及基于标准特征张量计算音频帧的声纹特征矩阵；

S403，通过输出层输出音频帧的声纹特征矩阵。

具体的，通过自注意力声纹识别模型的输入层在音频帧的序列信息中提取出音频帧的初始特征张量，以及对初始特征张量进行标准化，得到标准特征张量，将标准特征张量输入到自注意力声纹识别模型的隐藏层，通过隐藏层对标准特征张量进行仿射变换，根据仿射变换的结果，将标准特征张量映射到对应的隐空间内，在对应的隐空间内从标准特征张量中提取声纹特征，得到声纹特征矩阵，最后通过输出层输出音频帧的声纹特征矩阵。

在上述实施例中，通过自注意力声纹识别模型的输入层、隐藏层和输出层分别对音频帧的序列信息进行处理，采用自注意力声纹识别模型的各个神经网络层来对声纹特征进行识别，并采用自注意力机制将语音特征映射到隐空间分别进行处理，实现并行处理的操作，提升识别效率。

其中，标准化是将上述初始特征张量的数值分布先规范化为均值为0，方差为1的标准正态分布，然后进行放缩和偏置操作，即对其中每一个数值进行根据标准化公式进行运算，标准化公式为：

y＝scale*x+shift

其中，x为输入的初始特征张量，y为输出的标准特征张量，scale为放缩参数，shift为偏置参数，放缩参数、偏置参数由自注意力声纹识别模型的模型参数决定，其值受训练结果的影响。标准化主要是为了解决自注意力声纹识别模型的内部协方差偏移问题，防止神经网络梯度消失，加速自注意力声纹识别模型训练的收敛速度，且标准化不改变特征张量大小。

其中，仿射变换指的是对标准特征张量中的每个维度的值进行仿射变换，通过自注意力网络函数中的非线性激活函数生成相应输出，即：

L＝ReLU(w*s+b)

其中，s为输入的标准特征张量，L为输出的仿射变换结果，其与自注意力声纹识别模型的隐空间参数对应，w和b为仿射变换的参数，由自注意力声纹识别模型的模型参数决定，其值受训练结果的影响，ReLU为非线性激活函数，可以对输入信号进行非线性的表征。仿射变换的主要目的是调整上述的标准特征张量以便后续的处理，并且加深自注意力声纹识别模型神经网络层的深度，从而提高整个自注意力声纹识别模型的特征抽取能力与泛化能力，且仿射变换不改变标准特征张量的大小。

获取隐空间的参数矩阵；

具体的，提取标准特征张量中的声纹特征，将提取到的声纹特征的相关参数导入预设的矩阵模型，对标准特征张量进行矩阵特征转化，将标准特征张量转化为标准特征矩阵，获取标准特征张量所在的隐空间的参数矩阵，标准特征矩阵和隐空间的参数矩阵相乘即得到音频帧的声纹特征矩阵。需要说明的是，参数矩阵即为自注意力声纹识别模型中的隐空间所占的网络权重，其值受训练结果的影响。

在本申请一个具体的实施例中，音频帧x的标准特征矩阵为[batch_size,n_frame,frame_size]，音频帧x所在的隐空间的参数矩阵为[frame_size,embedding_size]，则该音频帧的声纹特征矩阵为[batch_size,n_frame,frame_size]x[frame_size,embedding_size]，即[batch_size,n_frame,embedding_size]。

通过声纹特征矩阵集合获取待识别语音的声纹识别结果。

具体的，根据自注意力网络函数中的注意力矩阵函数对音频帧的声纹特征矩阵进行注意力矩阵运算处理，得到对应的输出结果，上述输出结果即为权重矩阵，通过权重矩阵对音频帧的声纹特征矩阵进行加权计算，得到音频帧的语音特征权值，最后基于语音特征权值拼接每一个音频帧的声纹特征矩阵，得到待识别语音的声纹特征矩阵集合，该声纹特征矩阵集合即为待识别语音的声纹识别结果。

在本申请一个具体的实施例中，某一待识别语音具有m个音频帧，音频帧的声纹特征矩阵为[batch_size,Ni_frame,embedding_size]，通过注意力矩阵运算得到该音频帧的语音特征权值为Mi，则对m个音频帧的声纹特征矩阵进行拼接结果为∑M_i[batch_size,Ni_frame,embedding_size,m_head]，其中，m_head为音频帧个数。

需要强调的是，为进一步保证上述待识别语音的私密和安全性，上述待识别语音还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图5，作为对上述图2所示方法的实现，本申请提供了一种声纹识别的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例所述的声纹识别的装置包括：

分帧模块501，用于获取待识别语音，并对获取到的待识别语音进行分帧处理，得到待识别语音的音频帧集合，其中，音频帧集合包括若干个音频帧；

变换模块502，用于提取每一个音频帧中的语音数据，对语音数据进行傅里叶变换，得到语音数据的序列信息；

识别模块503，用于将序列信息输入到预先训练好的自注意力声纹识别模型进行声纹特征识别，获取每一个音频帧的声纹特征矩阵；

拼接模块504，用于按照矩阵拼接的形式对得到的每一个音频帧的声纹特征矩阵进行拼接，得到待识别语音的声纹识别结果。

进一步地，该声纹识别的装置还包括：

提取模块，用于在历史语音数据库中获取语音训练数据集，对语音训练数据集进行MFCC特征提取，以获取语音训练数据集的MFCC声学特征；

估算模块，用于通过语音训练数据集的MFCC声学特征估算声纹识别模型的模型参数；

搭建模块，用于搭建自注意力网络函数，并将自注意力网络函数嵌入到预设的通用模型的隐藏层；

训练模块，用于将声纹识别模型的模型参数导入到通用模型中，并利用语音训练数据集对通用模型进行训练，得到自注意力声纹识别模型。

进一步地，该声纹识别的装置还包括：

验证模块，用于在历史语音数据库中获取语音验证数据集，并将语音验证数据集导入到自注意力声纹识别模型中，输出预测结果；

拟合模块，用于基于预测结果与预设标准结果，使用反向传播算法进行拟合，获取预测误差；

迭代模块，用于将预测误差与预设阈值进行比较，若预测误差大于预设阈值，则对自注意力声纹识别模型进行迭代更新，直到预测误差小于或等于预设阈值为止，获取训练完成的自注意力声纹识别模型。

进一步地，自注意力声纹识别模型包括输入层、隐藏层和输出层，隐藏层包括若干个隐空间，识别模块503具体包括：

标准化单元，用于通过输入层在音频帧的序列信息中提取出音频帧的初始特征张量，以及对初始特征张量进行标准化，得到标准特征张量；

仿射变换单元，用于通过隐藏层对标准特征张量进行仿射变换，根据仿射变换的结果，将标准特征张量映射到隐空间内，以及基于标准特征张量计算音频帧的声纹特征矩阵；

输出单元，用于通过输出层输出音频帧的声纹特征矩阵。

进一步地，仿射变换单元具体包括：

特征转化子单元，用于对标准特征张量进行矩阵特征转化，将标准特征张量转化为标准特征矩阵；

参数获取子单元，用于获取隐空间的参数矩阵；

矩阵计算子单元，用于基于标准特征矩阵和隐空间的参数矩阵计算音频帧的声纹特征矩阵。

进一步地，拼接模块504具体包括：

权重运算单元，用于根据自注意力网络函数中的注意力矩阵函数对音频帧的声纹特征矩阵进行注意力矩阵运算，得到权重矩阵；

加权计算单元，用于通过权重矩阵对音频帧的声纹特征矩阵进行加权计算，得到音频帧的语音特征权值；

拼接单元，用于基于语音特征权值拼接每一个音频帧的声纹特征矩阵，得到待识别语音的声纹特征矩阵集合；

识别单元，用于通过声纹特征矩阵集合获取待识别语音的声纹识别结果。

进一步地，该声纹识别的装置还包括：

请求接收模块，用于接收语音识别请求，将语音识别请求导入消息队列；

指令生成模块，用于获取消息队列中的语音识别请求，根据语音识别请求生成请求指令；

采集模块，通过请求指令控制预设的语音采集设备运行，以采集待识别语音；以及

边界检测模块，用于利用语音端点检测算法对待识别语音进行语音边界检测，去除待识别语音中的静音区段；

预处理模块，用于对去除静音区段的待识别语音进行预处理，其中，预处理包括预加重、前值滤波、高频补偿和加窗。

本实施例公开了一种声纹识别的装置，属于人工智能技术领域，所述装置通过获取待识别语音并进行分帧处理，得到音频帧集合；对音频帧进行傅里叶变换，得到语音数据的序列信息；通过预先训练好的自注意力声纹识别模型对语音数据的序列信息进行，获取音频帧的声纹特征矩阵；拼接所有音频帧的声纹特征矩阵，得到待识别语音的声纹识别结果。本申请通过采用自注意力声纹识别模型的神经网络来对声纹特征进行识别，并采用自注意力机制将语音特征映射到隐空间分别进行处理，实现并行处理的操作，最后拼接所有音频帧的处理结果得到待识别语音的识别结果，因此在保证识别效率的同时可以兼顾识别精度。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图6，图6为本实施例计算机设备基本结构框图。

所述计算机设备6包括通过系统总线相互通信连接存储器61、处理器62、网络接口63。需要指出的是，图中仅示出了具有组件61-63的计算机设备6，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器61至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器61可以是所述计算机设备6的内部存储单元，例如该计算机设备6的硬盘或内存。在另一些实施例中，所述存储器61也可以是所述计算机设备6的外部存储设备，例如该计算机设备6上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器61还可以既包括所述计算机设备6的内部存储单元也包括其外部存储设备。本实施例中，所述存储器61通常用于存储安装于所述计算机设备6的操作系统和各类应用软件，例如声纹识别的方法的计算机可读指令等。此外，所述存储器61还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器62在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器62通常用于控制所述计算机设备6的总体操作。本实施例中，所述处理器62用于运行所述存储器61中存储的计算机可读指令或者处理数据，例如运行所述声纹识别的方法的计算机可读指令。

所述网络接口63可包括无线网络接口或有线网络接口，该网络接口63通常用于在所述计算机设备6与其他电子设备之间建立通信连接。

本申请公开了一种计算机设备，属于人工智能技术领域，所述方法通过获取待识别语音并进行分帧处理，得到音频帧集合；对音频帧进行傅里叶变换，得到语音数据的序列信息；通过预先训练好的自注意力声纹识别模型对语音数据的序列信息进行，获取音频帧的声纹特征矩阵；拼接所有音频帧的声纹特征矩阵，得到待识别语音的声纹识别结果。本申请通过采用自注意力声纹识别模型的神经网络来对声纹特征进行识别，并采用自注意力机制将语音特征映射到隐空间分别进行处理，实现并行处理的操作，最后拼接所有音频帧的处理结果得到待识别语音的识别结果，因此在保证识别效率的同时可以兼顾识别精度。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的声纹识别的方法的步骤。

本申请公开了一种计算机可读存储介质，属于人工智能技术领域，所述方法通过获取待识别语音并进行分帧处理，得到音频帧集合；对音频帧进行傅里叶变换，得到语音数据的序列信息；通过预先训练好的自注意力声纹识别模型对语音数据的序列信息进行，获取音频帧的声纹特征矩阵；拼接所有音频帧的声纹特征矩阵，得到待识别语音的声纹识别结果。本申请通过采用自注意力声纹识别模型的神经网络来对声纹特征进行识别，并采用自注意力机制将语音特征映射到隐空间分别进行处理，实现并行处理的操作，最后拼接所有音频帧的处理结果得到待识别语音的识别结果，因此在保证识别效率的同时可以兼顾识别精度。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种声纹识别的方法，其特征在于，包括：

获取待识别语音，并对获取到的所述待识别语音进行分帧处理，得到所述待识别语音的音频帧集合，其中，所述音频帧集合包括若干个音频帧；

提取每一个所述音频帧中的语音数据，对所述语音数据进行傅里叶变换，得到所述语音数据的序列信息；

将所述序列信息输入到预先训练好的自注意力声纹识别模型进行声纹特征识别，获取每一个所述音频帧的声纹特征矩阵；

按照矩阵拼接的形式对得到的每一个所述音频帧的声纹特征矩阵进行拼接，得到所述待识别语音的声纹识别结果。

2.如权利要求1所述的声纹识别的方法，其特征在于，在所述将所述序列信息输入到预先训练好的自注意力声纹识别模型进行声纹特征识别，获取每一个所述音频帧的声纹特征矩阵的步骤之前，还包括：

在历史语音数据库中获取语音训练数据集，对所述语音训练数据集进行MFCC特征提取，以获取所述语音训练数据集的MFCC声学特征；

通过所述语音训练数据集的MFCC声学特征估算声纹识别模型的模型参数；

搭建自注意力网络函数，并将所述自注意力网络函数嵌入到预设的通用模型的隐藏层；

将所述声纹识别模型的模型参数导入到所述通用模型中，并利用所述语音训练数据集对所述通用模型进行训练，得到自注意力声纹识别模型。

3.如权利要求2所述的声纹识别的方法，其特征在于，在所述将所述神经网络模型的模型参数导入到所述通用模型中，并利用所述语音训练数据集对所述通用模型进行训练，得到自注意力声纹识别模型的步骤之后，还包括：

在历史语音数据库中获取语音验证数据集，并将所述语音验证数据集导入到所述自注意力声纹识别模型中，输出预测结果；

4.如权利要求2所述的声纹识别的方法，其特征在于，所述自注意力声纹识别模型包括输入层、隐藏层和输出层，所述隐藏层包括若干个隐空间，所述将所述序列信息输入到预先训练好的自注意力声纹识别模型进行声纹特征识别，获取每一个所述音频帧的声纹特征矩阵的步骤，具体包括：

通过所述输入层在所述音频帧的序列信息中提取出所述音频帧的初始特征张量，以及对所述初始特征张量进行标准化，得到标准特征张量；

通过所述隐藏层对所述标准特征张量进行仿射变换，根据所述仿射变换的结果，将所述标准特征张量映射到所述隐空间内，以及基于所述标准特征张量计算所述音频帧的声纹特征矩阵；

通过所述输出层输出所述音频帧的声纹特征矩阵。

5.如权利要求4所述的声纹识别的方法，其特征在于，所述基于所述标准特征张量计算所述音频帧的声纹特征矩阵的步骤，具体包括：

对所述标准特征张量进行矩阵特征转化，将所述标准特征张量转化为标准特征矩阵；

获取所述隐空间的参数矩阵；

基于所述标准特征矩阵和所述隐空间的参数矩阵计算所述音频帧的声纹特征矩阵。

6.如权利要求2所述的声纹识别的方法，其特征在于，所述按照矩阵拼接的形式对得到的每一个所述音频帧的声纹特征矩阵进行拼接，得到所述待识别语音的声纹识别结果的步骤，具体包括：

根据所述自注意力网络函数中的注意力矩阵函数对所述音频帧的声纹特征矩阵进行注意力矩阵运算，得到权重矩阵；

通过所述权重矩阵对所述音频帧的声纹特征矩阵进行加权计算，得到所述音频帧的语音特征权值；

基于所述语音特征权值拼接每一个所述音频帧的声纹特征矩阵，得到所述待识别语音的声纹特征矩阵集合；

通过所述声纹特征矩阵集合获取所述待识别语音的声纹识别结果。

7.如权利要求1至6任意一项所述的声纹识别的方法，其特征在于，在所述获取待识别语音，并对获取到的所述待识别语音进行分帧处理，得到所述待识别语音的音频帧集合的步骤之前，还包括：

接收语音识别请求，将所述语音识别请求导入消息队列；

获取消息队列中的所述语音识别请求，根据所述语音识别请求生成请求指令；

通过所述请求指令控制预设的语音采集设备运行，以采集所述待识别语音；以及

在所述采集所述待识别语音之后，还包括：

利用语音端点检测算法对所述待识别语音进行语音边界检测，去除所述待识别语音中的静音区段；

对去除静音区段的所述待识别语音进行预处理，其中，所述预处理包括预加重、前值滤波、高频补偿和加窗。

8.一种声纹识别的装置，其特征在于，包括：

分帧模块，用于获取待识别语音，并对获取到的所述待识别语音进行分帧处理，得到所述待识别语音的音频帧集合，其中，所述音频帧集合包括若干个音频帧；

变换模块，用于提取每一个所述音频帧中的语音数据，对所述语音数据进行傅里叶变换，得到所述语音数据的序列信息；

识别模块，用于将所述序列信息输入到预先训练好的自注意力声纹识别模型进行声纹特征识别，获取每一个所述音频帧的声纹特征矩阵；

拼接模块，用于按照矩阵拼接的形式对得到的每一个所述音频帧的声纹特征矩阵进行拼接，得到所述待识别语音的声纹识别结果。

9.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的声纹识别的方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的声纹识别的方法的步骤。