CN111613231A

CN111613231A - 语音数据处理方法、装置、计算机设备和存储介质

Info

Publication number: CN111613231A
Application number: CN201910141872.2A
Authority: CN
Inventors: 于永昊
Original assignee: Guangzhou Huiruisitong Information Technology Co Ltd
Current assignee: Guangzhou Huiruisitong Information Technology Co Ltd
Priority date: 2019-02-26
Filing date: 2019-02-26
Publication date: 2020-09-01

Abstract

本申请涉及一种语音数据处理方法、装置、计算机设备和存储介质，所述方法包括：获取包含多个待识别用户标识对应的多帧语音帧将各个语音帧输入深度神经网络模型，通过深度神经网络模型提取各个语音帧的声纹特征将深度神经网络模型中输出层中前一个全连接层输出的声纹特征输入循环神经网络模型，通过循环神经网络模型计算各个相邻的语音帧的声纹特征之间的相似度，根据相似度对所述语音帧进行划分，得到多组语音帧集合，通过各组语音帧集合的声纹特征，识别各组语音帧集合对应的目标用户标识。通过深度神经网络快速准确的提取语音帧的声纹特征，通过循环神经网络模型对语音段数据进行分割识别，节约系统资源，识别快速且准确。

Description

语音数据处理方法、装置、计算机设备和存储介质

技术领域

本申请涉及语音数据处理技术领域，尤其涉及一种语音数据处理方法、装置、计算机设备和存储介质。

背景技术

声纹识别(Voiceprint recognition)是生物识别技术的一种，声纹其实就是指语音中蕴含的、能表征和表示说话人的语音特征，以及基于这些特征所建立的语音模型的总称。由于人的说话过程是人体语言中枢与发声器官之间的一个复杂的生理物理过程，每个人的发声器官—舌头、牙齿、喉咙、肺和鼻腔在尺寸和形态方面的差异很大，所以每一个人的声纹都是独一无二的。因此可以使用声纹用来进行辨认和确认。声纹识别现在主要可以应用在公安司法、智能音响、智能家居、网络支付、声纹锁等等。

一般的一个声纹识别系统要先对语音信号预处理，然后再提取特征训练模型，并将模型存入模型库。之后将需要识别的语音信号同样进行预处理、特征提取、训练模型，最后再将训练出来的模型后已有的模型打分判决，来判断当前需要识别的语音信号是哪个人的。

一段语音中存在多个人在不同的时间点说话时，往往是采用无监督的聚类方法对语音进行分割得到各个人的说话时间点，采用无监督的聚类方法对已经存在用户标识的语音来讲，没有很好的利用标记的信息导致分割准确度低。

发明内容

为了解决上述技术问题，本申请提供了一种语音数据处理方法、装置、计算机设备和存储介质。

第一方面，本申请提供了一种语音数据处理方法，包括：

获取包含多个待识别用户标识对应的多帧语音帧；

将各个语音帧输入深度神经网络模型，通过深度神经网络模型提取各个语音帧的声纹特征；

将深度神经网络模型中输出层中前一个全连接层输出的声纹特征输入循环神经网络模型；

通过循环神经网络模型计算各个相邻的语音帧的声纹特征之间的相似度，根据相似度对所述语音帧进行划分，得到多组语音帧集合；

将各组语音帧集合的声纹特征输入深度神经网络模型的输出层，通过输出层识别各组语音帧集合对应的目标用户标识。

第二方面，本申请提供了一种语音数据处理装置，包括：

获取包含多个待识别用户标识对应的多帧语音帧；

深度神经网络模型的输出层通过各组语音帧集合的声纹特征，识别各组语音帧集合对应的目标用户标识。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取包含多个待识别用户标识对应的多帧语音帧；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取包含多个待识别用户标识对应的多帧语音帧；

上述语音数据处理方法、装置、计算机设备和存储介质，所述方法包括：获取包含多个待识别用户标识对应的多帧语音帧，将各个语音帧输入深度神经网络模型，通过深度神经网络模型提取各个语音帧的声纹特征，将深度神经网络模型中输出层中前一个全连接层输出的声纹特征输入循环神经网络模型，通过循环神经网络模型计算各个相邻的语音帧的声纹特征之间的相似度，根据相似度对所述语音帧进行划分，得到多组语音帧集合，将各组语音帧集合的声纹特征输入深度神经网络模型的输出层，通过输出层识别各组语音帧集合对应的目标用户标识。通过深度神经网络能够快速准确的提取语音帧的声纹特征，通过循环神经网络模型可以充分利用标记信息对语音段数据进行分割识别，节约系统资源，识别快速且准确。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中语音数据处理方法的应用环境图；

图2为一个实施例中语音数据处理方法的流程示意图；

图3为一个实施例中网络模型的结构示意图；

图4为一个实施例中深度神经网络模型的生成步骤的流程示意图；

图5为一个实施例中循环神经网络模型的生成步骤流程示意图；

图6为一个实施例中语音数据处理装置的结构框图；

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为一个实施例中语音数据处理方法的应用环境图。参照图1，该语音数据处理方法应用于语音数据处理系统。该语音数据处理系统包括终端110和服务器120。终端110和服务器120通过网络连接。终端或服务器获取包含多个待识别用户标识对应的多帧语音帧，将各个语音帧输入深度神经网络模型，通过深度神经网络模型提取各个语音帧的声纹特征，将深度神经网络模型中输出层中前一个全连接层输出的声纹特征输入循环神经网络模型，通过循环神经网络模型计算各个相邻的语音帧的声纹特征之间的相似度，根据相似度对所述语音帧进行划分，得到多组语音帧集合，将各组语音帧集合的声纹特征输入深度神经网络模型的输出层，通过输出层识别各组语音帧集合对应的目标用户标识。终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图2所示，在一个实施例中，提供了一种语音数据处理方法。本实施例主要以该方法应用于上述图1中的终端110(或服务器120)来举例说明。参照图2，该语音数据处理方法具体包括如下步骤：

步骤S201，获取包含多个待识别用户标识对应的多帧语音帧。

具体地，待识别用户标识是用于还未确定的能够唯一标识用户的标识数据，语音帧是指包含声纹特征的语音数据帧，语音帧是对采集的语音段进行分帧得到的。每个待识别用户标识对应多帧语音帧。

步骤S202，将各个语音帧输入深度神经网络模型，通过深度神经网络模型提取各个语音帧的声纹特征。

具体地，深度神经网络模型是用于提取语音帧中的声纹特征的数学模型，该数学模型是通过对大量的携带了用户标识的语音帧进行训练得到的模型。通过训练学习得到的模型能够快速的提取语音帧中的声纹特征，快速识别语音中的声纹特征所属的用户标识。其中深度神经网络模型中存储了已注册的用户标识与对应的声纹特征，如用户A通过深度神经网络模型进行注册，得到了用户A的声纹特征。

步骤S203，将深度神经网络模型中输出层中前一个全连接层输出的声纹特征输入循环神经网络模型。

步骤S204，通过循环神经网络模型计算各个相邻的语音帧的声纹特征之间的相似度，根据相似度对语音帧进行划分，得到多组语音帧集合。

具体地，深度神经网络模型中包含多个网络层，包含输入层、输出层和至少一个全连接层，全连接层为输出层的前一个网络层。全连接层是指将上一个网络层的输出结果都输入各个全连接层的神经元中。将深度神经网络模型中输出层中前一层的全连接层输出的声纹特征输入循环神经网络模型。循环神经网络模型是用于对各个语音帧之间的声纹特征的变化进行检测的数学模型，该数学模型能够快速的检测语音帧之间的声纹特征的变化，当声纹特征发生变化时输出对应的变化标签，当声纹特征未发生变化时，输出未发生变化的标签。其中循环神经网络模型是一个通过对大量的携带用户标签的声纹特征进行训练得到的数学模型。

通过循环神经网络模型对各个语音帧的声纹特征是否发生变化，判断各个语音帧之间的相似度，相似度越大表示两帧为同一个人说话的可能性越大，故根据语音帧之间的相似度对语音帧进行划分，将连续的未发生变化的语音帧划分到同一组语音帧集合，如所有的语音帧包含5个用户的声纹特征，若按照顺序依次说话，则将所有的语音帧分为五组语音帧集合。

在一个实施例中，深度神经网络模型包括输入层、四个全连接层和输出层，深度神经网络模型的输入层与第一全连接层连接，第一全连接层与第二全连接层连接，第二连接层与第三全连接层连接，第三全连接层与第四全连接层连接，第四全连接层与循环神经网络的输入层连接，循环神经网络的输出层与深度神经网络模型输出层连接。

具体地，如图3所示，深度神经网络模型包含输入层、4个全连接层W1、W2、W 3和W4，输出层，W4与循环神经网络模型连接，W4中各个神经元的输出作为循环神经网络模型各个神经元的输入，循环神经网络模型的各个神经元的输出的结果送至深度神经网络模型的输出层。

步骤S205，将各组语音帧集合的声纹特征输入深度神经网络模型的输出层，通过输出层识别各组语音帧集合对应的目标用户标识。

具体地，对各组语音帧集合的声纹特征进行自定义处理，如计算各组语音帧集合的声纹特征的加权均值作为对应的各组语音帧集合的目标声纹特征，也可以选取处于语音特征集合中处于中间时间段的语音帧的声纹特征作为目标声纹特征，根据目标声纹特征确定各组语音帧集合对应的目标用户标识，目标用户标识是用于唯一标识用户身份的标识数据。目标用户标识为深度神经网络模型中存储的已注册的用户标识。如一段语音中分别有说话人1、说话人2、说话人3和说话人1按顺序说话，对应的标签为Y＝{1,1,2,2,3,1}，则通过循环神经网络模型可以将语音分为Y1＝{1,1}，Y2＝{2,2}，Y3＝{3}，Y4＝{1}四组语音集合。将四组语音帧集合输入深度神经网络模型中的输出层中，通过输出层对四组语音帧集合进行声纹识别，判断Y1、Y2、Y3和Y4对应的说话人身份。深度神经网络模型可以对语音帧的声纹特征进行提取和识别，循环神经网络模型可以根据语音帧之间的声纹特征变化可以对语音帧进行划分，深度神经网络模型的输出层对划分后的各组语音帧进行身份识别。

上述语音数据处理方法，所述方法包括：获取包含多个待识别用户标识对应的多帧语音帧，将各个语音帧输入深度神经网络模型，通过深度神经网络模型提取各个语音帧的声纹特征将深度神经网络模型中输出层中前一个全连接层输出的声纹特征输入循环神经网络模型，通过循环神经网络模型计算各个相邻的语音帧的声纹特征之间的相似度，根据相似度对所述语音帧进行划分，得到多组语音帧集合，将各组语音帧集合的声纹特征输入深度神经网络模型的输出层，通过输出层识别各组语音帧集合对应的目标用户标识。通过深度神经网络能够快速准确的提取语音帧的声纹特征，通过循环神经网络模型可以充分利用标记信息对语音段数据进行分割识别，节约系统资源，识别快速且准确。

在一个实施例中，如图4所示，步骤S201之前，还包括：

步骤S301，获取多帧训练语音帧，训练语音帧包含多个训练用户标识对应的声纹特征。

步骤S302，构建初始深度神经网络模型。

步骤S303，将训练语音帧和对应的训练用户标识输入初始深度神经网络模型，根据初始深度神经网络模型提取训练语音帧的训练声纹特征，通过训练声纹特征识别出各个训练用户标识对应的训练声纹特征，根据各个训练语音帧对应的训练声纹特征确定各个训练语音帧的识别用户标识。

步骤S304，计算识别用户标识和对应的训练用户标识的匹配度，当匹配度大于预设匹配度阈值时，初始深度神经网络模型收敛，得到深度神经网络模型。

具体地，训练语音帧是指对采集的语音段进行分帧后得到的语音帧，训练语音帧用于训练初始深度神经网络模型。训练语音帧与训练用户标识对应，将训练语音帧和对应的训练用户标识输入初始深度神经网络模型，通过初始深度神经网络模型的全连接层提取训练语音帧的训练声纹特征，通过初始深度神经网络模型的输出层输出各个训练语音帧的训练声纹特征对应的识别用户标签，计算训练语音帧的识别用户标签和对应的训练用户标识的匹配度，识别用户标签与对应的训练用户标识一致时，标识识别正确，不一致时识别错误，根据识别结果是否准确，确定全部训练语音帧的匹配度，当匹配度大于预设匹配度阈值时，表示初始深度神经网络模型收敛，得到深度神经网络模型。模型未收敛时，更新初始深度神经网络模型的参数，直至模型收敛，得到深度神经网络模型。预设匹配度阈值时预先设置的用于判断初始深度神经网络模型是否收敛的临界条件，该阈值可以是技术人员根据经验设置，也可以是根据模型需求确定的。通过训练语音帧和对应的训练用户标识对深度神经网络模型进行训练，得到一个能够快速的提取语音帧的声纹特征，并根据提取的声纹特征识别各个语音帧对应的用户身份。

在一个实施例中，如图5所示，步骤S201之前，还包括：

步骤S401，构建初始循环神经网络模型。

步骤S402，将多个训练语音帧的声纹特征和对应的训练用户标签输入初始循环神经网络模型，通过初始循环神经网络模型识别各个训练语音帧的声纹特征是否发生变化，输出各个训练语音帧对应的变化状态。

步骤S403，根据各个训练语音帧对应的变化状态和对应的用户标识，判断初始循环神经网络模型的收敛状态，当初始循环神经网络模型收敛时，得到循环神经网络模型。

具体地，训练语音帧是指对采集的语音段进行分帧后得到的语音帧，训练语音帧的声纹特征可以是基于步骤S303中得到的深度神经网络模型提取得到的声纹特征，也可以是通过其他的网络模型提取得到的声纹特征，各个训练语音帧对应的训练用户标识。初始循环神经网络模型是技术人员构建的数学模型。将多个训练语音帧的声纹特征和对应的训练用户标签输入初始循环神经网络模型，通过初始循环神经网络模型对相邻的训练语音帧之间是否发生变化进行判断，输出各个语音帧之间的变化状态，其中变化状态包括发生改变和未改变两者情况，通过各个语音帧的变化状态，根据训练语音帧的用户标签确定各个语音帧的真实变化状态，根据真实变化状态和网络输出的语音变化状态进行对比，判断识别的变化状态是否准确，根据变化状态的识别准确度判断初始循环神经网络模型的收敛状态，当判断结果为初始循环神经网络模型收敛时，得到循环神经网络模型。

在一个实施例中，当初始循环神经网络模型未收敛时，采用反向传播算法更新初始循环神经网络模型的模型参数，直至根据各个训练语音帧对应的变化状态和对应的用户标识，判断初始循环神经网络模型的收敛状态为收敛时，得到循环神经网络模型。

具体地，当判断结果为初始循环神经网络模型未收敛时，采用反向传播算法更新初始循环神经网络模型的模型参数，调整初始循环神经网络模型各个网络层中的网络参数，重复对训练语音帧的声纹特征是否发生变化进行识别、根据变化状态和真实变化状态判断初始循环神经网络的收敛状态，直至判断结构为初始循环神经网络收敛时，得到循环神经网络模型。当模型未收敛时，采用方向传播算法对模型的参数进行自动更新，使得模型能够按照预先设置的目标训练，得到一个能够快速且准确判断语音帧之间的变化状态。

在一个实施例中，步骤S201之前，还包括：

步骤S501，获取包含多个待识别用户标识对应的原始语音段。

步骤S502，对原始语音段进行分帧，得到语音序列帧。

步骤S503，对语音序列帧进行端点检测，保留存在有效语音信息的语音序列帧，得到包含多个待识别用户标识的待识别的语音帧。

具体地，原始语音段是指采集的时间上连续的语音数据。分帧是指将一个语音段分解成多个时间比较短的语音片段，常见的分帧的方式包含连续分帧和交叉分帧，具体采用哪种分帧方法技术人员可以根据需求选择。对应原始语音段进行分帧，得到多个语音序列帧，语音序列帧是按照时间顺序进行排序的语音帧，对语音序段进行端点检测，判断各个语音序列帧是否存在有效语音信息的语音序列帧，删除掉那些不存在有效语音信息的语音序列帧，得到包含多个待识别用户标识的待识别的语音帧。如对原始语音段进行端点检测，在1S-3S是存在人说话，在3S到5S时时安静的，则保留时间处于1S到3S的语音序列帧。在进行端点检测是，检测各个语音序列帧中包含的语音信息，存在有效语音信息的语音序列帧为有效语音帧，即为语音帧。语音的端点检测方法包含多种，如可以根据语音的能量、过零率等等进行判断。

在一个实施例中，步骤S502，包括：获取分帧时长和对应的移动时长，移动长时长小于分帧时长，按照分帧时长和移动时长对语音段进行划分，得到多个语音序列帧。

具体地，语音分帧，这里采取交叉分帧，即分帧时长大于移动时长，如设置分帧时长为30ms，则可以设置帧移长度为20ms，将一段语音段进行划分，得到多个与分帧时长相同时长的语音序列帧，各个相邻的语音序列帧之间存在重叠区域。采用交叉分帧可以避免连续分帧带来的语音截断。

在一个具体的实施例中，上述语音数据处理方法，包括：

对采集的原始语音段进行预处理，其中预处理包括分帧和端点检测。由于语音信号是一个非平稳的时变的随机过程，可以假定在一个较短的时间内语音信号具有短时平稳性，所以需要对语音信号进行分帧。分帧的方式也包括连续分帧和交叉分帧，连续分帧是指直接把语音信号按一定的长度来划分，交叉分帧则是要求帧与帧之间由重叠。因为连续分帧可能会遇到两帧之间正好在两个音节之间，会导致特征参数变化较大，所以选取交叉分帧，其中帧长为25ms，帧移长度为10ms。因为人说话会有停顿，所以在一段语音信号中会有一些没有语音的片段，而端点检测就是检测一段语音信号中语音开始和结束的位置。端点检测的方法包括短时能量、短时过零率、双门限法等等，以双门限法为例，双门限法使用短时能量和短时过零率来确定有效的语音片段，其中短时能量是指每一帧中所有采样点的平方相加，短时过零率是指一帧信号中穿越零电平的比率，但是实际应用中一般取一个较小的值(0.01)，如果前一个采样点大于0.01并且后一个采样点小于-0.01就认为这是一次过零。双门限法有两级判决，第一级判决：根据语音信号的短时能量来选区一个较高的门限T1，如果信号的短时能量大于T1，则可以认为一定是语音片段。判决二是由短时能量确定一个较低的门限T2，同时通过短时过零率来确定一个门限T3，如果信号同时满足T2和T3，则认为可能是语音信号。如果接下来的一段时间内，信号短时能量通过了T1，则判断这段为语音，否则不是。

在预处理之后，开始训练一个用于说话人识别的深度神经网络模型，使用当前帧、和当前帧的前一帧和后一帧作为深度神经网络的输入，并使用深度神经网络模型中的四层全连接层进行声纹提取，每层有256个节点。最后一层为一个N维的1-hot向量，其中N为需要进行识别的人数，1-hot向量表示对应的说话人编号为1，其余均为0的向量。在训练过程中，加入dropout以提高网络的泛化能力，使用maxout作为激活函数。然后就开始使用大量的数据和反向传播算法去训练深度神经网络模型，得到训练好的深度神经网络模型。

在一个实施例中，设置深度神经网络模型的损失函数，公式如式(1)所示：

其中n为单次训练的样本数量，y为真实的标签，标签为0或1，

为输出的预测概率。当训练语音帧的损失函数小于或等于预设损失值时，判断初始深度神经网络模型收敛。

对于一段语音，使用深度神经网络模型提取特征，使用倒数第二层的输出作为循环神经网络模型的输入，可以得到输入的序列为X＝{x_1,x_2…x_n}，同时还需要与其对应的说话人标签Y＝{y_1,y_2…y_n}，其中y_m代表当前说话人的编号，以及与其对应的说话人是否有变化标签Z，在Z中1代表有变化，0代表没有变化。例如，一段语音中分别有说话人1、说话人2、说话人3和说话人1按顺序说话，那么其对应的标签为Y＝{1,1,2,2,3,1}，说话人是否变化标签为Z＝{0,0,1,0,1,1}。在循环神经网络中使用门控循环单元(GRU)作为循环单元，使用门控制循环单元可以在隐状态中储存之前的记忆，它包括reset gate和update gate。Reset gate决定了有多少之前的记忆需要和新的输入结合，而update gate决定了多少之前的记忆保留下来。接下来同样是使用大量的数据和标签Z和基于时间的反向传播算法来训练循环神经网络模型，得到训练好的循环神经网络模型。

在一个实施例中，循环神经网络模型的损失函数为均方误差，具体公式如式(2)所示：

其中，Z(x)为说话人是否有变化的真实标签，标签包含0和1，

为循环神经网络模型的预测值，n为输入语音帧的帧数。当损失函数小于预设的循环神经网络模型的预设损失值时，循环神经网络模型收敛。

对于一段给定的包含多人说话的语音，首先对该语音进行预处理，对其进行端点检测和分帧，得到W＝{w_1,w_2…w_n}，其中w_m为s*1的向量，s为窗长，n为分帧后所得的帧数。然后将W输入到训练好的深度神经网络模型中，得到输出序列为X＝{x_1,x_2…x_n}，其中x_m为256*1的特征向量。将X作为输入，使用循环神经网络模型对X进行预测，可以得到预测说话人是否有变化Z＝{z_1,z_2…z_n}，最后再使用模型一对不同的说话人进行识别，可以得到序列Y＝{y_1,y_2…y_n}，记录了预测的语音中不同时段的说话人编号。基于循环神经网络，充分利用标记信息，进行声音分割和识别，节约系统资源，识别快速准确。

图2为一个实施例中语音数据处理方法的流程示意图。应该理解的是，虽然图2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图6所示，提供了一种语音数据处理装置200，包括：

语音帧获取模块201，用于获取包含多个待识别用户标识对应的多帧语音帧。

声纹特征提取模块202，用于将各个语音帧输入深度神经网络模型，通过深度神经网络模型提取各个语音帧的声纹特征。

特征输入模块203，用于将深度神经网络模型中输出层中前一个全连接层输出的声纹特征输入循环神经网络模型。

语音帧分类模块204，用于通过循环神经网络模型计算各个相邻的语音帧的声纹特征之间的相似度，根据相似度对语音帧进行归类，得到多组语音帧集合。

识别模块205，用于将各组语音帧集合的声纹特征输入深度神经网络模型的输出层，通过输出层识别各组语音帧集合对应的目标用户标识。

在一个实施例中，上述语音数据处理装置还包括：深度模型生成模块，用于生成深度神经网络模型，其中深度模型生成模块包括：

训练语音帧获取单元，用于获取多帧训练语音帧，训练语音帧包含多个训练用户标识对应的声纹特征。

初始深度模型构建单元，用于构建初始深度神经网络模型。

深度模型训练单元，用于将训练语音帧和对应的训练用户标识输入初始深度神经网络模型，根据初始深度神经网络模型提取训练语音帧的训练声纹特征，通过训练声纹特征识别出各个训练用户标识对应的训练声纹特征，根据各个训练语音帧对应的训练声纹特征确定各个训练语音帧的识别用户标识。

深度模型确定单元，用于计算识别用户标识和对应的训练用户标识的匹配度，当匹配度大于预设匹配度阈值时，初始深度神经网络模型收敛，得到深度神经网络模型。

在一个实施例中，上述语音数据处理装置，还包括：循环模型生成模块，用于生成循环神经网络模型，其中，循环模型生成模块包括：

循环模型构建单元，用于构建初始循环神经网络模型。

循环模型训练单元，用于将多个训练语音帧的声纹特征和对应的训练用户标签输入初始循环神经网络模型，通过初始循环神经网络模型识别各个训练语音帧的声纹特征是否发生变化，输出各个训练语音帧对应的变化状态。

循环模型确定单元，用于根据各个训练语音帧对应的变化状态和对应的用户标识，判断初始循环神经网络模型的收敛状态，当初始循环神经网络模型收敛时，得到循环神经网络模型。

在一个实施例中，上述循环模型确定单元还用于当初始循环神经网络模型未收敛时，采用反向传播算法更新初始循环神经网络模型的模型参数，直至根据各个训练语音帧对应的变化状态和对应的用户标识，判断初始循环神经网络模型的收敛状态为收敛时，得到循环神经网络模型。

在一个实施例中，上述语音数据处理装置，还包括：

原始数据获取模块，用于获取包含多个待识别用户标识对应的原始语音段。

语音分帧模块，用于对原始语音段进行分帧，得到语音序列帧。

端点检测模块，用于对语音序列帧进行端点检测，保留存在有效语音信息的语音序列帧，得到包含多个待识别用户标识的待识别的语音帧。

在一个实施例中，语音分帧模块还用于获取分帧时长和对应的移动时长，移动长时长小于分帧时长，按照分帧时长和移动时长对语音段进行划分，得到多个语音序列帧。

图7示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110(或服务器120)。如图7所示，该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现语音数据处理方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行语音数据处理方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的语音数据处理装置可以实现为一种计算机程序的形式，计算机程序可在如图7所示的计算机设备上运行。计算机设备的存储器中可存储组成该语音数据处理装置的各个程序模块，比如，图6所示的语音帧获取模块201、声纹特征提取模块202、特征输入模块203、语音帧分类模块204和识别模块205。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的语音数据处理方法中的步骤。

例如，图7所示的计算机设备可以通过如图6所示的语音数据处理装置中的语音帧获取模块201执行获取包含多个待识别用户标识对应的多帧语音帧。计算机设备可以通过声纹特征提取模块202执行将各个语音帧输入深度神经网络模型，通过深度神经网络模型提取各个语音帧的声纹特征。计算机设备可以通过特征输入模块203执行将深度神经网络模型中输出层中前一个全连接层输出的声纹特征输入循环神经网络模型。计算机设备可以通过语音帧分类模块204执行通过循环神经网络模型计算各个相邻的语音帧的声纹特征之间的相似度，根据相似度对所述语音帧进行归类，得到多组语音帧集合。计算机设备可以通过识别模块205执行将各组语音帧集合的声纹特征输入深度神经网络模型的输出层，通过输出层识别各组语音帧集合对应的目标用户标识。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取包含多个待识别用户标识对应的多帧语音帧；将各个语音帧输入深度神经网络模型，通过深度神经网络模型提取各个语音帧的声纹特征，将深度神经网络模型中输出层中前一个全连接层输出的声纹特征输入循环神经网络模型，通过循环神经网络模型计算各个相邻的语音帧的声纹特征之间的相似度，根据相似度对语音帧进行划分，得到多组语音帧集合，将各组语音帧集合的声纹特征输入深度神经网络模型的输出层，通过输出层识别各组语音帧集合对应的目标用户标识。

在一个实施例中，获取包含多个待识别用户标识对应的多帧语音帧之前，处理器执行计算机程序时还实现以下步骤：获取多帧训练语音帧，训练语音帧包含多个训练用户标识对应的声纹特征，构建初始深度神经网络模型，将训练语音帧和对应的训练用户标识输入初始深度神经网络模型，根据初始深度神经网络模型提取训练语音帧的训练声纹特征，通过训练声纹特征识别出各个训练用户标识对应的训练声纹特征，根据各个训练语音帧对应的训练声纹特征确定各个训练语音帧的识别用户标识，计算识别用户标识和对应的训练用户标识的匹配度，当匹配度大于预设匹配度阈值时，初始深度神经网络模型收敛，得到深度神经网络模型。

在一个实施例中，获取包含多个待识别用户标识对应的多帧语音帧之前，处理器执行计算机程序时还实现以下步骤：构建初始循环神经网络模型，将多个训练语音帧的声纹特征和对应的训练用户标签输入初始循环神经网络模型，通过初始循环神经网络模型识别各个训练语音帧的声纹特征是否发生变化，输出各个训练语音帧对应的变化状态，根据各个训练语音帧对应的变化状态和对应的用户标识，判断初始循环神经网络模型的收敛状态，当初始循环神经网络模型收敛时，得到循环神经网络模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当初始循环神经网络模型未收敛时，采用反向传播算法更新初始循环神经网络模型的模型参数，直至根据各个训练语音帧对应的变化状态和对应的用户标识，判断初始循环神经网络模型的收敛状态为收敛时，得到循环神经网络模型。

在一个实施例中，深度神经网络模型包括输入层、四个全连接层和输出层，深度神经网络模型的输入层与第一全连接层连接，第一全连接层与第二全连接层连接，第二连接层与第三全连接层连接，第三全连接层与第四全连接层连接，第四全连接层分别与循环神经网络的输入层连接，循环神经网络的输出层与深度神经网络模型输出层连接。

在一个实施例中，获取包含多个待识别用户标识对应的多帧语音帧之前，处理器执行计算机程序时还实现以下步骤：获取包含多个待识别用户标识对应的原始语音段，对原始语音段进行分帧，得到语音序列帧，对语音序列帧进行端点检测，保留存在有效语音信息的语音序列帧，得到包含多个待识别用户标识的待识别的语音帧。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取分帧时长和对应的移动时长，移动长时长小于分帧时长，按照分帧时长和移动时长对语音段进行划分，得到多个语音序列帧。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取包含多个待识别用户标识对应的多帧语音帧；将各个语音帧输入深度神经网络模型，通过深度神经网络模型提取各个语音帧的声纹特征，将深度神经网络模型中输出层中前一个全连接层输出的声纹特征输入循环神经网络模型，通过循环神经网络模型计算各个相邻的语音帧的声纹特征之间的相似度，根据相似度对语音帧进行划分，得到多组语音帧集合，将各组语音帧集合的声纹特征输入深度神经网络模型的输出层，通过输出层识别各组语音帧集合对应的目标用户标识。

在一个实施例中，生成深度神经网络模型的步骤，包括：获取多帧训练语音帧，训练语音帧包含多个训练用户标识对应的声纹特征，构建初始深度神经网络模型，将训练语音帧和对应的训练用户标识输入初始深度神经网络模型，根据初始深度神经网络模型提取训练语音帧的训练声纹特征，通过训练声纹特征识别出各个训练用户标识对应的训练声纹特征，根据各个训练语音帧对应的训练声纹特征确定各个训练语音帧的识别用户标识，计算识别用户标识和对应的训练用户标识的匹配度，当匹配度大于预设匹配度阈值时，初始深度神经网络模型收敛，得到深度神经网络模型。

在一个实施例中，生成循环神经网络模型的步骤，包括：构建初始循环神经网络模型，将多个训练语音帧的声纹特征和对应的训练用户标签输入初始循环神经网络模型，通过初始循环神经网络模型识别各个训练语音帧的声纹特征是否发生变化，输出各个训练语音帧对应的变化状态，根据各个训练语音帧对应的变化状态和对应的用户标识，判断初始循环神经网络模型的收敛状态，当初始循环神经网络模型收敛时，得到循环神经网络模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音数据处理方法，其特征在于，所述方法包括：

获取包含多个待识别用户标识对应的多帧语音帧；

将各个所述语音帧输入深度神经网络模型，通过所述深度神经网络模型提取各个所述语音帧的声纹特征；

将所述深度神经网络模型中输出层中前一个全连接层输出的声纹特征输入循环神经网络模型；

通过所述循环神经网络模型计算各个相邻的语音帧的声纹特征之间的相似度，根据所述相似度对所述语音帧进行划分，得到多组语音帧集合；

将各组语音帧集合的声纹特征输入所述深度神经网络模型的输出层，通过所述输出层识别各组所述语音帧集合对应的目标用户标识。

2.根据权利要求1所述的方法，其特征在于，所述获取包含多个待识别用户标识对应的多帧语音帧之前，还包括：

获取多帧训练语音帧，所述训练语音帧包含多个训练用户标识对应的声纹特征；

构建初始深度神经网络模型；

将所述训练语音帧和对应的训练用户标识输入所述初始深度神经网络模型，根据所述初始深度神经网络模型提取所述训练语音帧的训练声纹特征，通过所述训练声纹特征识别出各个所述训练用户标识对应的训练声纹特征，根据各个训练语音帧对应的训练声纹特征确定各个所述训练语音帧的识别用户标识；

计算所述识别用户标识和对应的训练用户标识的匹配度，当所述匹配度大于预设匹配度阈值时，所述初始深度神经网络模型收敛，得到所述深度神经网络模型。

3.根据权利要求1所述的方法，其特征在于，所述获取包含多个待识别用户标识对应的多帧语音帧之前，还包括：

构建初始循环神经网络模型；

将多个训练语音帧的声纹特征和对应的训练用户标签输入所述初始循环神经网络模型，通过所述初始循环神经网络模型识别各个所述训练语音帧的声纹特征是否发生变化，输出各个所述训练语音帧对应的变化状态；

根据各个所述训练语音帧对应的变化状态和对应的用户标识，判断所述初始循环神经网络模型的收敛状态，当所述初始循环神经网络模型收敛时，得到所述循环神经网络模型。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

当所述初始循环神经网络模型未收敛时，采用反向传播算法更新所述初始循环神经网络模型的模型参数，直至根据各个所述训练语音帧对应的变化状态和对应的用户标识，判断所述初始循环神经网络模型的收敛状态为收敛时，得到所述循环神经网络模型。

5.根据权利要求1至4任意一项所述的方法，其特征在于，所述深度神经网络模型包括输入层、四个全连接层和输出层，所述深度神经网络模型的输入层与第一全连接层连接，所述第一全连接层与第二全连接层连接，所述第二连接层与第三全连接层连接，所述第三全连接层与第四全连接层连接，所述第四全连接层与所述循环神经网络的输入层连接，所述循环神经网络的输出层与所述深度神经网络模型输出层连接。

6.根据权利要求1所述的方法，其特征在于，所述获取包含多个待识别用户标识对应的多帧语音帧之前，还包括：

获取包含多个所述待识别用户标识对应的原始语音段；

对所述原始语音段进行分帧，得到所述语音序列帧；

对所述语音序列帧进行端点检测，保留存在语音信息的所述语音序列帧，得到包含多个所述待识别用户标识的待识别的语音帧。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

获取分帧时长和对应的移动时长，所述移动长时长小于所述分帧时长；

按照所述分帧时长和所述移动时长对所述语音段进行划分，得到多个所述语音序列帧。

8.一种语音数据处理装置，其特征在于，所述装置包括：

语音帧获取模块，用于获取包含多个待识别用户标识对应的多帧语音帧；

声纹特征提取模块，用于将各个所述语音帧输入深度神经网络模型，通过所述深度神经网络模型提取各个所述语音帧的声纹特征；

特征输入模块，用于将所述深度神经网络模型中输出层中前一个全连接层输出的声纹特征输入循环神经网络模型；

语音帧分类模块，用于通过所述循环神经网络模型计算各个相邻的语音帧的声纹特征之间的相似度，根据所述相似度对所述语音帧进行归类，得到多组语音帧集合；

识别模块，用于将各组语音帧集合的声纹特征输入所述深度神经网络模型的输出层，通过所述输出层识别各组所述语音帧集合对应的目标用户标识。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。