CN109599117A

CN109599117A - 一种音频数据识别方法及人声语音防重放识别系统

Info

Publication number: CN109599117A
Application number: CN201811354662.3A
Authority: CN
Inventors: 曾志先; 肖龙源; 蔡振华; 李稀敏; 刘晓葳; 谭玉坤
Original assignee: Xiamen Kuaishangtong Technology Corp ltd
Current assignee: Xiamen Kuaishangtong Technology Corp ltd
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2019-04-09

Abstract

本发明涉及声纹识别技术领域，提供了一种音频数据识别方法，所述方法包含步骤：获取用户输入的音频数据；从所述音频数据中截取出预设长度的数据片段；将所述数据片段转换为声纹特征；基于预设GRU神经网络识别模型对所述声纹特征进行识别，确定所述声纹特征属于真实人声语音或重放录音。通过本发明所提供的方法可准确识别真实人声语音及重放录音，可对用户输入的音频数据进行防重放识别，防止恶意攻击。此外，本发明还提供一种人声语音防重放识别系统。

Description

一种音频数据识别方法及人声语音防重放识别系统

技术领域

本发明涉及音频识别技术领域，尤其涉及一种音频数据识别方法及一种人声语音防重放识别系统。

背景技术

声纹识别，生物识别技术的一种，也称为说话人识别，有两类，即说话人辨认和说话人确认。不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。声纹识别就是把声信号转换成电信号，再用计算机进行识别。

随着计算机技术的发展，声纹识别技术已广泛应用于银行、金融、安防等领域,该技术有成本低,效率高的特点。

随着应用越来越广泛，也发生了一些问题，包含声纹识别技术容易遭受录音重放/语音合成/语音生成/语音转换等技术的攻击,导致识别系统将非真实说话人的语音判断为说话人的语音，从而导致应用系统被非法入侵，而带来无法预期的损失。

如何准确的识别真实说话人的语音和录音，已成为声纹识别技术的一个重要发展方向。

发明内容

为了正确识别真实说话人的语音和录音，本发明提供了一种音频数据识别方法，所述方法包含步骤：

获取用户输入的音频数据；

从所述音频数据中截取出预设长度的数据片段；

将所述数据片段转换为声纹特征；

基于预设GRU神经网络识别模型对所述声纹特征进行识别，确定所述声纹特征属于真实人声语音或重放录音。

在一实施中，所述从所述音频数据中截取出预设长度的数据片段具体包含从所述音频数据中截取出3秒时长的所述数据片段。

在一实施中，所述将所述数据片段转换为声纹特征具体包含：

基于python_speech_features工具将所述数据片段转为40维的MFCC声纹特征。

在一实施中，所述预设GRU神经网络识别模型基于3层GRU结构的循环神经网络算法实现。

在一实施中，所述预设GRU神经网络识别模型的构建方法包含：

收集训练样本，其中包含正样本及负样本；

分别对所述样本进行预处理；

将所述预处理后的样本作为输入层对所述预设GRU神经网络识别模型进行迭代训练，其中，所述训练具体包括：

获得所述输入层经过所述循环神经网络算法计算后得到的输出层；

基于归一化指数函数将输出层转为概率；

通过所述概率与预设阈值的关系确定识别结果。

在一实施中，所述收集训练样本具体包含：采集真实人声语音，作为所述正样本；对所述真实人声语音进行录制，作为所述负样本。

在一实施中，所述分别对所述样本进行预处理包含：从所述样本中截取出预设长度的数据片段；将所述数据片段转换为声纹特征；对所述声纹特征进行标准化处理。

在一实施中，所述对声纹特征进行标准化处理具体包含：基于下列算式计算所述声纹特征的标准值：(原数值-平均值)/标准差)。

本发明实施例所提供的音频识别方法通过对用户输入的音频数据进行片段截取，并特征化，再基于预设GRU神经网络识别模型对特征进行识别，以确定用户输入的音频数据是真实人声语音还是重放录音。预设GRU神经网络识别模型基于3层GRU结构的循环神经网络算法(Recurrent Neural network，RNN)实现，可以充分利用时序方面的信息，结合前后的信息来做出概率的判断，更符合音频数据识别的需求，可保证识别结果的准确性，更进一步的，通过同样的方式对样本和待识别音频数据进行截取和标准化处理，保证待识别音频数据的输入格式与训练样本相同，去除了一定的数据噪音，更加提升识别的精准度。

基于同样的发明构思，本发明还提供了一种人声语音防重放识别系统，所述系统包含：音频采集终端，用于采集待识别的音频数据；识别模块，基于上述的音频数据识别方法对所述音频数据进行识别，并输出识别结果。

附图说明

一个或多个实施方式通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施方式的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1绘示本发明一实施例所提供的预设GRU神经网络识别模型构建方法流程图；

图2绘示本发明一实施例所提供的一种音频数据识别方法流程图；

图3绘示本发明另一实施例所提供的人声语音防重放识别系统结构示意图。

具体实施方式

为使本发明实施方式的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施方式中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

本发明实施例提供了一种音频数据识别方法，具体包含步骤：获取用户输入的音频数据；从所述音频数据中截取出预设长度的数据片段；将所述数据片段转换为声纹特征；基于预设GRU(Gated Recurrent Unit)神经网络识别模型对所述声纹特征进行识别，确定所述声纹特征属于真实人声语音或重放录音。可准确的识别出用户输入的音频数据是真实人声语音还是重放录音，从而提升声纹识别技术的应用安全性。

本发明实施例中主要是基于神经网络模型来对音频数据进行具体的识别，首先，对本发明实施例中所使用的预设GRU神经网络识别模型进行说明。

请参照图1，图1绘示本发明一实施例所提供的预设GRU神经网络识别模型构建方法流程图。

如图1所示，所述构建方法具体包含步骤：

步骤101，收集训练样本。

训练样本可由正样本及负样本构成，其中，正样本是指真实人声语音，负样本则可以是对正样本中的真实人声语音进行录制所得到的录音。正样本与负样本的数量比为1:2，例如，准备10000个语音作为正样本,20000个对应的录音作为负样本。

值得注意的是，正样本可来自于应用系统所采集的真实用户的语音，那么负样本则为基于该些真实用户语音进行录制后得到的录音。通过直接基于真实用户的语音所获取的训练样本对所述模型进行训练，可使得模型的识别结果更贴近于实际的应用场景，在一定程度上可提升识别准确率。

步骤102，分别对所述样本进行预处理。

由于采集到的样本可能存在一定的差异，例如音频时长不同、数据类型不同等，故可对样本进行统一的预处理。具体可包含：从所述样本中截取出预设长度的数据片段，并将所述数据片段转换为声纹特征。

在一较佳实施例中，可从样本中截取出3秒时长的数据片段，因为随机数字串等方式的路由时长大概在4-5秒左右,所以为了保证能够取到在时长内的音频片段,可取3秒。如果样本不足3秒，则会放空白段进去将该样本补足3秒，以获得统一长度的样本数据。

在获得了各样本的数据片段之后，可通过python_speech_features工具将该些数值形式的数据片段转为40维的MFCC声纹特征。其中，MFCC，是Mel频率倒谱系数的缩写。Mel频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征。

接着，可对该些MFCC声纹特征进行标准化处理，以去除噪音数据。

所述对声纹特征进行标准化处理具体可包含：基于下列算式计算所述声纹特征的标准值：

标准值＝(原数值-平均值)/标准差)。

其中，原数值是指MFCC声纹特征值，基于该些原数值，可通过numpy的mean方法来计算平均值,以及通过numpy的std方法计算标准差。

步骤103，将所述预处理后的样本作为输入层对所述预设GRU神经网络识别模型进行迭代训练。

本发明实施例的预设GRU神经网络识别模型可基于3层GRU结构的循环神经网络算法(Recurrent Neural network，RNN)实现。因为RNN可以充分利用时序方面的信息,结合前后的信息来做出概率的判断,而音频数据恰好就是建立在时序关系上面的，故基于RNN来实现GRU神经网络识别模型，更符合实际需求，识别结果更加准确。

所述训练过程具体可包括：将步骤102预处理完的正、负样本作为输入层，经过循环神经网络算法计算后得到的输出层；基于归一化指数函数SoftMax将输出层转为概率；通过所述概率与预设阈值的关系确定识别结果。

具体而言，使用3层GRU结构的RNN循环神经网络算法，设置隐藏层神经元个数300,输出两个数值，第一个数值是当前样本是真实人声语音的分数,第二个数值是当前样本为重放录音的分数。

然后，通过SoftMax将输出层的两个数值转为概率,概率的意义为当前样本是真实用户语音的概率为多少，为重放录音的概率是多少，SoftMax计算方式用意在于可以将RNN循环网络输出的数值转为[0-1]的范围中，并可以根据概率值来作为判断结果；最后，将样本为重放录音的概率取出来，设置阈值为0.5，如果音频数据为重放录音的概率大于0.5，那么这个样本则判断为重放录音。

在实际的迭代过程中，可将80％样本作为训练集，20％的样本作为测试集，使用交叉熵损失来作为损失函数，然后通过Adam算法来优化损失值，总共迭代训练200次。再通过测试集进行验证，保证准确率。

通过上述方法构建的预设GRU神经网络识别模型可用于识别采集到的音频数据是真实用户语音和重放录音。该预设GRU神经网络识别模型可应用于具体的应用系统中，以防止恶意的录音攻击。基于该预设GRU神经网络识别模型可实现本发明实施例所提供的音频数据识别方法。

请参照图2，图2绘示本发明一实施例所提供的一种音频数据识别方法流程图。

如图2所示，所述方法具体包含以下步骤：

步骤201，获取用户输入的音频数据。

具体可通过语音采集设备接收用户输入的音频数据。

步骤202，从所述音频数据中截取出预设长度的数据片段。

为了提升识别模型的准确度，可将从音频数据中截取出预处理样本的同样长度，例如，上述的3秒长度，同样的，若音频数据不足3秒，则会放空白段进去将该段音频数据补足3秒。

值得注意的是，音频数据的截取方式与样本片段的截取方式应保持一致，从而保证用于识别的数据格式与样本一致，提升识别准确性。

步骤203，将所述数据片段转换为声纹特征。

在获得了音频数据的数据片段之后，可通过python_speech_features工具将该些数值形式的数据片段转为40维的MFCC声纹特征。其中，MFCC，是Mel频率倒谱系数的缩写。Mel频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。Mel频率倒谱系数(MFCC)则是利用它们之间的这种关系，计算得到的Hz频谱特征。

标准值＝(原数值-平均值)/标准差)。

同样的，通过与样本预处理方法相同的方式对待识别数据进行处理，使得数据格式保持一致，提升识别的准确率。

步骤204，基于预设GRU神经网络识别模型对所述声纹特征进行识别，确定所述声纹特征属于真实人声语音或重放录音。

将声纹特征输入至预设GRU神经网络识别模型进行识别，其中预设GRU神经网络识别模型是基于上述构建方法生成的。

基于上述音频数据识别方法，本发明还提供了一种人声语音防重放识别系统。

请参照图3，图3绘示本发明另一实施例所提供的人声语音防重放识别系统结构示意图。

如图3所示，所述系统包含：

音频采集终端310，用于采集待识别的音频数据，并将音频数据发送至识别模块320。

识别模块320，接收音频采集终端310发送的音频数据，并基于图2所示实施例所提供的音频数据识别方法，对所述音频数据进行识别，并输出识别结果。

本发明实施例所提供人声语音防重放识别系统可对用户输入的音频信息进行防重放识别，即防止通过重放录音对系统进行攻击，保障应用系统的安全性。

本领域技术人员可以理解，实现上述音频数据识别方法实施例中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

上述各实施方式是实现本发明的具体实施方式，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种音频数据识别方法，其特征在于，所述方法包含步骤：

获取用户输入的音频数据；

从所述音频数据中截取出预设长度的数据片段；

将所述数据片段转换为声纹特征；

2.如权利要求1所述的方法，其特征在于，所述从所述音频数据中截取出预设长度的数据片段具体包含从所述音频数据中截取出3秒时长的所述数据片段。

3.如权利要求1所述的方法，其特征在于，所述将所述数据片段转换为声纹特征具体包含：

4.如权利要求1所述的方法，其特征在于，所述预设GRU神经网络识别模型基于3层GRU结构的循环神经网络算法实现。

5.如权利要求4所述的方法，其特征在于，所述预设GRU神经网络识别模型的构建方法包含：

收集训练样本，其中包含正样本及负样本；

分别对所述样本进行预处理；

基于归一化指数函数将输出层转为概率；

通过所述概率与预设阈值的关系确定识别结果。

6.如权利要求5所述的方法，其特征在于，所述收集训练样本具体包含：

采集真实人声语音，作为所述正样本；

对所述真实人声语音进行录制，作为所述负样本。

7.如权利要求5所述的方法，其特征在于，所述分别对所述样本进行预处理包含：

从所述样本中截取出预设长度的数据片段；

将所述数据片段转换为声纹特征；

对所述声纹特征进行标准化处理。

8.如权利要求7所述的方法，其特征在于，所述对声纹特征进行标准化处理具体包含：基于下列算式计算所述声纹特征的标准值：

(原数值-平均值)/标准差)。

9.一种人声语音防重放识别系统，其特征在于，所述系统包含：

音频采集终端，用于采集待识别的音频数据；

识别模块，基于权利要求1至8中任一项所述的音频数据识别方法对所述音频数据进行识别，并输出识别结果。