CN112735436A

CN112735436A - 声纹识别方法及声纹识别系统

Info

Publication number: CN112735436A
Application number: CN202110084066.3A
Authority: CN
Inventors: 姚永波; 赵刚; 张海波; 崔力民; 杨淼; 王晓波; 童欣宇; 焦小龙; 李欢; 巴燕·塔斯恒; 马国强; 刘雅婷; 侯建明; 杨建�
Original assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Xinjiang Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Xinjiang Electric Power Co Ltd
Priority date: 2021-01-21
Filing date: 2021-01-21
Publication date: 2021-04-30

Abstract

本发明涉及语音检测方法技术领域，是一种声纹识别方法及声纹识别系统，后者包括采集模块、模型建立模块、输入模块、输出模块和结果模块。本发明相比于现有技术，声音灰度图像能够放大调度员声音信号的时频特性，能够提高待测声音的辨识度；当将待识别调度员的待测声音灰度图像作为声纹识别模型的输入参数，声纹识别模型能够准确识别所述调度员的工作状态；能够有效提取调度员声音信号时频特征，进而提高了调度员工作状态识别的准确性。

Description

声纹识别方法及声纹识别系统

技术领域

本发明涉及语音检测方法技术领域，是一种声纹识别方法及声纹识别系统。

背景技术

调度语音作为调度员下达口令最直接的方式，也是调度信息传递最常用的载体，在人工智能水平越来越高的今天，更加需要智能化的调度语音处理平台，识别、分析和诊断各类调度语音信息，辅助调度员做出最及时的反应、最精确的判断和最高效的分析。

时频分析法是声信号处理领域的一种常用手段。但运行中的调度员的声信号不可避免地会受到电流、噪声干扰等的影响，使得不同时间监测到的声波信号亦会随之改变且呈现宽带非平稳特征，其时频特性表现出一定复杂性，难以直接进行分析以区分调度员的不同工作状态。如何提高调度员工作状态识别的准确性是亟待解决的问题。

发明内容

本发明提供了一种声纹识别方法及声纹识别系统，克服了上述现有技术之不足，其能有效提取调度员声音信号时频特征，进而提高调度员工作状态识别的准确性。

本发明的技术方案之一是通过以下措施来实现的：一种声纹识别方法，包括步骤1，采集并量化电力调度时产生的语音信号产生的语音数据，将得到的语音数据进行预处理，以将语音数据处理为若干个平滑过渡并去除静音部分的语音片段；步骤2，选取语音片段下的多个声音灰度图像训练卷积神经网络，建立声纹识别模型；步骤3，将多个声音灰度图像作为卷积神经网络的输入参数；步骤4，将与多个声音灰度图像一一对应的工作状态信息作为卷积神经网络的输出参数；步骤5，将待测声音灰度图像输入声纹识别模型，获取与待测声音灰度图像相对应的工作状态信息。

下面是对上述发明技术方案之一的进一步优化或/和改进：

上述步骤1中，将得到的若干个语音片段，针对每一个语音片段分别进行傅里叶变换，根据傅里叶变换结果分别处理生成每个语音片段各自对应的灰度图像形式的语谱图，语谱图中宽度对应语音信号持续的时间，高度对应语音信号的频率。

上述步骤2具体为：随机选取多种电力调度工作状态时的多个声音灰度图像，将多个声音灰度图像划分为训练样本集和测试样本集，多种工作状态对应设置为多个与多个声音灰度图像一一对应的工作状态信息。

上述将训练样本集中的多个声音灰度图像作为卷积神经网络的输入，将多个工作状态信息分别作为卷积神经网络的输出，对卷积神经网络进行训练，将测试样本集中的多个声音灰度图像输入训练后的卷积神经网络，记录声纹识别模型输出的多个与多个声音灰度图像一一对应的测试工作状态信息，并根据多个测试工作状态信息计算训练后的卷积神经网络的识别率。

上述若卷积神经网络的识别率的变化率小于预设值，依据训练后的卷积神经网络建立声纹识别模型。

上述卷积神经网络（CNN网络）和长短期记忆网络（LSTM网络）串联构建神经网络，将得到的每个语音片段对应的语谱图分别输入神经网络，神经网络中，首先由积神经网络对每个语谱图进行处理。

本发明的技术方案之二是通过以下措施来实现的：一种声纹识别系统，包括采集模块、模型建立模块、输入模块、输出模块和结果模块；

采集模块，用于采集并量化电力调度时产生的语音信号产生的语音数据，将得到的语音数据进行预处理，以将语音数据处理为若干个平滑过渡并去除静音部分的语音片段；

模型建立模块，用于选取语音片段下的多个声音灰度图像训练卷积神经网络，建立声纹识别模型；

输入模块，用于将多个声音灰度图像作为卷积神经网络的输入参数；

输出模块，用于将与多个声音灰度图像一一对应的工作状态信息作为卷积神经网络的输出参数；

结果模块，用于将待测声音灰度图像输入声纹识别模型，获取与待测声音灰度图像相对应的工作状态信息。

本发明相比于现有技术，声音灰度图像能够放大调度员声音信号的时频特性，能够提高待测声音的辨识度。当将待识别调度员的待测声音灰度图像作为声纹识别模型的输入参数，声纹识别模型能够准确识别所述调度员的工作状态。能够有效提取调度员声音信号时频特征，进而提高了调度员工作状态识别的准确性。

附图说明

图1为本发明实施例1所述声纹识别方法的流程示意图。

图2为本发明实施例2所述声纹识别方法的详细步骤示意图。

图3为本发明实施例3所述声纹识别系统的模块示意图。

具体实施方式

本发明不受下述实施例的限制，可根据本发明的技术方案与实际情况来确定具体的实施方式。

下面结合实施例对本发明作进一步描述：

实施例1：如附图1所示，该声纹识别方法，包括：

步骤S100，采集并量化电力调度时产生的语音信号产生的语音数据，将得到的语音数据进行预处理，以将语音数据处理为若干个平滑过渡并去除静音部分的语音片段；

具体的，预处理过程包括分帧、加窗操作、端点检测。

在一些实施方式中，将得到的语音数据首先进行分帧处理，将语音数据划分为若干个语音片段，即进行分帧；这些语音片段能保持短时平稳状态，可利用平稳过程方法处理。

分帧后会导致语音数据的截断效应，为了使截断处的信号能平滑过渡，需要通过加窗操作实现。将若干个语音片段进行加窗操作，以使各个语音片段之间平滑过渡。

最后将若干个语音片段分别进行端点检测，目的是去除语音片段中的静音片段，保留有效的语音片段。

步骤S110，选取语音片段下的多个声音灰度图像训练卷积神经网络，建立声纹识别模型；

步骤S120，将多个声音灰度图像作为卷积神经网络的输入参数；

在一些实施方式中，声音灰度图像能够放大调度员声音信号的时频特性，能够提高待测声音的辨识度。当将待识别调度员的待测声音灰度图像作为声纹识别模型的输入参数，声纹识别模型能够准确识别所述调度员的工作状态。调度员工作状态识别方法能够有效提取调度员声音信号时频特征，进而提高了调度员工作状态识别的准确性。

步骤S130，将与多个声音灰度图像一一对应的工作状态信息作为卷积神经网络的输出参数；

通过将多个声音灰度图像作为卷积神经网络的输入参数，将多个声音灰度图像一一对应的工作状态信息作为卷积神经网络的输出参数，对所述卷积神经网络进行训练，建立声纹识别模型。

步骤S140，将待测声音灰度图像输入声纹识别模型，获取与待测声音灰度图像相对应的工作状态信息。

在一些实施方式中，卷积神经网络包含输入层、卷积层、激励层、池化层、全连接层和输出层等。输入层用于接收输入图像。卷积层用于提取图像的局部信息。激励层用于对卷积层输出进行规整处理，以方便网络的训练。池化层用于简化图像信息，提取图像主要信息，以降低数据量，提高神经网络运算性能。全连接层充分利用图像信息，通过网络训练，达到需要的输出特性。输出层用于输出所述待识别调度员的工作状态。

实施例2：如附图2所示，该声纹识别方法，包括：

步骤S200，将得到的若干个语音片段，针对每一个语音片段分别进行傅里叶变换。

步骤S210，根据傅里叶变换结果分别处理生成每个语音片段各自对应的灰度图像形式的语谱图，语谱图中宽度对应语音信号持续的时间，高度对应语音信号的频率。

步骤S220，随机选取多种电力调度工作状态时的多个声音灰度图像，将多个声音灰度图像划分为训练样本集和测试样本集，多种工作状态对应设置为多个与多个声音灰度图像一一对应的工作状态信息。

步骤S230，将训练样本集中的多个声音灰度图像作为卷积神经网络的输入，将多个工作状态信息分别作为卷积神经网络的输出，对卷积神经网络进行训练。

步骤S240，将测试样本集中的多个声音灰度图像输入训练后的卷积神经网络。

步骤S250，记录声纹识别模型输出的多个与多个声音灰度图像一一对应的测试工作状态信息，并根据多个测试工作状态信息计算训练后的卷积神经网络的识别率。

步骤S260，若卷积神经网络的识别率的变化率小于预设值，依据训练后的卷积神经网络建立声纹识别模型。

步骤S270，根据CNN网络和LSTM网络串联构建神经网络，将得到的每个语音片段对应的语谱图分别输入神经网络，神经网络中首先由CNN网络对每个语谱图进行处理。

在一些实施方式中，CNN网络结构部分由5个卷积池化单元构成，一个卷积池化单元实际上是一个卷积ReLU层、一个最大池化层、一个batch normalization层的结构。卷积池化单元的数量为5，第一个池化单元的特征映射数量设为32，而后四个池化单元中特征映射的数量则设置为64。卷积层中，卷积核大小为3*3，步长为1，并同时在频率和时间方向上进行卷积操作；第一第二卷积层的池化层大小为2*1，步长为1，仅在频率方向上进行池化；后三层卷积层的池化层大小为1*1，步长为1。

当CNN网络对语谱图的二维灰度图像处理后，其输出作为LSTM网络的输入完成进一步的时序建模。一张语谱图输入至CNN网络后，将由多个卷积池化单元进行处理，处理后的输出实际上是C张大小为F×T的小语谱图，其中C表示特征映射的数量，F和T则分别是输出的小语谱图的高度和宽度。可以用一个序列来表示CNN的输出：S＝[S1，S2，...，Si，ST]，1≤i≤T；

其中序列中的元素Si则是一个维度为C×F的特征向量。也就是说CNN网络将输出T个维度为C×F的特征向量，这些特征向量作为LSTM网络的输入，它们之间有一个对应关系，即CNN网络输出序列Si作为LSTM网络在i时刻的输入，即LSTM网络在i时刻的输入是一个C×F维的特征向量，该特征向量的步长则等于T。

在一些实施方式中，LSTM网络层数设为7，每层分别由卷积层、激活层、DROPOUT层、池化层组成，其中卷积层包含遗忘门、输出门和记忆门，每个门对应64个卷积核，遗忘门和输出门采用SIGMOD激活函数，记忆门激活函数由DIGMOD函数和TAN函数共同组成；卷积核大小为3*3，步长为2；池化层采用最大池化操作，大小5*5，步长为1；DROPOUT断开的比例设为0.2。

在一些实施方式中，LSTM网络的隐藏层结构时要考虑两个参数，即隐藏层层数的多少和隐藏层中神经元的节点数量。这两个参数同样需要依据实际数据集规模进行设定。一般而言，在相同参数个数的倾向下，设置更多的层数比增加每层更多的节点数能够获得更好的效果。LSTM网络的输出层比较简单，就是使用一个softmax分类器进行分类，通过softmax分类使得输出层的节点数对应于是故障类型数目加1(加1是无故障类型)。

语音数据被划分为1s时长的语音片段，针对每个1s的语音片段进行语谱图的生成，采样频率是16kHz，则1s时长的语音片段将产生16k个采样点，而另一参数帧宜设置为160，可以得到100帧，语音信号频率取128，最终生成的语谱图大小为128×100；每个语谱图将输入至CNN网络，输出得到64个小语谱图，每个小的语谱图大小为32*100，同时按照时间对语谱图进行分割，可得到100个64*32的语谱图，再将其输入至LSTM，LSTM的输出送入softmax分类器，softmax分类器包括多种故障类型和正常类型。

实施例3：该声纹识别系统，包括采集模块、模型建立模块、输入模块、输出模块和结果模块：

该声纹识别系统还可包括存储器、处理器和通信接口，该存储器、处理器和通信接口相互之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器可用于存储软件程序及模块，处理器通过执行存储在存储器内的软件程序及模块，从而执行各种功能应用以及数据处理。该通信接口可用于与其他节点设备进行信令或数据的通信。

其中，存储器可以是但不限于，随机存取存储器（Random Access Memory，RAM），只读存储器（Read Only Memory，ROM），可编程只读存储器（Programmable Read-OnlyMemory，PROM），可擦除只读存储器（Erasable Programmable Read-Only Memory，EPROM），电可擦除只读存储器（Electric Erasable Programmable Read-Only Memory，EEPROM）等。

处理器可以是一种集成电路芯片，具有信号处理能力。该处理器可以是通用处理器，包括中央处理器（Central Processing Unit，CPU）、网络处理器（Network Processor，NP）等；还可以是数字信号处理器（Digital Signal Processing，DSP）、专用集成电路（Application Specific Integrated Circuit，ASIC）、现场可编程门阵列（Field－Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

可以理解，图3所示的结构仅为示意，其还可包括比图3中所示更多或者更少的组件，或者具有与图3所示不同的配置。图3中所示的各组件可以采用硬件、软件或其组合实现。

在本发明所提供的实施例中，应该理解到，所揭露的方法和系统，也可以通过其它的方式实现。以上所描述的实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本发明提供的一种声纹识别方法及声纹识别系统，通过将多个声音灰度图像作为卷积神经网络的输入参数，将多个与多个声音灰度图像一一对应的工作状态信息作为所述卷积神经网络的输出参数，对卷积神经网络进行训练，建立声纹识别模型。相比于现有技术，声音灰度图像能够放大调度员声音信号的时频特性，能够提高待测声音的辨识度。当将待识别调度员的待测声音灰度图像作为声纹识别模型的输入参数，声纹识别模型能够准确识别所述调度员的工作状态。能够有效提取调度员声音信号时频特征，进而提高了调度员工作状态识别的准确性。

以上技术特征构成了本发明的实施例，其具有较强的适应性和实施效果，可根据实际需要增减非必要的技术特征，来满足不同情况的需求。

Claims

1.一种声纹识别方法，其特征在于包括步骤1，采集并量化电力调度时产生的语音信号产生的语音数据，将得到的语音数据进行预处理，以将语音数据处理为若干个平滑过渡并去除静音部分的语音片段；步骤2，选取语音片段下的多个声音灰度图像训练卷积神经网络，建立声纹识别模型；步骤3，将多个声音灰度图像作为卷积神经网络的输入参数；步骤4，将与多个声音灰度图像一一对应的工作状态信息作为卷积神经网络的输出参数；步骤5，将待测声音灰度图像输入声纹识别模型，获取与待测声音灰度图像相对应的工作状态信息。

2.根据权利要求1所述的声纹识别方法，其特征在于步骤1中，将得到的若干个语音片段，针对每一个语音片段分别进行傅里叶变换，根据傅里叶变换结果分别处理生成每个语音片段各自对应的灰度图像形式的语谱图，语谱图中宽度对应语音信号持续的时间，高度对应语音信号的频率。

3.根据权利要求1或2所述的声纹识别方法，其特征在于步骤2具体为：随机选取多种电力调度工作状态时的多个声音灰度图像，将多个声音灰度图像划分为训练样本集和测试样本集，多种工作状态对应设置为多个与多个声音灰度图像一一对应的工作状态信息。

4.根据权利要求3所述的声纹识别方法，其特征在于将训练样本集中的多个声音灰度图像作为卷积神经网络的输入，将多个工作状态信息分别作为卷积神经网络的输出，对卷积神经网络进行训练，将测试样本集中的多个声音灰度图像输入训练后的卷积神经网络，记录声纹识别模型输出的多个与多个声音灰度图像一一对应的测试工作状态信息，并根据多个测试工作状态信息计算训练后的卷积神经网络的识别率。

5.根据权利要求4所述的声纹识别方法，其特征在于若卷积神经网络的识别率的变化率小于预设值，依据训练后的卷积神经网络建立声纹识别模型。

6.根据权利要求1或2或4或5所述的声纹识别方法，其特征在于卷积神经网络和长短期记忆网络串联构建神经网络，将得到的每个语音片段对应的语谱图分别输入神经网络，神经网络中，首先由积神经网络对每个语谱图进行处理。

7.根据权利要求3所述的声纹识别方法，其特征在于卷积神经网络和长短期记忆网络串联构建神经网络，将得到的每个语音片段对应的语谱图分别输入神经网络，神经网络中，首先由积神经网络对每个语谱图进行处理。

8.一种实施权利要求1至7任意一项所述的声纹识别方法的声纹识别系统，其特征在于包括采集模块、模型建立模块、输入模块、输出模块和结果模块；