CN109493847B

CN109493847B - 声音识别系统以及声音识别装置

Info

Publication number: CN109493847B
Application number: CN201811539331.7A
Authority: CN
Inventors: 肖灵东; 李杭永; 肖灵江
Original assignee: Guangzhou Yima Network Technology Co Ltd
Current assignee: Guangzhou Yima Network Technology Co Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2019-10-18
Anticipated expiration: 2038-12-14
Also published as: CN109493847A

Abstract

本发明提出了一种声音识别装置及系统，包括降噪抑制模块，对实时获取的用户声音或已存储的其它声音进行噪声抑制，获得降噪后的声音信息；所述噪声抑制模块采用了谱去除法和/或学习同定法和/或降噪自动编码器至少之一进行噪声抑制；转化模块，将所述声音信息进行拉普拉斯变换，得到频谱信息；特征提取模块，获得所述声音信息的梅尔频谱倒数和线性倒谱系数，得到描述所述声音信息的特征向量；模型训练模块，利用训练样本构建声音识别模型，所述声音识别模型的训练利用转化模块获得的频谱信息及特征提取模块提取的特征向量，将由所述梅尔频谱倒数和所述线性倒谱系数得到的所述特征向量输入SVM层；声音识别模块，利用训练好的所述声音识别模块对所述声音信息进行识别。

Description

声音识别系统以及声音识别装置

技术领域

本发明实施例涉及通信及计算机技术，尤其具体涉及一种声音识别系统以及声音识别装置。

背景技术

声纹是用电声学仪器显示的携带言语信息的声波频谱，人类语言的产生是人体语言中枢与发音器官之间一个复杂的生理物理过程，人在讲话时使用的发声器官，如，舌、牙齿、喉头、肺以及鼻腔，在尺寸和形态上个体差异很大，因此，任何两个人的声纹图谱均会存在差异。不同的用户讲话时对应的声波频谱存在差异性，故可通过声纹识别出唯一的用户。

现有技术中，声纹识别方式存在识别不准确的缺陷，与人脸识别、指纹识别等身份识别方式相比，由于其缺陷的存在，至今应用并不广泛。

本发明开创性地利用所提出的深度学习算法识别出不同个体的声音信息，由于梅尔频谱倒数和线性倒谱系数都是在声音识别中比较有效的信息，从中提取描述声音的特征向量；此外还利用了拉普拉斯变换获得声音的频谱信息，利用卷积神经网络进行其它有效特征的挖掘。

本发明还采用了全新的卷积神经网络结构及池化方法，该网络结构不曾被现有技术公开使用，网络结构中各层的设置以及模型学习更新的方法都是本发明的首创，更是首次将其应用于声音识别中，提高了声音识别的精度；

新设计的激励函数和惩罚函数，随着训练数据的进行，识别精度逐步提高；

而池化层的独特设计加速了声音识别的效率；

经长期实验和理论研究，引入第二惩罚函数，在多层神经网络的设计过程中，调参一直是一个难题，任何参数的改进都可能引起识别精度质的提高，因此绝对不是本领域技术人员不付出创造性劳动能获得的，不是公知常识。

本申请的声音识别装置及系统，简化了声纹识别流程，提高了终端设备的运行效率，降低了终端设备的能源消耗，有利于商业推广。

发明内容

本发明提供了一种声音识别系统以及声音识别装置，提高了声纹识别的准确性，简化了声纹识别流程，提高了终端设备的运行效率，降低了终端设备的能源消耗。

本发明提出了一种声音识别装置，包括以下模块：

降噪抑制模块，对实时获取的用户声音进行噪声抑制，获得降噪后的声音信息；所述噪声抑制模块采用了谱去除法和/或学习同定法和/或降噪自动编码器至少之一进行噪声抑制；

转化模块，将所述声音信息进行拉普拉斯变换，得到频谱信息h(t,f)，其中t表示时间，f表示频率；

特征提取模块，获得所述声音信息的梅尔频谱倒数和线性倒谱系数，得到描述所述声音信息的特征向量；

模型训练模块，利用训练样本构建声音识别模型，所述声音识别模型的训练利用转化模块获得的频谱信息及特征提取模块提取的特征向量；

声音识别模块，利用训练好的所述声音识别模块对所述声音信息进行识别。

本发明还提出了一种多层神经网络结构，以用于声音识别：

所述多层神经网络结构，包括输入层、SVM层、卷积层、池化层、全连接层，所述输入层来自拉普拉普变换的频谱信息，所述SVM层的输入来自所述梅尔频谱倒数和所述线性倒谱系数得到的特征向量，卷积层采用5*5的卷积核，8个滤波器；

所述池化层的池化窗口大小为3*3，通道数为16；所述全连接层采用16个滤波器，3*3的卷积核；全连接层的输入来池化层的输出；

所述池化层的池化方法如下：

x^e＝f(u^e+φ(u^e))

其中，x^e表示当前层的输出，u^e表示激活函数的输入，f()表示激活函数，w^e表示当前层的权重，φ表示损失函数，x^e-1表示下一层的输出，b^e表示偏置，δ表示常数；

采用如下方式对所述多层神经网络模型进行学习更新，以提高对声音识别的精度：

将获得的原始样本数据映射成16维特征向量；计算校正函数，所述校正函数由激励函数及第一惩罚函数、第二惩罚函数融合而成，所述的激励函数为：

其中，N表示样本数据集的大小，y_i表示样本x_i对应的标签，a为神经网络模型的识别输出；

所述第一惩罚函数如下：

N表示所述样本数据集的大小，i取值1～N，y_i表示样本x_i对应的标签；表示样本x_i在其标签y_i处的权重，b向量包括和b_j，表示样本x_i在其标签y_i处的偏差，b_j表示输出节点j处的偏差；

所述第二惩罚函数如下：

式中，为样本x_i与其对应标签y_i的权重夹角，θ_j,i为样本x_i与输出节点j处的权重W_j的夹角，m为预设参数，1≤m≤8；k＝abs(sign(cosθ_j,i))-sign(cosθ_j,i)(abs(sign(cos2θ_j,i))-sign(cosθ_j,i))/2；

最终的惩罚函数为：

其中1≤λ≤7；0.4≤μ,β≤0.6。

本发明还提出了一种声音识别系统，包括所述声音识别装置以及麦克风模块。

附图说明

图1表示本申请基本实施例的硬件结构示意图

图2表示本申请的基本实施例的流程示意图

具体实施方式

本申请实施例一所提供实施例可以在移动终端、计算机终端或者智能门锁的运算装置中执行。此处的计算机终端泛指一切具有处理器、存储器的智能设备(包括智能门锁、智能手机等等)，图1是本发明实施例的一种用户声音信息的识别方法的计算机终端的硬件结构框图。

如图1所示，计算机终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

存储器104可用于存储应用软件的软件程序以及模块，如本发明实施例中的用户声音信息的识别方法对应的程序指令/模块，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。

本发明提出了一种声音识别装置，包括以下模块：

本申请还提出了一种新的多层神经网络，所述多层神经网络结构，包括输入层、SVM层、卷积层、池化层、全连接层，所述输入层来自拉普拉普变换的频谱信息，所述SVM层的输入来自所述梅尔频谱倒数和所述线性倒谱系数得到的特征向量，卷积层采用5*5的卷积核，8个滤波器；所述池化层的池化窗口大小为3*3，通道数为16；所述全连接层采用16个滤波器，3*3的卷积核；全连接层的输入来池化层的输出；

所述池化层的池化方法如下：

x^e＝f(u^e+φ(u^e))

将获得的原始样本数据映射成16维特征向量；计算校正函数，所述校正函数由激励函数及第一惩罚函数融合而成，所述的激励函数为：

所述第一惩罚函数如下：

最终的惩罚函数为：

其中0.4≤μ,β≤0.6。

本发明还提出了另一种多层神经网络结构，以用于声音识别：

所述池化层的池化方法如下：

x^e＝f(u^e+φ(u^e))

所述第一惩罚函数如下：

所述第二惩罚函数如下：

最终的惩罚函数为：

其中1≤λ≤7；0.4≤μ,β≤0.6。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

一种包含上述各实施例的基于物联网的运输数据采集方法的计算机可执行指令的存储介质，所述存储介质上存储有能实现上述方法的程序指令。上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种声音识别装置，其特征在于，包括以下模块：

降噪抑制模块，对实时获取的用户声音或已存储的其它声音进行噪声抑制，获得降噪后的声音信息；所述噪声抑制模块采用了谱去除法和/或学习同定法和/或降噪自动编码器至少之一进行噪声抑制；

模型训练模块，利用训练样本构建声音识别模型，所述声音识别模型的训练利用转化模块获得的频谱信息及特征提取模块提取的特征向量，将由所述梅尔频谱倒数和所述线性倒谱系数得到的所述特征向量输入SVM层；

声音识别模块，利用训练好的所述声音识别模型对所述声音信息进行识别；

所述模型训练模块采用了多层神经网络，所述多层神经网络结构，包括输入层、SVM层、卷积层、池化层、全连接层，所述输入层来自拉普拉斯变换的频谱信息，所述SVM层的输入来自所述梅尔频谱倒数和所述线性倒谱系数得到的特征向量，卷积层采用5*5的卷积核，8个滤波器；所述池化层的池化窗口大小为3*3，通道数为16；所述全连接层采用16个滤波器，3*3的卷积核；全连接层的输入来自池化层的输出；

所述池化层的池化方法如下：

x^e＝f(u^e+φ(u^e))

其中，x^e表示当前层的输出，u^e表示激活函数的输入，f()表示激活函数，w^e表示当前层的权重，φ表示损失函数，x^e-1表示上一层的输出，b^e表示偏置，δ表示常数；

采用如下方式对所述多层神经网络模型进行学习更新，以提高对声音识别的精度：将获得的原始样本数据映射成16维特征向量；计算校正函数，所述校正函数由激励函数及第一惩罚函数融合而成，所述的激励函数为：

所述第一惩罚函数如下：

N表示所述样本数据集的大小，i取值1～N，y_i表示样本x_i对应的标签；W_yi表示样本x_i在其标签y_i处的权重，b向量包括b_yi和b_j，b_yi表示样本x_i在其标签y_i处的偏差，b_j表示输出节点j处的偏差；

最终的惩罚函数为：

其中0.4≤μ,β≤0.6。

2.根据权利要求1所述的声音识别装置，对所述多层神经网络模型进行学习更新时，进一步采用第二惩罚函数:

所述第二惩罚函数如下：

式中，ψ(θ_yi,i)＝(-1)^kcos(mθ_yi,i)-2k,θ_yi,i为样本x_i与其对应标签y_i的权重夹角，θ_j,i为样本x_i与输出节点j处的权重W_j的夹角，m为预设参数，1≤m≤8；

k＝abs(sign(cosθ_j,i))-sign(cosθ_j,i)(abs(sign(cos2θ_j,i))-sign(cosθ_j,i))/2；

最终的惩罚函数为：

其中1≤λ≤7；0.4≤μ,β≤0.6。

3.一种声音识别系统，所述声音识别系统包括如权利要求1-2任一项所述的声音识别装置，所述声音识别系统还包括声音采集模块，用于对用户声音的采集。

4.根据权利要求3所述的声音识别系统，所述声音采集模块包括麦克风模块。