CN111369986A

CN111369986A - 一种智能安全传输语音系统及方法

Info

Publication number: CN111369986A
Application number: CN201811604292.4A
Authority: CN
Inventors: 何云鹏; 高君效
Original assignee: Chipintelli Technology Co Ltd
Current assignee: Chipintelli Technology Co Ltd
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2020-07-03

Abstract

一种智能安全传输语音方法,包括如下步骤:步骤1.提取端将语音信号进行特征提取,提取出剥离相位信息的语音特征值;步骤2.识别端接收语音特征值后进行语义识别。本发明还公开了一种智能安全传输语音系统。本发明将当前常规做法中传输语音数据修改为传输经过特征提取或变换计算后的特征量，由于该特征量无法被还原为语音数据，经变换计算后的特征也无法被第三方进一步转换成文本语义，即使出现在传输过程或云端服务器上被截取的情况，也无法获取原始语音信息和对应文本信息，增强了安全性。同时，提取后的特征量的数据大小远低于完整语音数据，有利于节省网络传输带宽，加快传输速度，提升功能操作的时效性。

Description

一种智能安全传输语音系统及方法

技术领域

本发明属于人工智能领域，涉及语音识别技术，具体涉及一种智能安全传输语音系统及方法。

背景技术

当前有很多的设备具备智能语音功能，其做法大多是由用户对设备发出语音指令，设备通过网络将语音直接上传到云端，在云端进行语音识别、语义分析，并根据分析出的语义调取相应的服务和内容，完成用户使用语音想达到的目的。在实际应用中，直接上传语音数据或加密后的语音数据在传输过程中可能被截取，同时数据可以被反向解密，云端获取数据后一旦服务器被攻破，也会带来原始用户语音数据泄露的风险，欠缺安全性。

发明内容

为克服现有技术存在的缺陷，本发明公开了一种智能安全传输语音系统及方法。

本发明所述智能安全传输语音方法,包括如下步骤:

步骤1.提取端将语音信号进行特征提取,提取出剥离相位信息的语音特征值;

步骤2. 识别端接收语音特征值后进行语义识别。

优选的，所述步骤1中进行特征提取的具体步骤为:将语音信号按帧进行快速傅立叶变换,计算出各帧的每个子带功率谱,并计算子带功率谱的特征值。

进一步的，所述步骤1中的子带功率谱的特征量计算方法包含但不限于梅尔滤波组（mel-Fbank），梅尔倒谱系数(MFCC)，线性预测(LPC)，卷积神经网络（CNN）中的任意一种。

优选的，所述步骤1中,剥离出语音特征值后, 对语音特征值进行变形处理,得到变形语音特征值;

所述步骤2中接收变形语音特征值后,进行特征反变换再进行语义识别,所述特征反变换是所述步骤1中变形处理的逆操作。

进一步的，作为优选方案，所述步骤2中的变形处理采用矩阵变换。

优选的，所述识别端位于云端。

本发明还公开了一种智能安全传输语音系统,包括提取端和识别端,其特征在于,所述提取端包括可接收语音信号的特征提取模块,所述识别端包括可与所述提取端通信并进行语音识别的神经网络。

优选的,所述提取端还包括与特征提取模块连接的变形模块,所述识别端还包括可与所述提取端通信的反变换模块,所述反变换模块连接神经网络。

优选的，所述识别端位于云端。

本发明将当前常规做法中传输语音数据修改为传输经过特征提取或变换计算后的特征量，由于该特征量无法被还原为语音数据，经变形后的特征也无法被第三方进一步转换为文本语义，即使出现在传输过程或云端服务器上被截取的情况，也无法获取原始语音信息或文本语义信息，增强了安全性。同时，提取后的特征量的数据大小远低于完整语音数据，有利于节省网络传输带宽，加快传输速度，提升功能操作的时效性。

附图说明

图1给出本发明所述智能安全传输语音系统的一种具体实施方式流程示意图;

图2给出本发明所述提取端的一个工作流程示意图;

图3给出本发明所述识别端的一个工作流程示意图。

具体实施方式

下面对本发明的具体实施方式作进一步的详细说明。

本发明所述智能安全传输语音方法,包括如下步骤:

步骤2. 识别端接收语音特征值后进行语义识别。

语音识别的基本原理是通过麦克风收集命令词的声音信号并将其转化为电学信号后，经过提取特征，与已经存储的数据模型进行解码计算，通过计算识别出声音信号并调用该声音信号对应的指令对设备进行相应的操作。

声音信号为声波信号,同时具备幅值和相位信息,单纯幅值信息提取的特征可以识别出语义,但缺乏相位信息，单纯幅值信息难以还原为音频信号。

子带功率谱去掉了原本语音信号的相位信息，不借助具备语音识别功能的神经网络服务器等设备难以识别出语义信息,相对原有的音频信号直接上传,降低了泄密可能性。进一步进行特征提取后的特征数据量也大幅缩小,在识别端位于云端的具体实施方式中,传输剥离相位信息的语音特征信号在安全性和传输速度上都优于将原始语音信号直接上传。

步骤1中进行特征提取的具体步骤可以是首先将语音按帧进行短时FFT（快速傅里叶）变换，将时域的语音变换到频域子带空间；再进行每个子带功率谱的计算，子带功率谱等于频域子带值的实部平方加上虚部平方和,随后计算出特征值。

特征计算方法可以是常见的语音特征计算方法，如mel-Fbank(梅尔滤波组)，MFCC（梅尔倒谱系数），LPC（线性预测变换），CNN（卷积神经网络）等,及其他特征提取计算方法。

将子带功率谱或特征数据传送到云端，如果在传输和存储过程中被窃取，采用深度神经网络计算和语音解码计算，仍然可能获取用户的语义文本，为进一步的提高安全性,可以剥离出语音特征值后, 对语音特征值进行变形处理,得到变形语音特征值;在所述步骤2中接收变形语音特征值后,进行特征反变换再进行语义识别,所述特征反变换是所述步骤1中变形处理的逆操作,作为优选方案，采用矩阵变换进行变形处理后,再采用变换矩阵的逆矩阵进行特征反变换操作。由于该矩阵变换和反变换方法仅被设备端和对应云端服务器拥有，第三方无法将变形语音特征转换为文本及语义，进一步增强了安全性。

以下给出本发明的一个具体实施方式:

假设Y为变换前语音特征值向量，Conv_Y为变换后的语音特征值向量即变形语音特征值。A为变换矩阵。

则有:Conv_Y = A*Y ; ---------------------------------------(1)

识别端在接收到变形语音特征值后，在进行深度神经网络计算和语音语义识别前，首先进行特征反变换。

设矩阵INV_A为变换矩阵A的逆变换矩阵,则其反变换过程如下：

INV_A * Conv_Y = INV_A * A * Y = （INV_A * A）* Y = I * Y = Y;--(2)

其中I为单元矩阵，从(2)式可见,通过逆变换以逆矩阵与变形语音特征值相乘,可以准确地恢复到变换前的语音特征值。

识别出变换前的语音特征值后,即进行深度神经网络计算,深度神经网络计算包含前向全连接网络， CNN（卷积神经网络）， RNN（递归神经网络），长短时记忆网络（LSTM）等。

通常神经网络的输入层计算会将输入特征向量进行一次仿射矩阵变换，设仿射变换矩阵为C；对变换前语音特征值向量Y的变换过程为C*Y；则

C*Y = C * INV_A * Conv_Y =

(C * INV_A) * Conv_Y = D * Conv_Y;------------------------（3）

其中矩阵D = (C * INV_A) ；-------------------------------- (4)

由（3）和（4）式可见，

逆变换矩阵INV_A可以和神经网络输入层仿射变换矩阵C合并成一个新的仿射变换矩阵D,使得神经网络计算和反变换可以合并进行,不增加额外计算工作量。

图2和图3分别给出采用上述方法的提取端和识别端的一个具体工作流程。

可以采用如图1所示的智能安全传输语音系统实现上述过程, 所述智能安全传输语音系统包括提取端和识别端, 所述提取端包括可接收语音信号的特征提取模块,所述识别端包括可与所述提取端通信并进行语音识别的神经网络。

上述智能安全传输语音系统对应采用变形和反变换的优选实施方式为: 所述提取端还包括与特征提取模块连接的变形模块,所述识别端还包括可与所述提取端通信的反变换模块,所述反变换模块连接神经网络。

本发明将当前常规做法中传输语音数据修改为传输经过特征提取或变形计算后的特征量，由于该特征量无法被还原为语音数据，经变换计算后的特征也无法被第三方进一步转换成文本语义，即使出现在传输过程或云端服务器上被截取的情况，也无法获取原始语音信息，增强了安全性。同时，提取后的特征量的数据大小远低于完整语音数据，有利于节省网络传输带宽，加快传输速度，提升功能操作的时效性。

前文所述的为本发明的各个优选实施例，各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提，各个优选实施方式都可以任意叠加组合使用，所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程，并非用以限制本发明的专利保护范围，本发明的专利保护范围仍然以其权利要求书为准，凡是运用本发明的说明书内容所作的等同结构变化，同理均应包含在本发明的保护范围内。

Claims

1.一种智能安全传输语音方法,其特征在于,包括如下步骤:

步骤2. 识别端接收语音特征值后进行语义识别。

2.如权利要求1所述的智能安全传输语音方法，其特征在于，所述步骤1中进行特征提取的具体步骤为:将语音信号按帧进行快速傅立叶变换,计算出各帧的每个子带功率谱,并计算子带功率谱的特征值。

3.如权利要求2所述的智能安全传输语音方法，其特征在于，所述步骤1中的子带功率谱的特征量计算方法包含但不限于梅尔滤波组，梅尔倒谱系数，线性预测，卷积神经网络中的任意一种。

4.如权利要求1所述的智能安全传输语音方法，其特征在于，所述步骤1中,剥离出语音特征值后, 对语音特征值进行变形处理,得到变形语音特征值;

5.如权利要求4所述的智能安全传输语音方法，其特征在于，所述步骤2中的变形处理采用矩阵变换。

6.如权利要求1所述的智能安全传输语音方法，其特征在于，所述识别端位于云端。

7.一种智能安全传输语音系统,包括提取端和识别端,其特征在于,所述提取端包括可接收语音信号的特征提取模块,所述识别端包括可与所述提取端通信并进行语音识别的神经网络。

8.如权利要求7所述的智能安全传输语音系统，其特征在于,所述提取端还包括与特征提取模块连接的变形模块,所述识别端还包括可与所述提取端通信的反变换模块,所述反变换模块连接神经网络。

9.如权利要求7所述的智能安全传输语音系统，其特征在于，所述识别端位于云端。