CN111369986A - 一种智能安全传输语音系统及方法 - Google Patents
一种智能安全传输语音系统及方法 Download PDFInfo
- Publication number
- CN111369986A CN111369986A CN201811604292.4A CN201811604292A CN111369986A CN 111369986 A CN111369986 A CN 111369986A CN 201811604292 A CN201811604292 A CN 201811604292A CN 111369986 A CN111369986 A CN 111369986A
- Authority
- CN
- China
- Prior art keywords
- voice
- speech
- recognition
- extraction
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005540 biological transmission Effects 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 title claims abstract description 24
- 230000009466 transformation Effects 0.000 claims abstract description 38
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 239000011159 matrix material Substances 0.000 claims description 18
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000001228 spectrum Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 abstract description 16
- 238000007796 conventional method Methods 0.000 abstract description 3
- 230000005236 sound signal Effects 0.000 description 6
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种智能安全传输语音方法,包括如下步骤:步骤1.提取端将语音信号进行特征提取,提取出剥离相位信息的语音特征值;步骤2.识别端接收语音特征值后进行语义识别。本发明还公开了一种智能安全传输语音系统。本发明将当前常规做法中传输语音数据修改为传输经过特征提取或变换计算后的特征量,由于该特征量无法被还原为语音数据,经变换计算后的特征也无法被第三方进一步转换成文本语义,即使出现在传输过程或云端服务器上被截取的情况,也无法获取原始语音信息和对应文本信息,增强了安全性。同时,提取后的特征量的数据大小远低于完整语音数据,有利于节省网络传输带宽,加快传输速度,提升功能操作的时效性。
Description
技术领域
本发明属于人工智能领域,涉及语音识别技术,具体涉及一种智能安全传输语音系统及方法。
背景技术
当前有很多的设备具备智能语音功能,其做法大多是由用户对设备发出语音指令,设备通过网络将语音直接上传到云端,在云端进行语音识别、语义分析,并根据分析出的语义调取相应的服务和内容,完成用户使用语音想达到的目的。在实际应用中,直接上传语音数据或加密后的语音数据在传输过程中可能被截取,同时数据可以被反向解密,云端获取数据后一旦服务器被攻破,也会带来原始用户语音数据泄露的风险,欠缺安全性。
发明内容
为克服现有技术存在的缺陷,本发明公开了一种智能安全传输语音系统及方法。
本发明所述智能安全传输语音方法,包括如下步骤:
步骤1.提取端将语音信号进行特征提取,提取出剥离相位信息的语音特征值;
步骤2. 识别端接收语音特征值后进行语义识别。
优选的,所述步骤1中进行特征提取的具体步骤为:将语音信号按帧进行快速傅立叶变换,计算出各帧的每个子带功率谱,并计算子带功率谱的特征值。
进一步的,所述步骤1中的子带功率谱的特征量计算方法包含但不限于梅尔滤波组(mel-Fbank),梅尔倒谱系数(MFCC),线性预测(LPC),卷积神经网络(CNN)中的任意一种。
优选的,所述步骤1中,剥离出语音特征值后, 对语音特征值进行变形处理,得到变形语音特征值;
所述步骤2中接收变形语音特征值后,进行特征反变换再进行语义识别,所述特征反变换是所述步骤1中变形处理的逆操作。
进一步的,作为优选方案,所述步骤2中的变形处理采用矩阵变换。
优选的,所述识别端位于云端。
本发明还公开了一种智能安全传输语音系统,包括提取端和识别端,其特征在于,所述提取端包括可接收语音信号的特征提取模块,所述识别端包括可与所述提取端通信并进行语音识别的神经网络。
优选的,所述提取端还包括与特征提取模块连接的变形模块,所述识别端还包括可与所述提取端通信的反变换模块,所述反变换模块连接神经网络。
优选的,所述识别端位于云端。
本发明将当前常规做法中传输语音数据修改为传输经过特征提取或变换计算后的特征量,由于该特征量无法被还原为语音数据,经变形后的特征也无法被第三方进一步转换为文本语义,即使出现在传输过程或云端服务器上被截取的情况,也无法获取原始语音信息或文本语义信息,增强了安全性。同时,提取后的特征量的数据大小远低于完整语音数据,有利于节省网络传输带宽,加快传输速度,提升功能操作的时效性。
附图说明
图1给出本发明所述智能安全传输语音系统的一种具体实施方式流程示意图;
图2给出本发明所述提取端的一个工作流程示意图;
图3给出本发明所述识别端的一个工作流程示意图。
具体实施方式
下面对本发明的具体实施方式作进一步的详细说明。
本发明所述智能安全传输语音方法,包括如下步骤:
步骤1.提取端将语音信号进行特征提取,提取出剥离相位信息的语音特征值;
步骤2. 识别端接收语音特征值后进行语义识别。
语音识别的基本原理是通过麦克风收集命令词的声音信号并将其转化为电学信号后,经过提取特征,与已经存储的数据模型进行解码计算,通过计算识别出声音信号并调用该声音信号对应的指令对设备进行相应的操作。
声音信号为声波信号,同时具备幅值和相位信息,单纯幅值信息提取的特征可以识别出语义,但缺乏相位信息,单纯幅值信息难以还原为音频信号。
子带功率谱去掉了原本语音信号的相位信息,不借助具备语音识别功能的神经网络服务器等设备难以识别出语义信息,相对原有的音频信号直接上传,降低了泄密可能性。进一步进行特征提取后的特征数据量也大幅缩小,在识别端位于云端的具体实施方式中,传输剥离相位信息的语音特征信号在安全性和传输速度上都优于将原始语音信号直接上传。
步骤1中进行特征提取的具体步骤可以是首先将语音按帧进行短时FFT(快速傅里叶)变换,将时域的语音变换到频域子带空间;再进行每个子带功率谱的计算,子带功率谱等于频域子带值的实部平方加上虚部平方和,随后计算出特征值。
特征计算方法可以是常见的语音特征计算方法,如mel-Fbank(梅尔滤波组),MFCC(梅尔倒谱系数),LPC(线性预测变换),CNN(卷积神经网络)等,及其他特征提取计算方法。
将子带功率谱或特征数据传送到云端,如果在传输和存储过程中被窃取,采用深度神经网络计算和语音解码计算,仍然可能获取用户的语义文本,为进一步的提高安全性,可以剥离出语音特征值后, 对语音特征值进行变形处理,得到变形语音特征值;在所述步骤2中接收变形语音特征值后,进行特征反变换再进行语义识别,所述特征反变换是所述步骤1中变形处理的逆操作,作为优选方案,采用矩阵变换进行变形处理后,再采用变换矩阵的逆矩阵进行特征反变换操作。由于该矩阵变换和反变换方法仅被设备端和对应云端服务器拥有,第三方无法将变形语音特征转换为文本及语义,进一步增强了安全性。
以下给出本发明的一个具体实施方式:
假设Y为变换前语音特征值向量,Conv_Y为变换后的语音特征值向量即变形语音特征值。A为变换矩阵。
则有:Conv_Y = A*Y ; ---------------------------------------(1)
识别端在接收到变形语音特征值后,在进行深度神经网络计算和语音语义识别前,首先进行特征反变换。
设矩阵INV_A为变换矩阵A的逆变换矩阵,则其反变换过程如下:
INV_A * Conv_Y = INV_A * A * Y = (INV_A * A)* Y = I * Y = Y;--(2)
其中I为单元矩阵,从(2)式可见,通过逆变换以逆矩阵与变形语音特征值相乘,可以准确地恢复到变换前的语音特征值。
识别出变换前的语音特征值后,即进行深度神经网络计算,深度神经网络计算包含前向全连接网络, CNN(卷积神经网络), RNN(递归神经网络),长短时记忆网络(LSTM)等。
通常神经网络的输入层计算会将输入特征向量进行一次仿射矩阵变换,设仿射变换矩阵为C;对变换前语音特征值向量Y的变换过程为C*Y;则
C*Y = C * INV_A * Conv_Y =
(C * INV_A) * Conv_Y = D * Conv_Y;------------------------(3)
其中矩阵D = (C * INV_A) ;-------------------------------- (4)
由(3)和(4)式可见,
逆变换矩阵INV_A可以和神经网络输入层仿射变换矩阵C合并成一个新的仿射变换矩阵D,使得神经网络计算和反变换可以合并进行,不增加额外计算工作量。
图2和图3分别给出采用上述方法的提取端和识别端的一个具体工作流程。
可以采用如图1所示的智能安全传输语音系统实现上述过程, 所述智能安全传输语音系统包括提取端和识别端, 所述提取端包括可接收语音信号的特征提取模块,所述识别端包括可与所述提取端通信并进行语音识别的神经网络。
上述智能安全传输语音系统对应采用变形和反变换的优选实施方式为: 所述提取端还包括与特征提取模块连接的变形模块,所述识别端还包括可与所述提取端通信的反变换模块,所述反变换模块连接神经网络。
本发明将当前常规做法中传输语音数据修改为传输经过特征提取或变形计算后的特征量,由于该特征量无法被还原为语音数据,经变换计算后的特征也无法被第三方进一步转换成文本语义,即使出现在传输过程或云端服务器上被截取的情况,也无法获取原始语音信息,增强了安全性。同时,提取后的特征量的数据大小远低于完整语音数据,有利于节省网络传输带宽,加快传输速度,提升功能操作的时效性。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书内容所作的等同结构变化,同理均应包含在本发明的保护范围内。
Claims (9)
1.一种智能安全传输语音方法,其特征在于,包括如下步骤:
步骤1.提取端将语音信号进行特征提取,提取出剥离相位信息的语音特征值;
步骤2. 识别端接收语音特征值后进行语义识别。
2.如权利要求1所述的智能安全传输语音方法,其特征在于,所述步骤1中进行特征提取的具体步骤为:将语音信号按帧进行快速傅立叶变换,计算出各帧的每个子带功率谱,并计算子带功率谱的特征值。
3.如权利要求2所述的智能安全传输语音方法,其特征在于,所述步骤1中的子带功率谱的特征量计算方法包含但不限于梅尔滤波组,梅尔倒谱系数,线性预测,卷积神经网络中的任意一种。
4.如权利要求1所述的智能安全传输语音方法,其特征在于,所述步骤1中,剥离出语音特征值后, 对语音特征值进行变形处理,得到变形语音特征值;
所述步骤2中接收变形语音特征值后,进行特征反变换再进行语义识别,所述特征反变换是所述步骤1中变形处理的逆操作。
5.如权利要求4所述的智能安全传输语音方法,其特征在于,所述步骤2中的变形处理采用矩阵变换。
6.如权利要求1所述的智能安全传输语音方法,其特征在于,所述识别端位于云端。
7.一种智能安全传输语音系统,包括提取端和识别端,其特征在于,所述提取端包括可接收语音信号的特征提取模块,所述识别端包括可与所述提取端通信并进行语音识别的神经网络。
8.如权利要求7所述的智能安全传输语音系统,其特征在于,所述提取端还包括与特征提取模块连接的变形模块,所述识别端还包括可与所述提取端通信的反变换模块,所述反变换模块连接神经网络。
9.如权利要求7所述的智能安全传输语音系统,其特征在于,所述识别端位于云端。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811604292.4A CN111369986A (zh) | 2018-12-26 | 2018-12-26 | 一种智能安全传输语音系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811604292.4A CN111369986A (zh) | 2018-12-26 | 2018-12-26 | 一种智能安全传输语音系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111369986A true CN111369986A (zh) | 2020-07-03 |
Family
ID=71207065
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811604292.4A Pending CN111369986A (zh) | 2018-12-26 | 2018-12-26 | 一种智能安全传输语音系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111369986A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6073094A (en) * | 1998-06-02 | 2000-06-06 | Motorola | Voice compression by phoneme recognition and communication of phoneme indexes and voice features |
US6292782B1 (en) * | 1996-09-09 | 2001-09-18 | Philips Electronics North America Corp. | Speech recognition and verification system enabling authorized data transmission over networked computer systems |
US20030139929A1 (en) * | 2002-01-24 | 2003-07-24 | Liang He | Data transmission system and method for DSR application over GPRS |
JP2007206501A (ja) * | 2006-02-03 | 2007-08-16 | Advanced Telecommunication Research Institute International | 最適音声認識方式判定装置、音声認識装置、パラメータ算出装置、情報端末装置、及びコンピュータプログラム |
KR20080056069A (ko) * | 2006-12-15 | 2008-06-20 | 삼성전자주식회사 | 음성 특징 벡터 변환 방법 및 장치 |
CN102124518A (zh) * | 2008-08-05 | 2011-07-13 | 弗朗霍夫应用科学研究促进协会 | 采用特征提取处理音频信号用于语音增强的方法和装置 |
CN108550368A (zh) * | 2018-03-19 | 2018-09-18 | 成都信达智胜科技有限公司 | 一种语音数据的处理方法 |
-
2018
- 2018-12-26 CN CN201811604292.4A patent/CN111369986A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6292782B1 (en) * | 1996-09-09 | 2001-09-18 | Philips Electronics North America Corp. | Speech recognition and verification system enabling authorized data transmission over networked computer systems |
US6073094A (en) * | 1998-06-02 | 2000-06-06 | Motorola | Voice compression by phoneme recognition and communication of phoneme indexes and voice features |
US20030139929A1 (en) * | 2002-01-24 | 2003-07-24 | Liang He | Data transmission system and method for DSR application over GPRS |
JP2007206501A (ja) * | 2006-02-03 | 2007-08-16 | Advanced Telecommunication Research Institute International | 最適音声認識方式判定装置、音声認識装置、パラメータ算出装置、情報端末装置、及びコンピュータプログラム |
KR20080056069A (ko) * | 2006-12-15 | 2008-06-20 | 삼성전자주식회사 | 음성 특징 벡터 변환 방법 및 장치 |
CN102124518A (zh) * | 2008-08-05 | 2011-07-13 | 弗朗霍夫应用科学研究促进协会 | 采用特征提取处理音频信号用于语音增强的方法和装置 |
US20110191101A1 (en) * | 2008-08-05 | 2011-08-04 | Christian Uhle | Apparatus and Method for Processing an Audio Signal for Speech Enhancement Using a Feature Extraction |
CN108550368A (zh) * | 2018-03-19 | 2018-09-18 | 成都信达智胜科技有限公司 | 一种语音数据的处理方法 |
Non-Patent Citations (1)
Title |
---|
管会生: "《银行计算机》", 3 September 1991 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110415686B (zh) | 语音处理方法、装置、介质、电子设备 | |
CN108597496B (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
CN112562691B (zh) | 一种声纹识别的方法、装置、计算机设备及存储介质 | |
US10373609B2 (en) | Voice recognition method and apparatus | |
WO2023222088A1 (zh) | 语音识别与分类方法和装置 | |
US8818797B2 (en) | Dual-band speech encoding | |
CN104575504A (zh) | 采用声纹和语音识别进行个性化电视语音唤醒的方法 | |
CN104766608A (zh) | 一种语音控制方法及装置 | |
WO2023030235A1 (zh) | 目标音频的输出方法及系统、可读存储介质、电子装置 | |
CN112102846A (zh) | 音频处理方法、装置、电子设备以及存储介质 | |
CN113571078A (zh) | 噪声抑制方法、装置、介质以及电子设备 | |
CN118280371B (zh) | 一种基于人工智能的语音交互方法及系统 | |
CN113744715A (zh) | 声码器语音合成方法、装置、计算机设备及存储介质 | |
CN117041430B (zh) | 一种提高智能协调外呼系统的外呼质量及鲁棒方法和装置 | |
CN111107284A (zh) | 一种视频字幕实时生成系统及生成方法 | |
Joy et al. | Deep scattering power spectrum features for robust speech recognition | |
Nirjon et al. | sMFCC: exploiting sparseness in speech for fast acoustic feature extraction on mobile devices--a feasibility study | |
CN116312559A (zh) | 跨信道声纹识别模型的训练方法、声纹识别方法及装置 | |
CN107919136B (zh) | 一种基于高斯混合模型的数字语音采样频率估计方法 | |
CN116168699A (zh) | 一种基于语音识别的安防平台控制方法、装置、存储介质及设备 | |
CN111369986A (zh) | 一种智能安全传输语音系统及方法 | |
CN114827363A (zh) | 用于通话过程中消除回声的方法、设备和可读存储介质 | |
CN109273003A (zh) | 用于行车记录仪的语音控制方法及系统 | |
CN106448655A (zh) | 语音识别方法 | |
CN116758897A (zh) | 方言语音指令的识别方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200703 |
|
RJ01 | Rejection of invention patent application after publication |