CN111369986A - 一种智能安全传输语音系统及方法 - Google Patents

一种智能安全传输语音系统及方法 Download PDF

Info

Publication number
CN111369986A
CN111369986A CN201811604292.4A CN201811604292A CN111369986A CN 111369986 A CN111369986 A CN 111369986A CN 201811604292 A CN201811604292 A CN 201811604292A CN 111369986 A CN111369986 A CN 111369986A
Authority
CN
China
Prior art keywords
voice
speech
recognition
extraction
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811604292.4A
Other languages
English (en)
Inventor
何云鹏
高君效
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chipintelli Technology Co Ltd
Original Assignee
Chipintelli Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chipintelli Technology Co Ltd filed Critical Chipintelli Technology Co Ltd
Priority to CN201811604292.4A priority Critical patent/CN111369986A/zh
Publication of CN111369986A publication Critical patent/CN111369986A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

一种智能安全传输语音方法,包括如下步骤:步骤1.提取端将语音信号进行特征提取,提取出剥离相位信息的语音特征值;步骤2.识别端接收语音特征值后进行语义识别。本发明还公开了一种智能安全传输语音系统。本发明将当前常规做法中传输语音数据修改为传输经过特征提取或变换计算后的特征量,由于该特征量无法被还原为语音数据,经变换计算后的特征也无法被第三方进一步转换成文本语义,即使出现在传输过程或云端服务器上被截取的情况,也无法获取原始语音信息和对应文本信息,增强了安全性。同时,提取后的特征量的数据大小远低于完整语音数据,有利于节省网络传输带宽,加快传输速度,提升功能操作的时效性。

Description

一种智能安全传输语音系统及方法
技术领域
本发明属于人工智能领域,涉及语音识别技术,具体涉及一种智能安全传输语音系统及方法。
背景技术
当前有很多的设备具备智能语音功能,其做法大多是由用户对设备发出语音指令,设备通过网络将语音直接上传到云端,在云端进行语音识别、语义分析,并根据分析出的语义调取相应的服务和内容,完成用户使用语音想达到的目的。在实际应用中,直接上传语音数据或加密后的语音数据在传输过程中可能被截取,同时数据可以被反向解密,云端获取数据后一旦服务器被攻破,也会带来原始用户语音数据泄露的风险,欠缺安全性。
发明内容
为克服现有技术存在的缺陷,本发明公开了一种智能安全传输语音系统及方法。
本发明所述智能安全传输语音方法,包括如下步骤:
步骤1.提取端将语音信号进行特征提取,提取出剥离相位信息的语音特征值;
步骤2. 识别端接收语音特征值后进行语义识别。
优选的,所述步骤1中进行特征提取的具体步骤为:将语音信号按帧进行快速傅立叶变换,计算出各帧的每个子带功率谱,并计算子带功率谱的特征值。
进一步的,所述步骤1中的子带功率谱的特征量计算方法包含但不限于梅尔滤波组(mel-Fbank),梅尔倒谱系数(MFCC),线性预测(LPC),卷积神经网络(CNN)中的任意一种。
优选的,所述步骤1中,剥离出语音特征值后, 对语音特征值进行变形处理,得到变形语音特征值;
所述步骤2中接收变形语音特征值后,进行特征反变换再进行语义识别,所述特征反变换是所述步骤1中变形处理的逆操作。
进一步的,作为优选方案,所述步骤2中的变形处理采用矩阵变换。
优选的,所述识别端位于云端。
本发明还公开了一种智能安全传输语音系统,包括提取端和识别端,其特征在于,所述提取端包括可接收语音信号的特征提取模块,所述识别端包括可与所述提取端通信并进行语音识别的神经网络。
优选的,所述提取端还包括与特征提取模块连接的变形模块,所述识别端还包括可与所述提取端通信的反变换模块,所述反变换模块连接神经网络。
优选的,所述识别端位于云端。
本发明将当前常规做法中传输语音数据修改为传输经过特征提取或变换计算后的特征量,由于该特征量无法被还原为语音数据,经变形后的特征也无法被第三方进一步转换为文本语义,即使出现在传输过程或云端服务器上被截取的情况,也无法获取原始语音信息或文本语义信息,增强了安全性。同时,提取后的特征量的数据大小远低于完整语音数据,有利于节省网络传输带宽,加快传输速度,提升功能操作的时效性。
附图说明
图1给出本发明所述智能安全传输语音系统的一种具体实施方式流程示意图;
图2给出本发明所述提取端的一个工作流程示意图;
图3给出本发明所述识别端的一个工作流程示意图。
具体实施方式
下面对本发明的具体实施方式作进一步的详细说明。
本发明所述智能安全传输语音方法,包括如下步骤:
步骤1.提取端将语音信号进行特征提取,提取出剥离相位信息的语音特征值;
步骤2. 识别端接收语音特征值后进行语义识别。
语音识别的基本原理是通过麦克风收集命令词的声音信号并将其转化为电学信号后,经过提取特征,与已经存储的数据模型进行解码计算,通过计算识别出声音信号并调用该声音信号对应的指令对设备进行相应的操作。
声音信号为声波信号,同时具备幅值和相位信息,单纯幅值信息提取的特征可以识别出语义,但缺乏相位信息,单纯幅值信息难以还原为音频信号。
子带功率谱去掉了原本语音信号的相位信息,不借助具备语音识别功能的神经网络服务器等设备难以识别出语义信息,相对原有的音频信号直接上传,降低了泄密可能性。进一步进行特征提取后的特征数据量也大幅缩小,在识别端位于云端的具体实施方式中,传输剥离相位信息的语音特征信号在安全性和传输速度上都优于将原始语音信号直接上传。
步骤1中进行特征提取的具体步骤可以是首先将语音按帧进行短时FFT(快速傅里叶)变换,将时域的语音变换到频域子带空间;再进行每个子带功率谱的计算,子带功率谱等于频域子带值的实部平方加上虚部平方和,随后计算出特征值。
特征计算方法可以是常见的语音特征计算方法,如mel-Fbank(梅尔滤波组),MFCC(梅尔倒谱系数),LPC(线性预测变换),CNN(卷积神经网络)等,及其他特征提取计算方法。
将子带功率谱或特征数据传送到云端,如果在传输和存储过程中被窃取,采用深度神经网络计算和语音解码计算,仍然可能获取用户的语义文本,为进一步的提高安全性,可以剥离出语音特征值后, 对语音特征值进行变形处理,得到变形语音特征值;在所述步骤2中接收变形语音特征值后,进行特征反变换再进行语义识别,所述特征反变换是所述步骤1中变形处理的逆操作,作为优选方案,采用矩阵变换进行变形处理后,再采用变换矩阵的逆矩阵进行特征反变换操作。由于该矩阵变换和反变换方法仅被设备端和对应云端服务器拥有,第三方无法将变形语音特征转换为文本及语义,进一步增强了安全性。
以下给出本发明的一个具体实施方式:
假设Y为变换前语音特征值向量,Conv_Y为变换后的语音特征值向量即变形语音特征值。A为变换矩阵。
则有:Conv_Y = A*Y ; ---------------------------------------(1)
识别端在接收到变形语音特征值后,在进行深度神经网络计算和语音语义识别前,首先进行特征反变换。
设矩阵INV_A为变换矩阵A的逆变换矩阵,则其反变换过程如下:
INV_A * Conv_Y = INV_A * A * Y = (INV_A * A)* Y = I * Y = Y;--(2)
其中I为单元矩阵,从(2)式可见,通过逆变换以逆矩阵与变形语音特征值相乘,可以准确地恢复到变换前的语音特征值。
识别出变换前的语音特征值后,即进行深度神经网络计算,深度神经网络计算包含前向全连接网络, CNN(卷积神经网络), RNN(递归神经网络),长短时记忆网络(LSTM)等。
通常神经网络的输入层计算会将输入特征向量进行一次仿射矩阵变换,设仿射变换矩阵为C;对变换前语音特征值向量Y的变换过程为C*Y;则
C*Y = C * INV_A * Conv_Y =
(C * INV_A) * Conv_Y = D * Conv_Y;------------------------(3)
其中矩阵D = (C * INV_A) ;-------------------------------- (4)
由(3)和(4)式可见,
逆变换矩阵INV_A可以和神经网络输入层仿射变换矩阵C合并成一个新的仿射变换矩阵D,使得神经网络计算和反变换可以合并进行,不增加额外计算工作量。
图2和图3分别给出采用上述方法的提取端和识别端的一个具体工作流程。
可以采用如图1所示的智能安全传输语音系统实现上述过程, 所述智能安全传输语音系统包括提取端和识别端, 所述提取端包括可接收语音信号的特征提取模块,所述识别端包括可与所述提取端通信并进行语音识别的神经网络。
上述智能安全传输语音系统对应采用变形和反变换的优选实施方式为: 所述提取端还包括与特征提取模块连接的变形模块,所述识别端还包括可与所述提取端通信的反变换模块,所述反变换模块连接神经网络。
本发明将当前常规做法中传输语音数据修改为传输经过特征提取或变形计算后的特征量,由于该特征量无法被还原为语音数据,经变换计算后的特征也无法被第三方进一步转换成文本语义,即使出现在传输过程或云端服务器上被截取的情况,也无法获取原始语音信息,增强了安全性。同时,提取后的特征量的数据大小远低于完整语音数据,有利于节省网络传输带宽,加快传输速度,提升功能操作的时效性。
前文所述的为本发明的各个优选实施例,各个优选实施例中的优选实施方式如果不是明显自相矛盾或以某一优选实施方式为前提,各个优选实施方式都可以任意叠加组合使用,所述实施例以及实施例中的具体参数仅是为了清楚表述发明人的发明验证过程,并非用以限制本发明的专利保护范围,本发明的专利保护范围仍然以其权利要求书为准,凡是运用本发明的说明书内容所作的等同结构变化,同理均应包含在本发明的保护范围内。

Claims (9)

1.一种智能安全传输语音方法,其特征在于,包括如下步骤:
步骤1.提取端将语音信号进行特征提取,提取出剥离相位信息的语音特征值;
步骤2. 识别端接收语音特征值后进行语义识别。
2.如权利要求1所述的智能安全传输语音方法,其特征在于,所述步骤1中进行特征提取的具体步骤为:将语音信号按帧进行快速傅立叶变换,计算出各帧的每个子带功率谱,并计算子带功率谱的特征值。
3.如权利要求2所述的智能安全传输语音方法,其特征在于,所述步骤1中的子带功率谱的特征量计算方法包含但不限于梅尔滤波组,梅尔倒谱系数,线性预测,卷积神经网络中的任意一种。
4.如权利要求1所述的智能安全传输语音方法,其特征在于,所述步骤1中,剥离出语音特征值后, 对语音特征值进行变形处理,得到变形语音特征值;
所述步骤2中接收变形语音特征值后,进行特征反变换再进行语义识别,所述特征反变换是所述步骤1中变形处理的逆操作。
5.如权利要求4所述的智能安全传输语音方法,其特征在于,所述步骤2中的变形处理采用矩阵变换。
6.如权利要求1所述的智能安全传输语音方法,其特征在于,所述识别端位于云端。
7.一种智能安全传输语音系统,包括提取端和识别端,其特征在于,所述提取端包括可接收语音信号的特征提取模块,所述识别端包括可与所述提取端通信并进行语音识别的神经网络。
8.如权利要求7所述的智能安全传输语音系统,其特征在于,所述提取端还包括与特征提取模块连接的变形模块,所述识别端还包括可与所述提取端通信的反变换模块,所述反变换模块连接神经网络。
9.如权利要求7所述的智能安全传输语音系统,其特征在于,所述识别端位于云端。
CN201811604292.4A 2018-12-26 2018-12-26 一种智能安全传输语音系统及方法 Pending CN111369986A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811604292.4A CN111369986A (zh) 2018-12-26 2018-12-26 一种智能安全传输语音系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811604292.4A CN111369986A (zh) 2018-12-26 2018-12-26 一种智能安全传输语音系统及方法

Publications (1)

Publication Number Publication Date
CN111369986A true CN111369986A (zh) 2020-07-03

Family

ID=71207065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811604292.4A Pending CN111369986A (zh) 2018-12-26 2018-12-26 一种智能安全传输语音系统及方法

Country Status (1)

Country Link
CN (1) CN111369986A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6073094A (en) * 1998-06-02 2000-06-06 Motorola Voice compression by phoneme recognition and communication of phoneme indexes and voice features
US6292782B1 (en) * 1996-09-09 2001-09-18 Philips Electronics North America Corp. Speech recognition and verification system enabling authorized data transmission over networked computer systems
US20030139929A1 (en) * 2002-01-24 2003-07-24 Liang He Data transmission system and method for DSR application over GPRS
JP2007206501A (ja) * 2006-02-03 2007-08-16 Advanced Telecommunication Research Institute International 最適音声認識方式判定装置、音声認識装置、パラメータ算出装置、情報端末装置、及びコンピュータプログラム
KR20080056069A (ko) * 2006-12-15 2008-06-20 삼성전자주식회사 음성 특징 벡터 변환 방법 및 장치
CN102124518A (zh) * 2008-08-05 2011-07-13 弗朗霍夫应用科学研究促进协会 采用特征提取处理音频信号用于语音增强的方法和装置
CN108550368A (zh) * 2018-03-19 2018-09-18 成都信达智胜科技有限公司 一种语音数据的处理方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6292782B1 (en) * 1996-09-09 2001-09-18 Philips Electronics North America Corp. Speech recognition and verification system enabling authorized data transmission over networked computer systems
US6073094A (en) * 1998-06-02 2000-06-06 Motorola Voice compression by phoneme recognition and communication of phoneme indexes and voice features
US20030139929A1 (en) * 2002-01-24 2003-07-24 Liang He Data transmission system and method for DSR application over GPRS
JP2007206501A (ja) * 2006-02-03 2007-08-16 Advanced Telecommunication Research Institute International 最適音声認識方式判定装置、音声認識装置、パラメータ算出装置、情報端末装置、及びコンピュータプログラム
KR20080056069A (ko) * 2006-12-15 2008-06-20 삼성전자주식회사 음성 특징 벡터 변환 방법 및 장치
CN102124518A (zh) * 2008-08-05 2011-07-13 弗朗霍夫应用科学研究促进协会 采用特征提取处理音频信号用于语音增强的方法和装置
US20110191101A1 (en) * 2008-08-05 2011-08-04 Christian Uhle Apparatus and Method for Processing an Audio Signal for Speech Enhancement Using a Feature Extraction
CN108550368A (zh) * 2018-03-19 2018-09-18 成都信达智胜科技有限公司 一种语音数据的处理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
管会生: "《银行计算机》", 3 September 1991 *

Similar Documents

Publication Publication Date Title
CN110415686B (zh) 语音处理方法、装置、介质、电子设备
CN108597496B (zh) 一种基于生成式对抗网络的语音生成方法及装置
CN112562691B (zh) 一种声纹识别的方法、装置、计算机设备及存储介质
US10373609B2 (en) Voice recognition method and apparatus
WO2023222088A1 (zh) 语音识别与分类方法和装置
US8818797B2 (en) Dual-band speech encoding
CN104575504A (zh) 采用声纹和语音识别进行个性化电视语音唤醒的方法
CN104766608A (zh) 一种语音控制方法及装置
WO2023030235A1 (zh) 目标音频的输出方法及系统、可读存储介质、电子装置
CN112102846A (zh) 音频处理方法、装置、电子设备以及存储介质
CN113571078A (zh) 噪声抑制方法、装置、介质以及电子设备
CN118280371B (zh) 一种基于人工智能的语音交互方法及系统
CN113744715A (zh) 声码器语音合成方法、装置、计算机设备及存储介质
CN117041430B (zh) 一种提高智能协调外呼系统的外呼质量及鲁棒方法和装置
CN111107284A (zh) 一种视频字幕实时生成系统及生成方法
Joy et al. Deep scattering power spectrum features for robust speech recognition
Nirjon et al. sMFCC: exploiting sparseness in speech for fast acoustic feature extraction on mobile devices--a feasibility study
CN116312559A (zh) 跨信道声纹识别模型的训练方法、声纹识别方法及装置
CN107919136B (zh) 一种基于高斯混合模型的数字语音采样频率估计方法
CN116168699A (zh) 一种基于语音识别的安防平台控制方法、装置、存储介质及设备
CN111369986A (zh) 一种智能安全传输语音系统及方法
CN114827363A (zh) 用于通话过程中消除回声的方法、设备和可读存储介质
CN109273003A (zh) 用于行车记录仪的语音控制方法及系统
CN106448655A (zh) 语音识别方法
CN116758897A (zh) 方言语音指令的识别方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200703

RJ01 Rejection of invention patent application after publication