CN112005300B - 语音信号的处理方法和移动设备 - Google Patents

语音信号的处理方法和移动设备 Download PDF

Info

Publication number
CN112005300B
CN112005300B CN201880092454.2A CN201880092454A CN112005300B CN 112005300 B CN112005300 B CN 112005300B CN 201880092454 A CN201880092454 A CN 201880092454A CN 112005300 B CN112005300 B CN 112005300B
Authority
CN
China
Prior art keywords
voice
frequency
low
frames
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880092454.2A
Other languages
English (en)
Other versions
CN112005300A (zh
Inventor
赵月娇
李向东
杨霖
尹朝阳
于雪松
张晶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN112005300A publication Critical patent/CN112005300A/zh
Application granted granted Critical
Publication of CN112005300B publication Critical patent/CN112005300B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种语音信号的处理方法和移动设备,方法包括:对接收到的编码后的语音信号解码后得到m组低频语音参数;m组低频语音参数为语音信号的m个语音帧的低频语音参数;基于m组低频语音参数确定m个语音帧的类型,并重构m个语音帧对应的低频语音信号;根据n个清音帧的低频语音参数和混合高斯模型算法,得到n个清音帧对应的n个高频语音信号,并根据k个浊音帧的低频语音参数和神经网络算法,得到k个浊音帧对应的k个高频语音信号,n和k的和等于m;对每个语音帧的低频语音信号和高频语音信号进行合成,得到宽带语音信号。降低了噪声引入的概率,保留了原始语音的情感度,可精确的再现原始语音。

Description

语音信号的处理方法和移动设备
技术领域
本申请涉及信号处理技术领域,尤其涉及一种语音信号的处理方法和移动设备。
背景技术
在信息传输中,语音是最直观简洁的通信方式。通常自然语音的带宽在50Hz~8000Hz之间,然而在现代通信系统中,由于受传输带宽的限制,语音的频带范围被限制在300Hz~3400Hz之间,300Hz~3400Hz之间的语音信号称为窄带语音信号。语音的主要能量包含在低频语音信号中,而高频信号的缺失使得语音信号的清晰度与自然度在一定程度上受到影响,声色等一些代表说话者特性部分的信息被丢失;如打电话过程中语音失真较为严重,特别是在嘈杂的环境中,失真度往往不被用户接受。随着移动设备对语音质量的要求越来越高,仅仅是能听懂移动设备发出的声音已经远远不满足人们的需求。高清晰度,高保真度的语音信号是各种移动设备的新要求。因此相关研究者越来越多的技术投入到语音的带宽扩展中,以得到宽带语音。
目前语音扩展的方法主要有基于网络映射的方法和基于统计学模型的方法两种。基于网络映射的方法,最终得到的宽带语音中的噪声较大;基于统计学模型的方法,最终得到的宽带语音不能保留原始语音的情感度。
发明内容
本申请提供一种语音信号的处理方法和移动设备,得到的宽带语音噪声小且保留了原始语音的情感度,能够很好的再现原始语音。
第一方面提供一种语音信号的处理方法,包括:
移动设备对接收到的编码后的语音信号解码后得到m组低频语音参数;所述m组低频语音参数为所述语音信号的m个语音帧的低频语音参数,m为大于1的整数;
所述移动设备基于所述m组低频语音参数确定所述m个语音帧的类型,并重构m个语音帧对应的低频语音信号,所述类型包括清音帧或浊音帧;
所述移动设备根据n个清音帧的低频语音参数和混合高斯模型算法,得到所述n个清音帧对应的n个高频语音信号,并根据k个浊音帧的低频语音参数和神经网络算法,得到所述k个浊音帧对应的k个高频语音信号,n和k为大于1的整数,n和k的和等于m;
所述移动设备对m个语音帧中每个语音帧的低频语音信号和高频语音信号进行合成,得到宽带语音信号。
该方案在移动设备侧进行,不改变原有的通信系统,只需在移动设备侧设置相应装置或者相应程序即可;根据语音参数区分浊音帧和清音帧,区分准确率高;根据清音帧和浊音帧性质的不同,采用混合高斯模型算法获取清音帧对应的高频语音信号,降低了噪声引入的概率,采用神经网络算法获取浊音帧对应的高频语音信号,保留了原始语音的情感度,可精确的再现原始语音,提升了用户的听觉感受。
可选地,每组低频语音参数包括:基音周期;或者,子带信号强度;或者,增益值;或者,线谱频率;或者,基音周期,子带信号强度,增益值,或者线谱频率中的至少两个。
在一种可能的设计中,所述移动设备基于所述m组低频语音参数确定所述m个语音帧的类型,包括:
所述移动设备根据所述m组低频语音参数和栈自动编码机(StackedAutoEncoder,简称SAE)模型,采用SAE算法,得到m个标签,m个标签用于指示m组低频语音参数对应的m个语音帧的类型;
其中,所述SAE模型是所述移动设备或其它移动设备采用所述SAE算法,基于多个第一训练样本训练得到的,每个第一训练样本包括其它语音信号的一个语音帧的低频语音信号对应的低频语音参数。
在一种可能的设计中,所述移动设备根据n个清音帧的低频语音参数和混合高斯模型算法,得到所述n个清音帧对应的n个高频语音信号,包括:
所述移动设备根据n个清音帧的低频语音参数和混合高斯模型算法,得到n个清音帧的高频语音参数;
所述移动设备根据所述n个清音帧的高频语音参数,构建所述n个高频语音信号。
采用混合高斯模型算法预测清音帧的高频语音信号几乎不会引入噪声,提升了用户的听觉感受。
在一种可能的设计中,所述移动设备根据k个浊音帧的低频语音参数和神经网络算法,得到所述k个浊音帧对应的k个高频语音信号,包括:
所述移动设备根据k个浊音帧的低频语音参数和神经网络模型,采用神经网络算法,得到k个浊音帧的高频语音参数;
所述移动设备根据所述k个浊音帧的高频语音参数,构建所述k个高频语音信号;
其中,所述神经网络模型是所述移动设备或其它移动设备采用所述神经网络算法,基于多个第二训练样本训练得到的,一个所述第二训练样本包括一个其它语音信号的h个浊音帧的h组低频语音参数,h为大于1的整数。
采用神经网络算法预测浊音帧的高频语音信号几乎不会引入噪声,且可保留原始语音的情感度。
可选地,所述神经网络算法为长短期记忆(LSTM)神经网络算法,所述神经网络模型为LSTM神经网络模型;
可选地,所述神经网络算法为双向循环神经网络(BRNN)算法,所述神经网络模型为BRNN模型;
可选地,所述神经网络算法为循环神经网络(RNN)算法,所述神经网络模型为RNN模型。
其中,采用BRNN算法可大大提高获取的高频语音信号的准确度,从而可精确的再现原始语音。
第二方面提供一种移动设备,包括:
解码模块,用于对接收到的编码后的语音信号解码后得到m组低频语音参数;所述m组低频语音参数为所述语音信号的m个语音帧的低频语音参数,m为大于1的整数;
处理模块,用于基于所述m组低频语音参数确定所述m个语音帧的类型,并重构m个语音帧对应的低频语音信号,所述类型包括清音帧或浊音帧;
获取模块,用于根据n个清音帧的低频语音参数和混合高斯模型算法,得到所述n个清音帧对应的n个高频语音信号,并根据k个浊音帧的低频语音参数和神经网络算法,得到所述k个浊音帧对应的k个高频语音信号,n和k为大于1的整数,n和k的和等于m;
合成模块,用于对m个语音帧中每个语音帧的低频语音信号和高频语音信号进行合成,得到宽带语音信号。
该方案中,只需在语音处理装置侧设置相关的扩展装置或者扩展程序即可,不改变原有的通信系统;根据语音参数区分浊音帧和清音帧,区分准确率高;根据清音帧和浊音帧性质的不同,采用混合高斯模型算法获取清音帧对应的高频语音信号,降低了噪声引入的概率,采用神经网络算法获取浊音帧对应的高频语音信号,保留了原始语音的情感度,可精确的再现原始语音,提升了用户的听觉感受。
可选地,每组低频语音参数包括:基音周期;或者,子带信号强度;或者,增益值;或者,线谱频率;或者,基音周期,子带信号强度,增益值,或者线谱频率中的至少两个。
在一种可能的设计中,所述处理模块,具体用于:
根据所述m组低频语音参数和栈自动编码机(SAE)神经网络模型,采用SAE算法,得到m个标签,m个标签用于指示m组低频语音参数对应的m个语音帧的类型;
其中,所述SAE模型是所述移动设备或其它移动设备采用所述SAE算法,基于多个第一训练样本训练得到的,每个第一训练样本包括其它语音信号的一个语音帧的低频语音信号对应的低频语音参数。
在一种可能的设计中,所述获取模块,具体用于:
根据n个清音帧的低频语音参数和混合高斯模型算法,得到n个清音帧的高频语音参数;
根据所述n个清音帧的高频语音参数,构建所述n个高频语音信号。
在一种可能的设计中,所述获取模块,具体用于:
根据k个浊音帧的低频语音参数和神经网络模型,采用神经网络算法,得到k个浊音帧的高频语音参数;
根据所述k个浊音帧的高频语音参数,构建所述k个高频语音信号;
其中,所述神经网络模型是所述移动设备或其它移动设备采用所述神经网络算法,基于多个第二训练样本训练得到的,一个所述第二训练样本包括一个其它语音信号的h个浊音帧的低频语音参数,h为大于1的整数。
可选地,所述神经网络算法为长短期记忆(LSTM)神经网络算法,所述神经网络模型为LSTM神经网络模型;
可选地,所述神经网络算法为双向循环神经网络(BRNN)算法,所述神经网络模型为BRNN模型;或者,
可选地,所述神经网络算法为循环神经网络(RNN)算法,所述神经网络模型为RNN模型。
第三方面提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,在所述计算机程序被处理器执行时,执行权利要求第一方面以及第一方面任一可能的设计所述的方法。
第四方面提供一种移动设备,包括处理器;
所述处理器用于与存储器耦合,读取并执行所述存储器中的指令,执行第一方面以及第一方面任一可能的设计所述的方法。
在一种可能的设计中,所述的移动设备,还包括所述存储器。
本申请中的语音信号的处理方法在移动设备侧进行,不改变原有的通信系统,只需在移动设备侧设置相应装置或者相应程序即可;根据语音参数区分浊音帧和清音帧,区分准确率高;根据清音帧和浊音帧性质的不同,采用混合高斯模型算法获取清音帧对应的高频语音信号,采用神经网络算法获取浊音帧对应的高频语音信号,降低了噪声引入的概率,且得到宽带语音保留了语音的情感度,可精确的再现原始语音,提升了用户的听觉感受。
附图说明
图1为本申请实施例提供的SAE的结构示意图;
图2为本申请实施例提供的SAE对应的自动编码机示意图;
图3为本申请实施例提供的LSTM神经网络算法示意图;
图4为本申请实施例提供的RNN的结构示意图;
图5为本申请实施例提供的RNN算法的示意图;
图6为本申请实施例提供的BRNN算法的示意图;
图7为本申请实施例提供的系统架构图;
图8为本申请实施例提供的语音信号的处理方法的流程图;
图9为本申请实施例提供的移动设备的结构示意图一;
图10为本申请实施例提供的移动设备的结构示意图二。
具体实施方式
首先对本申请涉及的技术名词进行解释。
1、语音:人类的自然语音的带宽一般在50Hz~8000Hz之间,其中,300Hz~3400Hz之间的语音信号称为窄带语音信号。其中,人在发音时,根据声带是否震动可以将语音信号分为清音跟浊音两种。浊音又称有声语言,携带者语言中大部分的能量,浊音在时域上呈现出明显的周期性;而清音类似于白噪声,没有明显的周期性。发浊音时,气流通过声门使声带产生张弛震荡式振动,产生准周期的激励脉冲串,这种声带振动的频率称为基音频率,相应的周期为基音周期。
2、栈自动编码机(Stacked AutoEncoder,简称SAE)算法:
图1为本申请实施例提供的SAE的结构示意图,图2为本申请实施例提供的SAE对应的自动编码机示意图;参见图1和图2,SAE包括一层输入层,2层隐含层,一层输出层;其中,输入层的神经元11的个数等于输入向量的维数加1,其中一个偏置节点12为1,也就是偏置节点的输入为1,输出层可为softmax分类器层,隐含层神经元21的个数和输出层的神经元的个数根据需要设定。可以理解的是,此处2层隐含层只是示例性的,隐含层的层数可以根据实际数量变更。
SAE算法具体如下:
对应一个样本X=(x1、x2、x3、……、xn-1、xn),n维向量X为输入向量,则输入层100的神经元的个数等于n+1,如图2所示,xn为输入层第n个神经元的输入;初始化输入层的各神经元、偏置节点与第一层隐含层200的各神经元之间的连接权值,组成权值矩阵W1,以及偏置向量b1;则第一层隐含层的输出h1为:
h1=f(W1X+b1)
其中,h1=(h1、h2、h3、……、hm-1、hm),hm为第一层隐含层第m个神经元的输出,f(x)=1/(1+exp(-x))为非线性激励函数,k=n+1,m为第一层隐含层中除了偏置节点的神经元的个数,Wkm为输出层第k个神经元与第一层隐含层第m个神经元之间的连接权值。
上述过程称为输入向量X的编码过程,接着采用自动编码机进行h1解码的过程,得到重构的输入向量
其中,b2为偏置向量。
定义代价函数:按照以下公式更新W1,和b1
其中,为更新后的W1,/>更新后的b1,α为学习速率。
其次,初始化第一层隐含层200包括的各神经元、偏置节点和第二层隐含层300包括的各神经元之间的连接权值,组成权值矩阵W3,可参照W1,根据h1计算第二层隐含层300的神经元的输出向量h2
h2=f(W3h1+b3)
其中,b3为偏置向量。
上述过程称为h1的编码过程,接着采用自动编码机进行h2解码的过程,得到重构h~1
其中,b4为偏置向量。
定义代价函数:按照以下公式更新W3,和b3
接着,初始化第二层隐含层300包括的各神经元、偏置节点和输出层400包括的各神经元之间的连接权值,组成权值矩阵W5,初始化b5为偏置向量。
上述过程为样本X进行的一次完整的无监督学习的过程。
下面样本X根据W5,采用反向传播(Back Propagation,简称BP)神经网络,对样本X进行一次有监督的学习过程:如下:
作为输入层100包括的各神经元、偏置节点与第一层隐含层200包括的各神经元之间的连接权值矩阵,/>为输入层100包括的各神经元、偏置节点与第一层隐含层200包括的各神经元对应的偏置向量,计算第一层隐含层200的输出向量H1
其中,
作为第一层隐含层200包括的各神经元、偏置节点与第二层隐含层300包括的各神经元之间的连接权值矩阵,/>为第一层隐含层200包括的各神经元、偏置节点与第二层隐含层300包括的各神经元对应的偏置向量,计算第二层隐含层300的输出向量H2
以W5作为第二层隐含层300包括的各神经元、偏置节点与输出层400包括的各神经元之间的连接权值矩阵,b5为第二层隐含层300包括的各神经元、偏置节点与输出层400包括的各神经元对应的偏置向量,采用BP神经网络算法,计算得到输出向量Y。
Y=σ(W5H2+b5)
最后,根据样本X的期望输出Y~以及样本X的实际输出Y,采用最小均方误差准则的反向误差传播算法和梯度下降法更新为/>为/>W5为/>
经过以上所有的步骤,样本X完成了一次完整的基于SAE算法的学习过程。
作为下一个样本X1进行无监督学习时对应的初始权值矩阵;下一个训练样本X1按照与样本X相同的步骤,得到最终更新后的/>完成一次完整的基于SAE的学习过程。
最终更新后的作为下一个样本X2进行无监督学习时对应的初始权值矩阵;下一个训练样本X2按照与样本X相同的步骤,完成一次完整的基于SAE的学习过程。
也就是每一个样本进行一次完整的基于SAE的学习过程后,输入层100包括的各神经元、偏置节点与第一层隐含层200包括的各神经元之间的连接权值矩阵,第一层隐含层200包括的各神经元、偏置节点对应的偏置向量,第一层隐含层200包括的各神经元、偏置节点与第二层隐含层300包括的各神经元之间的连接权值矩阵,第二层隐含层300包括的各神经元、偏置节点对应的偏置向量,第二层隐含层300包括的各神经元、偏置节点与输出层400包括的各神经元之间的连接权值矩阵,输出层400包括的各神经元对应的偏置向量均被更新,更新后的上述物理量作为下一样本进行无监督学习时对应的初始权值矩阵、初始偏置向量。
综上所述,每一个样本进行一次完整的基于SAE的学习过程后,各层神经元之间的连接权值以及对应的偏置值均被更新,更新后的值作为下一样本进行无监督学习时对应的初始权值、初始偏置值。
3、长短期记忆(Long Short Term Memory,LSTM)神经网络算法:
LSTM神经网络与SAE一样,包括一层输入层,至少一层隐含层,一层输出层;不同的是LSTM神经网络的输入层和隐含层中没有偏置节点。输入层的神经元的个数等于输入向量的维数,隐含层神经元的个数和输出层的神经元的个数根据需要设定。
LSTM神经网络算法与SAE算法或者BP神经网络算法不相同之处在于,获取隐含层的每个神经元的输出以及输出层的每个神经元的输出的方法。
下面以获取一个神经元S的输出为例来说明LSTM神经网络算法:
图3为本申请实施例提供的LSTM神经网络示意图。
参见图3,Xt-1为t-1时刻某一神经元S的输入,ht-1为当输入为Xt-1时神经元S的输出,Ct-1为与t-1时刻对应的神经元S的状态,Xt为t时刻神经元S的输入,ht为当输入为Xt时神经元S的输出,Ct为t时刻对应的神经元S的状态,Xt+1为t+1时刻的神经元S的输入,ht+1为当输入为Xt+1时神经元S的输出,Ct+1为t+1时刻对应的神经元S的状态。
也就是说在t时刻,神经元S具有三个输入:Ct-1,Xt,ht-1,对应的输出具有ht、Ct-1
在LSTM神经网络算法中,对于LSTM神经网络中某一神经元S来讲在不同的时刻具有不同的输入和输出。对于t时刻,Xt是根据上一层各神经元的输出以及上一层各神经元和神经元S之间的连接权值以及对应的偏置向量计算得到的(参照上述对BP神经网络中获取隐含层或者输出层的输出方法的描述,与BP神经网络中获取隐含层或者输出层的输出方法),ht-1也可以称为上一时刻神经元S的输出,Ct-1也可以称为上一时刻神经元S的状态,现在需要做的是计算神经元S在t时刻输入Xt后的输出ht。可通过公式一至公式六计算:
ft=σ(Wf·[ht-1,xt]+bf) 公式一;
it=σ(Wi·[ht-1,xt]+bi) 公式二;
Ot=σ(WO·[ht-1,xt]+bO) 公式五;
ht=Ot·tanh(Ct) 公式六;
其中,ft为遗忘门,Wf为遗忘门的权重矩阵,bf为遗忘门的偏置项,σ为sigmoid函数,it为输入门,Wi为输入门的权重矩阵,bi为输入门的偏置项,为用于描述当前输入的状态,Ct为与t时刻对应的神经元新的状态,Ot为输出门,WO为输出门的权重矩阵,bO为输出门的偏置项,ht为神经元S在t时刻对应的最终输出。
通过上述过程,LSTM神经网络算法将关于当前的记忆和长期的记忆组合在一起,形成了新的单元状态Ct。由于遗忘门的控制,LSTM神经网络可以保存很久很久之前的信息,由于输入门的控制,它又可以避免当前无关紧要的内容进入记忆;输出门控制了长期记忆对当前输出的影响。
LSTM神经网络的每个神经元的输出均可按照上述公式一至公式六计算得到。
同样的,LSTM神经网络算法中更新各连接权值和偏置值的方法,也是采用反向误差传播算法和梯度下降法来更新。
可以说,每一个样本进行一次LSTM神经网络算法的学习过程后,各层神经元之间的连接权值、对应的偏置值、遗忘门的权重矩阵、输入门的权重矩阵、输出门的权重矩阵均被更新一次,更新后的值用于学习下一样本。每一个样本包含多个子序列,分别对应一次LSTM学习中输入层不同时刻的输入。
可以理解的是,上述LSTM神经网络算法只是一种经典的LSTM神经网络算法,在该经典的LSTM神经网络算法的基础上,具有很多的变体,分别对应不同的LSTM神经网络算法,本实施例中不再一一赘述。
4、循环神经网络(Recurrent Neural Networks,简称RNN)算法和双向循环神经网络(Bidirections Recurrent Neural Networks,简称BRNN)算法:
图4为本申请实施例提供的RNN的结构示意图,图5为本申请实施例提供的RNN算法的示意图,图6为本申请实施例提供的BRNN算法的示意图。
参见图4,在RNN中隐含层之间的神经元不再是孤立存在的,而是有连接的,且隐含层的输入不仅包括输入层的输出还包括上一时刻隐含层的输出。
参见图5,对应的算法如下:
ht=f(Wxhxt+Whhht-1+bh)
Zt=g(Whzht+bz)
其中,ht为隐含层在t时刻的输出,ht-1为隐含层在t-1时刻的输出,xt为在t时刻输入层的输入,Zt为在t时刻输出层的输出,Wxh为在t时刻输入层的各神经元和隐含层的各神经元之间的连接权值组成的权值矩阵,Whh为t-1时刻的隐含层的输出ht-1作为t时刻隐含层的输入对应的权值矩阵,Whz为在t时刻隐含层的各神经元和输出层的各神经元之间的连接权值组成的权值矩阵,bh为t时刻隐含层对应的偏置向量、bz为t时刻输出层对应的偏置向量。
一个样本对应的输入可称为一个序列,而在RNN算法中,一个样本对应多个子序列,比如子序列xt-1,子序列xt,子序列xt+1;由于隐含层在t-1时刻的输出是根据t-1时刻输入层的输入xt-1得到的,xt与xt-1分别对应不同的子序列,也就是说在RNN算法中,子序列之间存在顺序关系,每个子序列和它之前的子序列存在关联,通过神经网络在时序上展开。
在时域上,各连接权值不变,即一个序列的各子序列共享连接权值,即根据输入xt-1得到的输出Zt-1所使用的连接权值,根据输入xt得到的输出Zt所使用的连接权值,根据输入xt+1得到的输出Zt+1所使用的连接权值,是一致的。
RNN基于误差随时间反向传播算法更新一次学习过程中的各连接权值和偏置值,用于下一个样本的学习过程。
深度循环神经网络就是具有多层隐含层的循环神经网络,其算法可参照上述具有一层隐含层的算法,此处不再赘述。
参见图6,BRNN算法相对于RNN算法的改进之处,在于假设当前的输出不仅仅与前面的输入有关,还与后面的输入有关。可以理解的是,图6中所示的反向层和正向层并不是指两个隐含层,而是为了表示同一个隐含层需要得到两个输出值,这是BRNN算法与RNN算法的不同之处。
图6中的对应的算法如下:
其中,f、g为激活函数,ht1为在隐含层在t时刻的正时间方向输出,ht2为在隐含层在t时刻的负时间方向输出,ht-1为隐含层在t-1时刻的输出,ht+1为隐含层在t+1时刻的输出;xt为在t时刻输入层的输入;为t-1时刻的隐含层的输出ht-1作为t时刻隐含层的输入对应的权值矩阵,/>为在t时刻输入层的各神经元和隐含层的各神经元之间的连接权值组成的第一权值矩阵;/>为t+1时刻的隐含层的输出ht+1作为t时刻隐含层的输入对应的权值矩阵,/>为在t+1时刻输入层的各神经元和隐含层的各神经元之间的连接权值组成的第二权值矩阵;/>为在t时刻隐含层的各神经元和输出层的各神经元之间的连接权值组成的第一权值矩阵,/>为在t时刻隐含层的各神经元和输出层的各神经元之间的连接权值组成的第二权值矩阵,yt为输出层在t时刻的输出。
同样的,在BRNN算法中,一个样本对应的输入可称为一个序列,一个样本对应多个子序列,比如子序列xt-1,子序列xt,子序列xt+1;由于隐含层在t-1时刻的输出ht-1是根据t-1时刻输入层的输入xt-1得到的,隐含层在t+1时刻的输出ht+1是根据t+1时刻输入层的输入xt+1得到的,xt、xt-1、xt+1分别对应不同的子序列,也就是说在BRNN算法中,子序列之间存在顺序关系,每个子序列和它之前的子序列存在关联,也和它之后的子序列存在关联。
在时域上,各连接权值不变,即一个序列的各子序列共享连接权值,即根据输入xt-1得到的输出yt-1所使用的连接权值,根据输入xt得到的输出yt所使用的连接权值,根据输入xt+1得到的输出yt+1所使用的连接权值,是一致的。
深度双向循环神经网络就是具有多层隐含层的循环神经网络,其算法可参照上述具有一层隐含层的算法,此处不再赘述。
5、混合高斯模型
混合高斯模型为多个高斯分布的概率密度函数的组合,一个具有L个混合数的高斯模型可以表示为:
其中,x表示观察矢量,Θ=(θ1,θ2,......,θL)为参数向量集合,Θk=(μk,Vk)是高斯分布参数,ρl为混合高斯模型中每个高斯分量的加权系数,并且加权系数满足:G(x,μl,Vl)表示混合高斯模型的第l个混合分量,其通过均值为μl、协方差为Vl(正定矩阵)的b维多元单一高斯概率密度函数表示:
上面为本申请实施例涉及到的基础知识和相关算法的说明。下面对本申请实施例的语音信号的处理方法进行说明。
图7为本申请实施例提供的系统架构图,参见图7,该系统包括移动设备10和网络设备20;
其中,网络设备为具有无线收发功能的设备或可设置于该设备的芯片组及必要的软硬件,该设备包括但不限于:演进型节点B(evolved Node B,eNB)、无线网络控制器(radio network controller,RNC)、节点B(Node B,NB)、基站控制器(base stationcontroller,BSC)、基站收发台(base transceiver station,BTS)、家庭基站(例如,homeevolved NodeB,或home Node B,HNB)、基带单元(baseband unit,BBU),无线保真(wireless fidelity,WIFI)系统中的接入点(access point,AP)、无线中继节点、无线回传节点、传输点(transmission and reception point,TRP或者transmission point,TP)等,还可以为5G,如,NR,系统中的gNB,或,传输点(TRP或TP),5G系统中的基站的一个或一组(包括多个天线面板)天线面板,或者,还可以为构成gNB或传输点的网络节点,如基带单元(BBU),或,分布式单元(DU,distributed unit)等。
在一些部署中,gNB可以包括集中式单元(centralized unit,CU)和DU。gNB还可以包括射频单元(radio unit,RU)。CU实现gNB的部分功能,DU实现gNB的部分功能,比如,CU实现无线资源控制(radio resource control,RRC),分组数据汇聚层协议(packet dataconvergence protocol,PDCP)层的功能,DU实现无线链路控制(radio link control,RLC)、媒体接入控制(media access control,MAC)和物理(physical,PHY)层的功能。由于RRC层的信息最终会变成PHY层的信息,或者,由PHY层的信息转变而来,因而,在这种架构下,高层信令,如RRC层信令或PHCP层信令,也可以认为是由DU发送的,或者,由DU+RU发送的。可以理解的是,网络设备可以为CU节点、或DU节点、或包括CU节点和DU节点的设备。此外,CU可以划分为接入网RAN中的网络设备,也可以将CU划分为核心网CN中的网络设备,在此不做限制。
移动设备也可以称为用户设备(user equipment,UE)、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、用户终端、终端、无线通信设备、用户代理或用户装置。本申请涉及的移动设备可以是手机(mobile phone)、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(virtual reality,VR)设备、增强现实(augmented reality,AR)设备、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程医疗(remote medical)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端等等。本申请的实施例对应用场景不做限定。本申请中将前述终端设备及可设置于前述终端设备的芯片统称为终端设备。
在该系统中,网络设备20均可以与多个移动设备(例如图中示出的移动设备10)通信。网络设备20可以与类似于移动设备10的任意数目的移动设备进行通信。
应理解,图7仅为便于理解而示例的简化示意图,该通信系统中还可以包括其他网络设备或者还可以包括其他移动设备,图7中未予以画出。
下面结合具体的实施例对本申请的语音信号的处理方法进行说明。图8为本申请实施例提供的语音信号的处理方法的流程图,参见图8,本实施例的方法包括:
步骤S101、移动设备对接收到的编码后的语音信号解码后得到m组低频语音参数m组低频语音参数为该语音信号的m个语音帧的低频语音参数,m为大于1的整数;
步骤S102、移动设备基于m组低频语音参数确定m个语音帧的类型,并重构m个语音帧对应的低频语音信号;其中,语音帧的类型包括清音帧或浊音帧;
步骤S103、移动设备根据n个清音帧的低频语音参数和混合高斯模型算法,得到n个清音帧对应的n个高频语音信号,并根据k个浊音帧的低频语音参数和神经网络算法,得到k个浊音帧对应的k个高频语音信号,n和k为大于1的整数,n和k的和等于m;
步骤S104、移动设备对m个语音帧中每个语音帧的低频语音信号和高频语音信号进行合成,得到宽带语音信号。
具体地,由于语音信号具有短时性,即在一个较短的时间间隔内,语音信号保持相对稳定一致,这段时间一般可取为5ms~50ms,因此,对于语音信号的分析必须建立在短时的基础上。也就是说本实施例中涉及的“语音信号”指的是可以分析的较短时间间隔对应的语音信号。
对于步骤S101、移动设备对接收到的编码后的语音信号解码后得到m组低频语音参数;m组低频语音参数为该语音信号的m个语音帧的低频语音参数,m为大于1的整数,可以理解的是,每个语音帧对应一组低频语音参数。
为了便于理解,步骤S101中涉及的语音信号在后续的描述中可称为语音信号a。
对于网络设备,网络设备可采用参数编码的方法,对语音信号a的m个语音帧的m组低频语音参数进行参数编码,得到编码后的语音信号a。
具体地,网络设备可采用混合线性激励预测(Mixed linear incentiveprediction,简称MELP)算法提取语音信号a的低频语音参数,下面对MELP算法提取语音信号的低频语音参数的方法进行简要的介绍。
采用MELP算法得到的低频语音参数包括:基音周期;或者,子带信号强度;或者,增益值;或者,线谱频率;或者,基音周期,子带信号强度,增益值,或者线谱频率中的至少两个。
低频语音参数包括基音周期,子带信号强度,增益值,或者线谱频率中的至少两个的含义如下:低频语音参数包括基音周期和子带信号强度;或,基音周期和增益值;或,基音周期和线谱频率;或,子带信号强度和增益值;或,子带信号强度和线谱频率;或,线谱频率和增益值;或,基音周期和子带信号强度和增益值;或,基音周期和子带信号强度和线谱频率;或,增益值和子带信号强度和线谱频率;或,基音周期和增益值和线谱频率;或,基音周期和子带信号强度和增益值和线谱频率。
可选地,本实施例中的低频语音参数包括基音周期和子带信号强度和增益值和线谱频率。
可以理解的是,低频语音参数可以不止包括上述的参数,还可以包括其它的参数。采用不同的参数提取算法,对应得到低频语音参数具有一定的差异。
网络设备采用MELP算法提取低频语音参数时,对语音信号a进行采样,得到数字语音,对数字语音进行高通滤波,去除数字语音中的低频能量,以及可能存在的50Hz工频干扰,比如可采用4阶切比雪夫高通滤波器进行高通滤波,高通滤波后的数字语音作为待处理的语音信号。
以待处理的语音信号对应的N个采样点为一个语音帧,比如,N可为160,帧移为80个采样点,将待处理的语音信号分成m个语音帧,然后提取m个语音帧的低频语音参数。
对于每个语音帧,提取语音帧的低频语音参数:基音周期,子带信号强度,增益值,线谱频率。
可以理解的是,每个语音帧包括低频语音信号和高频语音信号,由于传输带宽的限制,语音频带的范围被限制,在本实施例中,提取的语音帧的低频语音参数是语音帧中的低频语音信号对应的低频语音参数,相应地,本实施例中后续出现的高频语音参数为语音帧中的高频语音信号对应的高频语音参数。低频语音信号与高频语音信号是相对的,可以理解的是,若低频语音信号对应的频率为300Hz~3400Hz,则高频语音信号对应的频率可为3400Hz~8000Hz。
其中,本实施例中的低频语音信号对应的频率范围可为现有技术中的窄带语音信号对应的频率范围,即300Hz~3400Hz,也可为其它频率范围。
对于基音周期的获取:基音周期的获取包括整数基音周期的获取、分数基音周期的获取和最终基站周期的获取。具体算法,参照现有的MELP算法,本实施例中不再赘述。
每个语音帧对应一个基音周期。
对于子带声音强度的获取:可先使用六阶巴特沃兹带通滤波器组将0-4KHz的语音频带(低频语音信号对应的)分成5个固定的频段(0~500Hz,500~1000Hz,1000~2000Hz,2000~3000Hz,3000~4000Hz)。这样的划分只是示例性的,也可以不采用这样的划分。
第一子带(0~500Hz)的子带声音强度为语音帧的分数基音周期对应的归一化自相关值。
对于稳定的语音帧,其余的四个子带的声音强度为自相关函数的最大值;对于不稳定的语音帧,也就是基音周期变化较大的语音帧,采用子带信号包络的自相关函数减去0.1,再做全波整流和平滑滤波,计算归一化的自相关函数值,归一化的自相关函数值作为相应子带的声音强度。
即每个语音帧对应多个子带声音强度,比如5个。
对于增益的获取:每个语音帧可计算2个增益值。计算时使用基音自适应窗长,窗长由以下的方法决定:当Vbp1>0.6时(Vbp1>0.6,说明语音帧为浊音帧),窗长为大于120个采样点的分数基音周期的最小倍数,如果窗长超过320个采样点,则将其除以2;当Vbp1<0.6(Vbp1≤0.6,说明语音帧为清音帧),窗长为120个采样点。第一个增益G1窗的中心位于当前语音帧的最后一个采样点之前90个采样点;第二个增益G2窗的中心位于当前帧的最后一个采样点。增益值为加窗信号Sn的均方根值,结果转化为分贝形式为:
其中,L是窗长,0.01为修正因子。如果增益计算出来的值为负,就将增益的值设为零。
对于线谱频率的获取:用200个采样点长(25ms)的汉明窗对输入语音信号进行加权,然后进行10阶的线性预测分析,窗的中心位于当前帧的最后一个采样点。第一步先采用传统的Levinson-Durbin算法求解线性预测系数ai(i=1,2,……,10);第二步对ai作15Hz的带宽扩展,即第i个预测系数乘以0.94i(i=1,2,……,10),进行宽带扩展有助于改善共振峰结构和便于线谱频率量化。
MELP算法在得到线性预测系数后,利用Chebyshev多项式递推转换为线谱频率降低了计算复杂度。
每个语音帧对应一个线谱频率,线谱频率为具有多个分量的向量,比如具有12个分量的向量。
综上所述,网络设备采用MELP算法对语音信号的m个语音帧进行低频语音参数提取后,每个语音帧对应得到一组低频语音参数,一组低频语音参数可包括:一个基音周期,多个子带声音强度、两个增益,一个线谱频率向量。
接着,网络设备对语音信号a的m个语音帧的m组低频语音参数进行编码,得到编码后的语音信号a,将编码后的语音信号a发送至移动设备,移动设备对接收到的编码后的语音信号a解码后便会得到m组低频语音参数,每组低频语音参数与语音信号a的一个语音帧的低频语音信号对应。
对于步骤S102、移动设备基于m组低频语音参数确定m个语音帧的类型,并重构m个语音帧对应的低频语音信号;其中,语音帧的类型包括清音帧或浊音帧;
在得到语音信号a对应的m组低频语音参数后,移动设备根据m组低频语音参数,重构m个语音帧对应的低频语音信号。
其中,移动设备根据m组低频语音参数,重构m个语音帧对应的低频语音信号是现有技术中十分成熟的技术,本实施例中不再赘述。
此外,移动设备还基于m组低频语音参数确定m个语音帧的类型,也就是确定每个语音帧为清音帧还是浊音帧。
具体地,移动设备基于m组低频语音参数确定m个语音帧的类型,包括:
移动设备根据m组低频语音参数和栈自动编码机SAE模型,采用SAE算法,得到m个标签,m个标签用于指示m组低频语音参数对应的m个语音帧的类型;
其中,SAE模型是采用SAE算法,基于多个第一训练样本训练得到的,每个第一训练样本包括其它语音信号的一个语音帧的低频语音信号对应的低频语音参数,其它语音信号不同于本实施例中的语音信号a。
其中,SAE模型可为本实施例中的移动设备采用SAE算法,基于多个第一训练样本训练得到的,也可为其它的设备采用SAE算法,基于多个第一训练样本训练得到的,然后本实施例的移动设备从其它的设备中直接获取训练好的SAE模型。
采用SAE算法,根据语音帧的低频语音参数确定语音帧的类型,相对于现有技术中确定语音帧的类型的方法,准确率可大大的提高。
具体地,对于每组低频语音参数均进行以下的操作,便可得到每个语音帧的类型:
将一组低频语音参数做归一化处理,得到输入向量X,比如,若一组低频语音参数由基音周期,子带信号强度,增益值,线谱频率组成,且包括1个基音周期,5个子带信号强度、2个增益值、包括12个分量的线谱频率向量,则输入向量X的维数为20维,也就是具有20个分量,将输入向量X作为图1所示的SAE的输入,采用如上所述的SAE算法,输出一标签,该标签用于指示语音帧的类型,SAE算法中采用基于多个第一训练样本训练得到的SAE模型。
下面对SAE模型的获取方法进行说明。
a1、获取多个第一训练样本;
a2、获取各第一训练样本各自的标签,标签用于指示第一训练样本对应的语音帧的类型;
a3、根据各第一训练样本包括的低频语音参数,采用SAE算法对所有第一训练样本进行训练,得到SAE模型。
对于a1:获取多个第一训练样本,每个第一训练样本包括其它语音信号的一个语音帧的低频语音信号对应的低频语音参数,可以理解的是,此处的低频语音信号对应的频率范围与网络设备编码的低频语音参数来自的低频语音信号对应的频率范围相同,此处的低频语音参数与网络设备提取的低频语音参数或者移动设备解码得到的低频语音参数的种类相同,且提取方法相同。
比如,语音信号b属于其它的语音信号中的一个语音信号,对于语音信号b的l个语音帧,分别提取l个语音帧的低频语音信号对应的l组低频语音参数,l组低频语音参数中的一组低频语音参数就是一个第一训练样本。
可以理解的是,第一训练样本的数量要足够大,其它的语音信号中可包括多个语音信号,且多个语音信号对应的自然人的数量尽可能的大。
对于a2:根据第一训练样本包括的低频语音参数对应的语音帧的类型,为每个第一训练样本分配一个标签,比如,若第一训练样本1包括的低频语音参数是从清音帧的低频语音信号中提取的,那么第一训练样本1的标签可为0;若第一训练样本2包括的低频语音参数是从浊音帧的低频语音信号中提取的,那么第一训练样本2的标签可为1。
对于a3:对于第一个进行训练的第一训练样本1,将第一训练样本1包括的低频语音参数进行归一化后的向量作为SAE的输入向量,将第一训练样本1的标签作为期望输出,SAE各神经元之间的连接权值和对应的偏置值赋予初始值;采用如上所述的SAE算法,得到第一训练样本1对应的实际输出,根据实际输出和期望输出,采用最小均方误差准则的反向误差传播算法和梯度下降法,调整SAE各神经元之间的连接权值和对应的偏置值,得到更新后的各神经元之间的连接权值和对应的偏置值。
对于第二个进行训练的第一训练样本2,将第一训练样本2包括的低频语音参数进行归一化后的向量作为SAE的输入向量,将第一训练样本2的标签作为期望输出,此次训练过程或者学习过程,初始采用的SAE各层神经元之间的连接权值和对应的偏置值为第一训练样本1训练完毕后,得到的更新后的各神经元之间的连接权值和对应的偏置值;采用如上所述的SAE算法,得到第一训练样本2对应的实际输出,根据实际输出和期望输出,采用最小均方误差准则的反向误差传播算法和梯度下降法,再次调整SAE各神经元之间的连接权值和对应的偏置值,得到更新后的各神经元之间的连接权值和对应的偏置值。
对于第三个进行训练的第一训练样本3,将第一训练样本3包括的低频语音参数进行归一化后的向量作为SAE的输入向量,将第一训练样本3的标签作为期望输出,此次训练过程或者学习过程,初始采用的SAE各层神经元之间的连接权值和对应的偏置值为第二训练样本2训练完毕后,得到的更新后的各神经元之间的连接权值和对应的偏置值;采用如上所述的SAE算法,得到第一训练样本3对应的实际输出,根据实际输出和期望输出,采用最小均方误差准则的反向误差传播算法和梯度下降法,再次调整SAE各神经元之间的连接权值和对应的偏置值,得到更新后的各神经元之间的连接权值和对应的偏置值。
重复执行上述训练过程,直至误差函数收敛,也就是训练的精度满足要求后,停止训练过程,每个训练样本至少被训练一次。
最后一次训练对应的神经网络以及各层神经元之间的连接权值和对应的偏置值即为SAE模型。
在得到SAE模型后,便可根据SAE模型和移动设备解码得到的m组低频语音参数,采用SAE算法,得到m个标签,m个标签用于指示m组低频语音参数对应的m个语音帧的类型。可以理解的是,若在训练过程中,对于包括的低频语音参数是从浊音帧的低频语音信号提取的这样的第一训练样本,对应的标签为1,则移动设备解码得到的m组低频语音参数中与浊音帧对应的各组低频语音参数,根据SAE模型,采用SAE算法后,得到的标签应该接近1或者为1;同样的,若在训练过程中,对于包括的低频语音参数是从清音帧的低频语音信号提取的这样的第一训练样本,对应的标签为0,则移动设备解码得到的m组低频语音参数中与清音帧对应的各组低频语音参数,根据SAE模型,采用SAE算法后,得到的标签应该接近0或者为0。
对于步骤S103,移动设备根据n个清音帧的低频语音参数和混合高斯模型算法,得到n个清音帧对应的n个高频语音信号,并根据k个浊音帧的低频语音参数和神经网络算法,得到k个浊音帧对应的k个高频语音信号,n和k为大于1的整数,n和k的和等于m。
具体地,由于采用神经网络算法根据清音帧对应的低频语音参数预测清音帧对应的高频语音参数会引入人工噪声,会使得用户听到“哧哧”的噪声,影响了用户的听觉感受,因此,为了使得最终得到的语音信号中不引入人工噪声,本实施例中根据清音帧的低频语音参数,获取清音帧对应的高频语音信号不采用神经网络算法,可采用混合高斯模型算法。而采用神经网络算法根据浊音帧对应的低频语音参数预测浊音帧对应的高频语音参数,几乎不会引入人工噪声且可保留原始语音的情感度,因此,根据浊音帧的低频语音参数,获取浊音帧对应的高频语音信号,可采用神经网络算法。这就是步骤S102中确定语音帧类型的意义所在,也就是说根据清音帧和浊音帧的性质的不同,采用不同的机器学习算法,可尽可能少的引入工噪声且保留原始语音的情感度,从而实现精确的再现原始语音。
具体地,移动设备根据n个清音帧的低频语音参数和混合高斯模型算法,得到n个清音帧对应的n个高频语音信号,包括:
移动设备根据n个清音帧的低频语音参数和混合高斯模型算法,得到n个清音帧的高频语音参数;
移动设备根据n个清音帧的高频语音参数,构建n个清音帧对应的n个高频语音信号。
其中,混合高斯模型算法参照现有技术中的算法,此处不再赘述。
移动设备根据k个浊音帧的低频语音参数和神经网络算法,得到k个浊音帧对应的k个高频语音信号,包括:
移动设备根据k个浊音帧的低频语音参数和神经网络模型,采用神经网络算法,得到k个浊音帧的高频语音参数;
移动设备根据k个浊音帧的高频语音参数,构建k个浊音帧对应的k个高频语音信号;
其中,神经网络模型是采用神经网络算法,本实施例中的移动设备或其它移动设备基于多个第二训练样本训练得到的,一个第二训练样本包括一个其它语音信号的h个浊音帧的h组低频语音参数,h为大于1的整数;其它语音信号不同于本实施例中的语音信号a。
对于一个其它语音信号而言,h可为该其它语音信号包括的所有浊音帧的数量,也可小于该其它语音信号包括的所有浊音帧的数量。对于不同的语音信号,h的值可不相同。
其中,此处的神经网络算法可为LSTM神经网络算法,神经网络模型为LSTM神经网络模型;或者,
神经网络算法可为BRNN算法,神经网络模型为BRNN模型;或者,
神经网络算法为RNN算法,神经网络模型为RNN模型。
下面以神经网络算法为BRNN算法,神经网络模型为BRNN模型为例,说明移动设备根据k个浊音帧的低频语音参数和神经网络模型,采用神经网络模型,得到k个浊音帧对应的k个高频语音信号的具体过程。
移动设备将解码得到的与k个浊音帧对应的k组频语音参数做归一化处理,得到各自对应的向量,k组频语音参数做归一化处理后得到的多个向量可以称为一个序列,k组频语音参数中的一组低频语音参数做归一化处理后得到的向量可以称为一个子序列。各子序列输入双向循环神经网络的顺序,是按照各子序列各自对应的语音帧的时间顺序输入的,也就是每个子序列对应一个时刻上的输入。
比如,按照浊音帧的时间顺序具有子序列1、子序列2、子序列3,若子序列2对应图6所示的Xt,则子序列1对应图6所示的Xt-1,子序列3对应图6所示的Xt+1
将k组频语音参数做归一化处理后得到的多个向量作为双向循环神经网络的输入,采用如上所述的双向循环神经网络算法,基于双向循环神经网络模型,得到k组低频语音参数中每组低频语音参数对应的输出,每个输出用于指示相应浊音帧的高频语音参数,可转化为高频语音参数,也就是得到k个浊音帧的k组高频语音参数。
比如,按照浊音帧的时间顺序具有子序列1、子序列2、子序列3,若子序列2对应的输出为图6所示的yt,则子序列1对应的输出为图6所示的yt-1,子序列3对应的输出为图6所示的yt+1
在双向循环神经网络算法中,每个子序列共享同一个双向循环神经网络模型,采用双向循环神经网络算法,得到各自对应的输出。
在移动设备根据BRNN模型,采用BRNN算法,得到k个浊音帧的k组高频语音参数后,移动设备根据k个浊音帧的k组高频语音参数,构建k个浊音帧对应的k个高频语音信号。
下面对双向循环神经网络BRNN模型的获取方法进行说明。
b1、获取多个第二训练样本;
b2、获取每个第二训练样本的标签,标签为第二训练样本包括的h组低频语音参数对应的h组高频语音参数;其中,第二训练样本包括的h组低频语音参数和相应标签包括的h组高频语音参数为同一语音信号的语音参数;
b3、根据各第二训练样本和对应的标签,采用双向循环神经网络算法对第二训练样本进行训练,得到双向循环神经网络模型。
对于b1、获取多个第二训练样本,一个第二训练样本包括一个其它语音信号的h个浊音帧的低频语音信号对应的h组低频语音参数,可以理解的是,此处的低频语音信号对应的频率范围与网络设备编码的低频语音参数对应的低频语音信号对应的频率范围相同,此处的低频语音参数与网络设备提取的低频语音参数或者移动设备解码得到的低频语音参数的种类相同。
比如:对于语音信号1,提取语音信号1的h1个浊音帧的h1组低频语音参数,得到一个第二训练样本1,也就是说第二训练样本1包括多组低频语音参数,每个浊音帧对应一组低频语音参数。
对于语音信号2,提取语音信号2的h2个浊音帧的h2组低频语音参数,得到一个第二训练样本2。
其中,h1和h2可相同,可不相同;语音信号1和语音信号2均为其它语音信号中的语音信号。
可以理解的是,第二训练样本的数量要足够大。
对于b2、获取每个第二训练样本的标签;
比如上述的第二训练样本1,提取语音信号1的h1个浊音帧的高频语音信号对应的h1组高频语音参数,语音信号1的h1个浊音帧的h1组高频语音参数即为第二训练样本1的标签。
比如上述的第二训练样本2,提取语音信号2的h2个浊音帧的高频语音信号对应的h2组高频语音参数,语音信号2的h2个浊音帧的h2组高频语音参数即为第二训练样本2的标签。
对于b3、对于第一个进行训练的第二训练样本1,将第二训练样本1的h1组低频语音参数各自归一化后的多个向量作为双向循环神经网络的输入,第二训练样本1的多组低频语音参数各自归一化后的多个向量可以称为一个序列,h1组低频语音参数中的每组低频语音参数归一化后的向量可以称为子序列,各子序列输入双向循环神经网络的顺序,是按照各子序列各自对应的语音帧的时间顺序输入的,也就是每个子序列对应一个时刻上的输入。
比如,第二训练样本1按照语音帧的时间顺序具有子序列1、子序列2、子序列3,若子序列2对应图6所示的Xt,则子序列1对应图6所示的Xt-1,子序列3对应图6所示的Xt+1
将第二训练样本1的标签归一化后的向量作为期望输出;
双向循环神经网络涉及的各连接权值以及偏置值赋予初始值,所有的子序列共享连接权值和偏置值;
根据上述的输入、各连接权值以及偏置值,采用双向循环神经网络算法,得到第二训练样本1的实际输出;可以理解的是,每一个子序列对应一个输出,所有子序列的输出组成第二训练样本1的实际输出;
比如,第二训练样本1按照语音帧的时间顺序具有子序列1、子序列2、子序列3,若子序列2对应的输出为图6所示的yt,则子序列1对应的输出为图6所示的yt-1,子序列3对应的输出为图6所示的yt+1
对实际输出和期望输出进行处理后,根据处理结果调整初始的各连接权值以及偏置值,得到调整后的各连接权值以及偏置值。
对于第二个进行训练的第二训练样本2,将第二训练样本2的h2组低频语音参数各自归一化后的向量作为双向循环神经网络的输入;
将第二训练样本2的标签归一化后的向量作为期望输出;
此次训练过程涉及的各连接权值以及偏置值采用第二训练样本1训练完毕后得到的调整后的各连接权值以及偏置值;
根据上述的输入、此次训练过程涉及的各连接权值以及偏置值,采用双向循环神经网络算法,得到第二训练样本2的实际输出;
对实际输出和期望输出进行处理后,根据处理结果调整此次训练过程涉及的各连接权值以及偏置值,得到调整后的各连接权值以及偏置值。
对于第三个进行训练的第二训练样本3,将第二训练样本3的h3组低频语音参数各自归一化后的向量作为双向循环神经网络的输入;
将第二训练样本3的标签归一化后的向量作为期望输出;
此次训练过程涉及的各连接权值以及偏置值采用第二训练样本2训练完毕后得到的调整后的各连接权值以及偏置值;
根据上述的输入、此次训练过程涉及的各连接权值以及偏置值,采用双向循环神经网络算法,得到第二训练样本3的实际输出;
对实际输出和期望输出进行处理后,根据处理结果调整此次训练过程涉及的各连接权值以及偏置值,得到调整后的各连接权值以及偏置值。
重复执行上述训练过程,直至达到预设的训练精度或者达到预设的训练次数,停止训练过程,每个训练样本至少被训练一次。
最后一次训练对应的双向循环神经网络以及各连接权值和偏置值即为BRNN模型。
其中,采用双向循环网络算法得到浊音帧对应的高频语音参数具有如下的有益效果:
如上对双向循环神经网络算法的介绍,可知对于t时刻的输入xt,其经过双向循环神经网络后对应输出yt可通过如下公式得到:
可知,yt不仅与t-1时刻的输入xt-1相关(ht-1是通过xt-1得到的),还与t+1时刻的输入xt+1相关(ht+1是通过xt+1得到的)。根据前述的介绍可知,当xt对应本申请实施例中的浊音帧a的一组低频语音参数时,其输出yt对应浊音帧a的一组高频语音参数,则xt-1对应本申请实施例中的浊音帧a的前一个浊音帧b的一组低频语音参数,xt+1对应本申请实施例中的浊音帧a的后一个浊音帧c的一组低频语音参数,也就是说当采用双向循环神经网络算法根据低频语音参数预测高频语音参数时,其不仅考虑了浊音帧a的前一个浊音帧b,也考虑了浊音帧a的后一个浊音帧c,结合语音的语义前后连贯性(即当前的语音信号不仅与上一帧语音信号相关,也与下一帧语音信号相关),可知,预测浊音帧a的高频语音参数时同时考虑其前后的浊音帧的信息,可提高对高频语音参数预测的准确度,即可提高通过低频语音信号预测高频语音信号的准确度。
综上所述,采用双向循环网络算法得到浊音帧对应的高频语音参数,可提高通过浊音帧的低频语音信号预测相应帧的高频语音信号的准确度。
通过上述步骤,移动设备得到了语音信号a的m个语音帧的m组高频语音信号和m组低频语音信号。
对于步骤S104、移动设备对m个语音帧中每个语音帧的低频语音信号和高频语音信号进行合成,得到宽带语音信号。
移动设备在将对m个语音帧中每个语音帧的低频语音信号和高频语音信号进行合成后,变得到了完整的宽带语音。
本实施例中的语音信号的处理方法在移动设备侧进行,不改变原有的通信系统,只需在移动设备侧设置相关的扩展装置或者扩展程序即可;根据语音参数区分浊音帧和清音帧,区分准确率高;根据清音帧和浊音帧性质的不同,采用混合高斯模型算法获取清音帧对应的高频语音信号,降低了噪声引入的概率,采用神经网络算法获取浊音帧对应的高频语音信号,保留了原始语音的情感度,从而可精确的再现原始语音,提升了用户的听觉感受。
应理解,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
上述针对移动设备所实现的功能,对本申请实施例提供的方案进行了介绍。可以理解的是,设备为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。结合本申请中所公开的实施例描述的各示例的单元及算法步骤,本申请实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的技术方案的范围。
本申请实施例可以根据上述方法示例对移动设备进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
图9为本申请实施例提供的移动设备的结构示意图;参见图9,本实施例的移动设备包括:解码模块31、处理模块32、获取模块33和合成模块34
解码模块31,用于对接收到的编码后的语音信号解码后得到m组低频语音参数;所述m组低频语音参数为所述语音信号的m个语音帧的低频语音参数,m为大于1的整数;
处理模块32,用于基于所述m组低频语音参数确定所述m个语音帧的类型,并重构m个语音帧对应的低频语音信号,所述类型包括清音帧或浊音帧;
获取模块33,用于根据n个清音帧的低频语音参数和混合高斯模型算法,得到所述n个清音帧对应的n个高频语音信号,并根据k个浊音帧的低频语音参数和神经网络算法,得到所述k个浊音帧对应的k个高频语音信号,n和k为大于1的整数,n和k的和等于m;
合成模块34,用于所述移动设备对m个语音帧中每个语音帧的低频语音信号和高频语音信号进行合成,得到宽带语音信号。
可选地,每组低频语音参数包括:基音周期;或者,子带信号强度;或者,增益值;或者,线谱频率。
本实施例的移动设备,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
在一种可能的设计中,所述处理模块32,具体用于:
根据所述m组低频语音参数和栈自动编码机SAE模型,采用SAE算法,得到m个标签,m个标签用于指示m组低频语音参数对应的m个语音帧的类型;
其中,所述SAE模型是所述移动设备或其它移动设备采用所述SAE算法,基于多个第一训练样本训练得到的,每个第一训练样本包括其它语音信号的一个语音帧的低频语音信号对应的低频语音参数。
在一种可能的设计中,所述获取模块33,具体用于:
根据n个清音帧的低频语音参数和混合高斯模型算法,得到n个清音帧的高频语音参数;
根据所述n个清音帧的高频语音参数,构建所述n个高频语音信号。
在一种可能的设计中,所述获取模块33,具体用于:
根据k个浊音帧的低频语音参数和神经网络模型,采用神经网络算法,得到k个浊音帧的高频语音参数;
根据所述k个浊音帧的高频语音参数,构建所述k个高频语音信号;
其中,所述神经网络模型是所述移动设备或其它移动设备采用所述神经网络算法,基于多个第二训练样本训练得到的,一个所述第二训练样本包括一个其它语音信号的h个浊音帧的低频语音参数,h为大于1的整数。
可选地,所述神经网络算法为长短期记忆(LSTM)神经网络算法,所述神经网络模型为LSTM神经网络模型;
可选地,所述神经网络算法为双向循环神经网络(BRNN)算法,所述神经网络模型为BRNN模型;或者,
可选地,所述神经网络算法为循环神经网络(RNN)算法,所述神经网络模型为RNN模型。
本实施例的移动设备,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图10为本申请实施例提供的移动设备的结构示意图二,包括处理器41、存储器42、通信总线43,处理器41用于读取并执行存储器42中的指令以实现上述方法实施例中的方法,或者,处理器41用于通过存储器42读取并调用另一个存储器中的指令以实现上述方法实施例中的方法。
图10所示的移动设备可以是一个设备,也可以是一个芯片或芯片组,设备或设备内的芯片具有实现上述方法实施例中的方法的功能。所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的单元。
上述提到的处理器可以是一个中央处理器(central processing unit,CPU)、微处理器或专用集成电路(application specific integrated circuit,ASIC),也可以是一个或多个用于控制上述各方面或其任意可能的设计的上行信息的传输方法的程序执行的集成电路。
本申请还提供一种计算机存储介质,包括指令,当所述指令在移动设备上运行时,使得移动设备执行上述方法实施例中相应的方法。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (12)

1.一种语音信号的处理方法,其特征在于,包括:
移动设备对接收到的编码后的语音信号解码后得到m组低频语音参数;所述m组低频语音参数为所述语音信号的m个语音帧的低频语音参数,m为大于1的整数;
所述移动设备基于所述m组低频语音参数确定所述m个语音帧的类型,并重构所述m个语音帧对应的低频语音信号,所述类型包括清音帧或浊音帧;
所述移动设备根据n个清音帧的低频语音参数和混合高斯模型算法,得到所述n个清音帧对应的n个高频语音信号,并根据k个浊音帧的低频语音参数和神经网络算法,得到所述k个浊音帧对应的k个高频语音信号,n和k为大于1的整数,n和k的和等于m;
所述移动设备对所述m个语音帧中每个语音帧的低频语音信号和高频语音信号进行合成,得到宽带语音信号。
2.根据权利要求1所述的方法,其特征在于,所述移动设备基于所述m组低频语音参数确定所述m个语音帧的类型,包括:
所述移动设备根据所述m组低频语音参数和栈自动编码机SAE模型,采用SAE算法,得到m个标签,所述m个标签用于指示所述m组低频语音参数对应的所述m个语音帧的类型;
其中,所述SAE模型是所述移动设备或其它移动设备采用所述SAE算法,基于多个第一训练样本训练得到的,每个第一训练样本包括其它语音信号的一个语音帧的低频语音信号对应的低频语音参数。
3.根据权利要求1或2所述的方法,其特征在于,所述移动设备根据n个清音帧的低频语音参数和混合高斯模型算法,得到所述n个清音帧对应的n个高频语音信号,包括:
所述移动设备根据n个清音帧的低频语音参数和混合高斯模型算法,得到所述n个清音帧的高频语音参数;
所述移动设备根据所述n个清音帧的高频语音参数,构建所述n个高频语音信号。
4.根据权利要求1或2所述的方法,其特征在于,所述移动设备根据k个浊音帧的低频语音参数和神经网络算法,得到所述k个浊音帧对应的k个高频语音信号,包括:
所述移动设备根据k个浊音帧的低频语音参数和神经网络模型,采用神经网络算法,得到所述k个浊音帧的高频语音参数;
所述移动设备根据所述k个浊音帧的高频语音参数,构建所述k个高频语音信号;
其中,所述神经网络模型是所述移动设备或其它移动设备采用所述神经网络算法,基于多个第二训练样本训练得到的,一个所述第二训练样本包括一个其它语音信号的h个浊音帧的h组低频语音参数,h为大于1的整数。
5.根据权利要求4所述的方法,其特征在于,所述神经网络算法为长短期记忆LSTM神经网络算法,所述神经网络模型为LSTM神经网络模型;或者,
所述神经网络算法为双向循环神经网络BRNN算法,所述神经网络模型为BRNN模型;或者,
所述神经网络算法为循环神经网络RNN算法,所述神经网络模型为RNN模型。
6.一种移动设备,其特征在于,包括:
解码模块,用于对接收到的编码后的语音信号解码后得到m组低频语音参数;所述m组低频语音参数为所述语音信号的m个语音帧的低频语音参数,m为大于1的整数;
处理模块,用于基于所述m组低频语音参数确定所述m个语音帧的类型,并重构m个语音帧对应的低频语音信号,所述类型包括清音帧或浊音帧;
获取模块,用于根据n个清音帧的低频语音参数和混合高斯模型算法,得到所述n个清音帧对应的n个高频语音信号,并根据k个浊音帧的低频语音参数和神经网络算法,得到所述k个浊音帧对应的k个高频语音信号,n和k为大于1的整数,n和k的和等于m;
合成模块,用于对m个语音帧中每个语音帧的低频语音信号和高频语音信号进行合成,得到宽带语音信号。
7.根据权利要求6所述移动设备,其特征在于,所述处理模块,具体用于:
根据所述m组低频语音参数和栈自动编码机SAE模型,采用SAE算法,得到m个标签,m个标签用于指示m组低频语音参数对应的m个语音帧的类型;
其中,所述SAE模型是所述移动设备或其它移动设备采用所述SAE算法,基于多个第一训练样本训练得到的,每个第一训练样本包括其它语音信号的一个语音帧的低频语音信号对应的低频语音参数。
8.根据权利要求6或7所述移动设备,其特征在于,所述获取模块,具体用于:
根据n个清音帧的低频语音参数和混合高斯模型算法,得到所述n个清音帧的高频语音参数;
根据所述n个清音帧的高频语音参数,构建所述n个高频语音信号。
9.根据权利要求6或7所述移动设备,其特征在于,所述获取模块,具体用于:
根据k个浊音帧的低频语音参数和神经网络模型,采用神经网络算法,得到所述k个浊音帧的高频语音参数;
根据所述k个浊音帧的高频语音参数,构建所述k个高频语音信号;
其中,所述神经网络模型是所述移动设备或其它移动设备采用所述神经网络算法,基于多个第二训练样本训练得到的,一个所述第二训练样本包括一个其它语音信号的h个浊音帧的低频语音参数,h为大于1的整数。
10.根据权利要求9所述移动设备,其特征在于,所述神经网络算法为长短期记忆LSTM神经网络算法,所述神经网络模型为LSTM神经网络模型;或者,
所述神经网络算法为双向循环神经网络BRNN算法,所述神经网络模型为BRNN模型;或者,
所述神经网络算法为循环神经网络RNN算法,所述神经网络模型为RNN模型。
11.一种计算机可读存储介质,其特征在于,计算机可读存储介质上存储有计算机程序,在所述计算机程序被处理器执行时,执行权利要求1至5中任一项所述的方法。
12.一种移动设备,其特征在于,包括处理器和存储器;
所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现如权利要求1-5任一所述的方法。
CN201880092454.2A 2018-05-11 2018-05-11 语音信号的处理方法和移动设备 Active CN112005300B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/086596 WO2019213965A1 (zh) 2018-05-11 2018-05-11 语音信号的处理方法和移动设备

Publications (2)

Publication Number Publication Date
CN112005300A CN112005300A (zh) 2020-11-27
CN112005300B true CN112005300B (zh) 2024-04-09

Family

ID=68466641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880092454.2A Active CN112005300B (zh) 2018-05-11 2018-05-11 语音信号的处理方法和移动设备

Country Status (2)

Country Link
CN (1) CN112005300B (zh)
WO (1) WO2019213965A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111415674A (zh) * 2020-05-07 2020-07-14 北京声智科技有限公司 语音降噪方法及电子设备
CN111710327B (zh) * 2020-06-12 2023-06-20 百度在线网络技术(北京)有限公司 用于模型训练和声音数据处理的方法、装置、设备和介质
CN112992167A (zh) * 2021-02-08 2021-06-18 歌尔科技有限公司 音频信号的处理方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996640A (zh) * 2009-08-31 2011-03-30 华为技术有限公司 频带扩展方法及装置
CN103026408A (zh) * 2010-07-19 2013-04-03 华为技术有限公司 音频信号产生装置
CN104517610A (zh) * 2013-09-26 2015-04-15 华为技术有限公司 频带扩展的方法及装置
CN104637489A (zh) * 2015-01-21 2015-05-20 华为技术有限公司 声音信号处理的方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8909539B2 (en) * 2011-12-07 2014-12-09 Gwangju Institute Of Science And Technology Method and device for extending bandwidth of speech signal
JP6730580B2 (ja) * 2016-01-06 2020-07-29 株式会社Jvcケンウッド 帯域拡張装置および帯域拡張方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101996640A (zh) * 2009-08-31 2011-03-30 华为技术有限公司 频带扩展方法及装置
CN103026408A (zh) * 2010-07-19 2013-04-03 华为技术有限公司 音频信号产生装置
CN104517610A (zh) * 2013-09-26 2015-04-15 华为技术有限公司 频带扩展的方法及装置
CN104637489A (zh) * 2015-01-21 2015-05-20 华为技术有限公司 声音信号处理的方法和装置

Also Published As

Publication number Publication date
CN112005300A (zh) 2020-11-27
WO2019213965A1 (zh) 2019-11-14

Similar Documents

Publication Publication Date Title
CN110600018B (zh) 语音识别方法及装置、神经网络训练方法及装置
CN107680611B (zh) 基于卷积神经网络的单通道声音分离方法
CN107358966B (zh) 基于深度学习语音增强的无参考语音质量客观评估方法
JP7258182B2 (ja) 音声処理方法、装置、電子機器及びコンピュータプログラム
US20130024191A1 (en) Audio communication device, method for outputting an audio signal, and communication system
CN110085245B (zh) 一种基于声学特征转换的语音清晰度增强方法
CN1750124B (zh) 带限音频信号的带宽扩展
CN112005300B (zh) 语音信号的处理方法和移动设备
EP1995723B1 (en) Neuroevolution training system
CN106782497B (zh) 一种基于便携式智能终端的智能语音降噪算法
CN108597496A (zh) 一种基于生成式对抗网络的语音生成方法及装置
CN109151692B (zh) 基于深度学习网络的助听器自验配方法
CN109785847B (zh) 基于动态残差网络的音频压缩算法
CN114267372A (zh) 语音降噪方法、系统、电子设备和存储介质
Wang et al. A Maximum Likelihood Approach to Deep Neural Network Based Nonlinear Spectral Mapping for Single-Channel Speech Separation.
CN114338623B (zh) 音频的处理方法、装置、设备及介质
Jiang et al. Latent-domain predictive neural speech coding
CN109215635B (zh) 用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法
CN114708876B (zh) 音频处理方法、装置、电子设备及存储介质
JPH1185194A (ja) 声質変換音声合成装置
Mamun et al. CFTNet: Complex-valued Frequency Transformation Network for Speech Enhancement
Liu et al. Spectral envelope estimation used for audio bandwidth extension based on RBF neural network
CN114141266A (zh) 基于pesq驱动的强化学习估计先验信噪比的语音增强方法
CN113571079A (zh) 语音增强方法、装置、设备及存储介质
KR20200085148A (ko) 뉴럴 네트워크 모델에 기반하여 무선 통신을 수행하는 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant