CN101740030B - 语音信号的发送及接收方法、及其装置 - Google Patents

语音信号的发送及接收方法、及其装置 Download PDF

Info

Publication number
CN101740030B
CN101740030B CN200810225885XA CN200810225885A CN101740030B CN 101740030 B CN101740030 B CN 101740030B CN 200810225885X A CN200810225885X A CN 200810225885XA CN 200810225885 A CN200810225885 A CN 200810225885A CN 101740030 B CN101740030 B CN 101740030B
Authority
CN
China
Prior art keywords
code stream
speech signal
characteristic parameters
residual values
acoustical characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200810225885XA
Other languages
English (en)
Other versions
CN101740030A (zh
Inventor
冯宇红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mid Star Technology Ltd By Share Ltd
Vimicro Corp
Original Assignee
Vimicro Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vimicro Corp filed Critical Vimicro Corp
Priority to CN200810225885XA priority Critical patent/CN101740030B/zh
Publication of CN101740030A publication Critical patent/CN101740030A/zh
Application granted granted Critical
Publication of CN101740030B publication Critical patent/CN101740030B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种语音信号的发送及接收方法,用以在保证根据声学特征参数进行模式识别的准确性和重建语音信号质量的基础上,减小对网络带宽传输资源的占用。该方法发送方对原始语音信号进行编码,得到语音压缩码流;对编码所产生的语音压缩码流进行解码处理,获得重建语音信号;确定原始语音信号的声学特征参数和重建语音信号的声学特征参数之间的残差值;对确定的声学特征参数之间的残差值进行编码,得到特征参数残差值码流;将所述语音压缩码流和特征参数残差值码流发送给接收方。本发明对应的还公开了一种语音信号的发送及接收装置。

Description

语音信号的发送及接收方法、及其装置
技术领域
本发明涉及通信技术领域中的语音识别技术,尤其涉及一种语音信号的发送及接收方法、以及语音信号的发送及接收装置。
背景技术
在现有的语音识别系统中,主要包括数据采集功能模块、声学特征参数提取功能模块和模式识别功能模块。语音识别系统的基本工作原理为:声学特征参数提取功能模块从数据采集功能模块采集到的原始语音信号中提取声学特征参数,模式识别功能模块根据预先训练得到的声学特征参数模型库,对声学特征参数提取功能模块所获得的声学特征参数进行分析,识别出语音信号所表示的语言内容信息。
通常所说的分布式语音识别系统是指数据采集功能模块、声学特征参数提取功能模块和模式识别功能模块是由分布在不同地理位置上的客户端和服务器分别来实现的,例如基于固定电话网络、移动通信网络的分布式语音识别系统。服务器需要获得语音信号和该语音信号的声学特征参数。按照客户端和服务器所实现的功能差异,分布式语音识别系统通常可被分为以下三类:
第一类:客户端只对原始语音信号进行编码压缩,并将编码压缩所产生的语音压缩码流发送到服务器,服务器根据所接收到的语音压缩码流生成重建语音信号,并从重建语音信号中提取声学特征参数。
第二类:客户端提取原始语音信号的声学特征参数,并对提取的声学特征参数进行编码压缩,然后将编码压缩后所得到的特征参数码流发送到服务器,服务器根据所接收到的特征参数码流来生成重建语音信号。
第三类:请参照附图1,客户端提取原始语音信号的声学特征参数,并分别对原始语音信号和提取到的声学特征参数进行编码压缩,并把编码压缩后的语音压缩码流和特征参数码流进行复用后,发送给服务器。请参照附图2,服务器对接收到的码流解复用,得到语音压缩码流和特征参数码流,分别通过对语音压缩码流和特征参数码流解码,来获得重建语音信号和声学特征参数。
其中在第一类分布式语音识别系统中,由于在服务器中根据接收到的语音压缩码流生成的重建语音信号与原始语音信号相比,会有一定的压缩损失和失真,因此根据从重建语音信号中提取的声学特征参数来进行模式识别时,识别的准确性会受到影响;在第二类分布式语音识别系统中,服务器端根据声学特征参数生成的重建语音信号会有明显的噪声,重建语音信号的质量较差;而第三类分布式语音识别系统虽然可以同时保证服务器对声学特征参数进行模式识别的准确性和重建语音信号的质量,但是在第三类分布式语音识别系统中,客户端需要向服务器传送由语音压缩码流和特征参数码流复用后生成的码流,因此会造成传送的数据量比较大,需要占用较多的网络带宽传输资源。
发明内容
本发明实施例提供一种语音信号的发送及接收方法,用以在保证根据声学特征参数进行模式识别的准确性和重建语音信号质量的基础上,减小对网络带宽传输资源的占用。
对应的,本发明还提供了一种语音信号的发送及接收装置。
本发明实施例提供的技术方案如下:
一种语音信号的发送方法,包括:
对原始语音信号进行编码,得到语音压缩码流;
对编码所产生的语音压缩码流进行解码处理,获得重建语音信号;
分别提取原始语音信号和重建语音信号的声学特征参数,并根据提取到的声学特征参数,确定原始语音信号的声学特征参数和重建语音信号的声学特征参数之间的残差值;
对确定的声学特征参数之间的残差值进行编码,得到特征参数残差值码流;
将所述语音压缩码流和特征参数残差值码流发送给接收方。
一种语音信号的发送装置,包括:
语音信号编码单元,用于对原始语音信号进行编码,得到语音压缩码流;
语音信号解码单元,用于对语音信号编码单元所产生的语音压缩码流进行解码处理,获得重建语音信号;
声学特征参数提取单元,用于分别从原始语音信号和语音信号解码单元所得到的重建语音信号中提取声学特征参数;
声学特征参数残差值确定单元,用于根据声学特征参数提取单元提取得到的原始语音信号的声学特征参数和重建语音信号的声学特征参数,确定原始语音信号的声学特征参数和重建语音信号的声学特征参数之间的残差值;
特征参数残差值编码单元,用于对声学特征参数残差值确定单元所确定的声学特征参数之间的残差值进行编码,得到特征参数残差值码流;
码流发送单元,用于将语音信号编码单元所得到的语音压缩码流和特征参数残差值编码单元所得到的特征参数残差值码流发送给接收方。
一种语音信号的接收方法,包括:
从接收到的码流中得到语音压缩码流和特征参数残差值码流;
对语音压缩码流进行解码处理,获得重建语音信号;
提取所述重建语音信号中的声学特征参数;
对特征参数残差值码流进行解码处理,获得原始语音信号中的声学特征参数和重建语音信号中的声学特征参数之间的残差值;
将所述声学特征参数之间的残差值与从重建语音信号中提取的声学特征参数相加,将相加结果作为原始语音信号的声学特征参数。
一种语音信号的接收装置,包括:
码流接收单元,用于接收码流,并从接收到的码流中得到语音压缩码流和特征参数残差值码流;
语音信号解码单元,用于对码流接收单元所得到的语音压缩码流进行解码,获得重建语音信号;
声学特征参数提取单元,用于从语音信号解码单元所得到的重建语音信号中提取声学特征参数;
特征参数残差值解码单元,用于对码流接收单元所得到的特征参数残差值码流进行解码,获得原始语音信号中的声学特征参数和重建语音信号中的声学特征参数之间的残差值;
声学特征参数确定单元,用于将声学特征参数残差值解码单元所得到的声学特征参数之间的残差值与声学特征参数提取单元所得到的重建语音信号的声学特征参数相加,将相加结果作为原始语音信号的声学特征参数。
一种语音信号的编码方法,包括:
接收输入的语音信号;检测所输入的语音信号中是否出现了预定的异常事件,并根据检测结果确定语音信号的异常度值;根据所述异常度值控制语音信号的编码速率。
一种语音信号的编码系统,包括:
语音信号接收单元,用于接收输入的语音信号;
异常事件检测单元,用于检测语音信号接收单元所接收到的语音信号中是否出现了预定的异常事件,并根据检测结果确定语音信号的异常度值;
语音编码单元,用于对语音信号接收单元接收的语音信号进行编码;
码率控制单元,用于根据异常事件检测单元检测到的异常度值控制语音编码单元对语音信号进行编码的编码速率。
本发明实施例充分利用了重建语音信号与原始语音信号之间存在相似性的特点,在发送方对分别从原始语音信号和重建语音信号中提取的声学特征参数之间的残差值进行编码,得到声学特征参数残差值码流,声学特征参数残差值码流与现有技术中对原始语音信号的声学特征参数进行编码所获得的声学特征参数码流相比,所占用的网络传输带宽资源更少,因此,本发明实施例提出的技术方案在保证语音信号接收方根据声学特征参数进行模式识别的准确性和重建语音信号质量的基础上,减小了语音信号发送方向语音信号接收方发送的码流所占用的网络传输资源。
附图说明
图1为现有分布式语音识别系统客户端的结构示意图;
图2为现有分布式语音识别系统服务器的结构示意图;
图3为本发明实施例的主要实现原理流程图;
图4为本发明实施例发送方的主要实现原理流程图;
图5为本发明实施例接收方的主要实现原理流程图;
图6为本发明实施例特征参数提取的原理流程图;
图7为本发明实施例中语音信号的发送装置的结构示意图;
图8为本发明实施例中码流发送单元的结构示意图;
图9为本发明实施例中语音信号编码单元的结构示意图;
图10为本发明实施例中语音信号的接收装置的结构示意图;
图11为本发明实施例中码流接收单元的结构示意图;
图12为本发明实施例中语音信号编码系统的结构示意图。
具体实施方式
下面结合各个附图对本发明实施例的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。
在本发明实施例中,发送方的功能可以由客户端来实现,接收方的功能可以由服务器来实现。
请参照附图3,本发明实施例的主要实现原理流程如下:
步骤10,发送方,对原始语音信号进行编码压缩,通过语音信号解码器对编码压缩所产生的语音压缩码流进行解码处理获得重建语音信号,分别提取原始语音信号和重建语音信号中的声学特征参数,并根据提取到的声学特征参数信息,求取原始语音信号中的声学特征参数和重建语音信号中的声学特征参数之间的残差值,然后对求取的声学特征参数残差值进行编码压缩,得到特征参数残差值码流,将对原始语音信号编码压缩所获得的语音压缩码流和特征参数残差值码流进行复用后得到的复用码流发送给服务器。
步骤20,接收方,对接收到的复用码流解复用,分别获得语音压缩码流和特征参数残差值码流;并对语音压缩码流进行解码处理获得重建语音信号,对特征参数残差值码流进行解码处理,获得原始语音信号中的声学特征参数和重建语音信号中的声学特征参数之间的残差值;将获得的声学特征参数残差值与从重建语音信号中提取的声学特征参数相加,将相加结果作为用来进行模式识别的声学特征参数。
请参照附图4,在步骤10中,在分别提取原始语音信号和重建语音信号中的声学特征参数之前,进一步还需要对原始语音信号进行延迟调整,以保证调整之后的原始语音信号和重建语音信号之间保持同步。在对原始语音信号中的声学特征参数和重建语音信号中的声学特征参数之间的残差值进行编码压缩时,要采用矢量量化的编码压缩方法。
请参照附图5,在步骤20中,在对特征参数残差值码流进行解码处理生成声学特征参数残差值时,采用的解码方法与步骤10中对声学特征参数残差值进行编码压缩的方法相对应,即要采用矢量量化的解码方法。
以下将结合具体实例对上述方法进行进一步的说明:
请参照附图4,发送方,首先通过语音信号编码器对原始语音信号进行编码压缩,获得语音压缩码流。具体方法如下:在对原始语音信号进行编码时,首先通过异常事件检测单元检测原始语音信号中是否出现了异常事件(例如尖叫声、枪声、爆炸声等),并根据检测结果确定原始语音信号的异常度值;码率控制单元根据异常事件检测单元所确定出的异常度值控制语音信号的编码速率。将原始语音信号分解为高频语音信号和低频语音信号,对于高频语音信号时,使用相当少的比特对原始语音信号进行频谱扩展(Bandwidth Expansion,BWE)编码;对于低频语音信号时,使用在基于代数码激励线性预测的方法(ACELP)和变换激励编码(TCX,transform coded excitation)技术之间切换的核心编码器进行编码。
然后,通过语音信号解码器对语音压缩码流进行解码,生成重建语音信号,这里需要指明的是,语音信号解码器中使用的解码方法与语音信号编码器中使用的编码方法相对应。
对所获得的重建语音信号进行延迟调整,使得调整后的重建语音信号与原始语音信号保持同步后,分别提取原始语音信号和重建语音信号中的声学特征参数。由于美尔频率倒谱(MFCC,Mel-frequencey cepstral coefficients)系数具有良好的模式识别性能和抗噪声特点,因此在本实施例中,选择MFCC系数作为用来进行模式识别的声学特征参数。输入的原始语音信号S(n)为重叠短时帧,每帧的时间长度为25ms,相邻帧之间的时移为10ms,每10ms计算一次MFCC系数。声学特征参数为14维矢量,其具体包括13维MFCC系数及一维短时帧的对数能量。
请参照附图6,从原始语音信号中提取MFCC系数作为声学特征参数的方法具体包括以下步骤:
第一步,对输入的原始语音信号进行噪声消除处理,得到噪声消除后的原始语音信号S′(n)。噪声消除处理用于降低背景噪声,提高原始语音信号的信噪比。
第二步,对噪声消除处理后的原始语音信号S′(n)进行预加重处理,预加重处理用于提升S′(n)的高频部分,使S′(n)的频谱较为平坦,便于后续进行频谱分析。预加重处理可以通过一个一阶高通滤波器来实现,预加重处理后得到的信号Spe(n)与S′(n)的关系如下:
Spe(n)=S′(n)-0.9S′(n-1);
此外,确定帧的对数能量 ln ( E ) = ln [ Σ n = 1 N S ′ ( n ) × S ′ ( n ) ] , 其中N=400,为原始语音信号的采样频率;
第三步,对预加重处理后的语音信号Spe(n)进行加窗处理,在本实施例中,所使用的加窗窗口为N=400的汉明(Hamming)窗,加窗处理后的语音信号为:
S pe _ w ( n ) = ( 0.54 - 0.46 × cos 2 πn N ) × S pe ( n ) , 0 ≤ n ≤ N - 1 ;
第四步,对加窗处理后的语音信号Spe_w(n)进行快速傅里叶(FFT,FastFourier Transform)变换处理,以确定语音信号Spe_w(n)的频谱。即先通过补零将具有N个样本的语音信号Spe_w(n)扩展为有512个样本的语音信号
Figure G200810225885XD00083
对扩展后的语音信号
Figure G200810225885XD00084
进行快速FFT变换,确定语音信号的频谱X(bin)如下:
X ( bin ) = FFT { S pe _ w ′ ( n ) } ;
第五步,根据语音信号的频谱X(bin),确定语音信号的功率谱P(bin)为:
P(bin)=|X(bin)|2,0≤bin≤NFFT,/2,其中NFFT=512;
第六步,对语音信号的功率谱X(bin)进行Mel滤波处理,可以通过23(M=23)个三角带通滤波器对语音信号的功率谱X(bin)进行滤波处理来实现。语音信号的功率谱在Mel域被分为M个子带,每个子带对应一个三角形窗口,相邻子带之间有50%的重叠部分,对落在每个三角形窗口内的功率谱求和得到Mel滤波处理后的结果fbank(n),(n=1,...,M);
第七步,对Mel滤波处理后的结果进行取自然对数的处理,结果为E(n):
E(n)=ln(fbank(n)),n=1,...,M;
第八步,对第七步取自然对数的结果进行离散余弦变换(DCT,DiscreteCosine Transform)处理,得到13个倒谱系数,即0阶至12阶的MFCC系数:
C ( i ) = Σ n = 1 M E ( n ) × cos [ π × i M × ( n - 0.5 ) ] , 0 ≤ i ≤ 12 ,
根据上述8个步骤,可以分别确定由13个倒谱系数和对数能量ln(E)构成的14维的原始语音信号的声学特征参数y1(t),同理可确定由13个倒谱系数和对数能量ln(E)构成的14维的重建语音信号的声学特征参数y2(t),二者相减,可以得到声学特征参数残差值y(t):
y(t)=[C(1),C(2),C(3),C(4),C(5),C(6),C(7),C(8),C(9),C(10),C(11),C(12),C(0),ln(E)]T,其中C(i)分别表示第i阶MFCC系数。
采用分裂矢量量化的方法对上述声学特征参数残差值y(t)进行编码压缩处理,具体如下:
首先,按照每组2个将声学特征参数残差值y(t)中的14维向量分为7组,对于每组向量分别用独立的编码表Qi,i+1进行量化,进行矢量量化时根据加权欧氏距离确定矢量量化时的失真度,选择编码表中与该组向量最接近的码字,然后通过对该选择的码字进行编码实现对该组向量进行编码。然后将7组向量的编码码流组合在一起作为声学特征参数残差值y(t)的编码压缩码流,具体计算方式如下:
d j i , i + 1 = [ y i ( t ) y i + 1 ( t ) ] - q j i , i + 1
idx i , i + 1 ( t ) = arg min 0 ≤ j ≤ ( N i , i + 1 - 1 ) { ( d j i , i + 1 ) W i , i + 1 ( d j i , i + 1 ) } , i = { 0,2,4 , . . . , 12 }
其中,
Figure G200810225885XD00093
表示编码表Qi,i+1的第j个码字,(Ni,i+1-1)为编码表Qi,i+1所包含码字的数量,Wi,i+1为编码表Qi,i+1的加权矩阵,idxi,i+1(t)为矢量量化所得到的[yi(t),yi+1(t)]T在编码表Qi,i+1中的码字索引值。
加权矩阵具体如下:
W 0,1 = W 2,3 = W 4,5 = W 6,7 = W 8,9 = W 10,11 = 1 0 0 1 ,
W 12,13 = 10586.5 0 0 15.2 .
矢量量化时所使用的编码表Qi,i+1可以基于LBG(Linde Buzo Gray)方法通过训练得到,其中下表1给出了对声学特征参数残差值进行矢量量化时所使用的7个编码表的大小,对于包含16个码字的编码表,可以使用4bit码流对编码表中的码字进行编码;对于包含8个码字的第6个编码表,可以使用3bit码流对编码表中的码字进行编码;对于包含64个码字的第7个编码表,可以使用6bit码流对编码表中的码字进行编码,因此可以使用29bit(4+4+4+4+4+3+6=29)码流对声学特征参数残差值进行编码,由于声学特征参数的采样时间间隔为10ms,因此将声学特征参数残差值进行编码后,特征参数码流所占用的网络传输带宽为2900bps。
表1:声学特征参数残差值的矢量量化编码表信息
 
编码表 编码表所包含的码字数量 编码表对应的特征参数向量
Q0,1 16 [c(1),c(2)]
Q2,3 16 [c(3),c(4)]
Q4,5 16 [c(5),c(6)]
Q6,7 16 [c(7),c(8)]
Q8,9 16 [c(9),c(10)]
Q10,11 8 [c(11),c(12)]
Q12,13 64 [c(0),ln(E)]
而在现有的语音识别系统中,对从原始语音信号中提取的声学特征参数y1(t)进行编码压缩时,矢量量化时所使用的编码表信息如下表2所示,对于包含64个码字的前5个编码表,可以使用6bit码流对编码表中的码字进行编码;对于包含32个码字的第6个编码表,可以使用5bit码流对编码表中的码字进行编码;对于包含256个码字的第7个编码表,可以使用8bit码流对编码表中的码字进行编码。因此,总共需要43bit(6×5+5+8=43)来对从原始语音信号中提取的声学特征参数进行编码,在采样时间间隔为10ms时,对从原始语音信号中提取的声学特征参数进行编码后,生成的特征参数码流所占用的网络传输带宽为4300bps。
表2:原始语音信号中声学特征参数的矢量量化编码表信息
 
编码表 编码表所包含的码字数量 编码表对应的特征参数向量
Q0,1 64 [c(1),c(2)]
Q2,3 64 [c(3),c(4)]
Q4,5 64 [c(5),c(6)]
Q6,7 64 [c(7),c(8)]
 
Q8,9 64 [c(9),c(10)]
Q10,11 32 [c(11),c(12)]
Q12,13 256 [c(0),ln(E)]
综上可见,本发明实施例充分利用了重建语音信号与原始语音信号之间存在相似性的特点,考虑到重建语音信号与原始语音信号之间的残差值与原始语音信号相比,前者的取值范围要小于后者的取值范围,因此原始语音信号中的声学特征参数和重建语音信号中的声学特征参数之间的声学特征参数残差值的取值范围,要小于原始语音信号中的声学特征参数的取值范围,在同样的失真度条件下对二者进行编码压缩时,表征声学特征参数残差值的编码表中的码字数量要远小于表征原始语音信号声学特征参数中的编码表的码字数量,因此在进行矢量编码压缩后,声学特征参数残差值码流比原始语音信号中的声学特征参数码流所占用的网络传输带宽资源要少。比如在上一具体实施例中,采用本发明方案对声学特征参数残差值进行编码处理得到的特征参数码流所占用的网络传输带宽,相对于直接采用现有技术对原始语音信号中的声学特征参数进行编码处理得到特征参数码流所占用的网络传输带宽减少了(4300-2900)/4300=32.5%。
相应地,本发明实施例还提供了一种语音信号的发送装置,请参照附图7,该装置包括语音信号编码单元710、语音信号解码单元720、声学特征参数提取单元730、声学特征参数残差值确定单元740、声学特征参数残差值编码单元750和码流发送单元760,具体如下:
语音信号编码单元710,用于对输入的原始语音信号进行编码,得到语音压缩码流;
语音信号解码单元720,用于对语音信号编码单元710所产生的语音压缩码流进行解码处理,获得重建语音信号;
声学特征参数提取单元730,用于分别从原始语音信号中提取原始语音信号的声学特征参数,从语音信号解码单元720所得到的重建语音信号中提取重建语音信号的声学特征参数,在本实施例中声学特征参数为14维矢量,具体是13维MFCC系数和一维短时帧对数能量;
声学特征参数残差值确定单元740,用于根据声学特征参数提取单元730得到的原始语音信号的声学特征参数和重建语音信号的声学特征参数,确定原始语音信号的声学特征参数和重建语音信号的声学特征参数之间的残差值;
声学特征参数残差值编码单元750,用于对声学特征参数残差值确定单元740所确定的声学特征参数之间的残差值进行编码,得到特征参数残差值码流,在编码时采用分裂矢量量化的方法;
码流发送单元760,用于将语音信号编码单元710所得到的语音压缩码流和声学特征参数残差值编码单元750所得到的特征参数残差值码流发送给接收方。
请参照附图8,码流发送单元包括:码流复用子单元810和码流发送子单元820,其中,
码流复用子单元810,用于将语音信号编码单元所得到的语音压缩码流和特征参数残差值编码单元所得到的特征参数残差值码流进行复用,得到复用后的码流;码流发送子单元820,用于将码流复用子单元810所得到的码流发送给接收方。
所述语音信号的发送装置还包括:同步处理单元,用于对原始语音信号和语音信号解码单元得到的重建语音信号进行同步处理;声学特征参数提取单元分别从同步处理单元同步处理后的原始语音信号和重建语音信号中提取声学特征参数。
请参照附图9,语音信号编码单元包括语音信号分解子单元910、低频语音信号编码子单元920和高频语音信号编码子单元930,其中,
语音信号分解子单元910,用于将原始语音信号分解为低频语音信号和高频语音信号;
低频语音信号编码子单元920,用于对语音信号分解子单元910输出的低频语音信号,使用在基于代数码激励线性预测的方法和变换激励编码技术之间切换的核心编码器进行编码;
高频语音信号编码子单元930,用于对语音信号分解子单元910输出的高频语音信号,使用相当少的比特对原始语音信号进行频谱扩展编码。
此外,请参照附图10,本发明实施例还提供了一种语音信号的接收装置,包括:码流接收单元101、语音信号解码单元102、声学特征参数提取单元103、声学特征参数残差值解码单元104和声学特征参数确定单元105,其中,
码流接收单元101,用于接收码流,并从接收到的码流中得到语音压缩码流和声学特征参数残差值码流;
语音信号解码单元102,用于对码流接收单元101所得到的语音压缩码流进行解码,以获得重建语音信号,采用的解码方法与发送方对语音信号进行编码压缩的方法相对应,即低频部分采用代数码激励线性预测和变换激励编码技术对应的解码技术,高频部分使用频谱扩展解码技术,最后使用合成单元将解码得到高频信号和低频信号合并得到重建的语音信号。
声学特征参数提取单元103,用于从语音信号解码单元102所得到的重建语音信号中提取声学特征参数;
声学特征参数残差值解码单元104,用于对码流接收单元101所得到的声学特征参数残差值码流进行解码,获得原始语音信号的声学特征参数和重建语音信号的声学特征参数之间的残差值;
声学特征参数确定单元105,用于将声学特征参数残差值解码单元104所得到的声学特征参数之间的残差值与声学特征参数提取单元103所得到的重建语音信号的声学特征参数相加,将相加结果作为原始语音信号的声学特征参数。
请参照图11,码流接收单元包括:
码流接收子单元111,用于接收发送方发送的码流;以及
解复用处理子单元112,用于对码流接收子单元111所接收到的码流进行流。
上述语音信号的发送装置和语音信号的接收装置中的声学特征参数提取单元从原始语音信号或重建语音信号中提取声学特征参数的详细处理过程,请参照上述方法实施例的对应处理过程,这里不再详细赘述。
本发明实施例还提供了一种语音信号编码系统,请参照图12,该系统包括语音信号接收单元121、异常事件检测单元122、码率控制单元123和语音编码单元124,其中,
语音信号接收单元121,用于接收输入的语音信号;
异常事件检测单元122,用于检测语音信号接收单元121所接收到的语音信号中是否出现了预定的异常事件,并根据检测结果确定语音信号的异常度值;
语音编码单元124,用于对语音信号接收单元121接收的语音信号进行编码;
码率控制单元123,用于根据异常事件检测单元122检测到的异常度值控制语音编码单元124对语音信号进行编码的编码速率。
该语音信号编码系统适应于在上述语音信号的发送装置中,对原始语音信号进行编码,即实现语音信号编码单元的功能。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (14)

1.一种语音信号的发送方法,其特征在于,包括:
对原始语音信号进行编码,得到语音压缩码流;
对编码所产生的语音压缩码流进行解码处理,获得重建语音信号;
分别提取原始语音信号和重建语音信号的声学特征参数,并
根据提取到的声学特征参数,确定原始语音信号的声学特征参数和重建语音信号的声学特征参数之间的残差值;
对确定的声学特征参数之间的残差值进行编码,得到特征参数残差值码流;
将所述语音压缩码流和特征参数残差值码流发送给接收方。
2.如权利要求1所述的方法,其特征在于,对原始语音信号进行编码包括:
接收输入的原始语音信号;
检测所输入的原始语音信号中是否出现了预定的异常事件,并
根据检测结果控制原始语音信号的编码速率。
3.如权利要求1所述的方法,其特征在于,对原始语音信号进行编码包括:
将原始语音信号分解为低频语音信号和高频语音信号;
对所述低频语音信号,使用在基于代数码激励线性预测的方法和变换激励编码技术之间切换的核心编码器进行编码;
对所述高频语音信号进行频谱扩展编码。
4.如权利要求1所述的方法,其特征在于,将所述语音压缩码流和特征参数残差值码流发送给接收方,具体包括:
将所述语音压缩码流和特征参数残差值码流进行复用,以及
将复用后的码流发送给接收方。
5.如权利要求1所述的方法,其特征在于,在分别提取原始语音信号和重建语音信号中的声学特征参数之前,还包括:
对原始语音信号和获得的重建语音信号进行同步处理。
6.一种语音信号的发送装置,其特征在于,包括:
语音信号编码单元,用于对原始语音信号进行编码,得到语音压缩码流;
语音信号解码单元,用于对语音信号编码单元所产生的语音压缩码流进行解码处理,获得重建语音信号;
声学特征参数提取单元,用于分别从原始语音信号和语音信号解码单元所得到的重建语音信号中提取声学特征参数;
声学特征参数残差值确定单元,用于根据声学特征参数提取单元提取到的声学特征参数,确定原始语音信号的声学特征参数和重建语音信号的声学特征参数之间的残差值;
声学特征参数残差值编码单元,用于对声学特征参数残差值确定单元所确定的声学特征参数之间的残差值进行编码,得到特征参数残差值码流;
码流发送单元,用于将语音信号编码单元所得到的语音压缩码流和特征参数残差值编码单元所得到的特征参数残差值码流发送给接收方。
7.如权利要求6所述的装置,其特征在于,所述语音信号编码单元包括:
语音信号接收子单元,用于接收输入的原始语音信号;
异常事件检测子单元,用于检测语音信号接收子单元所接收到的语音信号中是否出现了预定的异常事件;
语音编码子单元,用于对语音信号接收子单元接收的原始语音信号进行编码;
码率控制子单元,用于根据异常事件检测子单元的检测结果控制语音编码子单元对原始语音信号进行编码的编码速率。
8.如权利要求6所述的装置,其特征在于,所述语音信号编码单元包括:
语音信号分解子单元,用于将原始语音信号分解为低频语音信号和高频语音信号;
低频语音信号编码子单元,用于对语音信号分解子单元输出的低频语音信号,使用在基于代数码激励线性预测的方法和变换激励编码技术之间切换的核心编码器进行编码;
高频语音信号编码子单元,用于对语音信号分解子单元输出的高频语音信号,进行频谱扩展编码。
9.如权利要求6所述的装置,其特征在于,码流发送单元具体包括:
码流复用子单元,用于将语音信号编码单元所得到的语音压缩码流和特征参数残差值编码单元所得到的特征参数残差值码流进行复用;
码流发送子单元,用于将码流复用子单元复用所得到的码流发送给接收方。
10.如权利要求6所述的装置,其特征在于,还包括:
同步处理单元,用于对原始语音信号和语音信号解码单元得到的重建语音信号进行同步处理;
声学特征参数提取单元分别从同步处理单元同步处理后的原始语音信号和重建语音信号中提取声学特征参数。
11.一种语音信号的接收方法,其特征在于,包括:
从接收到的码流中得到语音压缩码流和特征参数残差值码流;
对语音压缩码流进行解码处理,获得重建语音信号;
提取所述重建语音信号中的声学特征参数;
对特征参数残差值码流进行解码处理,获得原始语音信号中的声学特征参数和重建语音信号中的声学特征参数之间的残差值;
将所述声学特征参数之间的残差值与从重建语音信号中提取的声学特征参数相加,将相加结果作为原始语音信号的声学特征参数。
12.如权利要求11所述的方法,其特征在于,从接收到的码流中得到语音压缩码流和特征参数残差值码流,具体包括:
接收码流;以及
对接收到的码流进行解复用处理,从解复用得到的码流中分别获得语音压缩码流和特征参数残差值码流。
13.一种语音信号的接收装置,其特征在于,包括:
码流接收单元,用于接收码流,并从接收到的码流中得到语音压缩码流和特征参数残差值码流;
语音信号解码单元,用于对码流接收单元所得到的语音压缩码流进行解码,获得重建语音信号;
声学特征参数提取单元,用于从语音信号解码单元所得到的重建语音信号中提取声学特征参数;
声学特征参数残差值解码单元,用于对码流接收单元所得到的特征参数残差值码流进行解码,获得原始语音信号中的声学特征参数和重建语音信号中的声学特征参数之间的残差值;
声学特征参数确定单元,用于将声学特征参数残差值解码单元所得到的声学特征参数之间的残差值与声学特征参数提取单元所得到的声学特征参数相加,将相加结果作为原始语音信号的声学特征参数。
14.如权利要求13所述的装置,其特征在于,码流接收单元具体包括:
码流接收子单元,用于接收码流;
解复用处理子单元,用于对码流接收子单元所接收到的码流进行解复用处理,从解复用得到的码流中获得语音压缩码流和特征参数残差值码流。
CN200810225885XA 2008-11-04 2008-11-04 语音信号的发送及接收方法、及其装置 Active CN101740030B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810225885XA CN101740030B (zh) 2008-11-04 2008-11-04 语音信号的发送及接收方法、及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810225885XA CN101740030B (zh) 2008-11-04 2008-11-04 语音信号的发送及接收方法、及其装置

Publications (2)

Publication Number Publication Date
CN101740030A CN101740030A (zh) 2010-06-16
CN101740030B true CN101740030B (zh) 2012-07-18

Family

ID=42463406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810225885XA Active CN101740030B (zh) 2008-11-04 2008-11-04 语音信号的发送及接收方法、及其装置

Country Status (1)

Country Link
CN (1) CN101740030B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111385624B (zh) * 2018-12-29 2021-10-01 深圳Tcl新技术有限公司 一种基于语音的数据传输控制方法、智能电视及存储介质
CN110556125B (zh) * 2019-10-15 2022-06-10 出门问问信息科技有限公司 基于语音信号的特征提取方法、设备及计算机存储介质
CN113112993B (zh) * 2020-01-10 2024-04-02 阿里巴巴集团控股有限公司 一种音频信息处理方法、装置、电子设备以及存储介质
CN115116455A (zh) * 2022-06-15 2022-09-27 腾讯科技(深圳)有限公司 音频处理方法、装置、设备、存储介质及计算机程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1228867A (zh) * 1997-06-26 1999-09-15 北方电讯有限公司 改善串联声码器话音质量的方法与设备
CN1890711A (zh) * 2003-10-10 2007-01-03 新加坡科技研究局 将数字信号编码成可扩缩比特流的方法和对可扩缩比特流解码的方法
CN1998046A (zh) * 2004-11-02 2007-07-11 编码技术股份公司 改善基于预测的多声道重构的性能的方法
CN101097716A (zh) * 2006-06-26 2008-01-02 索尼株式会社 数字信号处理设备、处理方法和再现设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1228867A (zh) * 1997-06-26 1999-09-15 北方电讯有限公司 改善串联声码器话音质量的方法与设备
CN1890711A (zh) * 2003-10-10 2007-01-03 新加坡科技研究局 将数字信号编码成可扩缩比特流的方法和对可扩缩比特流解码的方法
CN1998046A (zh) * 2004-11-02 2007-07-11 编码技术股份公司 改善基于预测的多声道重构的性能的方法
CN101097716A (zh) * 2006-06-26 2008-01-02 索尼株式会社 数字信号处理设备、处理方法和再现设备

Also Published As

Publication number Publication date
CN101740030A (zh) 2010-06-16

Similar Documents

Publication Publication Date Title
CN1327405C (zh) 分布式语音识别系统中语音识别的方法和设备
CN100454389C (zh) 声音编码设备和声音编码方法
CN101305423B (zh) 自适应的基于时间/频率的音频编码和解码设备和方法
CN1942928B (zh) 用于处理音频信号的模块和方法
CN101615396B (zh) 语音编码设备、以及语音解码设备
CN101521014B (zh) 音频带宽扩展编解码装置
CN101583994B (zh) 对音频和/或语音信号进行编码和/或解码的方法和设备
CN101933086B (zh) 处理音频信号的方法和设备
CN101715549B (zh) 嵌入在音频信号中的隐藏数据的恢复
CN101421780B (zh) 用于编码和解码时变信号的方法和设备
CN100371988C (zh) 用于分布式语音识别系统内语音重构的方法和设备
CN101371296B (zh) 用于编码和解码信号的设备和方法
EP2037451A1 (en) Method for improving the coding efficiency of an audio signal
CN101223576A (zh) 从音频信号提取重要频谱分量的方法和设备以及使用其的低比特率音频信号编码和/或解码方法和设备
IL135192A (en) Method and system for speech reconstruction from speech recognition features
CN101488344B (zh) 一种量化噪声泄漏控制方法及装置
CN101390159A (zh) 在解码器和相应设备中可靠识别和衰减数字信号中的回声的方法
CN104025189A (zh) 编码语音信号的方法、解码语音信号的方法,及使用其的装置
CN101521010B (zh) 一种音频信号的编解码方法和装置
CN101740030B (zh) 语音信号的发送及接收方法、及其装置
CN103081006A (zh) 处理音频信号的方法和设备
CN106233112A (zh) 信号编码方法和设备以及信号解码方法和设备
US7783488B2 (en) Remote tracing and debugging of automatic speech recognition servers by speech reconstruction from cepstra and pitch information
CN1312463C (zh) 一种产生lsf矢量的方法和装置
EP2447943A1 (en) Coding method, decoding method, and device and program using the methods

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20171221

Address after: 100083 Haidian District, Xueyuan Road, No. 35, the world building, the second floor of the building on the ground floor, No. 16

Co-patentee after: Vimicro Electronics Co., Ltd.

Patentee after: Zhongxing Technology Co., Ltd.

Address before: 100083, Haidian District, Xueyuan Road, Beijing No. 35, Nanjing Ning building, 15 Floor

Co-patentee before: Vimicro Electronics Co., Ltd.

Patentee before: Beijing Vimicro Corporation

TR01 Transfer of patent right
CP01 Change in the name or title of a patent holder

Address after: 100083 Haidian District, Xueyuan Road, No. 35, the world building, the second floor of the building on the ground floor, No. 16

Co-patentee after: Vimicro Electronics Co., Ltd.

Patentee after: Mid Star Technology Limited by Share Ltd

Address before: 100083 Haidian District, Xueyuan Road, No. 35, the world building, the second floor of the building on the ground floor, No. 16

Co-patentee before: Vimicro Electronics Co., Ltd.

Patentee before: Zhongxing Technology Co., Ltd.

CP01 Change in the name or title of a patent holder