CN105469805A - 一种语音频信号处理方法和装置 - Google Patents
一种语音频信号处理方法和装置 Download PDFInfo
- Publication number
- CN105469805A CN105469805A CN201510991494.9A CN201510991494A CN105469805A CN 105469805 A CN105469805 A CN 105469805A CN 201510991494 A CN201510991494 A CN 201510991494A CN 105469805 A CN105469805 A CN 105469805A
- Authority
- CN
- China
- Prior art keywords
- signal
- frequency band
- narrow
- global gain
- current frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012545 processing Methods 0.000 title claims abstract description 11
- 238000001228 spectrum Methods 0.000 claims description 88
- 230000002123 temporal effect Effects 0.000 claims description 29
- 230000015572 biosynthetic process Effects 0.000 claims description 23
- 238000003786 synthesis reaction Methods 0.000 claims description 23
- 238000012937 correction Methods 0.000 claims description 22
- 230000008569 process Effects 0.000 claims description 22
- 230000005284 excitation Effects 0.000 claims description 10
- 238000005086 pumping Methods 0.000 claims description 10
- 230000008901 benefit Effects 0.000 description 7
- 238000005070 sampling Methods 0.000 description 6
- 230000007704 transition Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 4
- 230000000717 retained effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 2
- 206010001488 Aggression Diseases 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/083—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being an excitation gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/125—Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Telephone Function (AREA)
- Transmitters (AREA)
- Circuit For Audible Band Transducer (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Abstract
本发明实施例公开了一种语音频信号处理方法和装置。一个实施例中,语音频信号处理方法包括:当语音频信号出现带宽切换时,获得当前帧语音频信号对应的初始高频带信号;获得所述初始高频带信号时域全局增益参数;将能量比值和所述时域全局增益参数进行加权处理,得到的加权值作为预测的全局增益参数,其中,能量比值为历史帧高频带时域信号能量与当前帧初始高频带信号能量的比值;利用预测的全局增益参数对所述初始高频带信号进行修正,获得修正的高频带时域信号;合成当前帧的窄频带时域信号和所述修正的高频带时域信号并输出。
Description
技术领域
本发明涉及数字信号处理技术领域,尤其是一种语音频信号处理方法和装置。
背景技术
在数字通信领域,语音、图像、音频、视频的传输有着非常广泛的应用需求,如手机通话、音视频会议、广播电视、多媒体娱乐等。音频被数字化处理,通过音频通信网络从一个终端传递到另一个终端,这里的终端可以是手机、数字电话终端或其他任何类型的音频终端,数字电话终端例如VOIP电话或ISDN电话、计算机、电缆通信电话。为了降低语音频信号存储或者传输过程中占用的资源,语音频信号在发送端进行压缩处理后传输到接收端,接收端通过解压缩处理恢复语音频信号并进行播放。
在目前的多速率语音频编码中,由于网络状态的不同,网络会对从编码端传输到网络的码流做不同码率的截断,在解码端就会根据截断后的码流解码出不同带宽的语语音频信号,这样就使得输出的语语音频信号会在不同带宽间做切换。
不同带宽信号间的突然切换,会造成人耳听觉上的明显不舒适感;同时,由于滤波器及时频或频时变换等状态的更新,一般需要用到前后帧间的参数,在带宽切换时,如果不做一些适当的处理,这些状态的更新将会出现错误,从而造成一些能量激变的现象,造成听觉质量变差。
发明内容
本发明实施例的目的在于提供一种语音频信号处理方法和装置,在语音频信号带宽切换时提高听觉舒适性。
根据本发明的一实施例,一种语音频信号处理方法包括:
语音频信号从宽频带信号到窄频带信号的切换时,获得当前帧语音频信号对应的初始高频带信号;
根据当前帧语音频信号的谱倾斜参数、当前帧窄频带信号与历史帧窄频带信号的相关性获得所述高频带信号的时域全局增益参数;
利用所述时域全局增益参数对所述初始高频带信号进行修正,获得修正的高频带时域信号;
合成当前帧的窄频带时域信号和所述修正的高频带时域信号并输出。
根据本发明的另一实施例,一种语音频信号处理方法包括:
当语音频信号出现带宽切换时,获得当前帧语音频信号对应的初始高频带信号;
获得所述初始高频带信号时域全局增益参数;
将能量比值和所述时域全局增益参数进行加权处理,得到的加权值作为预测的全局增益参数,其中,能量比值为历史帧高频带时域信号能量与当前帧初始高频带信号能量的比值;
利用预测的全局增益参数对所述初始高频带信号进行修正,获得修正的高频带时域信号;
合成当前帧的窄频带时域信号和所述修正的高频带时域信号并输出。
根据本发明的另一实施例,一种语音频信号处理装置包括:
预测单元,当语音频信号从宽频带信号到窄频带信号的切换时,用于获得当前帧语音频信号对应的初始高频带信号;
参数获得单元,用于根据当前帧语音频信号的谱倾斜参数、当前帧窄频带信号与历史帧窄频带信号的相关性获得所述高频带信号的时域全局增益参数;
修正单元,用于利用预测的全局增益参数对所述初始高频带信号进行修正,获得修正的高频带时域信号;
合成单元,用于合成当前帧的窄频带时域信号和所述修正的高频带时域信号并输出。
根据本发明的另一实施例,一种语音频信号处理装置包括:
获取单元,用于当语音频信号出现带宽切换时,获得当前帧语音频信号对应的初始高频带信号;
参数获得单元,用于获得所述初始高频带信号对应的时域全局增益参数;
加权处理单元,用于将能量比值和所述时域全局增益参数进行加权处理,得到的加权值作为预测的全局增益参数;其中,能量比值为历史帧高频带时域信号能量与当前帧初始高频带信号能量的比值;
修正单元,用于利用预测的全局增益参数对所述初始高频带信号进行修正,获得修正的高频带时域信号;
合成单元,用于合成当前帧的窄频带时域信号和所述修正的高频带时域信号并输出。
本发明实施例通过宽频带和窄频带间切换时对高频带信号的修正,使得宽频带和窄频带间高频带信号平稳的过渡,有效地去除了宽频带和窄频带间切换时造成的听觉不舒适感;同时,由于带宽切换算法和切换前高频带信号的编解码算法在相同的信号域,保证了不增加额外延且算法简单的同时,还保证了输出信号的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的语音频信号处理方法一个实施例的流程示意图;
图2为本发明提供的语音频信号处理方法另一个实施例的流程示意图;
图3为本发明提供的语音频信号处理方法另一个实施例的流程示意图;
图4为本发明提供的语音频信号处理方法另一个实施例的流程示意图;
图5为本发明提供的语音频信号处理装置一个实施例的结构示意图;
图6为本发明提供的语音频信号处理装置一个实施例的结构示意图;
图7为本发明提供的参数获得单元一个实施例的结构示意图;
图8为本发明提供的全局增益参数获得单元一个实施例的结构示意图;
图9为本发明提供的获取单元一个实施例的结构示意图;
图10为本发明提供的语音频信号处理装置另一个实施例的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
数字信号处理领域,音频编解码器、视频编解码器广泛应用于各种电子设备中,例如:移动电话,无线装置,个人数据助理(PDA),手持式或便携式计算机,GPS接收机/导航器,照相机,音频/视频播放器,摄像机,录像机,监控设备等。通常,这类电子设备中包括音频编码器或音频解码器,音频编码器或者解码器可以直接由数字电路或芯片例如DSP(digitalsignalprocessor)实现,或者由软件代码驱动处理器执行软件代码中的流程而实现。
在现有技术中,由于网络中传输的语语音频信号的带宽不同,在语语音频信号传输过程中,语音频信号的带宽会时常发生变化,存在窄频带语语音频信号向宽频带语语音频信号切换,以及宽频带语语音频信号向窄频带语语音频信号切换的现象。这种语音频信号在高低频带间切换的过程称为带宽切换,带宽切换包括从窄频带信号到宽频带信号的切换和从宽频带到窄频带信号的切换。本发明中提到的窄频带信号为通过上采样和低通滤波,只有低频带成分而高频带成分为空的语音信号,而宽频带语语音频信号既有低频带信号成分又有高频带信号成分。窄频带信号和宽频带信号是相对的,例如相对于窄带信号而言,宽带信号为宽频带信号;相对于宽带信号而言,超宽带信号为宽频带信号。通常,窄带信号为采样率为8kHz的语语音频信号;宽带信号为采样率为16kHz的语语音频信号;超宽带为采样率32kHz的语语音频信号。
在切换前的高频带信号的编解码算法根据信号类型不同在时域和频域的编解码算法间选择时,或当切换前的高频带信号的编码算法是时域编码算法时,为了保证切换时输出信号的连续性,切换算法保持和切换前的高频带编解码算法在相同的信号域进行处理,即切换前高频带信号采用时域编解码算法,接下来的切换算法就采用时域的切换算法;切换前的高频带信号采用频域的编解码算法,接下来的切换算法就采用频域的切换算法。现有技术没有切换前使用时域频带扩展算法切换后也使用类似的时域切换技术。
语音频编码一般以帧为单位进行处理。当前输入的需要处理的音频帧为当前帧语音频信号;当前帧语音频信号中包括窄频带信号和高频带信号,即当前帧窄频带信号和当前帧高频带信号。当前帧语音频信号之前的任意一帧语音频信号为历史帧语音频信号,也包括历史帧窄频带信号和历史帧高频带信号;当前帧语音频信号之前一帧语音频信号为前一帧语音频信号。
参考图1,本发明语音频信号处理方法的一个实施例包括:
S101:当语音频信号出现带宽切换时,获得当前帧语音频信号对应的初始高频带信号;
当前帧语音频信号是由当前帧窄频带信号和当前帧高频带时域信号组成。带宽切换包括从窄频带信号到宽频带信号的切换和从宽频带到窄频带信号的切换;对于从窄频带信号到宽频带信号的切换,当前帧语音频信号为当前帧宽频带信号,包括窄频带信号和高频带信号,当前帧语音频信号的初始高频带信号为真实的信号,可以直接从当前帧语音频信号中获得;对于从宽频带到窄频带信号的切换,当前帧语音频信号为当前帧窄频带信号,当前帧高频带时域信号为空,当前帧语音频信号的初始高频带信号为预测信号,需要预测当前帧窄频带信号对应的高频带信号,作为初始高频带信号。
S102:获得该初始高频带信号对应的时域全局增益参数;
对于窄频带信号到宽频带信号的切换,高频带信号的时域全局增益参数可以通过解码得到;对于宽频带信号到窄频带信号的切换,高频带信号的时域全局增益参数可以根据当前帧信号获得:根据窄频带信号的谱倾斜参数和当前帧窄频带信号与历史帧窄频带信号的相关性获得所述高频带信号的时域全局增益参数。
S103:将能量比值和该时域全局增益参数进行加权处理,得到的加权值作为预测的全局增益参数;其中,能量比值为历史帧语音频信号高频带时域信号能量与当前帧语音频信号初始高频带信号能量的比值;
历史帧语音频信号使用的是历史帧最终输出的语音频信号,当前帧语语音频信号使用的是指初始高频带信号;能量比值Ratio=Esyn(-1)/Esyn_tmp;Esyn(-1)表示历史帧输出的高频带时域信号syn的能量,Esyn_tmp表示当前帧对应的初始高频带时域信号syn的能量。
预测的全局增益参数gain=alfa*Ratio+beta*gain’,其中,gain’为时域全局增益参数,alfa+beta=1,且根据信号类型的不同,alfa和beta的取值不同。
S104:利用预测的全局增益参数对该初始高频带信号进行修正,获得修正的高频带时域信号;
修正指信号相乘,即用预测的全局增益参数与初始高频带信号相乘。另一个实施例中,步骤S102中获得该初始高频带信号对应的时域包络参数和时域全局增益参数,则步骤S104中利用时域包络参数和预测的全局增益参数对该初始高频带信号进行修正,获得修正的高频带时域信号;即用时域包络参数和预测的时域全局增益参数乘于该预测的高频带信号,获得高频带时域信号。
对于窄频带信号到宽频带信号的切换,高频带信号的时域包络参数可以通过解码得到;对于宽频带信号到窄频带信号的切换,高频带信号的时域包络参数可以根据当前帧信号获得:可以将预先设定好的一系列值或者历史帧高频带时域包络参数作为当前帧语音频信号的高频带时域包络参数。
S105:合成当前帧的窄频带时域信号和该修正的高频带时域信号并输出。
上述实施例通过宽频带和窄频带间切换时时高频带信号的修正,使得宽频带和窄频带间高频带信号平稳的过渡,有效地去除了宽频带和窄频带间切换时造成的听觉不舒适感;同时,由于带宽切换算法和切换前高频带信号的编解码算法在相同的信号域,保证了不增加额外延且算法简单的同时,还保证了输出信号的性能。
参考图2,本发明语音频信号处理方法的另一个实施例包括:
S201:当宽频带信号向窄频带信号切换时,预测当前帧窄频带信号对应的预测高频带信号;
由宽频带信号向窄频带切换,即前一帧为宽频带信号,当前帧为窄频带信号。预测当前帧窄频带信号对应的预测高频带信号的步骤包括:根据当前帧窄频带信号预测当前帧语音频信号高频带信号激励信号;预测当前帧语音频信号高频带信号的LPC(LinearPredictiveCoding,线性预测编码)系数:合成预测的高频带激励信号和LPC系数,获得预测高频带信号syn_tmp。
一个实施例中,可以从窄频带信号中提取基音周期、代数码数和增益等参数,通过变采样,滤波预测到高频带的激励信号;
另一个实施例中,可以通过对窄频带时域信号或窄频带时域激励信号通过上采用、低通,然后取绝对值或取平方等操作来预测高频带激励信号。
预测高频带信号的LPC系数,可以将历史帧的高频带LPC系数或预先设定好的一系列值作为当前帧LPC系数;也可以对不同的信号类型采用不同的预测方式。
S202:获得所述预测高频带信号对应的时域包络参数和时域全局增益参数;
可以将预先设定好的一系列值作为当前帧的高频带时域包络参数。可以将窄带信号大体分几类,每类预先设定好一系列值,根据当前帧窄带信号的类型,选择一组预先设定好的时域包络参数;也可以就设定好一组时域包络值,例如,时域包络的个数为M,则预先设定好的值可以为M个0.3536。该实施例中,时域包络参数的获得为可选步骤,并不是必须的。
根据窄频带信号的谱倾斜参数和当前帧窄频带信号和历史帧窄频带信号的相关性获得所述高频带信号的时域全局增益参数;一个实施例中,包括如下步骤:
S2021:根据所述当前帧语音频信号的谱倾斜参数和当前帧窄频带信号与历史帧窄频带信号的相关性,将当前帧语音频信号分为第一类信号或第二类信号;一个实施例中,第一类信号为摩擦音信号,第二类信号为非摩擦音信号;当谱倾斜参数tilt>5且相关性参数cor小于一给定值时,将窄频带信号分成摩擦音,其他的为非摩擦音。
其中,当前帧窄频带信号和历史帧窄频带信号的相关性大小参数cor的计算,可以通过相同某频段信号的能量的大小关系来确定,也可以通过几个相同频段的能量关系确定,也可以通过时域信号或时域激励信号的自相关或互相关公式来计算。
S2022:如果当前帧语音频信号为第一类信号,则将谱倾斜参数限制到小于等于第一预定值,获得谱倾斜参数限制值;以所述谱倾斜参数限制值作为高频带信号的时域全局增益参数。即当前帧语音频信号的谱倾斜参数小于等于第一预定值时,保留谱倾斜参数原值作为谱倾斜参数限制值;当前帧语音频信号的谱倾斜参数大于第一预定值时,取第一预定值作为谱倾斜参数限制值。
时域全局增益参数gain'通过以下公式获得:
S2023:如果当前帧语音频信号为第二类信号,则将谱倾斜参数限制到属于第一区间值,获得谱倾斜参数限制值;以所述谱倾斜参数限制值作为高频带信号的时域全局增益参数。即当前帧语音频信号的谱倾斜参数属于第一区间值时,保留谱倾斜参数原值作为谱倾斜参数限制值;当前帧语音频信号的谱倾斜参数大于第一区间值的上限时,取第一区间值的上限作为谱倾斜参数限制值;当前帧语音频信号的谱倾斜参数小于第一区间值的下限时,取第一区间值的下限作为谱倾斜参数限制值。
时域全局增益参数gain'通过以下公式获得:
一个实施例中,获得窄频带信号的谱倾斜参数tilt及当前帧窄频带信号和历史帧窄频带信号的相关性大小参数cor;根据tilt及cor将当前帧信号分为摩擦音及非摩擦音两类,当谱倾斜参数tilt>5且相关性参数cor小于一给定值时,将窄频带信号分成摩擦音,其他的为非摩擦音;将tilt的取值范围限制到0.5<=tilt<=1.0之间作为非摩擦音的时域全局增益参数,将tilt的取值范围限制到tilt<=8.0作为摩擦音的时域全局增益参数。对摩擦音而言,谱倾斜参数可以是大于5的任何值,对非摩擦音而言,可以小于等于5的任何值,也可能大于5,为了保证能将谱倾斜参数tilt能作为估计的时域全局增益参数,对tilt的值的范围做限定后作为时域全局增益参数,即当tilt>8时,取tilt=8作为摩擦音的时域全局增益参数,当tilt<0.5时,取tilt=0.5或tilt>1.0时,取tilt=1.0作为非摩擦音的时域全局增益参数。
S203:将能量比值和该时域全局增益参数进行加权处理,得到的加权值作为预测的全局增益参数;其中,能量比值为历史帧语音频信号高频带时域信号能量与当前帧语音频信号初始高频带信号能量的比值;
求解能量比值Ratio=Esyn(-1)/Esyn_tmp,将tilt和Ratio的加权值作为当前帧预测的全局增益参数gain,即gain=alfa*Ratio+beta*gain’;其中,gain’为时域全局增益参数,alfa+beta=1,且根据信号类型的不同,alfa和beta的取值不同;Esyn(-1)表示历史帧的最终输出的高频带时域信号syn的能量,Esyn_tmp表示当前帧预测高频带时域信号syn的能量。
S204:利用时域包络参数和预测的全局增益参数对该预测高频带信号进行修正,获得修正的高频带时域信号;
用时域包络参数和预测的时域全局增益参数乘于该预测的高频带信号,获得高频带时域信号。
该实施例中,时域包络参数为可选的,当仅包含时域全局增益参数时,则可以利用预测的全局增益参数对该预测高频带信号进行修正,获得修正的高频带时域信号;即用预测的全局增益参数乘于预测高频带信号得到修正的高频带时域信号。
S205:合成当前帧的窄频带时域信号和该修正的高频带时域信号并输出。
高频带时域信号syn的能量Esyn用来预测下一帧时域全局增益参数,即将Esyn的值赋值给Esyn(-1)
上述实施例通过对宽频带信号后窄频带信号高频带的修正,使得宽频带和窄频带间高频带部分平稳的过渡,有效地去除了宽频带和窄频带间切换时造成的听觉不舒适感;同时,由于对切换时的帧进行了相应的处理,间接去除了参数和状态更新时出现的问题。通过保持带宽切换算法和切换前高频带信号的编解码算法在相同的信号域,保证了不增加额外延且算法简单的同时,还保证了输出信号的性能。
参考图3,本发明语音频信号处理方法的另一个实施例包括:
S301:当窄频带信号向宽频带信号切换时,获得当前帧高频带信号;
当由窄频带信号向宽频带切换时,即前一帧为窄频带信号,当前帧为宽频带信号。
S302:获得所述高频带信号对应的时域包络参数和时域全局增益参数;
该时域包络参数和时域全局增益参数可以从当前帧高频带信号中直接获得。其中,时域包络参数的获得为可选步骤。
S303:将能量比值和该时域全局增益参数进行加权处理,得到的加权值作为预测的全局增益参数;其中,能量比值为历史帧语音频信号高频带时域信号能量与当前帧语音频信号初始高频带信号能量的比值。;
因为当前帧是宽频带信号,所以高频带信号的各参数都能通过解码得到,为了保证切换时能平滑过渡,通过如下方式对时域全局增益参数进行平滑:
求解能量比值Ratio=Esyn(-1)/Esyn_tmp,Esyn(-1)表示历史帧的最终输出的高频带时域信号syn的能量;Esyn_tmp当前帧的高频带时域信号syn的能量。
将解码出的时域全局增益参数gain和Ratio的加权值作为当前帧预测的全局增益参数gain,即gain=alfa*Ratio+beta*gain’,其中,gain’为时域全局增益参数,alfa+beta=1,且根据信号类型的不同,alfa和beta的取值不同
如果当前音频帧与前一帧语音频信号的窄带信号具有预定相关性时,则对前一帧语音频信号对应的所述能量比值的加权因子alfa按一定的步长衰减后的值作为当前音频帧对应的所述能量比值的加权因子,逐帧衰减直到alfa为0。
当前后帧间窄频带信号有相同的信号类型或相关性满足一定的条件时,即前后帧间有一定的相关性,或前后帧间信号类型相似,则对alfa按一定的步长逐帧衰减,直到alfa衰减到0;当前后帧间窄频带信号不具有相关性时,直接将alfa衰减到0,即保持当前解码结果,不做加权和修正处理。。
S304:利用时域包络参数和预测的全局增益参数对该高频带信号进行修正,获得修正的高频带时域信号;
修正即用时域包络参数和预测的时域全局增益参数乘于该高频带信号,获得修正的高频带时域信号。
该实施例中,时域包络参数为可选的,当仅包含时域时域全局增益参数时,则可以利用预测的全局增益参数对该高频带信号进行修正,获得修正的高频带时域信号;即用预测的全局增益参数乘于高频带信号得到修正的高频带时域信号。
S305:合成当前帧的窄频带时域信号和该修正的高频带时域信号并输出。
上述实施例通过对窄频带信号后宽频带信号高频带的修正,使得宽频带和窄频带间高频带部分平稳的过渡,有效地去除了宽频带和窄频带间切换时造成的听觉不舒适感;同时,由于对切换时的帧进行了相应的处理,间接去除了参数和状态更新时出现的问题。通过保持带宽切换算法和切换前高频带信号的编解码算法在相同的信号域,保证了不增加额外延且算法简单的同时,还保证了输出信号的性能。
参考图4,本发明语音频信号处理方法的另一个实施例包括:
S401:语音频信号从宽频带信号到窄频带信号的切换时,获得当前帧语音频信号对应的初始高频带信号;
由宽频带信号向窄频带切换,即前一帧为宽频带信号,当前帧为窄频带信号。预测当前帧窄频带信号对应的初始高频带信号的步骤包括:根据当前帧窄频带信号预测当前帧语音频信号高频带信号激励信号;预测当前帧语音频信号高频带信号的LPC系数:合成预测的高频带激励信号和LPC系数,获得初始高频带信号syn_tmp。
一个实施例中,可以从窄频带信号中提取基音周期、代数码数和增益等参数,通过变采样,滤波预测到高频带的激励信号;
另一个实施例中,可以通过对窄频带时域信号或窄频带时域激励信号通过上采用、低通,然后取绝对值或取平方等操作来预测高频带激励信号。
预测高频带信号的LPC系数,可以将历史帧的高频带LPC系数或预先设定好的一系列值作为当前帧LPC系数;也可以对不同的信号类型采用不同的预测方式。
S402:根据当前帧语音频信号的谱倾斜参数、当前帧窄频带信号与历史帧窄频带信号的相关性获得所述高频带信号的时域全局增益参数;
一个实施例中,包括如下步骤:
S2021:根据所述当前帧语音频信号的谱倾斜参数和当前帧窄频带与历史帧窄频带信号的相关性,将当前帧语音频信号分为第一类信号或第二类信号;一个实施例中,第一类信号为摩擦音信号,第二类信号为非摩擦音信号。
一个实施例中,当谱倾斜参数tilt>5且相关性参数cor小于一给定值时,将窄频带信号分成摩擦音,其他的为非摩擦音。其中,当前帧窄频带信号和历史帧窄频带信号的相关性大小参数cor的计算,可以通过相同某频段信号的能量的大小关系来确定,也可以通过几个相同频段的能量关系确定,也可以通过时域信号或时域激励信号的自相关或互相关公式来计算。
S2022:如果当前帧语音频信号为第一类信号,则将谱倾斜参数限制到小于等于第一预定值,获得谱倾斜参数限制值;以所述谱倾斜参数限制值作为高频带信号的时域全局增益参数。即当前帧语音频信号的谱倾斜参数小于等于第一预定值时,保留谱倾斜参数原值作为谱倾斜参数限制值;当前帧语音频信号的谱倾斜参数大于第一预定值时,取第一预定值作为谱倾斜参数限制值。
当前帧语音频信号为摩擦音信号时,时域全局增益参数gain'通过以下公式获得:
S2023:如果当前帧语音频信号为第二类信号,则将谱倾斜参数限制到属于第一区间值,获得谱倾斜参数限制值;以所述谱倾斜参数限制值作为高频带信号的时域全局增益参数。即当前帧语音频信号的谱倾斜参数属于第一区间值时,保留谱倾斜参数原值作为谱倾斜参数限制值;当前帧语音频信号的谱倾斜参数大于第一区间值的上限时,取第一区间值的上限作为谱倾斜参数限制值;当前帧语音频信号的谱倾斜参数小于第一区间值的下限时,取第一区间值的下限作为谱倾斜参数限制值。
当前帧语音频信号为非摩擦音信号时,时域全局增益参数gain'通过以下公式获得:
一个实施例中,获得窄频带信号的谱倾斜参数tilt及当前帧窄频带信号和历史帧窄频带信号的相关性大小参数cor;根据tilt及cor将当前帧信号分为摩擦音及非摩擦音两类,当谱倾斜参数tilt>5且相关性参数cor小于一给定值时,将窄频带信号分成摩擦音,其他的为非摩擦音;将tilt的取值范围限制到0.5<=tilt<=1.0之间作为非摩擦音的时域全局增益参数,将tilt的取值范围限制到tilt<=8.0作为摩擦音的时域全局增益参数。对摩擦音而言,谱倾斜参数可以是大于5的任何值,对非摩擦音而言,可以小于等于5的任何值,也可能大于5,为了保证能将谱倾斜参数tilt能作为预测的的全局增益参数,对tilt的值的范围做限定后作为时域全局增益参数,即当tilt>8时,取tilt=8作为摩擦音信号的时域全局增益参数,当tilt<0.5时,取tilt=0.5或tilt>1.0时,取tilt=1.0作为非摩擦音信号的时域全局增益参数。
S403:利用时域全局增益参数对所述初始高频带信号进行修正,获得修正的高频带时域信号;
一个实施例中,用时域全局增益参数乘于初始高频带信号得到修正的高频带时域信号。
另一个实施例中,步骤S403可以包括:
将能量比值和所述时域全局增益参数进行加权处理,得到的加权值作为预测的全局增益参数,其中,能量比值为历史帧高频带时域信号能量与当前帧初始高频带信号能量的比值;
利用预测的全局增益参数对所述初始高频带信号进行修正得到修正的高频带时域信号;即用预测的全局增益参数乘于初始高频带信号得到修正的高频带时域信号。
可选的,在步骤S403之前还可以包括:
获得所述初始高频带信号对应的时域包络参数;
则利用预测的全局增益参数对所述初始高频带信号进行修正包括:
利用所述时域包络参数和时域全局增益参数对所述初始高频带信号进行修正。
S404:合成当前帧的窄频带时域信号和所述修正的高频带时域信号并输出。
上述实施例中,在宽频带向窄频带切换时,根据谱倾斜参数和帧间相关性获得高频带信号的时域全局增益参数,用窄频带的谱倾斜参数能相对比较准确地估计出窄频带信号和高频带信号间的能量关系,进而更好地估计出高频带信号的能量;用帧间相关性,可以很好地利用窄频带帧间的相关性,估计出高频带信号的帧间相关性,进而在加权求高频带的全局增益时,既可以很好地利用前面真实的信息,又不会引入不好的噪声。利用时域全局增益参数对高频带信号进行修正,使得宽频带和窄频带间高频带部分平稳的过渡,有效地去除了宽频带和窄频带间切换时造成的听觉不舒适感。
与上述方法实施例相关联,本发明还提供一种语音频信号处理装置,该装置可以位于终端设备,网络设备,或测试设备中。所述语音频信号处理装置可以由硬件电路来实现,或者由软件配合硬件来实现。例如,参考图5,由一个处理器调用语音频信号处理装置来实现语音频信号处理。该语音频信号处理装置可以执行上述方法实施例中的各种方法和流程。
参考图6,语音频信号处理装置的一个实施例,包括:
获取单元601,用于当语音频信号出现带宽切换时,获得当前帧语音频信号对应的初始高频带信号;
参数获得单元602,用于获得所述初始高频带信号对应时域全局增益参数;
加权处理单元603,用于将能量比值和该时域全局增益参数进行加权处理,得到的加权值作为预测的全局增益参数;其中,能量比值为历史帧高频带时域信号能量与当前帧初始高频带信号能量的比值;
修正单元604,用于利用预测的全局增益参数对所述初始高频带信号进行修正,获得修正的高频带时域信号;
合成单元605,用于合成当前帧的窄频带时域信号和所述修正的高频带时域信号并输出。
一个实施例中,带宽切换为宽频带信号到窄频带信号的切换,参数获得单元602包括:
全局增益参数获得单元,用于根据当前帧语音频信号的谱倾斜参数、当前帧语音频信号与历史帧窄频带信号的相关性获得所述高频带信号的时域全局增益参数。
参考图7,另一个实施例中,带宽切换为宽频带信号到窄频带信号的切换,则参数获得单元602包括:
时域包络获得单元701,用于将预设一系列值作为当前帧语音频信号的高频带时域包络参数;
全局增益参数获得单元702,用于根据当前帧语音频信号的谱倾斜参数、当前帧语音频信号与历史帧窄频带信号的相关性获得所述高频带信号的时域全局增益参数。
则修正单元604,用于利用时域包络参数和预测的全局增益参数对所述初始高频带信号进行修正,获得修正的高频带时域信号。
参考图8,进一步的,全局增益参数获得单元702的一个实施例包括:
分类单元801,用于根据所述当前帧语音频信号的谱倾斜参数和当前帧语音频信号与历史帧窄频带信号的相关性,将当前帧语音频信号分为第一类信号或第二类信号;
第一限制单元802,如果当前帧语音频信号为第一类信号,用于将谱倾斜参数限制到小于等于第一预定值,得到谱倾斜参数限制值,以所述谱倾斜参数限制值作为高频带信号的时域全局增益参数;
第二限制单元803,如果当前帧语音频信号为第二类信号,用于将谱倾斜参数限制到属于第一区间值,得到谱倾斜参数限制值,以所述谱倾斜参数限制值作为高频带信号的时域全局增益参数。
进一步的,一个实施例中,第一类信号为摩擦音信号,第二类信号为非摩擦音信号;当谱倾斜参数tilt>5且相关性参数cor小于一给定值时,将窄频带信号分成摩擦音;其他的为非摩擦音;所述第一预定值为8;第一预定区间为[0.5,1]。
参考图9,一个实施例中,获取单元601包括:
激励信号获得单元901,用于根据当前帧语音频信号预测高频带信号激励信号;
LPC系数获得单元902,用于预测高频带信号的LPC系数;
生成单元903,用于合成高频带信号激励信号和高频带信号的LPC系数,获得所述预测高频带信号。
一个实施例中,该带宽切换为窄频带信号到宽频带信号的切换,则该语音频信号处理装置还包括:
加权因子设置单元,如果当前音频帧与前一帧语音频信号的窄带信号具有预定相关性时,用于对前一帧语音频信号对应的所述能量比值的加权因子alfa按一定的步长衰减后的值作为当前音频帧对应的所述能量比值的加权因子,逐帧衰减直到alfa为到0。
参考图10,语音频信号处理装置的另一个实施例,包括:
预测单元1001,当语音频信号从宽频带信号到窄频带信号的切换时,用于获得当前帧语音频信号对应的初始高频带信号;
参数获得单元1002,用于根据当前帧语音频信号的谱倾斜参数、当前帧窄频带信号与历史帧窄频带信号的相关性获得所述高频带信号的时域全局增益参数;
修正单元1003,用于利用预测的全局增益参数对所述初始高频带信号进行修正,获得修正的高频带时域信号;
合成单元1004,用于合成当前帧的窄频带时域信号和所述修正的高频带时域信号并输出。
参考图8,参数获得单元1002包括:
分类单元801,用于根据所述当前帧语音频信号的谱倾斜参数和当前帧语音频信号与历史帧帧窄频带信号的相关性,将当前帧语音频信号分为第一类信号或第二类信号;
第一限制单元802,如果当前帧语音频信号为第一类信号,用于将谱倾斜参数限制到小于等于第一预定值,得到谱倾斜参数限制值,以所述谱倾斜参数限制值作为高频带信号的时域全局增益参数;
第二限制单元803,如果当前帧语音频信号为第二类信号,用于将谱倾斜参数限制到属于第一区间值,得到谱倾斜参数限制值,以所述谱倾斜参数限制值作为高频带信号的时域全局增益参数。
进一步的,一个实施例中,第一类信号为摩擦音信号,第二类信号为非摩擦音信号;当谱倾斜参数tilt>5且相关性参数cor小于一给定值时,将窄频带信号分成摩擦音;其他的为非摩擦音;其中,第一预定值为8;第一预定区间为[0.5,1]。
可选的,一个实施例中,语音频信号处理装置还包括:
加权处理单元,用于将能量比值和所述时域全局增益参数进行加权处理,得到的加权值作为预测的全局增益参数,其中,能量比值为历史帧高频带时域信号能量与当前帧初始高频带信号能量的比值;
所述修正单元用于利用预测的全局增益参数对所述初始高频带信号进行修正,获得修正的高频带时域信号。
另一个实施例中,参数获得单元还用于获得所述初始高频带信号对应的时域包络参数;则修正单元用于利用所述时域包络参数和时域全局增益参数对所述初始高频带信号进行修正。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本发明的几个实施例,本领域的技术人员依据申请文件公开的可以对本发明进行各种改动或变型而不脱离本发明的精神和范围。
Claims (13)
1.一种语音频信号处理方法,其特征在于,包括:
当语音频信号出现带宽切换时,获得当前帧语音频信号对应的初始高频带信号;
获得所述初始高频带信号时域全局增益参数;
将能量比值和所述时域全局增益参数进行加权处理,得到的加权值作为预测的全局增益参数,其中,能量比值为历史帧高频带时域信号能量与当前帧初始高频带信号能量的比值;
利用预测的全局增益参数对所述初始高频带信号进行修正,获得修正的高频带时域信号;
合成当前帧的窄频带时域信号和所述修正的高频带时域信号并输出。
2.根据权利要求1所述的方法,其特征在于,所述带宽切换为宽频带信号到窄频带信号的切换,所述获得所述初始高频带信号对应的全局增益参数,包括:
根据当前帧语音频信号的谱倾斜参数、当前帧窄频带信号与历史帧窄频带信号的相关性获得所述高频带信号的时域全局增益参数。
3.根据权利要求2所述的方法,其特征在于,所述根据当前帧语音频信号的谱倾斜参数、当前帧窄频带信号与历史帧窄频带信号的相关性获得所述高频带信号的时域全局增益参数包括:
根据所述当前帧语音频信号的谱倾斜参数和当前帧窄频带信号与历史帧窄频带信号的相关性,将当前帧语音频信号分为第一类信号或第二类信号,所述第一类信号为摩擦音信号,第二类信号为非摩擦音信号;
如果当前帧语音频信号为第一类信号,则将谱倾斜参数限制到小于等于第一预定值,得到谱倾斜参数限制值;
如果当前帧语音频信号为第二类信号,则将谱倾斜参数限制到属于第一区间值,得到谱倾斜参数限制值;
以所述谱倾斜参数限制值作为高频带信号的时域全局增益参数。
4.根据权利要求3所述的方法,其特征在于,当谱倾斜参数tilt>5且相关性参数cor小于一给定值时,将窄频带信号分成摩擦音;其他的为非摩擦音;所述第一预定值为8;第一区间为[0.5,1]。
5.根据权利要求1所述的方法,其特征在于,所述带宽切换为宽频带信号到窄频带信号的切换,所述获得当前帧语音频信号对应的初始高频带信号包括:
根据当前帧语音频信号预测高频带激励信号;
预测高频带信号的LPC系数;
合成高频带激励信号和高频带信号的LPC系数,获得所述预测高频带信号。
6.根据权利要求1所述的方法,其特征在于,所述带宽切换为窄频带信号到宽频带信号的切换,所述方法还包括:
如果当前帧与前一帧语音频信号的窄带信号具有预定相关性时,则对前一帧语音频信号对应的所述能量比值的加权因子alfa按一定的步长衰减后的值作为当前音频帧对应的所述能量比值的加权因子,逐帧衰减直到alfa为0。
7.一种语音频信号处理装置,其特征在于,包括:
获取单元,用于当语音频信号出现带宽切换时,获得当前帧语音频信号对应的初始高频带信号;
参数获得单元,用于获得所述初始高频带信号对应的时域全局增益参数;
加权处理单元,用于将能量比值和所述时域全局增益参数进行加权处理,得到的加权值作为预测的全局增益参数;其中,能量比值为历史帧高频带时域信号能量与当前帧初始高频带信号能量的比值;
修正单元,用于利用预测的全局增益参数对所述初始高频带信号进行修正,获得修正的高频带时域信号;
合成单元,用于合成当前帧的窄频带时域信号和所述修正的高频带时域信号并输出。
8.根据权利要求7所述的装置,其特征在于,所述带宽切换为宽频带信号到窄频带信号的切换,所述参数获得单元包括:
全局增益参数获得单元,用于根据当前帧语音频信号的谱倾斜参数、当前帧语音频信号与历史帧窄频带信号的相关性获得所述高频带信号的时域全局增益参数。
9.根据权利要求8所述的装置,其特征在于,所述全局增益参数获得单元包括:
分类单元,用于根据所述当前帧语音频信号的谱倾斜参数和当前帧语音频信号与历史帧窄频带信号的相关性,将当前帧语音频信号分为第一类信号或第二类信号,所述第一类信号为摩擦音信号,第二类信号为非摩擦音信号;
第一限制单元,如果当前帧语音频信号为第一类信号,用于将谱倾斜参数限制到小于等于第一预定值,得到谱倾斜参数限制值,以所述谱倾斜参数限制值作为高频带信号的时域全局增益参数;
第二限制单元,如果当前帧语音频信号为第二类信号,用于将谱倾斜参数限制到属于第一区间值,得到谱倾斜参数限制值,以所述谱倾斜参数限制值作为高频带信号的时域全局增益参数。
10.根据权利要求9所述的装置,其特征在于,当谱倾斜参数tilt>5且相关性参数cor小于一给定值时,将窄频带信号分成摩擦音;其他的为非摩擦音;所述第一预定值为8;第一区间为[0.5,1]。
11.根据权利要求7-10所述的任一装置,其特征在于,所述带宽切换为窄频带信号到宽频带信号的切换,所述装置还包括:
时域包络获得单元,用于将预设一系列值作为当前帧语音频信号的高频带时域包络参数;
所述修正单元,用于利用时域包络参数和预测的全局增益参数对所述初始高频带信号进行修正,获得修正的高频带时域信号。
12.根据权利要求7-10所述的任一装置,其特征在于,所述获取单元包括:
激励信号获得单元,用于根据当前帧语音频信号预测高频带信号激励信号;
LPC系数获得单元,用于预测高频带信号的LPC系数;
合成单元,用于合成高频带信号激励信号和高频带信号的LPC系数,获得所述预测高频带信号。
13.根据权利要求7-10所述的任一装置,其特征在于,所述带宽切换为窄频带信号到宽频带信号的切换,所述装置还包括:
加权因子设置单元,如果当前音频帧与前一帧语音频信号的窄带信号具有预定相关性时,用于对前一帧语音频信号对应的所述能量比值的加权因子alfa按一定的步长衰减后的值作为当前音频帧对应的所述能量比值的加权因子,逐帧衰减直到alfa为0。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510991494.9A CN105469805B (zh) | 2012-03-01 | 2012-03-01 | 一种语音频信号处理方法和装置 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510991494.9A CN105469805B (zh) | 2012-03-01 | 2012-03-01 | 一种语音频信号处理方法和装置 |
CN201210051672.6A CN103295578B (zh) | 2012-03-01 | 2012-03-01 | 一种语音频信号处理方法和装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210051672.6A Division CN103295578B (zh) | 2012-03-01 | 2012-03-01 | 一种语音频信号处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105469805A true CN105469805A (zh) | 2016-04-06 |
CN105469805B CN105469805B (zh) | 2018-01-12 |
Family
ID=49081655
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210051672.6A Active CN103295578B (zh) | 2012-03-01 | 2012-03-01 | 一种语音频信号处理方法和装置 |
CN201510991494.9A Active CN105469805B (zh) | 2012-03-01 | 2012-03-01 | 一种语音频信号处理方法和装置 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210051672.6A Active CN103295578B (zh) | 2012-03-01 | 2012-03-01 | 一种语音频信号处理方法和装置 |
Country Status (20)
Country | Link |
---|---|
US (4) | US9691396B2 (zh) |
EP (3) | EP2821993B1 (zh) |
JP (3) | JP6010141B2 (zh) |
KR (3) | KR101667865B1 (zh) |
CN (2) | CN103295578B (zh) |
BR (1) | BR112014021407B1 (zh) |
CA (1) | CA2865533C (zh) |
DK (1) | DK3534365T3 (zh) |
ES (3) | ES2867537T3 (zh) |
HU (1) | HUE053834T2 (zh) |
IN (1) | IN2014KN01739A (zh) |
MX (2) | MX364202B (zh) |
MY (1) | MY162423A (zh) |
PL (1) | PL3534365T3 (zh) |
PT (2) | PT2821993T (zh) |
RU (2) | RU2616557C1 (zh) |
SG (2) | SG11201404954WA (zh) |
TR (1) | TR201911006T4 (zh) |
WO (1) | WO2013127364A1 (zh) |
ZA (1) | ZA201406248B (zh) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103295578B (zh) | 2012-03-01 | 2016-05-18 | 华为技术有限公司 | 一种语音频信号处理方法和装置 |
CN104301064B (zh) | 2013-07-16 | 2018-05-04 | 华为技术有限公司 | 处理丢失帧的方法和解码器 |
CN104517610B (zh) * | 2013-09-26 | 2018-03-06 | 华为技术有限公司 | 频带扩展的方法及装置 |
KR20160070147A (ko) | 2013-10-18 | 2016-06-17 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 결정론적 및 잡음 유사 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념 |
MX355091B (es) | 2013-10-18 | 2018-04-04 | Fraunhofer Ges Forschung | Concepto para codificar una señal de audio y decodificar una señal de audio usando información de conformación espectral relacionada con la voz. |
US20150170655A1 (en) * | 2013-12-15 | 2015-06-18 | Qualcomm Incorporated | Systems and methods of blind bandwidth extension |
KR101864122B1 (ko) * | 2014-02-20 | 2018-06-05 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 제어 방법 |
CN106683681B (zh) | 2014-06-25 | 2020-09-25 | 华为技术有限公司 | 处理丢失帧的方法和装置 |
WO2019002831A1 (en) | 2017-06-27 | 2019-01-03 | Cirrus Logic International Semiconductor Limited | REPRODUCTIVE ATTACK DETECTION |
GB2563953A (en) | 2017-06-28 | 2019-01-02 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201713697D0 (en) | 2017-06-28 | 2017-10-11 | Cirrus Logic Int Semiconductor Ltd | Magnetic detection of replay attack |
GB201801532D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for audio playback |
GB201801528D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801527D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Method, apparatus and systems for biometric processes |
GB201801530D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801526D0 (en) | 2017-07-07 | 2018-03-14 | Cirrus Logic Int Semiconductor Ltd | Methods, apparatus and systems for authentication |
GB201801664D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201803570D0 (en) | 2017-10-13 | 2018-04-18 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB2567503A (en) * | 2017-10-13 | 2019-04-17 | Cirrus Logic Int Semiconductor Ltd | Analysing speech signals |
GB201804843D0 (en) | 2017-11-14 | 2018-05-09 | Cirrus Logic Int Semiconductor Ltd | Detection of replay attack |
GB201719734D0 (en) * | 2017-10-30 | 2018-01-10 | Cirrus Logic Int Semiconductor Ltd | Speaker identification |
GB201801663D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of liveness |
GB201801874D0 (en) | 2017-10-13 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Improving robustness of speech processing system against ultrasound and dolphin attacks |
GB201801659D0 (en) | 2017-11-14 | 2018-03-21 | Cirrus Logic Int Semiconductor Ltd | Detection of loudspeaker playback |
US11264037B2 (en) | 2018-01-23 | 2022-03-01 | Cirrus Logic, Inc. | Speaker identification |
US11475899B2 (en) | 2018-01-23 | 2022-10-18 | Cirrus Logic, Inc. | Speaker identification |
US11735189B2 (en) | 2018-01-23 | 2023-08-22 | Cirrus Logic, Inc. | Speaker identification |
US10692490B2 (en) | 2018-07-31 | 2020-06-23 | Cirrus Logic, Inc. | Detection of replay attack |
US10915614B2 (en) | 2018-08-31 | 2021-02-09 | Cirrus Logic, Inc. | Biometric authentication |
US11037574B2 (en) | 2018-09-05 | 2021-06-15 | Cirrus Logic, Inc. | Speaker recognition and speaker change detection |
CN112927709B (zh) * | 2021-02-04 | 2022-06-14 | 武汉大学 | 一种基于时频域联合损失函数的语音增强方法 |
CN115294947B (zh) * | 2022-07-29 | 2024-06-11 | 腾讯科技(深圳)有限公司 | 音频数据处理方法、装置、电子设备及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101496101A (zh) * | 2006-07-31 | 2009-07-29 | 高通股份有限公司 | 用于增益因子限制的系统、方法及设备 |
CN101964189A (zh) * | 2010-04-28 | 2011-02-02 | 华为技术有限公司 | 语音频信号切换方法及装置 |
WO2011050347A1 (en) * | 2009-10-23 | 2011-04-28 | Qualcomm Incorporated | Determining an upperband signal from a narrowband signal |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2252170A1 (en) * | 1998-10-27 | 2000-04-27 | Bruno Bessette | A method and device for high quality coding of wideband speech and audio signals |
EP1173998B1 (en) | 1999-04-26 | 2008-09-03 | Lucent Technologies Inc. | Path switching according to transmission requirements |
CA2290037A1 (en) * | 1999-11-18 | 2001-05-18 | Voiceage Corporation | Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals |
US6606591B1 (en) | 2000-04-13 | 2003-08-12 | Conexant Systems, Inc. | Speech coding employing hybrid linear prediction coding |
US7113522B2 (en) | 2001-01-24 | 2006-09-26 | Qualcomm, Incorporated | Enhanced conversion of wideband signals to narrowband signals |
JP2003044098A (ja) | 2001-07-26 | 2003-02-14 | Nec Corp | 音声帯域拡張装置及び音声帯域拡張方法 |
US7895035B2 (en) | 2004-09-06 | 2011-02-22 | Panasonic Corporation | Scalable decoding apparatus and method for concealing lost spectral parameters |
JP5100380B2 (ja) | 2005-06-29 | 2012-12-19 | パナソニック株式会社 | スケーラブル復号装置および消失データ補間方法 |
RU2414009C2 (ru) * | 2006-01-18 | 2011-03-10 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Устройство и способ для кодирования и декодирования сигнала |
TW200737738A (en) | 2006-01-18 | 2007-10-01 | Lg Electronics Inc | Apparatus and method for encoding and decoding signal |
GB2444757B (en) | 2006-12-13 | 2009-04-22 | Motorola Inc | Code excited linear prediction speech coding |
JP4733727B2 (ja) | 2007-10-30 | 2011-07-27 | 日本電信電話株式会社 | 音声楽音擬似広帯域化装置と音声楽音擬似広帯域化方法、及びそのプログラムとその記録媒体 |
KR101290622B1 (ko) * | 2007-11-02 | 2013-07-29 | 후아웨이 테크놀러지 컴퍼니 리미티드 | 오디오 복호화 방법 및 장치 |
CN100585699C (zh) * | 2007-11-02 | 2010-01-27 | 华为技术有限公司 | 一种音频解码的方法和装置 |
KR100930061B1 (ko) * | 2008-01-22 | 2009-12-08 | 성균관대학교산학협력단 | 신호 검출 방법 및 장치 |
CN101499278B (zh) * | 2008-02-01 | 2011-12-28 | 华为技术有限公司 | 音频信号切换处理方法和装置 |
CN101751925B (zh) * | 2008-12-10 | 2011-12-21 | 华为技术有限公司 | 一种语音解码方法及装置 |
JP5448657B2 (ja) * | 2009-09-04 | 2014-03-19 | 三菱重工業株式会社 | 空気調和機の室外機 |
CN102044250B (zh) * | 2009-10-23 | 2012-06-27 | 华为技术有限公司 | 频带扩展方法及装置 |
JP5287685B2 (ja) * | 2009-11-30 | 2013-09-11 | ダイキン工業株式会社 | 空調室外機 |
US8000968B1 (en) * | 2011-04-26 | 2011-08-16 | Huawei Technologies Co., Ltd. | Method and apparatus for switching speech or audio signals |
MX2013009305A (es) * | 2011-02-14 | 2013-10-03 | Fraunhofer Ges Forschung | Generacion de ruido en codecs de audio. |
CN103295578B (zh) | 2012-03-01 | 2016-05-18 | 华为技术有限公司 | 一种语音频信号处理方法和装置 |
-
2012
- 2012-03-01 CN CN201210051672.6A patent/CN103295578B/zh active Active
- 2012-03-01 CN CN201510991494.9A patent/CN105469805B/zh active Active
-
2013
- 2013-03-01 ES ES18199234T patent/ES2867537T3/es active Active
- 2013-03-01 KR KR1020147025655A patent/KR101667865B1/ko active IP Right Grant
- 2013-03-01 BR BR112014021407-7A patent/BR112014021407B1/pt active IP Right Grant
- 2013-03-01 MX MX2017001662A patent/MX364202B/es unknown
- 2013-03-01 PT PT137545646T patent/PT2821993T/pt unknown
- 2013-03-01 MY MYPI2014002393A patent/MY162423A/en unknown
- 2013-03-01 RU RU2016115109A patent/RU2616557C1/ru active
- 2013-03-01 EP EP13754564.6A patent/EP2821993B1/en active Active
- 2013-03-01 RU RU2014139605/08A patent/RU2585987C2/ru active
- 2013-03-01 WO PCT/CN2013/072075 patent/WO2013127364A1/zh active Application Filing
- 2013-03-01 PL PL18199234T patent/PL3534365T3/pl unknown
- 2013-03-01 EP EP16187948.1A patent/EP3193331B1/en active Active
- 2013-03-01 JP JP2014559077A patent/JP6010141B2/ja active Active
- 2013-03-01 MX MX2014010376A patent/MX345604B/es active IP Right Grant
- 2013-03-01 TR TR2019/11006T patent/TR201911006T4/tr unknown
- 2013-03-01 SG SG11201404954WA patent/SG11201404954WA/en unknown
- 2013-03-01 IN IN1739KON2014 patent/IN2014KN01739A/en unknown
- 2013-03-01 KR KR1020177002148A patent/KR101844199B1/ko active IP Right Grant
- 2013-03-01 PT PT16187948T patent/PT3193331T/pt unknown
- 2013-03-01 CA CA2865533A patent/CA2865533C/en active Active
- 2013-03-01 ES ES16187948T patent/ES2741849T3/es active Active
- 2013-03-01 HU HUE18199234A patent/HUE053834T2/hu unknown
- 2013-03-01 DK DK18199234.8T patent/DK3534365T3/da active
- 2013-03-01 EP EP18199234.8A patent/EP3534365B1/en active Active
- 2013-03-01 ES ES13754564.6T patent/ES2629135T3/es active Active
- 2013-03-01 SG SG10201608440XA patent/SG10201608440XA/en unknown
- 2013-03-01 KR KR1020167028242A patent/KR101702281B1/ko active Application Filing
-
2014
- 2014-08-25 ZA ZA2014/06248A patent/ZA201406248B/en unknown
- 2014-08-27 US US14/470,559 patent/US9691396B2/en active Active
-
2016
- 2016-09-15 JP JP2016180496A patent/JP6378274B2/ja active Active
-
2017
- 2017-06-07 US US15/616,188 patent/US10013987B2/en active Active
-
2018
- 2018-06-28 US US16/021,621 patent/US10360917B2/en active Active
- 2018-07-26 JP JP2018140054A patent/JP6558748B2/ja active Active
-
2019
- 2019-06-28 US US16/457,165 patent/US10559313B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101496101A (zh) * | 2006-07-31 | 2009-07-29 | 高通股份有限公司 | 用于增益因子限制的系统、方法及设备 |
WO2011050347A1 (en) * | 2009-10-23 | 2011-04-28 | Qualcomm Incorporated | Determining an upperband signal from a narrowband signal |
CN101964189A (zh) * | 2010-04-28 | 2011-02-02 | 华为技术有限公司 | 语音频信号切换方法及装置 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105469805A (zh) | 一种语音频信号处理方法和装置 | |
US9361904B2 (en) | Method for predicting bandwidth extension frequency band signal, and decoding device | |
CN106847297B (zh) | 高频带信号的预测方法、编/解码设备 | |
CA3181066A1 (en) | Method, apparatus, and system for processing audio data | |
JP6612808B2 (ja) | 会話/音声信号処理方法および符号化装置 | |
JP2014507681A (ja) | 帯域幅を拡張する方法および装置 | |
CN105761724A (zh) | 一种语音频信号处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |