CN102903364B

CN102903364B - 一种进行语音自适应非连续传输的方法及装置

Info

Publication number: CN102903364B
Application number: CN201110216374.3A
Authority: CN
Inventors: 顾彩霞; 袁浩; 江东平; 黎家力
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2011-07-29
Filing date: 2011-07-29
Publication date: 2017-04-12
Anticipated expiration: 2031-07-29
Also published as: WO2013017018A1; CN102903364A

Abstract

本发明公开了一种进行语音自适应非连续传输的方法及装置，此方法包括：在进行语音自适应非连续传输中，根据当前的语音信号帧和上一静音插入描述帧的频谱信息决定是否发送静音插入描述帧。本方案可以克服现有技术中的采用固定间隔方式不能灵活跟踪信号变化，采用可变间隔方式又必须有线性预测等多参数的计算导致计算复杂度高的缺点。本方案直接在频域进行，能很好地跟踪信号的变化，在保持较低平均码率的同时保证音质。

Description

一种进行语音自适应非连续传输的方法及装置

技术领域

本发明涉及数字信号处理领域，尤其涉及一种进行语音自适应非连续传输(Discontinuous Transmission，简称DTX)的方法及装置。

背景技术

在实际用户通信过程中，一般情况下，较少时间用于传送用户话音，较多时间用于传送非话音的背景音。如果按照对语音信号的编码方式对通信过程进行全程编码，会造成很大的资源浪费。现有技术中为了减少这种浪费，发送端利用语音激活检测(VoiceActivity Detector，简称VAD)算法进行信号检测，检测到通话中的静音(inactive)段时，在静音段中使用较低码率对信号的重要信息进行编码，即将信号编码成为静音插入描述(Silence InsertionDescriptor，简称SID)帧，并且采用不连续方式发送SID帧。解码端根据接收到的SID帧以舒适噪声产生(Comfort Noise Generation，简称CNG)的方式进行解码。这样，在对音质影响不大的基础上，大大减少平均码率，节省资源，这无疑对于有效地使用日益紧张的网络带宽资源具有积极地意义。因此，在静音段采用什么样的策略以及多大间隔来发送SID帧，也就决定了节省带宽的多少。

目前在语音自适应非连续传输中进行SID帧发送的方式主要包括两类：一，以固定间隔发送；二：以可变间隔发送。

采用方式一的以固定间隔发送方案时，采用事先设定好的参数，在静音段每隔一定的帧数发送一SID帧，例如3GPP AMR和AMR-WB语音编码标准中就是使用的该方法，固定每8帧发送一次。该方法的优点是计算简单，容易实现，缺点是不能根据信号特征自动调节码率。

自适应多速率(Adaptive Multi Rate，简称AMR)的SID帧发送机制中，发送端在语音帧后检测到静音帧时，不立即进入静音段，而是采用一定的缓冲(hangover)机制，在此缓冲阶段，仍然按照对正常语音的编码进行编码，在缓冲阶段之后，仍然检测到静音帧，则在静音段之后的第一个静音帧位置发送SIDFIRST帧(即第一SID帧)，在第三个静音帧位置发送每一个SID更新(SIDUPDATE)帧，之后，固定每隔7帧发送一个SID更新帧，这样在缓冲阶段后按固定低码率对SID帧进行参数更新，以达到更新参数的目的。在另一种实现方式中，在连续N个语音帧后检测到静音帧并且此N的值小于34时，取消缓冲阶段，直接进行SID更新帧的发送。此方法计算简单，只需要使用计数器就可以实现，不需要进行额外的参数计算，并且码率可控，算法稳定。此方法的缺点是采用固定间隔，使码率固定，对于不同噪声使用统一的码率，不能根据噪声信号的变化进行调整。比如对于白噪声，参数非常稳定，但是仍然频繁发送SID帧，不能有效降低码率。而对于变化很快的噪声信号，又不能及时跟踪信号变化，造成信息延迟，导致在解码端进行CNG恢复的时候噪声信号失真很大。

采用方式二的以可变间隔发送方案时，采用一定算法对静音段的信号进行实时评估，根据信号的实时变化，决定是否需要发送SID帧。该方法的优点是灵活，可以根据信号的实时变化而变化，最大限度地节省带宽，并且平均码率可调节，缺点是计算相对复杂。

ITU-T G.729语音编码器中就是采用的可变间隔发送方式，通过对信号的LPC等参数的计算，来衡量信号是否发生重大改变，以决定是否需要更新，虽然该方法能自适应地跟踪信号，但是计算复杂度较高。该方法是建立在线性预测基础上的。首先对信号进行线性预测编码(Linear Predictive Coding，简称LPC)得到信号的线性预测参数a和残差能量E，然后使用该系数的数学表示，与存储器中存储的上一个发送的SID帧的同参数做比较，如果LPC的包络或者能量中任意一个比较结果大于一定的门限，则认为信号发生变化，则发送SID更新帧，否则不发送。由于该方法是在时域进行，首先必须要进行信号的LPC分析，计算比较复杂。并且LPC系数对信号频谱的真实反映程度取决于LPC的阶数，而LPC的阶数与计算复杂度是成正比的。另外使用信号的残差能量或者LPC包络单独进行检测，难以整体反映信号的变化。比如，如果LPC对本帧信号的描述不准确，则直接导致信号的残差能量发生比较大变化。

发明内容

本发明要解决的技术问题是提供一种进行语音自适应非连续传输的方法及装置，克服现有技术中的采用固定间隔方式不能灵活跟踪信号变化，采用可变间隔方式又必须有线性预测等多参数的计算导致计算复杂度高的缺点。

为了解决上述技术问题，本发明提供了一种进行语音自适应非连续传输的方法，包括：在进行语音自适应非连续传输中，根据当前的语音信号帧和上一静音插入描述帧的频谱信息决定是否发送静音插入描述帧。

进一步地，上述方法还可以具有以下特点：

所述语音信号帧的频谱信息是指根据所述语音信号帧的频域信号计算得到的频谱信息，或者，对所述语音信号帧的频域信号进行平滑处理后根据平滑处理后的频域信号计算得到的频谱信息。

进一步地，上述方法还可以具有以下特点：

判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的差距大于预设限度一时，发送静音插入描述帧。

进一步地，上述方法还可以具有以下特点：

判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距大于预设限度一，进一步判断所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度二时，连续发送两个静音插入描述帧，其中预设限度二对应的频谱能量差距大于预设限度一对应的频谱能量差距。

进一步地，上述方法还可以具有以下特点：

所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度是指：

所述语音信号帧的频谱能量与上一静音插入描述帧的频谱能量的比值大于预设限度对应的比值门限或者小于此比值门限的倒数，其中所述比值门限为大于1的实数；

或者，

所述语音信号帧的频谱能量与所述上一静音插入描述帧的频谱能量的差值绝对值大于差值门限。

进一步地，上述方法还可以具有以下特点：

判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限时，根据当前的语音信号帧和上一静音插入描述帧的频谱能量计算两者的频谱相关值，判断所述频谱相关值小于频谱相关性门限时，发送静音插入描述帧。

为了解决上述技术问题，本发明提供了一种进行语音自适应非连续传输的装置，其中，所述装置包括静音插入描述帧处理单元和静音插入描述帧存储单元；所述静音插入描述帧处理单元，用于根据当前的语音信号帧和上一静音插入描述帧的频谱信息决定是否发送静音插入描述帧；所述静音插入描述帧存储单元，用于在所述装置发送静音插入描述帧后，存储此静音插入描述帧的频谱信息。

进一步地，上述装置还可以具有以下特点：

所述静音插入描述帧处理单元，还用于对所述语音信号帧的频域信号进行平滑处理后根据平滑处理后的频域信号计算得到的频谱信息；

所述静音插入描述帧存储单元，还用于存储经过平滑处理后的频域信号。

进一步地，上述装置还可以具有以下特点：

所述静音插入描述帧处理单元，还用于判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的差距大于预设限度一时，发送静音插入描述帧；或者，还用于判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距大于预设限度一，进一步判断所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度二时，连续发送两个静音插入描述帧，其中预设限度二对应的频谱能量差距大于预设限度一对应的频谱能量差距；

所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度是指：所述语音信号帧的频谱能量与上一静音插入描述帧的频谱能量的比值大于预设限度对应的比值门限或者小于此比值门限的倒数，其中所述比值门限为大于1的实数；或者，所述语音信号帧的频谱能量与所述上一静音插入描述帧的频谱能量的差值绝对值大于差值门限。

进一步地，上述装置还可以具有以下特点：

所述静音插入描述帧处理单元，还用于判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限时，根据当前的语音信号帧和上一静音插入描述帧的频谱能量计算两者的频谱相关值，判断所述频谱相关值小于频谱相关性门限时，发送静音插入描述帧。

本方案可以克服现有技术中的采用固定间隔方式不能灵活跟踪信号变化，采用可变间隔方式又必须有线性预测等多参数的计算导致计算复杂度高的缺点。本方案直接在频域进行，能很好地跟踪信号的变化，在保持较低平均码率的同时保证音质。

附图说明

图1是进行语音自适应非连续传输的装置的结构示意图；

图2是进行语音自适应非连续传输的装置的另一种结构示意图；

图3是具体实施例二中进行语音自适应非连续传输的流程示意图；

图4是具体实施例三中进行语音自适应非连续传输的流程示意图.

具体实施方式

如图1所示，进行语音自适应非连续传输的装置包括静音插入描述帧处理单元和静音插入描述帧存储单元。

静音插入描述帧处理单元，用于根据当前的语音信号帧和上一静音插入描述帧的频谱信息决定是否发送静音插入描述帧；

静音插入描述帧存储单元，用于在所述装置发送静音插入描述帧后，存储此静音插入描述帧的频谱信息。

实施方式一中，静音插入描述帧处理单元还用于判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的差距大于预设限度一时，发送静音插入描述帧。

静音插入描述帧处理单元还用于判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距大于预设限度一，进一步判断所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度二时，连续发送两个静音插入描述帧，其中预设限度二对应的频谱能量差距大于预设限度一对应的频谱能量差距。

其中，语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的差距值大于预设限度是指：

语音信号帧的频谱能量与上一静音插入描述帧的频谱能量的比值大于预设限度对应的比值门限或者小于此比值门限的倒数，其中所述比值门限为大于1的实数；或者，语音信号帧的频谱能量与所述上一静音插入描述帧的频谱能量的差值绝对值大于差值门限。

实施方式二中，静音插入描述帧处理单元用于判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限时，根据当前的语音信号帧和上一静音插入描述帧的频谱能量计算两者的频谱相关值，判断所述频谱相关值小于频谱相关性门限时，发送静音插入描述帧。

实施方式三中，静音插入描述帧处理单元用于同时两者的频谱能量的差距和频谱相关值决定是否发送静音插入描述帧。

如图2所示，所述装置还可以包括平滑滤波单元；平滑滤波单元用于对语音信号的频域信号进行平滑滤波后，输入至所述静音插入描述帧处理单元，静音插入描述帧处理单元对平滑处理后的频域信号进行上述处理，静音插入描述帧存储单元还需保存平滑处理后的频域信号。

进行语音自适应非连续传输的方法包括：在进行语音自适应非连续传输中，根据当前的语音信号帧和上一静音插入描述帧的频谱信息决定是否发送静音插入描述帧。

平滑处理主要为更准确地比较信号频谱变化，减小频谱的细节对整体比较的影响，消除频谱尖峰和毛刺，使输出频谱更加平滑，使得频谱包络更加平稳。此频谱平滑可以使用一个平滑滤波器实现。以16kHz采样，20ms帧长为例进行说明。通过采用FFT，将时域信号变换到频域，得到本帧信号的频谱参数，FFT采用长度为320点。可以采用以下平滑滤波器：

H(z)＝a₀Z^-2+a₁Z^-1+a₂+a₃Z+a₄Z²

其中系数[a₀，a₁，a₂，a₃，a₄]是平滑系数，取值可以为[0.15，0.15，0.4，0.15，0.15]。经过平滑处理后，谱线趋势不变，但是瞬时突变减小，更有利于观察信号频谱包络的变化。上述频谱平滑包括但是不限于上述使用滤波器的方式。在滤波器使用过程中，也可以通过调节滤波器的系数或者阶数来达到不同的调整效果。

实施方式一中，判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的差距大于预设限度一时，发送静音插入描述帧。

其中，所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度是指：所述语音信号帧的频谱能量与上一静音插入描述帧的频谱能量的比值大于预设限度对应的比值门限或者小于此比值门限的倒数，其中所述比值门限为大于1的实数；或者，所述语音信号帧的频谱能量与所述上一静音插入描述帧的频谱能量的差值绝对值大于差值门限。

实施方式二中，判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限时，根据当前的语音信号帧和上一静音插入描述帧的频谱能量计算两者的频谱相关值，判断所述频谱相关值小于频谱相关性门限时，发送静音插入描述帧。

实施方式三中，可以同时两者的频谱能量的差距和频谱相关值决定是否发送静音插入描述帧。

下面通过具体实施例进行详细说明。

具体实施例一

本实施例中采用频谱相关值参数进行判断。

本装置在每次进行SID帧后，将此SID帧的频谱能量信息存储于SID帧存储单元中，即静音插入描述帧存储单元中存储的信息为最近一次发送的SID帧的频谱能量信息。

在进行是否发送SID帧的判决时，首先判断当前语音信号帧的频谱能量的绝对值和上一静音插入描述帧的频谱能量的绝对值中至少一个大于单帧能量门限(THR1)，如果不满足上述条件，则认为信号执行维持低能量，不需要发送SID帧，满足上述条件后，根据下式计算当前语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的相关值：

其中，S(i)代表当前语音信号帧的频谱能量，S_last(i)表示当前帧的前一SID帧的频谱能量，N代表频谱长度，本实施例中取320。

如果上式中两个频谱相关值R₁的绝对值小于频谱相关性门限(THR2)，则判定需要发送SID帧，同时更新SID帧存储单元的信息。

具体实施例二

本实施例中采用频谱能量的比值进行判断。

如图3所示，在进行是否发送SID帧的判决时，首先判断当前语音信号帧的频谱能量的绝对值和上一静音插入描述帧的频谱能量的绝对值中至少一个大于单帧能量门限，如果不满足上述条件，则认为信号执行维持低能量，不需要发送SID帧，满足上述条件后，根据下式计算当前语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的比值：

其中，S(i)代表当前语音信号帧的频谱能量，S_last(i)表示当前帧的前一SID帧的频谱能量，N代表频谱长度。

如果两者的比值R₂大于门限值THR3或者小于THR3的倒数，THR3为大于1的实数，说明信号能量发生较大变化，需发送一个SID帧，否则，不需要发送SID帧。

具体实施例三

本实施例中采用频谱能量的比值进行判断。

如图4所示，在进行是否发送SID帧的判决时，首先判断当前语音信号帧的频谱能量的绝对值和上一静音插入描述帧的频谱能量的绝对值中至少一个大于单帧能量门限，如果不满足上述条件，则认为信号执行维持低能量，不需要发送SID帧，满足上述条件后，根据下式计算当前语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的比值：

如果两者的比值R₂大于门限值THR3或者小于THR3的倒数，THR3为大于1的实数，说明信号能量发生较大变化，进行下一步判断，否则，不需要发送SID帧。

进一步判断两者的比值R₂大于门限值THR4或者小于THR4的倒数时(THR4为大于THR3的实数)，说明信号能量突然发生非常大(比如静音中突然出现能量非常大的噪声)，则设置一个连续更新信号，并强制连续发送两个SID帧，不满足此条件时，只需发送一个SID帧。

具体实施例四

本实施例中采用频谱能量的差值进行判断。

在进行是否发送SID帧的判决时，首先判断当前语音信号帧的频谱能量的绝对值和上一静音插入描述帧的频谱能量的绝对值中至少一个大于单帧能量门限，如果不满足上述条件，则认为信号执行维持低能量，不需要发送SID帧，满足上述条件后，根据下式计算当前语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的差值：

如果两者的差值R₃的绝对值大于门限值THR5，说明信号能量发生较大变化，需要发送SID帧，同时更新SID帧存储单元的信息。

在上述方案以及具体实施例中，可以加入缓冲(hangover)算法，以保证在语音结尾阶段的音质，并且使得CNG算法初始化完成。即在连续语音帧后检测到静音帧时，不是直接进入不连续传输方式，而是在最初的几个静音帧继续按照语音帧方式来处理。之后，才进入到不连续传输模式。例如，在语音帧后检测到第一个静音帧时，在最初的7个静音帧继续按照语音帧方式来处理。之后如果检测到的仍然是静音帧，则发送SID_FIRST帧，在SID_FIRST之后第三帧发送SID_UPDATE，然后根据上述描述的判决算法决定是否发送SID帧。所述hangover算法包括了对连续语音帧的计数，在检测到第一个静音帧时，判断此连续语音帧的数值大于设置的缓冲门限(thr_hangover)时，按照上述的缓冲算法设置缓冲阶段，否则，直接发送SID_UPDATE，并且进入自动检测状态，同时将对连续语音帧的计数清零。

在上述方案以及具体实施例中，还可以设置最大SID间隔门限值。在当前帧进行判决时，当前帧与上一SID帧的间隔超过此最大SID间隔门限值时，强制更新一帧SID，以保证系统稳定，减少由于SID帧丢失等异常情况造成的不利影响。

在上述方案以及具体实施例中，还可以设置最小SID间隔门限值。在当前帧进行判决时，当前帧与上一SID帧的间隔超过小于此最小SID间隔门限值时，判定不发送SID帧，暂时不更新，以减少SID帧的频繁发送。

本方案可以用于实时双向通信如无线、IP会议电视等领域的语音的不连续传输情况，在基本不影响音质的情况下有效节省带宽资源，提高网络使用效率。本发明计算复杂度较低，对信号频谱变化的跟踪比较准确，能够在噪声变化快的情况下进行有效跟踪，在噪声平稳情况下有效节省带宽，并且不依赖于具体的语音频编码器，具有灵活高效的特点。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。

当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的情况下，熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形，但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块/单元可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。

Claims

1.一种进行语音自适应非连续传输的方法，其中，

在进行语音自适应非连续传输中，根据当前的语音信号帧和上一静音插入描述帧的频谱信息决定是否发送静音插入描述帧，包括：

判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和上一静音插入描述帧的频谱能量的差距大于预设限度一时，发送静音插入描述帧；或者，

2.如权利要求1所述的方法，其特征在于，

3.如权利要求1所述的方法，其特征在于，

所述语音信号帧的频谱能量与上一静音插入描述帧的频谱能量的比值大于预设限度对应的比值门限或者小于此比值门限的倒数，其中所述比值门限为大于1的实数；或者，

4.一种进行语音自适应非连续传输的方法，其特征在于，

在进行语音自适应非连续传输中，根据当前的语音信号帧和上一静音插入描述帧的频谱信息决定是否发送静音插入描述帧，包括：判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限时，根据当前的语音信号帧和上一静音插入描述帧的频谱能量计算两者的频谱相关值，判断所述频谱相关值小于频谱相关性门限时，发送静音插入描述帧。

5.如权利要求4所述的方法，其特征在于，

6.一种进行语音自适应非连续传输的装置，其中，所述装置包括静音插入描述帧处理单元和静音插入描述帧存储单元；

所述静音插入描述帧处理单元，用于根据当前的语音信号帧和上一静音插入描述帧的频谱信息决定是否发送静音插入描述帧，包括：

判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限并且所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距大于预设限度一，进一步判断所述语音信号帧的频谱能量和所述上一静音插入描述帧的频谱能量的差距值大于预设限度二时，连续发送两个静音插入描述帧，其中预设限度二对应的频谱能量差距大于预设限度一对应的频谱能量差距；

所述静音插入描述帧存储单元，用于在所述装置发送静音插入描述帧后，存储此静音插入描述帧的频谱信息。

7.如权利要求6所述的装置，其特征在于，

8.如权利要求6所述的装置，其特征在于，

9.一种进行语音自适应非连续传输的装置，其特征在于，所述装置包括静音插入描述帧处理单元和静音插入描述帧存储单元；

所述静音插入描述帧处理单元，用于根据当前的语音信号帧和上一静音插入描述帧的频谱信息决定是否发送静音插入描述帧，包括：判断所述语音信号帧的频谱能量的绝对值和/或所述上一静音插入描述帧的频谱能量的绝对值大于单帧能量门限时，根据当前的语音信号帧和上一静音插入描述帧的频谱能量计算两者的频谱相关值，判断所述频谱相关值小于频谱相关性门限时，发送静音插入描述帧；

10.如权利要求9所述的装置，其特征在于，