CN112334980B - 自适应舒适噪声参数确定 - Google Patents
自适应舒适噪声参数确定 Download PDFInfo
- Publication number
- CN112334980B CN112334980B CN201980042502.1A CN201980042502A CN112334980B CN 112334980 B CN112334980 B CN 112334980B CN 201980042502 A CN201980042502 A CN 201980042502A CN 112334980 B CN112334980 B CN 112334980B
- Authority
- CN
- China
- Prior art keywords
- curr
- prev
- active
- parameter
- inactive segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003044 adaptive effect Effects 0.000 title description 3
- 238000000034 method Methods 0.000 claims abstract description 49
- 230000000694 effects Effects 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims description 50
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 238000013459 approach Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 11
- 230000000875 corresponding effect Effects 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 206010019133 Hangover Diseases 0.000 description 8
- 238000012935 Averaging Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007274 generation of a signal involved in cell-cell signaling Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Noise Elimination (AREA)
- Control Of Amplification And Gain Control (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
提供了一种用于生成舒适噪声(CN)参数的方法。该方法包括:接收音频输入;使用语音活动检测器(VAD)检测音频输入中的当前非活跃段;作为使用VAD检测到音频输入中的当前非活跃段的结果,计算CN参数CNused;以及向解码器提供CN参数CNused。CN参数CNused是至少部分地基于当前非活跃段和前一非活跃段来计算的。
Description
技术领域
公开了与舒适噪声(CN)生成相关的实施例。
背景技术
尽管电信网络中的容量在不断增加,但是限制每个通信信道所需的带宽仍然令人非常关注。在移动网络中,针对每个呼叫的传输带宽较小意味着移动网络可以并行服务于大量用户。降低传输带宽也会在移动设备和基站两者中产生较低的功耗。这转化为给移动运营商节约了能量和成本,而最终用户将经历延长的电池寿命和增加的通话时间。
用于减少语音通信中的传输带宽的一种这样的方法是利用语音中的自然停顿。在大多数对话中,一次只有一个讲话者是活跃的,因此在一个方向上的语音停顿通常会占据信号的一半以上。使用典型对话的这一属性来减小传输带宽的方法是采用不连续传输(DTX)方案,其中在语音停顿期间中断活跃信号编码。针对所有3GPP移动电话标准(即2G、3G和VoLTE)对DTX方案进行了标准化。它通常也用于IP语音(Voice over IP)系统中。
在语音停顿期间,通常发送背景噪声的极低比特率编码,以允许接收端中的舒适噪声发生器(CNG)使用具有与原始噪声相似特性的背景噪声来填充停顿。CNG使声音更自然,因为背景噪声被保持并且不随着语音而开启和关闭。非活跃段(即语音停顿)中的完全静音感知起来是烦人的,并经常导致误解呼叫已中断。
DTX方案还依赖于语音活动检测器(VAD),该语音活动检测器向系统指示是否在活跃段中使用活跃信号编码方法或在非活跃段中使用低速率背景噪声编码。系统可以被概括为通过使用(通用)声音活动检测器(GSAD或SAD)来在其他来源类型之间进行区分,该(通用)声音活动检测器不仅可以从背景噪声中区分出语音,而且还可以检测音乐或其他信号类型(其被认为是相关的)。
可以通过支持立体声或多声道音频传输来进一步增强通信服务。在这些情况下,DTX/CNG系统还需要考虑信号的空间特性,以便提供听起来令人愉快的舒适噪声。
例如在所有3GPP语音编解码器中使用的常见的CN生成方法是,发送与语音停顿中的背景噪声的能量和频谱形状有关的信息。这可以使用比语音段的常规编码数量明显更少的比特来完成。在接收机侧,通过以下方式来生成CN:创建伪随机信号,然后基于从发送侧接收的信息来使用滤波器对信号的频谱进行整形。该信号生成和频谱整形可以在时域或频域中完成。
发明内容
在典型的DTX系统中,容量增益来自以下事实:使用比常规编码少的比特来对CN进行编码。这种比特节省的一部分原因来自以下事实:CN参数通常不像常规编码参数那样频繁地发送。这通常运行良好,因为背景噪声特征的变化不像例如语音信号那样快。编码的CN参数通常被称为“SID帧”,其中SID代表静音描述符。
典型的情况是,CN参数在每第8个语音编码器帧发送(一个语音编码器帧通常为20ms),然后它们被用于接收机中,直到接收到下一组CN参数为止(参见图2)。避免CN中的不期望的波动的一种解决方案是在所有8个语音编码器帧期间对CN参数进行采样,然后发送平均值,或者是使参数基于所有8个帧的某种其他方式,如图3所示。
在新的非活跃段中的第一帧中(即,紧接在语音突发之后),可能无法使用在若干帧上获得的平均值。某些编解码器(如3GPP EVS编解码器)在非活跃段之前使用所谓的尾响(hangover)时段。在此尾响时段中,信号被分类为非活跃的,但是在开始非活跃编码之前,仍然针对多达8个帧使用活跃编码。其原因之一是允许在该时段期间允许对CN参数进行平均(参见图4)。如果活跃时段很短,则尾响时段的长度被缩短或甚至完全被省略,以避免使短活跃声音突发触发长得多的尾响时段,从而不必要地增大活跃传输时段(参见图5)。
上述解决方案的问题在于,第一CN参数组不是总能在若干语音编码器帧上被采样,而是将替代地在更少或甚至仅一个帧中被采样。这可能导致非活跃段以如下CN开始的情况:该CN在开始时是不同的,并且然后在平均后的参数的传输开始时变化并且稳定下来。这对于收听者感知起来可能是烦人的,特别是如果它经常发生的话。
在本发明的实施例中,当位于非活跃段中时,CN参数通常基于两个连续的CN参数传输之间的时段上的信号特性来确定。然而,每个非活跃段中的第一个帧被不同地处理:这里CN参数基于非活跃编码的第一个帧(通常是第一个SID帧)和任何尾响帧的信号特性,并且还基于前一非活跃段结束时最后发送的SID帧以及其后的任何非活跃帧的信号特性。应用加权因子,使得针对来自前一非活跃段的数据的权重根据活跃段其间的长度而减小。先前的数据越旧,它获得的权重就越小。
本发明的实施例改进了在解码器中生成的CN的稳定性,同时其足够灵敏以跟随输入信号的变化。
根据第一方面,提供了一种用于生成舒适噪声(CN)参数的方法。该方法包括:接收音频输入;使用语音活动检测器(VAD)检测音频输入中的当前非活跃段;作为使用VAD检测到音频输入中的当前非活跃段的结果,计算CN参数CNused;以及向解码器提供CN参数CNused。CN参数CNused是至少部分地基于当前非活跃段和前一非活跃段来计算的。
在一些实施例中,计算CN参数包括计算CNused=f(Tactive,Tcurr,Tprev,CNcurr,CNprev),
其中:
CNcurr指代来自当前非活跃段的CN参数;
CNprev指代来自前一非活跃段的CN参数;
Tprev指代与CNprev相关的时间间隔参数;
Tcurr指代与CNcurr相关的时间间隔参数;以及
Tactive指代前一非活跃段与当前非活跃段之间的活跃段的时间间隔参数。
在一些实施例中,将函数f(·)定义为函数g1(·)和g2(·)的加权和,使得CN参数CNused由下式给出:
CNused=W1(Tactive,Tcurr,Tprev)*g1(CNcurr,Tcurr)+W2(Tactive,Tcurr,Tprev)*g2(CNprev,Tprev)
其中W1(·)和W2(·)是加权函数。在一些实施例中,W1(·)和W2(·)总和为1,使得W2(Tactive,Tcurr,Tprev)=1-W1(Tactive,Tcurr,Tprev)。在一些实施例中,函数g1(·)表示在时间段Tcurr上的平均值,并且函数g2(·)表示在时间段Tprev上的平均值。在一些实施例中,加权函数W1(·)和W2(·)仅是Tactive的函数,使得W1(Tactive,Tcurr,Tprev)=W1(Tactive)并且W2(Tactive,Tcurr,Tprev)=W2(Tactive)。在一些实施例中,0<W1(·)≤1并且0<1-W2(·)≤1,并且其中,随着时间Tactive接近无穷大,在极限情况下W1(·)收敛到1并且W2(·)收敛到0。
在一些实施例中,函数f(·)被定义为使得CN参数CNused由下式给出
其中,Ncurr表示与时间间隔参数Tcurr相对应的帧数,而Nprev表示与时间间隔参数Tprev相对应的帧数;并且其中W1(Tactive)和W2(Tactive)是加权函数。
根据第二方面,提供了一种用于生成舒适噪声(CN)侧边增益(side gain)参数的方法。该方法包括:接收音频输入,其中,该音频输入包括多个声道;使用语音活动检测器(VAD)检测音频输入中的当前非活跃段;作为使用VAD检测到音频输入中的当前非活跃段的结果,计算针对频带b的CN侧边增益参数SG(b);以及向解码器提供CN侧边增益参数SG(b)。CN侧边增益参数SG(b)是至少部分地基于当前非活跃段和前一非活跃段来计算的。
在一些实施例中,计算针对频带b的CN侧边增益参数SG(b)包括计算
其中:
SGcurr(b,i)表示针对频带b和当前非活跃段中的帧i的侧边增益值;
SGprev(b,j)表示针对频带b和前一非活跃段中的帧j的侧边增益值;
Ncurr表示来自当前非活跃段的总计帧数;
Nprev表示来自前一非活跃段的总计帧数;
W(k)表示加权函数;以及
nF表示当前非活跃段与前一非活跃段之间的活跃段中的帧数,对应于Tactive。
在一些实施例中,W(k)由给出。
根据第三方面,提供了一种用于生成舒适噪声(CN)的方法。该方法包括:接收根据第一方面的任何一个实施例生成的CN参数CNused;以及基于CN参数CNused生成舒适噪声。
根据第四方面,提供了一种用于生成舒适噪声(CN)的方法。该方法包括:接收根据第二方面的任何一个实施例生成的针对频带b的CN侧边增益参数SG(b);以及基于CN参数SG(b)生成舒适噪声。
根据第五方面,提供了一种用于生成舒适噪声(CN)参数的节点。该节点包括:接收单元,被配置为接收音频输入;检测单元,被配置为使用语音活动检测器(VAD)检测音频输入中的当前非活跃段;计算单元,被配置为作为使用VAD检测到音频输入中的当前非活跃段的结果,计算CN参数CNused;以及提供单元,被配置为向解码器提供CN参数CNused。CN参数CNused由计算单元至少部分地基于当前非活跃段和前一非活跃段来计算。
在一些实施例中,计算单元还被配置为通过计算CNused=f(Tactive,Tcurr,Tprev,CNcurr,CNprev)来计算CN参数CNused,
其中:
CNcurr指代来自当前非活跃段的CN参数;
CNprev指代来自前一非活跃段的CN参数;
Tprev指代与CNprev相关的时间间隔参数;
Tcurr指代与CNcurr相关的时间间隔参数;以及
Tactive指代前一非活跃段与当前非活跃段之间的活跃段的时间间隔参数。
根据第六方面,提供了一种用于生成舒适噪声(CN)侧边增益参数的节点。该节点包括:接收单元,被配置为接收音频输入,其中,该音频输入包括多个声道;检测单元,被配置为使用语音活动检测器(VAD)检测音频输入中的当前非活跃段;计算单元,被配置为作为使用VAD检测到音频输入中的当前非活跃段的结果,计算针对频带b的CN侧边增益参数SG(b);以及提供单元,被配置为向解码器提供CN侧边增益参数SG(b)。CN侧边增益参数SG(b)是至少部分地基于当前非活跃段和前一非活跃段来计算的。
在一些实施例中,计算单元还被配置为通过计算下式来计算针对频带b的CN侧边增益参数SG(b)
其中:
SGcurr(b,i)表示针对频带b和当前非活跃段中的帧i的侧边增益值;
SGprev(b,j)表示针对频带b和前一非活跃段中的帧j的侧边增益值;
Ncurr表示来自当前非活跃段的总计帧数;
Nprev表示来自前一非活跃段的总计帧数;
W(k)表示加权函数;以及
nF表示当前非活跃段与前一非活跃段之间的活跃段中的帧数,对应于Tactive。
根据第七方面,提供了一种用于生成舒适噪声(CN)的节点。该节点包括:接收单元,被配置为接收根据第一方面的任何一个实施例生成的CN参数CNused;以及生成单元,被配置为基于CN参数CNused来生成舒适噪声。
根据第八方面,提供了一种用于生成舒适噪声(CN)的节点。该节点包括:接收单元,被配置为接收根据第二方面的任何一个实施例生成的针对频带b的CN侧边增益参数SG(b);以及生成单元,被配置为基于CN侧边增益参数SG(b)来生成舒适噪声。
根据第九方面,提供了一种计算机程序,该计算机程序包括指令,该指令在由节点的处理电路执行时,使得该节点执行根据第一方面和第二方面的任何一个实施例的方法。
根据第十方面,提供了一种载体,该载体包含第九方面的任何实施例的计算机程序,其中,该载体是电子信号、光信号、无线电信号和计算机可读存储介质之一。
附图说明
本文中所包含并形成说明书的一部分的附图示出了各种实施例。
图1示出了根据一个实施例的DTX系统。
图2是示出了根据一个实施例的CN参数编码和传输的图。
图3是示出了根据一个实施例的求平均(averaging)的图。
图4是示出了根据一个实施例的在尾响时段的情况下求平均的图。
图5是示出了根据一个实施例的在没有尾响时段的情况下求平均的图。
图6是示出了根据一个实施例的侧边增益求平均的图。
图7是示出了根据一个实施例的过程的流程图。
图8是示出了根据一个实施例的过程的流程图。
图9是示出了根据一个实施例的过程的流程图。
图10是示出了根据一个实施例的节点的功能单元的图。
图11是示出了根据一个实施例的节点的功能单元的图。
图12是根据一个实施例的节点的框图。
具体实施方式
在许多情况下,例如带有其移动电话的一个人静止地站立,背景噪声特性随时间的推移将是稳定的。在这些情况下,以下操作将运行良好:将来自前一非活跃段的CN参数用作当前非活跃段的起始点,而不是依赖在当前非活跃段开始时的较短的时间段内获取的较不稳定的样本。
然而,存在背景噪声条件可能随时间的推移而改变的情况。用户可能从一个位置移动到另一个位置,例如从寂静的办公室移动到嘈杂的街道。即使电话用户不移动,环境中也可能存在变化的事物,例如在街道上驶过的公共汽车。这意味着将CN参数基于来自前一非活跃段的信号特性可能并不总是运行良好。
图1示出了根据一些实施例的DTX系统100。在DTX系统100中,接收音频信号作为输入。系统100包括三个模块:语音活动检测器(VAD)、语音/音频编码器和CNG编码器。VAD模块做出语音/噪声判定(例如,检测活跃或非活跃段,例如活跃语音的段或无语音的段)。如果存在语音,则语音/音频编码器将对音频信号进行编码并发送要发送的结果。如果不存在语音,则CNG编码器将生成要发送的舒适噪声参数。
本发明的实施例旨在针对具有CNG的改进的DTX系统自适应地平衡上述方面。在实施例中,可以基于函数f(·)将舒适噪声参数CNused确定如下:
CNused=f(Tactive,Tcurr,Tprev,CNcurr,CNprev)
在上述公式中,引用的变量具有以下含义:
CNused用于CN生成的CN参数
CNcurr来自当前非活跃段的CN参数
CNprev来自前一非活跃段的CN参数
Tprev用于确定前一非活跃段的CN参数的时间间隔参数
Tcurr用于确定当前非活跃段的CN参数的时间间隔参数
Tactive前一和当前非活跃段之间的活跃段的时间间隔参数
在一个实施例中,函数f(·)被定义为CNcurr和CNprev的函数g1(·)和g2(·)的加权和,即
CNused=W1(Tactive,Tcurr,Tprev)*g1(CNcurr,Tcurr)+W2(Tactive,Tcurr,Tprev)*g2(CNprev,Tprev)
其中W1(·)和W2(·)是加权函数。
在一个实施例中,函数g1(·)和g2(·)可以例如分别是时间段Tcurr和Tprev上的平均值。在实施例中,通常∑Wi=1。
在一些实施例中,前一CN参数平均值和当前CN参数平均值之间的加权可以仅基于活跃段的长度,即,基于Tactive。例如,可以使用以下公式:
在上面的公式中,引用的附加变量具有以下含义:
Ncurr当前平均值中使用的帧数,对应于Tcurr
Nprev先前平均值中使用的帧数,对应于Tprev,
W(t)加权函数,0<W(t)≤1,W(∞)=1
通过使用从当前非活跃段中获取的平均值和从前一段中获取的平均值两者来进行参数CN的求平均。然后基于加权函数,利用加权因子将这两个值组合,在一些实施例中,该加权函数取决于当前非活跃段与前一非活跃段之间的活跃段的长度,使得如果该活跃段长则给予前一平均值较小的权重,如果活跃段短则给予前一平均值较大的权重。
在另一个实施例中,附加地基于Tprev和Tcurr来适配权重。例如,这可能意味着赋予先前的CN参数较大的权重,因为Tcurr时段太短而无法给出对可以由CNG系统表示的长期信号特性的稳定估计。对应于该实施例的公式的示例如下:
在上面的公式中,引用的其他变量具有以下含义:
Ncurr当前平均值中使用的帧数,对应于Tcurr
Nprev前一平均值中使用的帧数,对应于Tprev
W1(t),加权函数
W2(t)
用于编码多声道(例如,立体声)信号的已建立的方法是创建输入信号的混合缩减(mix-down)(或缩减混合)信号(例如,在立体声输入信号的情况下为单声道),并且确定与编码后的缩减混合信号一起编码和发送的其他参数,以用于解码器处的增强混合(up-mix)。在立体声DTX情况下,可以将单声道信号编码并生成为CN,并且然后将使用立体声参数从单声道CN信号创建立体声信号。立体声参数通常例如在声源定位和立体声宽度方面来控制立体声图像。
在具有非固定立体声麦克风(例如移动电话或连接到移动电话的耳机)的情况下,立体声参数的变化可能比单声道CN参数的变化快。
为了通过示例来说明这一点:将头旋转90度可以非常快地完成,但是从一种类型的背景噪声环境移动到另一种类型的背景噪声环境将花费更长的时间。在许多情况下,立体声图像将不断变化,因为很难将移动电话或耳机保持在同一位置达任何较长的时间段。因此,本发明的实施例对于立体声参数可能是特别重要的。
立体声参数的一个示例是侧边增益SG。立体声信号可以被划分为混合缩减信号DMX和侧边信号S:
DMX(t)=L(t)+R(t)
S(t)=L(t)-R(t)
其中L(t)和R(t)分别指代左音频信号和右音频信号。然后对应的增强混合(up-mix)将是:
为了节省用于发送编码立体声信号的比特,根据下式,可以通过利用侧边增益参数SG从DMX信号中预测侧边信号S的一些分量
最小化的预测误差可以通过下式获得:
其中<·,·>表示信号(通常是信号的帧)之间的内积。
侧边增益可以在宽带中根据时域信号来确定,或者在频率子带中根据在变换域(例如,离散傅里叶变换(DFT)或修改的离散余弦变换(MDCT)域)中表示的或通过一些其他滤波器组表示而表示的缩减混合和侧边信号来获得。如果CNG的第一个帧中的侧边增益将显著基于前一非活跃段,并且与随后的帧显著不同,则与在非活跃段的其余部分期间的较慢节奏相比,立体声图像将在非活跃段的开始处剧烈变化。这被收听者感知起来将是烦人的,特别是如果这在每次新的非活跃段(即语音停顿)开始时都会重复的话。
下面的公式示出了本发明的实施例可以如何被用于从频分侧边增益(frequencydivided side gain)参数获得CN侧边增益参数的一个示例。
在上面的公式中,引用的变量具有以下含义:
SG(b)要在针对频带b的CN生成中使用的侧边增益值
SGcurr(b,i)前一平均值中使用的帧数,对应于Tprev
SGprev(b,j)针对频带b和前一非活跃段中的帧j的侧边增益值Ncurr来自当前非活跃段的总计帧数
Nprev来自前一非活跃段的总计帧数
W(k)加权函数。在一些实施例中:
nF当前和先前非活跃段之间的活跃段中的帧数,对应于Tactive。
图6示出了根据实施例的如何进行侧边增益求平均的示意图。注意,组合的加权平均值通常仅在每个交互段的第一个帧中使用。
注意,Ncurr和Nprev,可能有时会彼此不同。除了最后发送的CN参数的帧之外,Nprev还包括最后的CN参数发送帧与第一活跃帧之间的非活跃帧(所谓的无数据帧)。活跃帧当然可以随时发生,因此该数目将变化。Ncurr将包括尾响时段中的帧数加上第一个非活跃帧,如果尾响时段的长度是自适应的,则Ncurr也可能会变化。Ncurr不仅可以包括连续的尾响帧,而且通常还可以表示在确定当前CN参数时包括的帧数。
注意,改变平均值中使用的帧数只是改变在其上计算参数的时间间隔长度的一种方法。还存在改变参数所基于的时间间隔的长度的其他方法。例如,针对CN生成,线性预测编码(LPC)分析中的帧长也可以改变。
图7示出了用于生成舒适噪声(CN)参数的过程700。
该方法包括:接收音频输入(步骤702)。该方法还包括:使用语音活动检测器(VAD)检测音频输入中的当前非活跃段(步骤704)。该方法还包括:作为使用VAD检测到音频输入中的当前非活跃段的结果,计算CN参数CNused(步骤706)。该方法还包括:向解码器提供CN参数CNused。CN参数CNused是至少部分地基于当前非活跃段与前一非活跃段来计算的。
在一些实施例中,计算CN参数CNused包括计算CNused=f(Tactive,Tcurr,Tprev,CNcurr,CNprev),其中CNcurr指代来自当前非活跃段的CN参数;CNprev指代来自前一非活跃段的CN参数;Tprev指代与CNprev相关的时间间隔参数;Tcurr指代与CNcurr相关的时间间隔参数;Tactive指代前一非活跃段与当前非活跃段之间的活跃段的时间间隔参数。
在一些实施例中,将函数f(·)定义为函数g1(·)和g2(·)的加权和,使得CN参数CNused由下式给出:
CNused=W1(Tactive,Tcurr,Tprev)*g1(CNcurr,Tcurr)+W2(Tactive,Tcurr,Tprev)*g2(CNprev,Tprev)
其中W1(·)和W2(·)是加权函数。在一些实施例中,W1(·)和W2(·)总和为1,使得W2(Tactive,Tcurr,Tprev)=1-W1(Tactive,Tcurr,Tprev)。在一些实施例中,函数g1(·)表示在时间段Tcurr上的平均值,并且函数g2(·)表示在时间段Tprev上的平均值。在一些实施例中,加权函数W1(·)和W2(·)仅是Tactive的函数,使得W1(Tactive,Tcurr,Tprev)=W1(Tactive)并且W2(Tactive,Tcurr,Tprev)=W2(Tactive)。在一些实施例中,并且其中Ncurr表示与时间间隔参数Tcurr相对应的帧数,并且Nprev表示与时间间隔参数Tprev相对应的帧数。
在一些实施例中,0<W1(·)≤1并且0<1-W2(·)≤1,并且随着时间Tactive接近无穷大,在极限情况下W1(·)收敛到1并且W2(·)收敛到0。在实施例中,函数f(·)被定义为使得CN参数CNused由下式给出
其中,Ncurr表示与所述时间间隔参数Tcurr相对应的帧数,并且Nprev表示与所述时间间隔参数Tprev相对应的帧数;并且其中W1(Tactive)和W2(Tactive)是加权函数。
图8示出了用于生成舒适噪声(CN)侧边增益参数的过程800。该方法包括:接收音频输入,其中,该音频输入包括多个声道(步骤802)。该方法还包括:使用语音活动检测器(VAD)检测音频输入中的当前非活跃段(步骤804)。该方法还包括:作为使用VAD检测到音频输入中的当前非活跃段的结果,计算针对频带b的CN侧边增益参数SG(b)(步骤806)。该方法还包括:向解码器提供CN侧边增益参数SG(b)(步骤808)。CN侧边增益参数SG(b)是至少部分地基于当前非活跃段和前一非活跃段来计算的(步骤810)。
在一些实施例中,计算针对频带b的CN侧边增益参数SG(b)包括计算
其中SGcurr(b,i)表示针对频带b和当前非活跃段中的帧i的侧边增益值;SGprev(b,j)表示针对频带b和前一非活跃段中的帧j的侧边增益值;Ncurr表示来自当前非活跃段的总计帧数;Nprev表示来自前一非活跃段的总计帧数;W(k)表示加权函数;以及nF表示当前非活跃段与前一非活跃段之间的活跃段中的帧数,其对应于Tactive。
在一些实施例中,W(k)由下式给出
图9示出了用于生成舒适噪声(CN)的过程900和910。根据过程900,该过程包括如下步骤:接收CN参数CNused,其中CN参数CNused是根据本文公开的用于生成舒适噪声(CN)参数的实施例中的任一实施例来生成的(步骤902);以及基于CN参数CNused生成舒适噪声(步骤904)。根据过程910,该过程包括以下步骤:接收针对频带b的CN侧边增益参数SG(b),其中针对频带b的CN侧边增益参数SG(b)是根据本文公开的用于生成针对频带b的CN侧边增益参数SG(b)的实施例中的任一实施例来生成的(步骤912);以及基于CN参数SG(b)生成舒适噪声(步骤914)。
图10是示出了根据实施例的用于生成舒适噪声(CN)参数的节点1002(例如,编码器/解码器)的功能单元的图。
该节点1002包括:接收单元1004,被配置为接收音频输入;检测单元1006,被配置为使用语音活动检测器(VAD)检测音频输入中的当前非活跃段;计算单元1008,被配置为作为使用VAD检测到音频输入中的当前非活跃段的结果,计算CN参数CNused;以及提供单元1010,被配置为向解码器提供CN参数CNused。CN参数CNused是由计算单元至少部分地基于当前非活跃段和前一非活跃段来计算的。
图11是示出了根据实施例的用于生成舒适噪声(CN)侧边增益参数的节点1002(例如,编码器/解码器)的功能单元的图。该节点1002包括:接收单元1104,被配置为接收根据针对图7讨论的实施例中的任一实施例的CN参数CNused;以及生成单元1104,被配置为基于CN参数CNused生成舒适噪声。在实施例中,接收单元被配置为接收根据针对图8讨论的实施例中的任一实施例的针对频带b的CN侧边增益参数SG(b),并且生成单元被配置为基于CN参数SG(b)生成舒适噪声。
图12是根据一些实施例的用于生成舒适噪声(CN)参数和/或用于生成舒适噪声(CN)的节点1002(例如,编码器/解码器)的框图。如图12所示,节点1002可以包括:处理电路(PC)或数据处理装置(PDA)1202,其可以包括一个或多个处理器(P)1255(例如,通用微处理器和/或一个或多个其他处理器,例如专用集成电路(ASIC)、现场可编程门阵列(FPGA)等);网络接口1248,包括发射机(Tx)1245和接收机(Rx)1247,用于使节点1002能够向连接到网络1210(例如,互联网协议(IP)网络)的其他节点发送数据以及从该其他节点接收数据,其中网络接口1248连接到网络1210;以及本地存储单元(又称为“数据存储系统”)1208,其可以包括一个或多个非易失性存储设备和/或一个或多个易失性存储设备。在PC 1202包括可编程处理器的实施例中,可以提供计算机程序产品(CPP)1241。CPP 1241包括计算机可读介质(CRM)1242,该计算机可读介质(CRM)1242存储包括计算机可读指令(CRI)1244的计算机程序(CP)1243。CRM 1242可以是非暂时性计算机可读介质,例如,磁介质(例如,硬盘)、光学介质、存储器设备(例如,随机存取存储器、闪存)等。在一些实施例中,计算机程序1243的CRI 1244被配置为使得当由PC 1202执行时,CRI使节点1002执行本文描述的步骤(例如,本文中参考流程图描述的步骤)。在其他实施例中,节点1002可以被配置为在不需要代码的情况下执行本文描述的步骤。也就是说,例如,PC 1202可以仅由一个或多个ASIC组成。因此,本文描述的实施例的特征可以以硬件和/或软件来实现。
尽管本文描述了本公开的各种实施例,但应当理解,它们其仅以示例而非限制的方式提出。因此,本公开的宽度和范围不应当受到上述示例性实施例中任意一个的限制。此外,上述要素以其所有可能变型的任意组合都包含在本公开中,除非本文另有指示或与上下文另有明确冲突。
附加地,尽管上文描述并且在附图中示出的过程被示为一系列步骤,但其仅用于说明目的而进行。因此,可以预期到可以增加一些步骤、可以省略一些步骤,可以重新排列步骤的顺序,以及可以并行地执行一些步骤。
Claims (23)
1.一种用于生成舒适噪声(CN)参数的方法,所述方法包括:
接收音频输入;
使用语音活动检测器(VAD)检测所述音频输入中的当前非活跃段;
作为使用所述VAD检测到所述音频输入中的当前非活跃段的结果,计算CN参数CNused;以及
向解码器提供所述CN参数CNused,
其中,计算所述CN参数CNused包括:计算CNused=f(Tactive,Tcurr,Tprev,CNcurr,CNprev),
其中:
CNcurr指代来自所述当前非活跃段的CN参数;
CNprev指代来自前一非活跃段的CN参数;
Tprev指代与CNprev相关的时间间隔参数;
Tcurr指代与CNcurr相关的时间间隔参数;以及
Tactive指代所述前一非活跃段与所述当前非活跃段之间的活跃段的时间间隔参数。
2.根据权利要求1所述的方法,其中,将函数f(·)定义为函数g1(·)与g2(·)的加权和,使得所述CN参数CNused由下式给出:
CNused=W1(Tactive,Tcurr,Tprev)*g1(CNcurr,Tcurr+W2(Tactive,Tcurr,Tprev)*g2(CNprev,Tprev)
其中,W1(·)和W2(·)是加权函数。
3.根据权利要求2所述的方法,其中,W1(·)和W2(·)总和为1,使得W2(Tactive,Tcurr,Tprev)=1-W1(Tactive,Tcurr,Tprev)。
4.根据权利要求2至3中任一项所述的方法,其中,所述函数g1(·)表示在时间段Tcurr上的平均值,并且所述函数g2(·)表示在时间段Tprev上的平均值。
5.根据权利要求2至3中任一项所述的方法,其中,所述加权函数W1(·)和W2(·)仅是Tactive的函数,使得W1(Tactive,Tcurr,Tprev)=W1(Tactive)并且W2(Tactive,Tcurr,Tprev)=W2(Tactive)。
6.根据权利要求4所述的方法,其中,0<W1(·)≤1并且0<1-W2(·)≤1,并且其中,随着时间Tactive接近无穷大,在极限情况下W1(·)收敛到1并且W2(·)收敛到0。
7.根据权利要求1所述的方法,其中,所述函数f(·)被定义为使得所述CN参数CNused由下式给出:
其中,Ncurr表示与时间间隔参数Tcurr相对应的帧数,Nprev表示与时间间隔参数Tprev相对应的帧数;并且其中W1(Tactive)和W2(Tactive)是加权函数。
8.根据权利要求1所述的方法,其中所述CN参数是针对频带b的CN侧边增益参数SG(b)。
9.根据权利要求8所述的方法,其中,计算针对所述频带b的所述CN侧边增益参数SG(b)包括计算
其中:
SGcurr(b,i)表示针对频带b和所述当前非活跃段中的帧i的侧边增益值;
SGprev(b,j)表示针对频带b和所述前一非活跃段中的帧j的侧边增益值;
Ncurr表示来自所述当前非活跃段的总计帧数,对应于时间间隔参数Tcurr;
Nprev表示来自所述前一非活跃段的总计帧数,对应于时间间隔参数Tprev;
W(nF)表示加权函数;以及
nF表示所述当前非活跃段与所述前一非活跃段之间的活跃段中的帧数,对应于Tactive。
10.一种用于生成舒适噪声(CN)的方法,所述方法包括:
接收根据权利要求1至9中任一项生成的CN参数CNused;以及
基于所述CN参数CNused生成舒适噪声。
11.一种用于生成舒适噪声(CN)参数的节点,所述节点包括:
接收单元,被配置为接收音频输入;
检测单元,被配置为使用语音活动检测器(VAD)检测所述音频输入中的当前非活跃段;
计算单元,被配置为:作为使用所述VAD检测到所述音频输入中的当前非活跃段的结果,计算CN参数CNused;以及
提供单元,被配置为向解码器提供所述CN参数CNused,
其中,所述计算单元还被配置为通过计算CNused=f(Tactive,Tcurr,Tprev,CNcurr,CNprev)来计算所述CN参数CNused,
其中:
CNcurr指代来自当前非活跃段的CN参数;
CNprev指代来自前一非活跃段的CN参数;
Tprev指代与CNprev相关的时间间隔参数;
Tcurr指代与CNcurr相关的时间间隔参数;以及
Tactive指代所述前一非活跃段与所述当前非活跃段之间的活跃段的时间间隔参数。
12.根据权利要求11所述的节点,其中,将函数f(·)定义为函数g1(·)和g2(·)的加权和,使得所述CN参数CNused由下式给出:
CNused=W1(Tactive,Tcurr,Tprev)*g1(CNcurr,Tcurr+W2(Tactive,Tcurr,Tprev)*g2(CNprev,Tprev)
其中,W1(·)和W2(·)是加权函数。
13.根据权利要求12所述的节点,其中,W1(·)和W2(·)总和为1,使得W2(Tactive,Tcurr,Tprev)=1-W1(Tactive,Tcurr,Tprev)。
14.根据权利要求12至13中任一项所述的节点,其中,所述函数g1(·)表示在时间段Tcurr上的平均值,并且所述函数g2(·)表示在时间段Tprev上的平均值。
15.根据权利要求12至13中任一项所述的节点,其中,所述加权函数W1(·)和W2(·)仅是Tactive的函数,使得W1(Tactive,Tcurr,Tprev)=W1(Tactive)并且W2(Tactive,Tcurr,Tprev)=W2(Tactive)。
16.根据权利要求15所述的节点,其中
并且
其中,Ncurr表示与时间间隔参数Tcurr相对应的帧数,并且Nprev表示与时间间隔参数Tprev相对应的帧数。
17.根据权利要求16所述的节点,其中,0<W1(·)≤1并且0<1-W2(·)≤1,并且其中,随着时间Tactive接近无穷大,在极限情况下W1(·)收敛到1并且W2(·)收敛到0。
18.根据权利要求11所述的节点,其中,所述函数f(·)被定义为使得所述CN参数CNused由下式给出
其中,Ncurr表示与时间间隔参数Tcurr相对应的帧数,Nprev表示与时间间隔参数Tprev相对应的帧数;并且其中W1(Tactive)和W2(Tactive)是加权函数。
19.根据权利要求11所述的节点,其中所述CN参数是针对频带b的CN侧边增益参数SG(b)。
20.根据权利要求19的节点,其中,所述计算单元还被配置为通过计算下式来计算针对频带b的所述CN侧边增益参数SG(b)
其中:
SGcurr(b,i)表示针对频带b和当前非活跃段中的帧i的侧边增益值;
SGprev(b,j)表示针对频带b和前一非活跃段中的帧j的侧边增益值;
Ncurr表示来自当前非活跃段的总计帧数,对应于时间间隔参数Tcurr;
Nprev表示来自前一非活跃段的总计帧数,对应于时间间隔参数Tprev;
W(nF)表示加权函数;以及
nF表示所述当前非活跃段与所述前一非活跃段之间的活跃段中的帧数,对应于Tactive。
21.一种用于生成舒适噪声(CN)的节点,所述节点包括:
接收单元,被配置为接收根据权利要求1至9中任一项生成的CN参数CNused;以及
生成单元,被配置为基于所述CN参数CNused生成舒适噪声。
22.一种包括指令的计算机程序产品,所述指令在由节点的处理电路执行时,使所述节点执行根据权利要求1至9中任一项所述的方法。
23.一种包括指令的计算机可读存储介质,所述指令在由节点的处理电路执行时,使所述节点执行根据权利要求1至9中任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201862691069P | 2018-06-28 | 2018-06-28 | |
US62/691,069 | 2018-06-28 | ||
PCT/EP2019/067037 WO2020002448A1 (en) | 2018-06-28 | 2019-06-26 | Adaptive comfort noise parameter determination |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112334980A CN112334980A (zh) | 2021-02-05 |
CN112334980B true CN112334980B (zh) | 2024-05-14 |
Family
ID=67145780
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980042502.1A Active CN112334980B (zh) | 2018-06-28 | 2019-06-26 | 自适应舒适噪声参数确定 |
Country Status (6)
Country | Link |
---|---|
US (2) | US11670308B2 (zh) |
EP (2) | EP3815082B1 (zh) |
CN (1) | CN112334980B (zh) |
BR (1) | BR112020026793A2 (zh) |
ES (1) | ES2956797T3 (zh) |
WO (1) | WO2020002448A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111586245B (zh) * | 2020-04-07 | 2021-12-10 | 深圳震有科技股份有限公司 | 一种静音包的传输控制方法、电子设备及存储介质 |
AU2021288690A1 (en) * | 2020-06-11 | 2023-01-19 | Dolby Laboratories Licensing Corporation | Methods and devices for encoding and/or decoding spatial background noise within a multi-channel input signal |
US20230282220A1 (en) * | 2020-07-07 | 2023-09-07 | Telefonaktiebolaget Lm Ericsson (Publ) | Comfort noise generation for multi-mode spatial audio coding |
EP4189674A1 (en) * | 2020-07-30 | 2023-06-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and computer program for encoding an audio signal or for decoding an encoded audio scene |
CN117223054A (zh) * | 2021-04-29 | 2023-12-12 | 沃伊斯亚吉公司 | 经解码的声音信号中的多声道舒适噪声注入的方法及设备 |
WO2023031498A1 (en) * | 2021-08-30 | 2023-03-09 | Nokia Technologies Oy | Silence descriptor using spatial parameters |
CN113571072B (zh) * | 2021-09-26 | 2021-12-14 | 腾讯科技(深圳)有限公司 | 一种语音编码方法、装置、设备、存储介质及产品 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101213591A (zh) * | 2005-06-18 | 2008-07-02 | 诺基亚公司 | 用于非连续语音传输期间的舒适噪声参数自适应传输的系统和方法 |
CN101335000A (zh) * | 2008-03-26 | 2008-12-31 | 华为技术有限公司 | 编码、解码的方法及装置 |
CN101496095A (zh) * | 2006-07-31 | 2009-07-29 | 高通股份有限公司 | 用于信号变化检测的系统、方法及设备 |
CN104584120A (zh) * | 2012-09-11 | 2015-04-29 | 瑞典爱立信有限公司 | 生成舒适噪声 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8725499B2 (en) | 2006-07-31 | 2014-05-13 | Qualcomm Incorporated | Systems, methods, and apparatus for signal change detection |
US10861470B2 (en) * | 2014-02-14 | 2020-12-08 | Telefonaktiebolaget Lm Ericsson (Publ) | Comfort noise generation |
-
2019
- 2019-06-26 ES ES19735519T patent/ES2956797T3/es active Active
- 2019-06-26 BR BR112020026793-7A patent/BR112020026793A2/pt unknown
- 2019-06-26 EP EP19735519.1A patent/EP3815082B1/en active Active
- 2019-06-26 EP EP23182371.7A patent/EP4270390A3/en active Pending
- 2019-06-26 CN CN201980042502.1A patent/CN112334980B/zh active Active
- 2019-06-26 WO PCT/EP2019/067037 patent/WO2020002448A1/en unknown
- 2019-06-26 US US17/256,073 patent/US11670308B2/en active Active
-
2023
- 2023-04-26 US US18/307,319 patent/US20230410820A1/en active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101213591A (zh) * | 2005-06-18 | 2008-07-02 | 诺基亚公司 | 用于非连续语音传输期间的舒适噪声参数自适应传输的系统和方法 |
CN101496095A (zh) * | 2006-07-31 | 2009-07-29 | 高通股份有限公司 | 用于信号变化检测的系统、方法及设备 |
CN101335000A (zh) * | 2008-03-26 | 2008-12-31 | 华为技术有限公司 | 编码、解码的方法及装置 |
CN104584120A (zh) * | 2012-09-11 | 2015-04-29 | 瑞典爱立信有限公司 | 生成舒适噪声 |
Also Published As
Publication number | Publication date |
---|---|
US11670308B2 (en) | 2023-06-06 |
EP3815082A1 (en) | 2021-05-05 |
EP4270390A3 (en) | 2024-01-17 |
CN112334980A (zh) | 2021-02-05 |
EP3815082B1 (en) | 2023-08-02 |
US20210272575A1 (en) | 2021-09-02 |
BR112020026793A2 (pt) | 2021-03-30 |
WO2020002448A1 (en) | 2020-01-02 |
EP4270390A2 (en) | 2023-11-01 |
US20230410820A1 (en) | 2023-12-21 |
ES2956797T3 (es) | 2023-12-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112334980B (zh) | 自适应舒适噪声参数确定 | |
JP5351206B2 (ja) | 非連続音声送信の際の擬似背景ノイズパラメータ適応送信のためのシステム及び方法 | |
US8311817B2 (en) | Systems and methods for enhancing voice quality in mobile device | |
US5794199A (en) | Method and system for improved discontinuous speech transmission | |
JP4968147B2 (ja) | 通信端末、通信端末の音声出力調整方法 | |
FI116180B (fi) | Menetelmä ja laite signaalien ryhmäkoodauksen suorittamiseksi | |
US20130185062A1 (en) | Systems, methods, apparatus, and computer-readable media for criticality threshold control | |
US20090168673A1 (en) | Method and apparatus for detecting and suppressing echo in packet networks | |
US11823689B2 (en) | Stereo parameters for stereo decoding | |
US10074373B2 (en) | Channel adjustment for inter-frame temporal shift variations | |
US20170180906A1 (en) | Temporal offset estimation | |
US20090099851A1 (en) | Adaptive bit pool allocation in sub-band coding | |
US8144862B2 (en) | Method and apparatus for the detection and suppression of echo in packet based communication networks using frame energy estimation | |
EP3682445B1 (en) | Selecting channel adjustment method for inter-frame temporal shift variations | |
EP4179530B1 (en) | Comfort noise generation for multi-mode spatial audio coding | |
KR20190103191A (ko) | 다중 오디오 신호들의 코딩 | |
EP3682446B1 (en) | Temporal offset estimation | |
US20050078615A1 (en) | Method and device for duplex communication | |
CA3215225A1 (en) | Method and device for multi-channel comfort noise injection in a decoded sound signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |