CN102792760A

CN102792760A - 为音乐关闭dtx

Info

Publication number: CN102792760A
Application number: CN2010800647488A
Authority: CN
Inventors: 蒂莫·修科; 约翰·贡纳·兰德斯特罗姆; 阿托·马孔恩
Original assignee: Telefonaktiebolaget LM Ericsson AB
Current assignee: Telefonaktiebolaget LM Ericsson AB
Priority date: 2010-02-25
Filing date: 2010-02-25
Publication date: 2012-11-21
Anticipated expiration: 2030-02-25
Also published as: EP2540133B1; EP2540133A1; US9263063B2; CN102792760B; US20130138433A1; WO2011103924A1

Abstract

本发明涉及一种用于如果在呼叫输入信号中检测到音乐信号则禁用语音编码器的不连续传输节点DTX的方法。通过确定与声音信号周期相对于无声信号周期的关系相对应的活动因子，检测音乐信号。如果活动因子高于指定的活动因子，则禁用DTX。

Description

为音乐关闭DTX

技术领域

本发明涉及一种用于控制语音编码器的不连续传输模式DTX的方法，并且涉及一种用于控制对呼叫输入信号进行编码并输出已编码的呼叫输出信号的语音编码器的不连续传输模式的方法

背景技术

在大部分移动通信应用中，语音仍然是最重要的媒体组件。针对语音优化所有语音编码器以及围绕语音编码器的机制。在移动通信组件的设计中，音乐被认为是不重要的。

最近，音乐在应用中(例如在“通话保持音乐”或“回铃音音乐”中)已经变得越来越重要。

为了节省无线电和网络链路容量，开发语音活动检测器(VAD)用来辨别语音和间歇。如果检测到间歇，则不从无声部分向另一方传输信号。稍后，出现这种情况：当在其他伙伴断断续续的话语之间扬声器完全无声，用户会很不高兴。因此，创造出了舒适噪音，那是接收语音信号的终端基于不时传输的一些无声描述符，自己创造出舒适噪音。

该操作被称为不连续传输(DTX)，由语音编解码器内的语音活动检测器控制。然而，VAD对于音乐信号效果不好。通常，音乐信号被错误地归类为噪音，并被舒适噪音所取代。

一个解决方案是：在呼叫的整个持续时间或仅在提示阶段期间，在下行链路方向上打开或关闭VAD/DTX。然而，针对网络中的所有呼叫禁用VAD/DTX将导致无线电干扰增加。

启用下行链路VAD/DTX使操作者可以优化无线电规划(例如，可能需要更少的无线电基站)，并因此可以有利地在下行链路方向上使用DTX。为了优化的无线电容量以及为了在呼叫中正确识别音乐信号，最优解决方案是仅在向移动终端播放音乐时禁用VAD/DTX。

发明内容

因此，需要提供一种解决方案，使得能够在避免音乐信号被错误地当做背景噪音的同时优化无线电容量。

独立权利要求的特征满足该需求。在从属权利要求中，描述了本发明的优选实施例。

根据本发明的第一方面，提供了一种用于控制语音编码器的DTX模式的系统，该系统包括语音编码器，对呼叫输入信号进行编码，并输出已编码的呼叫输出信号。此外，提供了活动检测器，用于相对于呼叫输入信号中的无声信号周期的存在，确定呼叫输入信号中的声音信号周期的存在。不连续传输启用和禁用单元基于呼叫输入信号中的声音信号周期和无声信号周期来确定活动因子，并启用和禁用已编码的呼叫输出信号的不连续传输模式。如果所确定的活动因子比指定的活动因子AF_s高，则不连续传输启用和禁用单元禁用不连续传输模式。利用当前要求保护的系统，可以只在向移动终端播放音乐时才禁用DTX。当语音帧和无声帧或音乐帧和无声帧之间的关系如下所示时可以区分音乐和语音：在音乐的情况中，针对音乐的无声帧的百分比远小于针对语音的无声帧的百分比。表示声音信号周期和无声信号周期的量的活动因子反映音乐在呼叫中的存在，并因此可以用于区分音乐和无声信号周期。

优选地，不连续传输启用和禁用单元被配置用于通过确定呼叫输入信号中语音和音乐信号采样与无声信号采样的关系来确定活动因子。作为示例，如果通过不连续传输启用和禁用单元所确定的活动因子高于大约75-85％或高于78-82％或高于80％，则可以禁用不连续传输模式DTX，这是因为呼叫输入信号包含音乐的可能性非常高。经发现，音乐典型地导致活动因子至少是90％，而语音的活动因子通常低于60％。将指定的活动因子AF_s设置在70％到大约85％之间有助于区分语音和音乐。因此，如果所确定的活动因子高于指定的活动因子(例如，大约80％)高，则可以禁用DTX。

在本发明的一个实施例中，不连续传输启用和禁用单元使用语音活动检测器的信息来确定活动因子，该语音活动检测器配置用于区分语音和语音间歇。

在另一实施例中，活动检测器确定语音活动标记的值，如果将呼叫输入信号的时间间隔视为声音信号周期，则该语音活动标记具有第一值。如果将呼叫输入的时间间隔视为无声信号周期，则该语音活动标记具有第二值。不连续传输启用和禁用单元确定语音活动标记为第一值的时间间隔在包含呼叫输入信号的多个时间间隔的滑动时间窗内的百分比作为所述活动因子。因此，对于滑动时间窗(例如，100-200个采样的时间间隔)中的时间间隔，不连续传输启用和禁用单元确定活动因子为具有第一值或第二值。如果时间窗中超过大约80％的最近间隔的采样具有第一值，则可以将该信号视为音乐信号。如果滑动时间窗中只有40-50％或60％的最近采样具有第一值，则可以将该呼叫输入信号视为语音信号。

优选地，如果检测到的活动因子低于指定的活动因子，则不连续传输启用和禁用单元再次启用DTX模式。如果活动因子低于上述讨论的阈值，则可以推断出在呼叫中再没有出现音乐信号，因此应该再次启用DTX模式。

语音活动标记的值可以通过在呼叫输入信号的时间间隔上确定信号功率采样来确定。活动检测器将所确定的信号功率和功率阈值Pth进行比较，当信号功率高于阈值Pth时，活动检测器向所述时间间隔分配第一值，并将该呼叫输入信号的所述时间间隔视为声音信号周期。

此外，本发明涉及一种用于控制语音编码器的不连续传输模式DTX的方法，该方法包括：相对于呼叫输入信号中的无声信号分量的存在，确定呼叫输入信号中的声音信号分量的存在的步骤。另外依赖于呼叫输入信号中的声音信号分量和无声信号分量的量来确定活动因子。接着，依赖于所确定的活动因子启用或禁用已编码的呼叫输出信号的不连续传输模式，其中，如果所确定的活动因子高于指定的活动因子AF_s，则禁用不连续传输模式DTX。

如上所述，活动因子的确定优选地包括确定呼叫输入信号中语音和音乐信号采样与无声信号采样的关系的步骤。

在本发明的一个实施例中，确定活动因子的步骤包括监控语音活动检测器的步骤，所述语音活动检测器配置用于区别语音和语音间歇。当语音活动检测器所确定的语音间歇低于阈值时，禁用不连续传输模式DTX。在另一实施例中，通过确定以上提到的语音活动标记的值，确定活动因子。如果时间间隔的信号功率高于功率阈值Pth，则为所述时间间隔分配第一值，并且将该时间间隔视为声音信号周期。然而，如果时间间隔的信号功率低于功率阈值Pth，则为所述时间间隔分配第二值，并且将该时间间隔视为无声信号周期。接着，滑动时间窗内的声音和无声信号周期的量确定活动因子。

优选地，指定的活动因子AF_s是具有上阈值和下阈值的活动因子范围。如果活动因子高于上阈值，则可以禁用不连续传输模式DTX，并且如果活动因子低于下阈值，则可以启用不连续传输模式DTX。优选地，能够将上阈值和下阈值配置为自适应阈值。在本实施例中，当活动因子低于下阈值低，增大上阈值和下阈值，以及当活动因子高于上阈值高，减小上阈值和下阈值。这有助于避免频繁禁用或再次启用DTX。

附图说明

将参考附图进一步详细描述本发明，在附图中，

图1示出了使得能够在音乐信号的情况下禁用DTX模式的系统，

图2示出了针对不同音乐输入的活动因子，

图3示出了包括启用或禁用DTX步骤的流程图，以及

图4示出了依赖于自适应活动因子激活及去激活DTX。

具体实施方式

在图1中，示出了一种使得能够将音乐与呼叫中的其他语音信号区分开的系统。将呼叫输入信号10传送至活动检测器。该呼叫输入信号可以包含同样用作语音编码器30的输入的相同线性16比特PCM采样。将呼叫输入信号10传送至活动检测器20，该活动检测器20确定输入采样的帧是声音信号周期还是无声信号周期。该语音活动检测器确定Boolean语音活动标记VAF，针对考虑作为有效语音(语音或音乐)的部分的帧，该标记可以有第一值或为真，或者如果考虑帧为无声周期的部分，则标记可以为假(第二值)。该语音活动检测器20可以是标准语音活动检测器或者该语音活动检测器可以是PCM高语音检测器，该PCM高语音检测器在时间周期(例如20毫秒)期间分析信号功率，并且接着确定该周期的信号功率代表高语音(VAF＝I)还是低语音(VAF＝0)。因此，语音活动检测器20通过比较信号功率和阈值来确定语音活动标记的值。

在另一实施例中，活动检测器是AMR语音活动检测器。AMR语音活动检测器可以从AMR NB语音编码器中提取，并且可以作为独立功能单元20或在DTX启用或禁用单元25内执行。DTX启用或禁用单元25在语音编码器30中禁用或启用DTX模式，该语音编码器30输出已编码语音信号40。能够从图2中看到，如果在呼叫输入信号中出现音乐信号，则针对不同类型的音乐，所确定的语音活动因子高于85％。DTX启用/禁用单元25实际决定针对语音编码器是启用还是禁用DTX。这是在DTX启用或禁用单元中通过在几秒(例如两、三或四秒)的较长滑动时间窗上监控VAF采样的行为来进行的。在VAF采样周期为大约20毫秒的情况下，DTX启用或禁用单元25确定活动因子为在最近100、150或200VAF采样期间具有第一值(1)的VAF采样的百分比。

为了使得音乐在呼叫的提示(alert)阶段期间不失真，可以默认关闭DTX。如果在呼叫的例如前三秒期间在活动检测器20中的活动测量导致通过DTX启用或禁用单元25所确定的活动因子小于大约80％，则可以开启DTX以最小化剩余提示阶段的无线电干扰。

在呼叫有效阶段期间，默认开启DTX。然而，DTX启用或禁用单元连续确定活动因子，并且如果在滑动时间窗期间活动因子高于例如80％，则将关闭DTX。将继续活动因子的确定，并且如果结果比指定阈值低，则将再次开启DTX。

可以如以上所提到的基于滑动时间窗中的VAD结果确定活动因子，或者可以通过使用在下行链路方向上向用户终端已发送的语音/音乐和无声帧的数目的计算来确定该活动因子。作为示例，在每20毫秒发送AMR编解码语音/音乐帧的情况中，每160毫秒发送无声帧。如果所确定的活动因子高于约80％，这明确指示了当前播放的输入信号是音乐类型的。即使不是音乐输入信号，关闭DTX并无坏处，因为从已发送的语音帧的角度看并没有大的差别。

从图1的实施例可以看出，所提出的解决方案独立于使用的语音编码器，并且不一定要嵌入到语音编码器中。

在图3中，概述了确定应该禁用还是启用DTX的步骤。在步骤50中，活动检测器可以确定时间间隔(例如PCM采样)的信号功率。可以将帧(例如20毫秒)上的信号功率估计为采样的平方和，或备选地为采样的绝对值和。在步骤51中，分析每一个帧的信号功率，并将其与信号功率阈值P_th进行比较，以确定该帧是代表声音信号周期的部分还是代表无声信号周期的部分。如果信号功率比阈值P_th高，则在步骤52中，将信号视为声音信号周期。然而，如果信号功率比功率阈值低，则在步骤53中将该信号视为无声信号周期。在步骤54中，将在滑动时间窗中的声音信号周期量和无声信号周期量相加。作为示例，滑动时间窗可以包含2-4秒或100-200个采样。接着，活动因子对应于语音活动标记为高的信号采样的百分比。因此，在步骤54中，通过滑动时间窗的信号采样的相加来确定语音活动因子。在步骤55中，探寻活动因子是否高于所指定的活动因子AF_s，例如高于大约75-85％。如果活动因子高于所指定的活动因子AF_s，则可以推断呼叫中出现了音乐信号，并且在步骤56b中禁用DTX模式。然而，如果活动因子低于所指定的活动因子，则在步骤56a中启用DTX模式。从图4中可以看出，步骤55中的阈值AF_s可以是包括上阈值和下阈值在内的活动因子阈值范围。另外，上阈值和下阈值可以是自适应阈值，它们依赖于所确定的活动因子而增大或减小。在图4中，在时间上示出了所确定的活动因子60。另外，指示了上阈值61和下阈值62。在第一时间周期期间，活动因子比上阈值和下阈值高。因此，关闭DTX。接着在时间t1，活动因子越过下活动阈值。因此，可以推断呼叫中不会再出现音乐信号并且在时间t1打开DTX。接着，活动因子开始再次上升，在时间t2越过下阈值。然而，仅在活动因子再次高于上阈值61之后，在时间t3再次禁用DTX。从图4中可以看出，如果活动因子足够低(例如，在图4中低于下阈值(在t1和t2之间))，则阈值增大，并且如果活动因子足够高(例如图4中的100％)，则阈值可以在t4和t5之间的特定范围内减小。这有助于避免在DTX开启和关闭之间频繁改变。因此，DTX启用或禁用单元启用或禁用DTX越长，则状态改变越难。

重新参考图3，并且如结合图4所讨论的，可以在步骤57适配上阈值和下阈值。在图4示出的实施例中，使用上阈值和下阈值。然而，也可以将下阈值设置为上阈值，并且仅使用单个阈值。

在步骤58中，探寻呼叫是否已经结束。如果不是，则连续确定呼叫中是否存在音乐信号，并且如果在步骤58中检测到呼叫结束，则该方法在步骤59结束。

总而言之，本发明使得能够仅针对音乐关闭DTX。本发明适用于任意音乐播放场景(音乐回铃音、音乐等待音或音乐通话保持服务)。本发明是用户面节点中的自主解决方案，并且可以在不影响呼叫控制服务器节点的情况下在媒体网关中实施。另外，因为不需要在呼叫控制层上的配置努力，所以本发明容易部署。本发明可以在使用语音编码器的任何地方使用。

Claims

1.一个用于控制语音编码器的不连续传输模式DTX的系统，该系统包括：

语音编码器(30)，对呼叫输入信号进行编码，并输出已编码的呼叫输出信号，

活动检测器(20)，相对于呼叫输入信号中的无声信号周期的存在，确定呼叫输入信号中的声音信号周期的存在，

不连续传输启用和禁用单元(25)，基于呼叫输入信号中的声音信号周期和无声信号周期来确定活动因子，并启用和禁用已编码的呼叫输出信号的不连续传输模式，其中，如果所确定的活动因子比指定的活动因子高，则所述不连续传输启用和禁用单元(25)禁用不连续传输模式。

2.根据权利要求1所述的系统，其中，所述不连续传输启用和禁用单元(25)被配置用于通过确定呼叫输入信号中语音和音乐信号采样与无声信号采样的关系来确定活动因子。

3.根据权利要求1或2所述的系统，其中，所述不连续传输启用和禁用单元(25)被配置用于使用语音活动检测器的信息来确定活动因子，所述语音活动检测器被配置用于区分语音和语音间歇。

4.根据前述权利要求中任意一个所述的系统，其中，如果活动因子高于75-85％，优选地高于78-82％，更优选地高于80％，则所述不连续传输启用和禁用单元(25)禁用不连续传输模式。

5.根据前述权利要求中任意一个所述的系统，其中，如果检测到的活动因子低于指定的活动因子，则所述不连续传输启用和禁用单元(25)再次启用不连续传输模式。

6.根据前述权利要求中任意一个所述的系统，其中，所述活动检测器(20)确定语音活动标记的值，如果将呼叫输入信号的时间间隔视为声音信号周期，则所述语音活动标记具有第一值，如果将呼叫输入信号的时间间隔视为无声信号周期，则所述语音活动标记具有第二值，其中所述不连续传输启用和禁用单元(25)确定语音活动标记为第一值的时间间隔在包含呼叫输入信号的多个时间间隔的滑动时间窗内的百分比作为所述活动因子。

7.根据权利要求6所述的系统，其中，活动检测器(20)通过确定呼叫输入信号的时间间隔的信号功率来确定语音活动标记的值，其中活动检测器将所确定的信号功率和功率阈值Pth进行比较，当信号功率高于所述阈值时，活动检测器向所述时间间隔分配第一值，并将呼叫输入信号的所述时间间隔视为声音信号周期。

8.一种用于控制语音编码器的不连续传输模式DTX的方法，所述语音编码器对呼叫输入信号进行编码，并输出已编码的呼叫输出信号，所述方法包括步骤：

相对于呼叫输入信号中的无声信号分量的存在，确定呼叫输入信号中的声音信号分量的存在，

依赖于呼叫输入信号中的声音信号分量和无声信号分量的量，确定活动因子，

依赖于所确定的活动因子，启用或禁用已编码的呼叫输出信号的不连续传输模式，其中，如果所确定的活动因子高于指定的活动因子，则禁用不连续传输模式DTX。

9.根据权利要求8所述的方法，其中确定活动因子的步骤包括确定呼叫输入信号中语音和音乐信号采样与无声信号采样的关系的步骤。

10.根据权利要求8或9所述的方法，其中确定活动因子的步骤包括监控语音活动检测器的步骤，所述语音活动检测器被配置用于区别语音和语音间歇，其中当语音活动检测器所确定的语音间歇低于阈值时，禁用不连续传输模式DTX。

11.根据权利要求8到10中任意一个所述的方法，其中如果检测到的活动因子高于75-85％，优选地高于78-82％，更优选地高于80％，则禁用不连续传输模式DTX。

12.根据权利要求8到11中任意一个所述的方法，其中在呼叫的提示阶段中禁用不连续传输模式，如果在呼叫的提示阶段期间确定的活动因子低于指定的活动因子，则再次启用不连续传输模式。

13.根据权利要求8到12中任意一个所述的方法，其中指定的活动因子是具有上阈值和下阈值的活动因子范围，其中如果活动因子高于上阈值，则禁用不连续传输模式DTX，如果活动因子低于下阈值，则启用不连续传输模式DTX。

14.根据权利要求8到13中任意一个所述的方法，其中，活动因子是通过确定语音活动标记的值来确定的，如果将呼叫输入信号的时间间隔视为声音信号周期，则该语音活动标记具有第一值，如果将呼叫输入的时间间隔视为无声信号周期，则该语音活动标记具有第二值，其中活动因子是具有所述第一值的时间间隔在包含呼叫输入信号的多个时间间隔的滑动时间窗内的百分比。

15.根据权利要求14所述的方法，其中，语音活动标记的值是通过确定呼叫输入信号的时间间隔的信号功率来确定的，其中将所确定信号功率和阈值进行比较，当信号功率高于所述阈值时，向所述时间间隔分配第一值，并将呼叫输入信号的时间间隔视为声音信号周期。

16.根据权利要求13到15中任意一个所述的方法，其中，上阈值和下阈值分别是自适应阈值，当活动因子低于下阈值时，增大上阈值和下阈值，如果活动因子高于上阈值，则减小上阈值和下阈值。