CN104781879A

CN104781879A - 用于对音频信号进行编码的方法和装置

Info

Publication number: CN104781879A
Application number: CN201380059616.XA
Authority: CN
Inventors: J·A·吉布斯; H·L·弗朗索瓦
Original assignee: Motorola Mobility LLC
Current assignee: Google Technology Holdings LLC
Priority date: 2012-09-26
Filing date: 2013-09-06
Publication date: 2015-07-15
Anticipated expiration: 2033-09-06
Also published as: EP2901450B1; JP6110498B2; KR20150060897A; WO2014051965A1; JP2015530622A; US9129600B2; CN104781879B; KR101668401B1; EP2901450A1; US20140088973A1

Abstract

混合语音编码器(200)检测从类音乐的声音到类语音的声音的改变。当编码器(200)检测到类音乐的声音(例如，音乐)时，它以第一模式操作，在该第一模式中它运用频域编码器(300A)。当编码器(200)检测到类语音的声音(例如，人类语音)时，它以第二模式操作，并且运用时域或者波形编码器(300B)。在切换出现时，编码器(200)使用信号的在间隙(416)之后出现的部分来回填信号中的间隙(416)。

Description

用于对音频信号进行编码的方法和装置

技术领域

本公开内容一般性地涉及音频处理，并且更具体地，涉及切换音频编码器模式。

背景技术

可听见的频率范围(对人耳可听见的周期性振动的频率)是从大约50Hz到大约22kHz，但是听力随着年龄而退化并且多数成年人发现难以听见大约14-15kHz以上的频率。人类语音信号的多数能量一般被限于从250Hz到3.4kHz的范围。因此，传统语音传输系统限于常称为“窄带”的该频率范围。然而，为了允许更好的声音质量、为了使听者更容易识别语音以及为了使得听者能够区分需要迫使空气经过窄信道的被称为“摩擦音”(‘s’和‘f’为示例)的那些语音元素，更新的系统已经将该范围延伸到50Hz到7kHz。该更大的频率范围通常被称为“宽带”(WB)或者有时被称为HD(高清晰度)语音。

高于WB范围的频率——从大约7kHz到大约15kHz——在此被称为带宽延伸(BWE)区域。从大约50Hz到大约15kHz的声音频率的全范围被称为“超宽带(SWB)”。在BWE区域中，人耳对声音信号的相位并不特别地敏感。然而，它对声音谐波的规律性以及对能量的存在和分布是敏感的。因此，处理BWE声音有助于语音听上去更自然并且也提供了“存在”的感知。

附图说明

图1描绘其中可以实现本发明的各种实施例的通信系统的示例。

图2示出描绘了根据本发明的实施例的通信设备的框图。

图3示出描绘了在本发明的实施例中的编码器的框图。

图4和5描绘根据本发明的各种实施例的间隙填充的示例。

具体实施方式

本发明的一个实施例涉及一种混合编码器。当由编码器接收到的音频输入从类音乐的声音(例如，音乐)改变成类语音的声音(例如，人类语音)时，编码器从第一模式(例如，音乐模式)切换成第二模式(例如，语音模式)。在本发明的一个实施例中，当编码器以第一模式操作时，它运用第一编码器(例如，频域编码器，诸如基于谐波的正弦型编码器)。当编码器切换到第二模式时，它运用第二编码器(例如，时域或者波形编码器，诸如CELP编码器)。从第一编码器向第二编码器的该切换可能引起在编码过程中的延迟，从而产生编码的信号中的间隙。为了补偿，编码器使用音频信号的在间隙之后出现的部分回填间隙。

在本发明的一个有关实施例中，第二编码器包括BWE编码部分和核心编码部分。核心编码部分可以根据编码器操作的比特速率以不同采样速率来操作。例如，使用较低采样速率(例如，当编码器以较低比特速率操作时)可以是有利的，以及使用较高采样速率(例如，在编码器以较高比特速率操作时)可以是有利的。核心部分的采样速率确定BWE编码部分的最低频率。然而，当从第一编码器到第二编码器的切换出现时，可能存在关于核心编码部分应当操作在的采样速率的不确定性。直到核心采样速率已知，BWE编码部分的处理链可能不能够被配置，从而引起在BWE编码部分的处理链中的延迟。作为该延迟的结果，在处理期间在信号的BWE区域(被称为“BWE目标信号”)中产生了间隙。为了补偿，编码器使用音频信号的在间隙之后出现的部分来回填BWE目标信号间隙。

在本发明的另一实施例中，音频信号从由第一编码器(诸如，频域编码器)编码的第一类型的信号(诸如，音乐或者类音乐的信号)切换成由第二编码器(诸如，时域或者波形编码器)处理的第二类型的信号(诸如，语音或者类语音的信号)。切换在第一时间处出现。在处理的音频信号中的间隙具有在第一时间处或者之后开始并且在第二时间处结束的时间跨度。处理的音频信号的在第二时间处或者之后出现的部分被复制并且可能在对复制的部分执行功能(诸如，时间反转、正弦加窗和/或余弦加窗)之后被插入到间隙中。

先前描述的实施例可以由一种通信设备执行，在该通信设备中输入接口(例如，麦克风)接收音频信号，语音-音乐检测器确定了从类音乐的音频到类语音的音频的切换已经出现，并且缺失信号发生器回填BWE目标信号中的间隙。各种操作可以由处理器(例如，数字信号处理器或者DSP)与存储器(例如，包括，先行缓冲器)组合来执行。

在以下描述中，将要注意，附图中所示的部件以及标注的路径旨在于指示在各种实施例中信号一般如何流动以及被处理。线连接不一定对应于离散的物理路径，而块不一定对应于离散的物理部件。部件可以被实现为硬件或者为软件。此外，术语“被耦合”的使用不一定意味着在部件之间的物理连接，而可以描述部件之间的其中存在中间部件的关系。它仅描述部件的用以物理地或者经由软件结构(例如，数据结构、对象等)相互通信的能力。

转向附图，现在将描述本发明的一个实施例在其中操作的网络的示例。图1图示包括网络102的通信系统100。网络102可以包括许多部件，诸如无线接入点、蜂窝基站、有线网络(光纤、同轴线缆等)。任何数目的通信设备和通信设备的许多种类可以经由网络102交换数据(语音、视频、网页等)。第一通信设备104和第二通信设备106在图1中被描绘为经由网络102通信。尽管第一通信设备104和第二通信设备106被示为智能电话，但是它们可以是任何类型的通信设备，包括膝上型计算机、具有无线局域网能力的设备、具有无线广域网能力的设备或者用户设备(UE)。除非另有指明，第一通信设备104被视为发射设备而第二通信设备106被视为接收设备。

图2图示根据本发明的实施例的通信设备104(来自图1)的框图。通信设备104可以能够访问在网络102中存储的信息或者数据并且经由网络102与第二通信设备106通信。在一些实施例中，通信设备104支持一个或者多个通信应用。也可以在第二通信设备106上执行在此描述的各种实施例。

通信设备104可以包括收发器240，该收发器240能够通过网络102发送和接收数据。通信设备可以包括控制器/处理器210，该控制器/处理器210执行存储的程序，诸如编码器222。本发明的各种实施例由编码器222执行。通信设备也可以包括由控制器/处理器210使用的存储器220。存储器220存储编码器222并且可以进一步包括先行缓冲器221，该先行缓冲器221的目的将在被更详细地描述。通信设备可以包括用户输入/输出接口250，该用户输入/输出接口250可以包括诸如键盘、显示器、触摸屏、麦克风、耳机和扬声器之类的单元。通信设备也可以包括附加单元可以附着到的网络接口260，例如，通用串行总线(USB)接口。最后，通信设备可以包括数据库接口230，该数据库接口230允许通信设备访问与通信设备的配置有关的各种存储的数据结构。

根据本发明的一个实施例，输入/输出接口250(例如，其麦克风)检测音频信号。编码器222对音频信号进行编码。在这样做时，编码器运用称为“先行(look-ahead)”的技术以对语音信号进行编码。使用先行，编码器222检查在其正在编码的当前语音帧的将来的少量语音，以便于确定在该帧之后什么将到来。编码器将将来语音信号的一部分存储在先行缓冲器221中。

参照图3的框图，现在将描述编码器222(来自图2)的操作。编码器222包括语音/音乐检测器300和耦合到语音/音乐检测器300的开关320。在如图2中描绘的那些部件的右侧，存在第一编码器300a和第二编码器300b。在本发明的一个实施例中，第一编码器300a是频域编码器(其可以被实现为基于谐波的正弦编码器)，并且第二部件集合构成时域或者波形编码器，诸如CELP编码器300b。第一和第二编码器300a和300b被耦合到开关320。

第二编码器300b的特征可以在于具有高频带部分和低频带部分，该高频带部分通过路径O和P输出BWE激励信号(从大约7kHz到大约16kHz)，该低频带部分通过路径N输出WB激励信号(从大约50Hz到大约7kHz)。将会理解，该分组仅为了方便引用。如将讨论的那样，高频带部分和低频带部分相互交互。

高频带部分包括带通滤波器301、耦合到带通滤波器301的频谱翻转和降频混合器307、耦合到频谱翻转和降频混合器307的抽取器311、耦合到抽取器311的缺失信号发生器311a以及耦合到缺失信号发生器311a的线性预测编码(LPC)分析器314。高频带部分300a进一步包括耦合到LPC分析器314的第一量化器318。例如，LPC分析器可以是10阶LPC分析器。

仍然参照图3，第二编码器300b的高频带部分也包括高频带自适应码书(ACB)302(或者备选地，长期预测器)、加法器303和方波整型电路306。高频带ACB 302被耦合到加法器303和方波整型电路306。高频带部分进一步包括高斯发生器308、加法器309和带通滤波器312。高斯发生器308和带通滤波器312均被耦合到加法器309。高频带部分也包括频谱翻转和降频混合器313、抽取器315、1/A(z)全极点滤波器316(其将被称为“全极点滤波器”)、增益计算器317以及第二量化器319。频谱翻转和降频混合器313被耦合到带通滤波器312，抽取器315被耦合到频谱翻转和降频混合器313，全极点滤波器316被耦合到抽取器315，并且增益计算器317被耦合到全极点滤波器316和量化器两者。附加地，全极点滤波器316被耦合到LPC分析器314。

低频带部分包括插值器304、抽取器305和代码激励线性预测(CELP)核心编码解码器310。插值器304和抽取器305均被耦合到CELP核心编码解码器310。

现在将描述根据本发明的一个实施例的编码器222的操作。语音/音乐检测器300接收音频输入(诸如从图2的输入/输出接口250的麦克风)。如果检测器300确定音频输入是音乐型音频，则检测器控制开关320切换以允许音频输入向第一编码器300a传递。在另一方面，如果检测器300确定音频输入是语音型音频，则检测器控制开关320以允许音频输入向第二编码器300b传递。例如，如果使用第一通信设备104的人在具有背景音乐的位置，则检测器300将使得开关320切换编码器222以在该人不说话(即，背景音乐为主)的时段期间使用第一编码器300a。一旦该人开始说话(即，语音为主)，检测器300将使得开关320切换编码器222以使用第二编码器300b。

现在将参照图3来描述第二编码器300b的高频带部分的操作。带通滤波器301经由路径A接收32kHz输入信号。在该示例中，输入信号是在32KHz采样的超宽带(SWB)信号。带通滤波器301具有6.4kHz或者8kHz的较低频率截止并且具有8kHz的带宽。带通滤波器301的较低频率截止被匹配到CELP核心编码解码器310的高频率截止(例如，6.4KHz或者8KHz)。带通滤波器301对SWB信号进行滤波，从而产生在32kHz采样的并且具有8kHz带宽的通过路径C的频带有限的信号。频谱翻转和降频混合器307在频谱上翻转通过路径C接收到的频带有限的输入信号，并且在频率上对信号进行向下的频谱变换，使得所需频带占用从0Hz-8kHz的区域。向抽取器311提供了翻转的和降频混合的输入信号，该抽取器311在频带上将翻转的和降频混合的信号限于8kHz、将翻转的和降频混合的信号的采样速率从32kHz减少到16kHz并且经由路径J输出输入信号的频谱翻转的和频带有限的版本的临界采样的版本，即BWE目标信号。在路径J上的信号的采样速率是16kHz。向缺失信号发生器311a提供了该BWE目标信号。

缺失信号发生器311a填充BWE目标信号中的间隙，该间隙从编码器222在第一编码器300a与CELP型编码器300b之间的切换而产生。将关于图4更详细地描述该间隙填充过程。向LPC分析器314和经由路径L向增益计算器317提供了间隙填充的BWE目标信号。LPC分析器314确定间隙填充的BWE目标信号的频谱并且通过路径M输出LPC滤波器系数(未量化)。通过路径M的信号由量化器318接收，该量化器318量化包括LPC参数的LPC系数。量化器318的输出构成量化的LPC参数。

仍然参照图3，抽取器305经由路径A接收32kHz SWB输入信号。抽取器305对输入信号进行频带限制和重新采样。作为结果的输出是12.8kHz或者16kHz采样的信号。向CELP核心编码解码器310提供了频带有限和重新采样的信号。CELP核心编码解码器310对频带有限和重新采样的信号的较低6.4或者8kHz进行编码，并且通过路径N和F输出CELP核心随机激励信号分量(“随机码书分量”)。插值器304经由路径F接收随机码书分量并且对其上采样用于在高频带路径中使用。换言之，随机码书分量用作高频带随机码书分量。上采样因子被匹配到CELP核心编码解码器的高频率截止，使得输出采样速率是32kHz。加法器303经由路径B接收上采样的随机码书分量、经由路径E接收自适应码书分量并且将两个分量相加。随机和自适应码书分量的总计被用来更新ACB 302的状态用于经由路径D的将来节距周期。

再次参照图3，高频带ACB 302以较高采样速率操作并且重新创建CELP核心310的激励的插值的和延伸的版本，并且可以被视为镜像CELP核心310的功能。较高采样速率处理创建了由于更高采样速率而创建在频率上比CELP核心的谐波延伸更高的谐波。为了实现这一点，高频带ACB 302使用来自CELP核心310的ACB参数并且对CELP核心随机激励分量的插值版本操作。ACB 302的输出与上采样的随机码书分量相加以创建自适应码书分量。ACB 302通过路径D接收高频带激励信号的随机和自适应码书分量的总计作为输入。如先前指出的那样，该总计是从加法模块303的输出提供的。

也向方波整型电路306提供了随机和自适应分量的总计(路径D)。方波整型电路306生成CELP核心信号的强谐波以形成向混合器309提供的带宽延伸的高频带激励信号。高斯发生器308生成整形的高速噪声信号，该整形的高速噪声信号的能量包络与从方波整型电路306输出的带宽延伸的高频带激励信号的能量包络匹配。混合器309从高斯发生器308接收噪声信号和从方波整型电路306接收带宽延伸的高频带激励信号并且用整形的高斯噪声信号替换带宽延伸的高频带激励信号的一部分。替换的部分依赖于估计的发音程度，该发音程度是来自CELP核心的输出并且基于随机分量和活跃码书分量中的相对能量的测量。向带通滤波器312提供了从混合功能产生的混合信号。带通滤波器312具有与带通滤波器301的特性相同的特性，并且提取高频带激励信号的对应分量。

向频谱翻转和降频混合器313提供了带通滤波的高频带激励信号，该带通滤波的高频带激励信号由带通滤波器312输出。频谱翻转和降频混合器313翻转带通滤波的高频带激励信号并且在频率上执行向下的频谱变换，使得作为结果的信号占用从0Hz到8kHz的频率区域。该操作匹配频谱翻转和降频混合器307的操作。向抽取器315提供了作为结果的信号，该抽取器315对翻转的和降频混合的高频带激励信号进行频带限制和将其采样速率从32kHz降低到16kHz。该操作匹配抽取器311的操作。作为结果的信号具有大体上平坦或者白的频谱，但是缺乏任何共振峰信息。全极点滤波器316从抽取器314接收抽取的、翻转的和降频混合的信号以及从LPC分析器314接收未量化的LPC滤波系数。该全极点滤波器316对抽取的、翻转的和降频混合的高频带信号重新塑形，使得它匹配BWE目标信号的形状。向增益计算器317提供了重新塑形的信号，该增益计算器317也从缺失信号发生器311a接收间隙填充的BWE目标信号(经由路径L)。增益计算器317使用间隙填充的BWE目标信号以确定应当被用于频谱整形的、抽取的、翻转的和降频混合的高频带激励信号的理想增益。向第二量化器319提供了频谱整形的、抽取的、翻转的和降频混合的高频带激励信号(具有理想增益)，该第二量化器量化用于高频带的增益。第二量化器319的输出是经量化的增益。经量化的LPC参数和经量化的增益受到附加的处理、变换等，从而产生例如经由网络102向第二通信设备106发射的射频信号。

如先前指出的那样，缺失信号发生器311a填充从编码器222从音乐模式改变成语音模式而产生的信号中的间隙。现在将关于图4更详细地描述根据本发明的一个实施例的由缺失信号发生器311a执行的操作。图4描绘信号400、402、404和408的图形。图形的垂直轴代表信号的量值而水平轴代表时间。第一信号400是编码器222尝试处理的原始声音信号。第二信号402是从缺乏任何修改地处理第一信号400而产生的信号(即，未修改的信号)。第一时间410是编码器222从第一模式(例如，使用频域编码器，诸如基于谐波的正弦型编码器的音乐模式)切换成第二模式(例如，使用时域或者波形编码器，诸如CELP编码器的语音模式)的时间点。因此，直到第一时间410，编码器222以第一模式来处理音频信号。在第一时间410处或者之后不久，编码器222尝试以第二模式来处理音频信号，但是直至编码器222能够在模式切换(该模式切换在第二时间412出现)之后刷出滤波存储器和缓冲器并且填充先行缓冲器221才能够有效地这样做。正如可见，在第一时间410与第二时间412之间存在时间间隔，在该时间间隔中，在处理的音频信号中存在间隙416(例如，该间隔416可以大约为5毫秒)。在该间隙416期间，在BWE区域中几乎没有声音可用于编码。为了补偿该间隙，缺失信号发生器311a复制信号402的部分406。复制的信号部分406是缺失信号部分(即，应当已经在间隙中的信号部分)的估计。复制的信号部分406占用从第二时间412到第三时间414跨越的时间间隔418。将要注意，可以存在第二时间412后的信号的可以被复制的多个部分，但是该示例涉及单个复制的部分。

编码器222将复制的信号部分406叠加到重新生成的信号估计408上，使得复制的信号部分406的一部分被插入到间隙416中。在一些实施例中，如图4中所示，缺失信号发生器311a在将复制的信号部分406叠加到重新生成的信号估计402上之前对复制的信号部分406进行时间反转。

在一个实施例中，复制的部分406跨越比间隙416的时间段更长的时间段。因此，除了复制的部分406填充间隙416之外，复制的部分的一部分与超出间隙416之外的信号组合。在其它实施例中，复制的部分跨越与间隙416相同的时间段。

图5示出另一实施例。在该实施例中，存在已知目标信号500，该已知目标信号500是从由编码器222执行的初始处理产生的信号。在第一时间512之前，编码器222以第一模式(其中，例如，它使用频率编码器，诸如基于谐波的正弦型编码器)来操作。在第一时间512处，编码器222从第一模式切换成第二模式(其中，例如，它使用CELP编码器)。例如，该切换基于从音乐或者类音乐的声音改变成语音或者类语音的声音的向通信设备输入的音频。编码器222直至第二时间514才能够从第一模式向第二模式的切换中恢复。在第二时间514之后，编码器222能够以第二模式对语音输入进行编码。间隙503存在于第一时间与第二时间之间。为了补偿间隙503，缺失信号发生器311a(图3)复制已知目标信号500的与间隙503相同时间长度518的部分504。缺失信号发生器组合复制的部分504的余弦窗口部分502与复制的部分504的时间反转的正弦窗口部分506。余弦窗口部分502和时间反转的正弦窗口部分506二者均可以取自复制的部分504的相同分段516。时间反转的正弦和余弦部分可以相互异相，并且可以不一定在分段516的相同时间点处开始和结束。余弦窗口和时间反转的正弦窗口的组合将被称为重叠-相加信号510。重叠-相加信号510替换目标信号500的复制的部分504的一部分。复制的信号504的尚未被替换的部分将被称为未替换的信号520。编码器将重叠-相加信号510附加到未替换的信号516，并且使用组合的信号510和516来填充间隙503。

尽管已经以如下方式描述了本公开内容及其最佳模式，该方式建立了由发明人的占有并且使得本领域普通技术人员能够实现和使用本公开内容，但是将会理解，存在在此公开的示例实施例的等价形式并且可以对其进行修改和变化而不偏离本公开内容的精神和范围，本公开内容的精神和范围将不由示例实施例限制而由所附权利要求限制。

Claims

1.一种对音频信号进行编码的方法，所述方法包括：

以第一编码器模式(300A)处理所述音频信号；

在第一时间(410)从所述第一编码器模式(300A)切换到第二编码器模式(300B)；

以所述第二编码器模式(300B)处理所述音频信号，其中所述第二编码器模式(300B)的处理延迟造成了所述音频信号中的间隙(416)，所述间隙(416)具有在所述第一时间(410)处或者之后开始并且在第二时间(412)处结束的时间跨度；

复制经处理的所述音频信号的部分(406)，其中复制的所述部分(406)在所述第二时间(412)处或者之后出现；以及

将信号插入到所述间隙(416)中，其中插入的所述信号基于复制的所述部分(406)。

2.根据权利要求1所述的方法，其中插入的所述信号是复制的所述部分的时间反转的版本。

3.根据权利要求1所述的方法，

其中复制的所述部分的所述时间跨度比所述间隙的所述时间跨度长；

所述方法进一步包括组合复制的所述部分的重叠部分与经处理的所述音频信号的出现在所述第二时间之后的至少一部分。

4.根据权利要求1所述的方法，

其中复制的所述部分包括正弦窗口部分和余弦窗口部分；并且

其中插入复制的所述部分包括组合所述正弦窗口部分与所述余弦窗口部分并且将组合的所述正弦窗口部分和所述余弦窗口部分的至少一部分插入到所述间隙部分中。

5.根据权利要求1所述的方法，其中将所述编码器从第一模式切换到第二模式包括将所述编码器从音乐模式切换到语音模式。

6.根据权利要求1所述的方法，进一步包括：

如果所述音频信号被确定为音乐信号，则以所述第一模式对所述音频信号进行编码；

确定所述音频信号已经从所述音乐信号切换到语音信号；以及

如果确定了所述音频信号已经切换成语音信号，则以所述第二模式对所述音频信号进行编码。

7.根据权利要求6所述的方法，其中所述第一模式是音乐编码模式并且所述第二模式是语音编码模式。

8.根据权利要求1所述的方法，进一步包括在所述第一模式中使用频域编码器并且在所述第二模式中使用CELP编码器。

9.一种用于对音频信号进行编码的装置(200)，所述装置(200)包括：

第一编码器(300A)；

第二编码器(300B)；

语音-音乐检测器(300)；

其中当所述语音-音乐检测器(300)确定音频信号已经从音乐改变成语音时，所述音频信号停止由所述第一编码器(300A)处理而由所述第二编码器(300B)处理；

其中所述第二编码器(300B)的处理延迟造成了所述音频信号中的间隙(416)，所述间隙(416)具有在第一时间(410)处或者之后开始并且在第二时间(412)处结束的时间跨度；以及

缺失信号发生器(311A)，所述缺失信号发生器(311A)复制经处理的所述音频信号的部分(406)，其中复制的所述部分(406)在所述第二时间(412)处或者之后出现，并且所述缺失信号发生器(311A)将信号插入到所述间隙(416)中，其中插入的所述信号基于复制的所述部分(406)。