CN102177688B

CN102177688B - 语音编、解码方法、装置和系统

Info

Publication number: CN102177688B
Application number: CN200980148063.9A
Authority: CN
Inventors: 李笑霜; 高兴国
Original assignee: Huawei Technologies Co Ltd
Current assignee: Nantong Zhongxin Computer Technology Co., Ltd.
Priority date: 2009-12-10
Filing date: 2009-12-10
Publication date: 2014-12-17
Anticipated expiration: 2029-12-10
Also published as: EP2472807A1; US8849654B2; EP2472807A4; US20120221327A1; CN102177688A; WO2011069293A1

Abstract

本发明公开了一种语音编、解码方法、装置和系统，所述方法包括：将输入的脉码调制信号按照指定的时隙及拼装方式拼装成一个信号；按照指定的编码方式将所述拼装后的信号进行编码，输出编码后的语音信号。本发明由于对信号进行拼装或分离的过程可通过软件实现，因此，在不需要替换现网硬件的前提下，具有使现网实现7K频谱的语音编、解码的效果。

Description

语音编、解码方法、装置和系统

技术领域

本发明涉及通信领域，特别涉及一种语音编、解码方法、装置和系统。

背景技术

在传统的PSTN(Public Switched Telephone Network，公共交换电话网络)网络中，通常提供64K带宽，3.4K频谱的语音。由于人说话的频谱通常可以达到7K，因此，对于传统的PSTN网络中提供的3.4K频谱的语音通常都存在失真，这也是为何人在电话中的声音和人在真实环境中的声音不同的原因。相对于传统的PSTN网络，由于G.722编、解码方式可以处理频率达7K的音频信号，则在IP(Internet Protocol，网际协议)网络中，为了解决语音失真问题，很多芯片厂家提供了基于G.722编、解码的语音解决方案。

如图1所示的现有技术在实现基于G.722的语音编、解码时，需要两部分的硬件：一个是POTS(Plain Old Telephone Service，普通老式电话服务)用户板，该用户板包括Codec(编解码器)/SLIC(Subscriber Line InterfaceCircuit，用户线接口电路)，还有一个是DSP(Digital Signal Processing，数字信号处理)芯片。语音编码的具体过程中，DSP芯片将两个8K的PCM(PulseCode Modulation，脉码调制)信号倍频到16K，通过2个时隙实现16K采样；且DSP芯片内部也采用基于16K的处理模式，将2个时隙的PCM信号恢复到一个16K的数据，然后对此16K数据进行EC(Echo Cancel，回声抑制)/TD(Tone Detect，信号音检测)、编码等处理，最后以RTP(Real-time Transport Protocol，实时传送协议)格式输出编码后的信号。而语音解码的过程则为语音编码的反向过程。

由于目前7K频谱的语音并没有被大量应用，现网主要应用的仍然是3.4K频谱的语音，因此，通常在现网上应用的DSP芯片内部不支持16K倍频以及基于16K码流的处理，即现网上大量使用的产品不能提供7K频谱的语音编、解码功能。而支持16K倍频是需要DSP芯片内部硬件支持的，如果想要支持该现有技术提供的语音编、解码的实现方案，则需要替换现网中DSP芯片内部的硬件。

发明内容

为了在不需要替换现网硬件的前提下，使现网也可实现7K频谱的语音编、解码功能，进而降低语音编、解码对硬件的要求，本发明实施例提供了一种语音编、解码方法、装置和系统。所述技术方案如下：

一方面，提供了一种语音编码方法，所述方法包括：

对输入的脉码调制信号进行回声抑制和信号音检测，输出第一信号，所述第一信号为两个8K的脉码调制信号或四个8K的脉码调制信号；

按照指定的时隙及拼装方式将所述第一信号拼装成第二信号，若所述第一信号为两个8K的脉码调制信号，则所述第二信号为一个16K的脉码调制信号，若所述第一信号为四个8K的脉码调制信号，则所述第二信号为一个32K的脉码调制信号；

按照指定的编码方式将所述第二信号进行编码，输出语音信号；

其中，所述指定的时隙包括第一时隙和第二时隙，所述按照指定的时隙及拼装方式将所述第一信号拼装成第二信号，具体包括：

在所述第一时隙对应的脉码调制信号中间插入所述第二时隙对应的脉码调制信号，拼装成第二信号。

另一方面，提供了一种通信装置，所述装置包括：

处理模块，用于对输入的脉码调制信号进行回声抑制和信号音检测，输出第一信号，所述第一信号为两个8K的脉码调制信号或四个8K的脉码调制信号；

拼装模块，用于按照指定的时隙及拼装方式将所述处理模块输出的第一信号拼装成第二信号，若所述第一信号为两个8K的脉码调制信号，则所述第二信号为一个16K的脉码调制信号，若所述第一信号为四个8K的脉码调制信号，则所述第二信号为一个32K的脉码调制信号；

编码模块，用于按照指定的编码方式对所述拼装模块拼装成的第二信号进行编码，输出语音信号；

其中，所述指定的时隙包括第一时隙和第二时隙，所述拼装模块具体包括插入单元，

所述插入单元，用于在所述第一时隙对应的脉码调制信号中间插入所述第二时隙对应的脉码调制信号。

还提供了一种语音解码方法，所述方法包括：

对输入的语音信号进行解码，输出第二信号，所述第二信号为一个16K的脉码调制信号或一个32K的脉码调制信号；

将所述第二信号分离成至少两个第一信号，若所述第二信号为一个16K的脉码调制信号，则所述第一信号为两个8K的脉码调制信号，若所述第二信号为一个32K的脉码调制信号，则所述第一信号为四个8K的脉码调制信号；

对所述第一信号进行回声抑制和信号音检测，输出脉码调制信号；

其中，所述将所述第二信号分离成至少两个第一信号，具体包括：

将所述第二信号以中间抽取的方式分割成至少两个第一信号。

还提供了一种通信装置，所述装置包括：

解码模块，用于对输入的语音信号进行解码，得到第二信号，所述第二信号为一个16K的脉码调制信号或一个32K的脉码调制信号；

分离模块，用于将所述解码模块得到的第二信号分离成至少两个第一信号，若所述第二信号为一个16K的脉码调制信号，则所述第一信号为两个8K的脉码调制信号，若所述第二信号为一个32K的脉码调制信号，则所述第一信号为四个8K的脉码调制信号；

处理模块，用于对所述分离模块分离得到的第一信号进行回声抑制和信号音检测，输出脉码调制信号；

其中，所述分离模块具体包括分割单元，

所述分割单元，用于将所述解码模块得到的第二信号以中间抽取的方式分割成至少两个第一信号。

本发明一个实施例还提供了一种通信系统，所述系统包括通信装置，

所述通信装置包括：

解码模块，用于对输入的语音信号进行解码，得到第二信号，所述第二信号为一个16K的脉码调制信号PCM或一个32K的PCM；

分离模块，用于将所述解码模块得到的第二信号分离成至少两个第一信号，若所述第二信号为一个16K的脉码调制信号，则所述第一信号为两个8K的脉码调制信号PCM，若所述第二信号为一个32K的脉码调制信号，则所述第一信号为4个8K的PCM；

其中，所述分离模块具体包括分割单元，

本发明实施例提供的技术方案的有益效果是：

通过在编码之前对脉码调制信号进行拼装，再对拼装后的信号进行编码，输出语音信号；并在输入语音信号时，对语音信号进行解码并将其分离，实现输出脉码调制信号，由于对信号进行拼装或分离的过程可以通过软件实现，因此，本发明实施例提供的技术方案可以在不需要替换现网硬件的前提下，使现网也可实现7K频谱的语音编、解码功能，进而降低了语音编、解码对硬件的要求。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是现有技术提供的语音编解码原理结构示意图；

图2是本发明实施例一提供的语音编码方法流程图；

图3是本发明实施例二提供的语音编码方法流程图；

图4是本发明实施例二提供的语音编码的原理结构示意图；

图5是本发明实施例三提供的第一种通信装置的结构示意图；

图6是本发明实施例三提供的第二种通信装置的结构示意图；

图7是本发明实施例三提供的第三种通信装置的结构示意图；

图8是本发明实施例三提供的第四种通信装置的结构示意图；

图9是本发明实施例四提供的语音解码方法流程图；

图10是本发明实施例五提供的通信装置的结构示意图；

图11是本发明实施例五提供的另一种通信装置的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

参见图2，本实施例提供了一种语音编码方法，具体方法流程如下：

步骤201：对输入的脉码调制信号(Pulse Code Modulation,PCM)进行回声抑制和信号音检测，输出第一信号；

本实施例中的第一信号可以是两个8K的脉码调制信号，也可以是4个8K的脉码调制信号。

步骤203：按照指定的时隙及拼装方式将第一信号拼装成第二信号；

本实施例中，当第一信号为2个8K的脉码调制信号时，第二信号可以是一个16K的脉码调制信号；当第一信号为4个8K的脉码调制信号时，第二信号可以是一个32K的脉码调制信号。

步骤205：按照指定的编码方式对第二信号进行编码，输出语音信号。

本实施例提供的方法，通过在编码之前对脉码调制信号进行拼装，再对拼装后的信号进行编码，输出语音信号，由于对信号进行拼装的过程可以通过软件实现，因此，本实施例提供的方法可以在不需要替换现网硬件的前提下，使现网也可实现7K频谱的语音编码，提高语音质量，提升用户体验，进而降低了语音编码对硬件的要求。

实施例二

本实施例提供了一种语音编码方法，为了便于说明，本实施例将可使用的频谱划分成包括第一频段和第二频段的两个不重合的频段，其中，第一频段可以是3.4K及3.4K以下的频谱，第二频段可以是3.4K以上的频谱(如：7K频谱)，为了降低现网实现语音编码的硬件要求，在不替换现网硬件的前提下，使现网可以实现第二频段的语音编码，本实施例采取在编码之前将输入的脉码调制信号拼装成一个信号的方式，实现语音编码。下面，以实现7K频谱的第二频段语音编码为例，对本实施例提供的方法进行详细说明，方法具体流程参见图3，包括：

步骤301：接收来自主机的控制指令。

控制指令用于指定时隙、拼装方式及编码方式；

具体地，主机发送的控制指令由主机的控制模块发出，控制指令的形式可以是主机内部定义的消息，还可以是其他形式，本实施例不对控制指令的具体形式进行限定。

指定的编码方式可以为G.711、G.722、G.729、G.726等；指定的时隙是指在信号输入时需要占用的时隙，例如，G.711需要占用一个时隙，G.722需要占用2个或4个时隙，本实施例中，指定的时隙可以包括第一时隙TS0和第二时隙TS1，其中，TS0和TS1分别对应8K的脉码调制信号。

对于指定的拼装方式，包括但不限于以下两种：

一、首尾相接式：将指定的时隙对应的脉码调制信号首尾相接；

本实施例中为将时隙TS0对应的8K脉码调制信号的尾部连接时隙TS1对应的8K脉码调制信号的首部，时隙TS0对应的脉码调制信号在前，时隙TS1对应的脉码调制信号在后。

二、插入式：将指定的时隙对应的脉码调制信号中间插入另一指定的时隙对应的脉码调制信号；

本实施例中为在时隙TS0所对应的脉码调制信号中间插入时隙TS1所对应的脉码调制信号。

步骤303：向主机返回对控制指令的响应；

针对该步骤，返回对控制指令的响应可以在以下步骤执行完之后返回，也可以在接收到控制指令后返回，本实施例对何时返回响应不进行具体限定。

本步骤为可选项，在收到控制指令后，也可以不返回对控制指令的响应。

步骤305：对输入的脉码调制信号进行回声抑制和信号音检测，输出第一信号；

作为举例，本实施例中的第一信号为2个8K的脉码调制信号。

其中，回声抑制和信号音检测是现网中已有的功能，在实现本实施例提供的语音编码时，同样需要继续使用这两个功能。

步骤307：按照指定的时隙及拼装方式将第一信号拼装成第二信号；

该步骤为本实施例提供的方法关键所在，第一信号可以保存在缓存区中。为了实现7K频谱的第二频段语音编码，采样频率至少为16KHZ，则需要将两个8K的脉码调制信号拼装成一个16K信号，如图4所示的语音编码原理结构示意图。

具体地，按照指定的时隙及拼装方式将第一信号拼装成一个第二信号时：

如果指定的拼装方式是步骤301中提到的首尾相接式，则针对该步骤，需要将第一时隙对应的脉码调制信号和第二时隙对应的脉码调制信息首尾相接，使其拼装成一个第二信号，即将缓存中的时隙TS0对应的8K脉码调制信号的尾部连接缓存中的时隙TS1对应的8K脉码调制信号的首部，时隙TS0对应的脉码调制信号在前，时隙TS1对应的脉码调制信号在后，使缓存中的两个脉码调制信号拼装成一个第二信号；

如果指定的拼装方式是步骤301中提到的插入式，则针对该步骤，需要在第一时隙对应的脉码调制信号中间插入第二时隙对应的脉码调制信号，使其拼装成一个第二信号，即将缓存中的时隙TS0对应的脉码调制信号中间插入缓存中的时隙TS1对应的脉码调制信号，插入完成后实现将缓存中的两个脉码调制信号拼装成一个第二信号。

由于将两个8K的脉码调制信号拼装成一个16K信号的过程可以通过软件实现，因此，本实施例提供的技术方案可以在不需要升级现网硬件的前提下，使现网可实现7K频谱的第二频段语音编码。

进一步地，第一信号也可以是4个8K的脉码调制信号，对于输入为四个8K脉码调制信号的情况，本实施例提供的方法同样适用，即缓存经回声抑制和信号音检测后的四个8K脉码调制信号后，将四个8K脉码调制信号拼装成一个32K信号进行编码处理。本实施例不对拼装方式进行具体限定，如上述步骤301中所涉及到的拼装方式，此处不再赘述。

步骤309：按照指定的编码方式对第二信号进行编码，输出编码后的语音信号。

其中，由于编码方式有多种，本实施例不对指定的编码方式进行具体限定。

需要说明的是：本实施例虽然是以实现第二频段的语音编码为例，对本实施例提供的语音编码方法进行说明的，但本实施例提供的语音编码方法同样适用于第一频段的语音编码，针对第一频段的语音编码，该步骤中指定的编码方式应适用于第一频段的编码方式，例如：G.711。

综上，本实施例提供的方法，通过在编码之前将缓存的脉码调制信号进行拼装，再对拼装后的信号进行编码，输出语音信号，由于对信号进行拼装的过程可以通过软件实现，因此，本实施例提供的方法可以在不需要替换现网硬件的前提下，使现网既可以实现第一频段的语音编码，也可以实现第二频段的语音编码，提高现网中的语音质量，并提升了用户体验，进而降低了语音编码对硬件的要求。

实施例三

参见图5，本实施例提供了一种通信装置，该装置包括：

处理模块501，用于对输入的脉码调制信号进行回声抑制和信号音检测，输出第一信号；

本实施例中，第一信号可以是2个8K的脉码调制信号。

拼装模块503，用于按照指定的时隙及拼装方式将第一信号拼装成第二信号；

编码模块505，用于按照指定的编码方式对第二信号进行编码，输出语音信号。

参见图6，本实施例提供的装置还可以包括缓存模块502，用于存储第一信号。

需要说明的是：本实施例提供的通信装置不仅适用于7K频谱的语音，同样适用于3.4K频谱的语音，针对不同频谱的语音，只需指定相对应的编码方式即可。例如，对7K频谱的语音进行编码时，指定编码方式为G.722；对3.4K频谱的语音进行编码时，指定编码方式为G.711。

进一步地，参见图7，该装置还可以包括：

接收模块507，用于接收主机发送的控制指令，该控制指令用于指定时隙、拼装方式及编码方式。

本实施例中，控制指令中包括第一时隙和第二时隙，第一时隙和第二时隙分别对应8K的脉码调制信号。

参见图8，该装置还可以包括：

响应模块509，用于向主机返回对控制指令的响应。

其中，接收模块507接收到的控制指令由主机的控制模块发出，响应模块509可以在接收模块507接收到控制指令后即刻返回响应，也可以完成编码后返回响应，本实施例以编码后返回响应为例，如图8所示。主机的控制模块与该语音编码装置之间的交互可以通过内部接口函数实现，也可以具有一定格式的高层协议实现。可以通过一条内部通讯原语完成，也可以通过多条原语完成。可以跨模块应用，也可以在一个模块内应用，本实施例对此不做具体限定。

具体地，拼装模块503包括连接单元和插入单元，

连接单元，用于将第一时隙对应的脉码调制信号与第二时隙对应的脉码调制信号首尾相接，拼装成一个第二信号。

插入单元，用于在第一时隙所对应的脉码调制信号中间插入第二时隙所对应的脉码调制信号，拼装成一个第二信号。

综上，本实施例提供的通信装置，通过在编码之前对缓存的脉码调制信号进行拼装，再对拼装后的信号进行编码，输出语音信号，由于对信号进行拼装的过程可以通过软件实现，因此，在不需要替换现网硬件的前提下，使现网既可以实现3.4K频谱的语音编码，也可以实现7K频谱的语音编码，提高语音质量，提升用户体验，进而降低了语音编码对硬件的要求。

实施例四

参见图9，本实施例提供了一种语音解码方法，方法流程具体如下：

步骤901：对输入的语音信号进行解码，输出第二信号；

本实施例中的第二信号可以是一个16K的脉码调制信号，也可以是一个32K的脉码调制信号。

具体地，将输入的语音信号进行解码时，是指按照输入的语音信号本身的编码方式进行解码的，例如，输入的语音信号本身是基于G.711的编码方式，则在对其进行解码时，仍以基于G.711的解码方式进行解码。

步骤903：将第二信号分离成至少两个第一信号；

第二信号可以保存在缓存区中，第一信号可以由至少两个脉码调制信号组成。其中，对第二信号进行分离时，采取的方式可以包括：

平均分割式：将第二信号平均分割成多个脉码调制信号。以第二信号为16K脉码调制信号为例，即将16K的脉码调制信号的前8K分割成一个脉码调制信号，后8K分割成一个脉码调制信号，也即将一个16K的第二信号平均分割成2个8K的脉码调制信号。

中间抽取式：将第二信号以中间抽取的方式分割成多个脉码调制信号。以第二信号为16K脉码调制信号为例，将第二信号的前4K和后4K组成一个脉码调制信号，将中间的8K组成一个脉码调制信号。

本实施例不对将第二信号进行分离的具体方式进行限定。

步骤905：对第一信号进行回声抑制和信号音检测，输出脉码调制信号。

本实施例提供的方法，在输入语音信号时，对语音信号进行解码，得到脉码调制信号，并在缓存经解码得到的脉码调制信号后将其分离，实现输出脉码调制信号，由于分离脉码调制信号可以通过软件实现，因此，本实施例提供的语音解码方法在不需要替换现网硬件的前提下，即可使现网实现7K频谱的语音解码功能，提高语音质量，提升用户体验，进而降低了现网实现语音解码对硬件的要求。

实施例五

参见图10，本实施例提供了一种通信装置，该装置包括：

解码模块1001，用于对输入的语音信号进行解码，输出第二信号。

本实施例中的第二信号可以是16K的脉码调制信号，也可以是32K的脉码调制信号等。

分离模块1003，用于对第二信号进行分离，输出第一信号。

当本实施例中的第二信号为16K的脉码调制信号时，第一信号可以是两个8K的脉码调制信号；当第二信号为32K的脉码调制信号，第一信号可以是四个8K的脉码调制信号。

处理模块1005，用于对第一信号进行回声抑制和信号音检测，输出脉码调制信号。

参见图11，本实施例提供的装置还可以包括缓存模块1002，用于存储第二信号。

其中，分离模块1003具体包括平均分割单元和中间抽取单元，

平均分割单元：用于将第二信号平均分割成多个脉码调制信号；

以第二信号为16K脉码调制信号为例，平均分割单元将16K脉码调制信号的前8K分割成一个脉码调制信号，后8K分割成一个脉码调制信号；

中间抽取单元，用于在第二信号中间抽取脉码调制信号，从而将第二信号分割成脉码调制信号。

综上，本实施例提供的通信装置，在输入语音信号时，对语音信号进行解码，得到脉码调制信号，并在缓存经解码得到的脉码调制信号后将其分离，实现输出脉码调制信号，不需要替换现网硬件，即可使现网实现7K频谱的语音解码功能，提高语音质量，提升用户体验，进而降低语音解码对硬件的要求。

实施例六

本实施例提供了一种通信系统，所提供的通信系统中包括通信装置，如图5所示。其中，该通信装置包括：

本实施例中，第一信号可以是两个8K的脉码调制信号。

编码模块505，用于按照指定的编码方式将第二信号进行编码，输出语音信号。

本实施例还提供了一种通信系统，包括通信装置，如图10所示。该通信装置包括：

解码模块1001，用于对输入的语音信号进行解码，得到第二信号；

分离模块1003，用于将第二信号分离成至少两个第一信号；

本发明实施例提供的通信系统，在输入语音信号时，对语音信号进行解码，得到脉码调制信号，并将经解码得到的脉码调制信号分离，实现输出脉码调制信号，不需要替换现网硬件，即可使现网实现7K频谱的语音解码功能，提高语音质量，提升用户体验，进而降低语音解码对硬件的要求。

需要说明的是：实施例三提供的语音编码装置和实施例五提供的通信装置中的各个功能模块可以合并在一个装置中。本发明实施例提供的技术方案不仅可以适用于目前的编解码技术，也可适用于通过8K信号up sampling/downsampling实现的编解码技术，比如：24K采样，32K采样等编解码技术。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音编码方法，其特征在于，所述方法包括：

按照指定的编码方式对所述第二信号进行编码，输出语音信号；

2.根据权利要求1所述的方法，其特征在于，所述按照指定的时隙及拼装方式将所述第一信号拼装成第二信号之前，还包括：

接收来自主机的控制指令，所述控制指令包括所述指定的时隙、所述拼装方式及所述编码方式。

3.一种通信装置，其特征在于，所述装置包括：

4.根据权利要求3所述的装置，其特征在于，所述装置还包括：

接收模块，用于接收来自主机的控制指令，所述控制指令包括所述指定的时隙、所述拼装方式及所述编码方式。

5.一种语音解码方法，其特征在于，所述方法包括：

6.一种通信装置，其特征在于，所述装置包括：

其中，所述分离模块具体包括分割单元，

7.一种通信系统，其特征在于，所述系统包括通信装置，

所述通信装置包括：

8.一种通信系统，其特征在于，所述系统包括通信装置，

所述通信装置包括：

其中，所述分离模块具体包括分割单元，