CN103871414B

CN103871414B - 一种多声道语音信号的时标调制方法和装置

Info

Publication number: CN103871414B
Application number: CN201210532027.6A
Authority: CN
Inventors: 王凤玲; 王田; 吴文海; 张德军
Original assignee: Huawei Technologies Co Ltd
Current assignee: Chang Xiaoliang; Guangdong Gaohang Intellectual Property Operation Co ltd
Priority date: 2012-12-11
Filing date: 2012-12-11
Publication date: 2016-06-29
Anticipated expiration: 2032-12-11
Also published as: CN103871414A

Abstract

本发明公开了一种多声道语音信号的时标调制方法，所述方法包括：获取多声道语音的输入信号以及相关的初始化信息；根据所述时标调制模式更新所述每个声道初始的信号累计长度，得到每个声道时标调制后的信号累计长度；根据所述每个声道时标调制后的信号累计长度得到时标调制后信号累计长度最长的信号累计长度和最短的信号累计长度；若所述时标调制后最长的信号累计长度和所述最短的信号累计长度的差值不大于预设长度阈值，则输出所述每个声道时标调制后的信号。该方法能够使得多声道语音信号在时标调制后信号质量在感知听觉上仍能保持较高水准。本发明还公开了一种多声道语音信号的时标调制装置。

Description

一种多声道语音信号的时标调制方法和装置

技术领域

本发明涉及通信技术领域，特别涉及一种多声道语音信号的时标调制方法和装置。

背景技术

在基于IP的语音通信系统中，会话双方所发出的话音被封装成IP数据包，并通过IP网络进行传输，然后，在接收端对该IP数据包进行解包并还原成语音，从而实现发送端、接收端双方的实时会话。

在基于IP的语音通信系统中，为了保证会话尽量以实时的方式进行，通常使用RTP(实时传输协议)传输协议，而不使用TCP(传送控制协议)协议。在基于IP的语音通信系统中，语音通常按ITU-T(国际电信联盟-电信标准部)建议的G.711、G.723或G.729标准进行编码，然后再进行传输。

目前基于IP的语音通信多是单声道的，自适应抖动缓冲管理(AJBM，adaptiVejitterbuffermanagement)中的时标调制timescaling也是对单个声道进行扩展extend或者压缩compress，但是基于立体声或者多声道的新IP语音通信也在开始研究。

现有技术解决多声道timescaling声场改变的方法，就是通过寻找相同的语音信号扩展或者压缩的长度维持多声道声场的稳定。但是这种方式的主要问题是不能保证每个声道的相似段信号SimilarSegment与各自声道的模板段信号TemplateSegment最相似的。因此，现有技术针对多声道语音信号的时标调制计算时不能保证各声道质量最优，容易产生失真的问题。

发明内容

有鉴与此，本发明的实施例提供了一种多声道语音信号的时标调制timescaling方法和装置，以实现在解决多声道语音信号声场稳定的同时，提供更好的声道质量。

本发明第一方面的实施例公开了一种多声道语音信号的时标调制timescaling方法，其特征在于，包括：获取多声道语音的输入信号以及相关的初始化信息，相关的初始化信息包括帧信号长度、每个声道初始的信号累计长度、时标调制timescaling模式，其中所述每个声道初始的信号累计长度为每个声道的全部帧的帧信号长度的和；

根据所述时标调制模式对所述多声道语音的输入信号做时标调制计算，得到每个声道时标调制后的信号，根据所述每个声道时标调制后的信号更新所述每个声道初始的信号累计长度，得到每个声道时标调制后的信号累计长度；

根据所述每个声道时标调制timescaling后的信号累计长度选择时标调制timescaling后最长的信号累计长度和最短的信号累计长度；

若所述时标调制timescaling后最长的信号累计长度和所述最短的信号累计长度的差值不大于预设长度阈值，则输出所述每个声道时标调制timescaling后的信号。

根据本发明实施例的多声道语音信号的时标调制timescaling的方法，能够在有效的解决多声道语音信号时标调制timescaling后声场改变问题的同时，保证各个声道时标调制timescaling后的信号质量仍然十分优良，从而使得多声道语音信号在时标调制timescaling后的信号质量在感知听觉上仍能保持较高水准。

在本发明第一方面实施例第一种可能实现的方式中，在所述在根据所述每个声道时标调制后的信号累计长度选择时标调制后最长的信号累计长度和最短的信号累计长度之后还包括：

若所述时标调制timescaling后最长的信号累计长度和所述最短的信号累计长度的差值大于预设长度阈值，则初始化时标调制timescaling次数值；

对所述时标调制timescaling后信号累计长度最长的或最短的声道做时标调制timescaling，更新所述每个声道时标调制timescaling后的信号，并更新所述每个声道时标调制timescaling后的信号累计长度，根据所述每个声道时标调制timescaling后的信号累计长度更新所述时标调制timescaling后信号累计长度最长的声道索引以及最长的信号累计长度和信号累计长度最短的声道索引以及最短的信号累计长度，所述时标调制timescaling次数值增加1，

重复本步骤直至所述时标调制timescaling后最长的信号累计长度和所述最短的信号累计长度的差值不大于预设长度阈值。

结合上述任意之一实施例的本发明第一方面实施例第二种可能的实现方式中，在所述时标调制timescaling次数值增加1之后，若所述时标调制timescaling次数值大于预设次数阈值，则输出所述每个声道时标调制timescaling后的信号。

结合上述任意之一实施例的在第一方面实施例第三种可能的实现方式中，所述时标调制timescaling模式分为扩展和压缩；根据所述时标调制模式对所述多声道语音的输入信号做时标调制计算，得到每个声道时标调制后的信号，根据所述每个声道时标调制后的信号更新所述每个声道初始的信号累计长度，得到每个声道时标调制后的信号累计长度包括：

根据所述时标调制timescaling模式对所述多声道语音的输入信号的每个声道单独做扩展或者压缩，得到每个声道时标调制timescaling后的信号，根据所述每个声道时标调制timescaling后的信号得到每个声道时标调制timescaling后的全部帧的帧信号长度；

根据所述每个声道时标调制timescaling后的全部帧的帧信号长度更新所述每个声道初始的信号累计长度，得到每个声道时标调制timescaling后的信号累计长度。

结合上述任意之一实施例的本发明第一方面实施例第四种可能的实现方式中，所述预设长度阈值为所述多声道语音信号中任一声道的的任一帧的基音周期的长度。

结合上述任意之一实施例的本发明第一方面实施例第五种可能的实现方式中，在扩展的时候，对所述时标调制timescaling后的信号累计长度最短的声道做时标调制timescaling计算；

在压缩的时候，对所述时标调制timescaling后的信号累计长度最长的声道做时标调制timescaling计算。

结合上述任意之一实施例的本发明第一方面实施例第六种可能的实现方式中，根据当前帧基音周期的长度和预设的时标调制timescaling比对所述时标调制timescaling后的信号累计长度最短的声道或所述时标调制timescaling后的信号累计长度最长的声道做时标调制timescaling计算。

结合上述任意之一实施例的本发明第一方面实施例第七种可能的实现方式中，还包括：在所述根据时标调制timescaling模式对所述多声道语音的输入信号的每个声道单独做扩展或者压缩之后，判断每个声道的信号类型是语音voice或者噪音noise；若所述声道的信号类型为语音Voice，则继续按照后续步骤处理；若所述声道的信号类型为噪音noise，则在所有所述声道信号类型为语音voice的声道处理完成后，随机选择一个所述声道信号类型为语音voice的声道的信号累计长度，根据所述信号累计长度对所有所述声道的信号类型为噪音noise的声道做时标调制timescaling计算。

本发明第二方面的实施例公开了一种多声道语音信号的时标调制timescaling装置，包括：获取模块，用于获取多声道语音的输入信号以及相关的初始化信息，相关的初始化信息包括：帧信号长度、每个声道初始的信号累计长度、时标调制timescaling模式，其中所述每个声道初始的信号累计长度为每个声道的全部帧的帧信号长度的和；

单个声道时标调制处理模块，用于根据所述获取模块获取的所述时标调制模式对所述多声道语音的输入信号做时标调制计算，得到每个声道时标调制后的信号；还用于根据所述每个声道时标调制后的信号更新所述每个声道初始的信号累计长度，得到每个声道时标调制后的信号累计长度；

多声道时标调制timescaling控制模块，用于根据所述单个声道时标调制timescaling处理模块得到的所述每个声道时标调制timescaling后的信号累计长度选择时标调制timescaling后最长的信号累计长度和最短的信号累计长度；输出模块，若所述多声道时标调制timescaling控制模块选择的所述时标调制timescaling后最长的信号累计长度和最短的信号累计长度的差值不大于预设长度阈值，则输出所述每个声道时标调制timescaling后的信号。

根据本发明实施例的多声道语音信号的时标调制timescaling的装置，能够在有效的解决多声道语音信号时标调制timescaling后声场改变问题的同时，保证各个声道时标调制timescaling后的信号质量仍然十分优良，从而使得多声道语音信号在时标调制timescaling后信号质量在感知听觉上仍能保持较高水准。

在第二方面实施例第一种可能的实现方式中，

若所述时标调制后最长的信号累计长度和最短的信号累计长度差值大于预设长度阈值，则多声道时标调制控制模块还用于初始化时标调制次数值；

所述单个声道时标调制处理模块继续对所述时标调制后信号累计长度最长的或最短的声道做时标调制，更新所述每个声道时标调制后的信号，并更新所述每个声道时标调制后的信号累计长度，所述多声道时标调制控制模块根据所述每个声道时标调制后的信号累计长度更新所述时标调制后最长的信号累计长度和最短的信号累计长度，所述timescaling次数值增加1，

所述单个声道时标调制处理模块和所述多声道时标调制控制模块用于重复本步骤直至所述时标调制后最长的信号累计长度和所述最短的信号累计长度的差值不大于预设长度阈值。

结合上述实施例的本发明第二方面实施例第二种可能的实现方式中，所述输出模块还用于：若所述时标调制次数值大于预设次数阈值，则所述输出模块输出所述每个声道时标调制后的信号。

结合上述任意之一实施例的本发明第二方面实施例第三种可能的实现方式中，所述时标调制模式包括扩展和压缩；所述单个声道时标调制timescaling处理模块还包括：帧长生成单元，用于根据所述时标调制timescaling模式对所述多声道语音的输入信号的每个声道单独做扩展或者压缩，得到每个声道时标调制timescaling后的信号，根据所述每个声道时标调制timescaling后的信号得到每个声道时标调制timescaling后的全部帧的帧信号长度；信号累计长度生成单元，用于根据所述帧长生成单元获得的所述每个声道时标调制timescaling后的全部帧的帧信号长度更新所述每个声道初始的信号累计长度，得到每个声道时标调制timescaling后的信号累计长度。

结合上述任意之一实施例的本发明第二方面实施例第四种可能的实现方式中，所述预设长度阈值为所述多声道语音信号中任一声道的任一帧的基音周期的长度。

结合上述任意之一实施例的本发明第二方面实施例第五种可能的实现方式中，所述单个声道时标调制处理模块继续对所述时标调制后信号累计长度最长的或最短的声道做时标调制包括：在扩展的时候，对所述时标调制后的信号累计长度最短的声道做时标调制计算；在压缩的时候，对所述时标调制后的信号累计长度最长的声道做时标调制计算。

结合上述任意之一实施例的本发明第二方面实施例第六种可能的实现方式中，所述单个声道时标调制处理模块还用于：根据当前正在处理的帧的基音周期的长度和预设的时标调制比对所述时标调制后的信号累计长度最短的声道或所述时标调制后的信号累计长度最长的声道做时标调制计算。

根据本发明实施例的多声道语音信号的时标调制timescaling的方法和装置，能够在有效的解决多声道语音信号时标调制timescaling后声场改变问题的同时，保证各个声道时标调制timescaling后的信号质量仍然十分优良，从而使得多声道语音信号在时标调制timescaling后信号质量在感知听觉上仍能保持较高水准。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为单声道语音信号时标调制timescaling方法的示意图。

图2为网络传输中数据抖动的示意图。

图3为自适应的处理图2中网络数据抖动的示意图。

图4为多声道语音信号中每一个声道单独编码的示意图。

图5为多声道语音信号中各个声道混合编码的示意图。

图6为根据本发明实施例的一种多声道语音信号的时标调制timescaling方法的流程图。

图7为本发明实施例的多声道语音信号时标调制timescaling的流程示意图。

图8为根据本发明实施例的一种多声道语音信号的时标调制timescaling装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

时标调制Timescaling算法能够改变语音信号的播放速率，同时在感知听觉上不改变信号的基音周期。Timescaling通过对一定信号长度的语音信号进行extend(扩展)或者compress(压缩)来实现播放速率的控制，timescaling模式即包括了扩展和压缩这两种模式。单个数据包的Timescaling实现原理及步骤如图1所示：

对于某模板段信号(TemplateSegment)，在一个搜索区域(SearchRegion)里面，找到一段与TemplateSegment的相比最相似的相似段信号(SimilarSegment)。然后，将SimilarSegment信号移到TemplateSegment信号的位置，并对TemplateSegment和SimilarSegment信号分别进行加窗，将加窗后的TemplateSegment和SimilarSegment信号重叠相加，将SimilarSegment后面的信号移到重叠相加的信号后面，将这两部分信号一起输出作为timescaling后的信号。如图1所示，SimilarSegment与TemplateSegment之间的距离Δl即信号扩展或者压缩了的长度，而SearchRegion的选择可以影响Δl的长度。

Timescaling能控制语音信号的播放速率，这一特性可以用在自适应抖动缓冲管理(AJBM，adaptivejitterbuffermanagement)中。在基于IP的语音通信中，发送端将录制的信号分为一帧一帧的语音段，每帧长度为L₀个样点，持续时间为Tms，录制的速率为r样点/秒。发送端每隔Tms将一帧的信号编码然后发送到网络端。

而基于IP的语音通信中，每个数据包到达的时间可能不一样，如图2的接收端Receiver，这种由于数据包到达时间不一致引起的抖动叫jitter。在播放的时候，如果同样以r样点/秒的速率播放每帧的话，就可能会由于网络上数据包的晚到而产生丢包，如图2的第i+2个包。

为了解决这种jitter产生的丢包，我们可以改变接收端的播放速率，使得接收端有足够的时间等待晚到的包，如图3的第i+1个包和第i+2个包。当我们将第i+1个包扩展extend到一定的长度时，第i+1个包播放完时第i+2个包也到达了接收端，这样就避免了jitter引起的丢包。

AJBM中的timescaling是对单个声道进行扩展(extend)或者压缩(compress)。而在多声道语音信号处理方面，立体声或者多声道的编解码方式有两种，如图4和图5。其中图4的方式，是对多声道的各声道进行单独编解码；而图5的方式，是先从多声道中提取出参数信息，然后将多声道下混为较少声道的信号或者是单声道信号，解码端先对下混后的信号进行解码，然后结合参数信息，恢复出多声道的信号。

由图1可以看出，timescaling最关键的就是SimilarSegment的搜索，SimilarSegment与TemplateSegment的距离Δl即为扩展或者压缩了的长度。也就是说，如果原来一帧的长度为L₀的话，扩展之后的长度就是L₀+Δl，压缩之后的长度为L₀-Δl，timescaling比为可以看出，timescaling比小于1时即为压缩，实现快播，大于1时即为扩展，实现慢播。对于图4和图5所示的不同的多声道编解码方式，有不同的timescaling方式。

对于图4所示的多声道编码方式而言，如果单独对每个声道单独进行timescaling的话，就需要对每个声道单独进行SimilarSegment的搜索。由于每个声道信号的不同特性，对同一位置的TemplateSegment，搜索到的SimilarSegment与TemplateSegment的距离可能不一样。以立体声为例，扩展之后，可能左右声道的长度分别变为L₀+ΔlL、L₀+Δl_R。当Δl_L和Δl_R不相等的时候，就可能引起感知听觉上立体声声场的改变。

对图5所示的多声道编码方式，如果对输出的多声道信号Output_1～Output_N信号单独做timescaling的话，出现的问题跟图4中单独对每个声道做timescaling是一样的；如果对解码后的下混信号D_0信号做timescaling，然后再结合参数信息恢复出多声道的话，的确可以确保每个声道的长度是一样的，但是多声道参数信息是从没有做timescaling的原始信号中提取的，用这个参数信息和timescaling后的信号恢复多声道信号，也不能保证多声道的声场不改变。

对比基音周期的搜索方法可以发现，当TemplateSegment控制在一定范围内的时候，SimilarSegment与TemplateSegment之间的距离Δl等于基音周期的整数倍。

如图6所示，根据本发明实施例的一种多声道语音信号的timescaling方法，包括：

S11：获取多声道语音的输入信号以及相关的初始化信息，相关的初始化信息包括：帧信号长度、每个声道初始的信号累计长度、timescaling模式，其中所述每个声道初始的信号累计长度为每个声道的全部帧的帧信号长度的和。

S12：根据所述timescaling模式对所述多声道语音的输入信号做timescaling计算，得到每个声道时标调制后的信号，根据所述每个声道timescaling后的信号更新所述每个声道初始的信号累计长度，得到每个声道timescaling后的信号累计长度。

S13：根据所述每个声道timescaling后的信号累计长度选择timescaling后最长的信号累计长度和最短的信号累计长度；

S14：若所述timescaling后最长的信号累计长度和所述最短的信号累计长度的差值不大于预设长度阈值，则输出所述每个声道timescaling后的信号。

根据本发明实施例的多声道语音信号的timescaling的方法，能够在有效的解决多声道语音信号timescaling后声场改变问题的同时，保证各个声道timescaling后的信号质量仍然十分优良，从而使得多声道语音信号在timescaling后信号质量在感知听觉上仍能保持较高水准。

如图7所示，根据本发明实施例的一种多声道语音信号的timescaling方法，包括：

S21：获取多声道语音的输入信号以及相关的初始化信息。

相关的初始化信息包括：帧信号长度、每个声道初始的信号累计长度、timescaling模式，其中每个声道初始的信号累计长度为每个声道全部帧的帧信号长度的和，timescaling模式分为扩展和压缩。在获得这些信息后转入步骤S22进行后续处理。

S22：对各声道信号单独进行timescaling，得到timescaling后的信号累计长度。

根据步骤S21获得的所述timescaling模式对所述多声道语音的输入信号的每个声道单独做扩展或者压缩，得到每个声道timescaling后的信号，根据所述每个声道timescaling后的信号得到每个声道timescaling后的全部帧的帧信号长度；根据所述每个声道timescaling后的帧信号长度更新所述每个声道初始的信号累计长度，得到每个声道timescaling后的信号累计长度。

在本发明的一个实施例中，为了使得每次做完timescaling后各声道的信号累计长度差不至于太大，可以规定每次timescaling时扩展或者压缩的长度为任意一个声道中任一帧的一个基音周期长度，即SimilarSegment与TemplateSegment的距离Δl为一个基音周期长度。然后，计算timescaling后各声道的信号累计长度，例如分别为可以理解的是，对timescaling时扩展或者压缩的长度的划分不限于本实施例的举例，timescaling时扩展或者压缩的长度可以为多个基音周期长度或者其它本领域普通技术人员无需创造性劳动即可实现的长度。

S23：得到timescaling后最长的信号累计长度和最短的信号累计长度。

根据步骤S22得到的每个声道timescaling后的信号累计长度可以得到timescaling后信号累计长度最长的声道索引以及最长的信号累计长度和信号累计长度最短的声道索引以及最短的信号累计长度。

在本发明的一个实施例中，最长的信号累计长度可表示为最短的信号累计长度可表示为为对应的声道分别为i_max和i_min。扩展的时候，对第i_min个声道的信号继续搜索SimilarSegment；压缩的时候，对第i_max个声道的信号继续搜索SimilarSegment，得到SimilarSegment与TemplateSegment的距离为Δl，同样的，Δl可以为一个基音周期的长度。

在本发明的一个实施例中，还包括，判断timescaling后的声道信号类型是语音(voice)还是噪音(noise)。如果声道信号类型属于voice，则继续进行步骤S24的处理。

如果声道信号类型属于noise，则对所有的声道信号进行timescaling时都扩展或压缩到与voice声道中任一声道的信号累计长度相等的信号累计长度。然后输出voice声道信号和noise声道信号。

S24：判断timescaling后的声道累计长度差值是否大于预设长度阈值。

当timescaling后最长的信号累计长度和最短的信号累计长度的差值不大于预设长度阈值时，转到步骤S27进行处理；

当timescaling后最长的信号累计长度和最短的信号累计长度的差值大于预设长度阈值时，转入步骤S25继续对声道信号做处理。

在本发明的一个实施例中，设置预设长度阈值的值为任一声道基音周期的长度值或基音周期长度值的正整数倍。

S25：继续对每个声道进行timescaling。

初始化timescaling次数值；

在本发明的一个实施例中，初始化timescaling次数值为0或1。

继续对timescaling后信号累计长度最长的或最短的声道做timescaling，更新每个声道timescaling后的信号，更新每个声道timescaling后的信号累计长度，根据每个声道timescaling后的信号累计长度更新timescaling后信号累计长度最长的声道索引以及最长的信号累计长度和信号累计长度最短的声道索引以及最短的信号累计长度，timescaling次数值增加1，

重复本步骤直至timescaling后最长的信号累计长度和所述最短的信号累计长度的差值不大于预设长度阈值；

在本发明的一个实施例中，还包括：

S26：判断timescaling计数值是否大于预设次数阈值。

当timescaling计数值大于预设次数阈值时，转到步骤S27处理；

当timescaling计数值不大于预设次数阈值时，转到步骤S24进行处理。

在本发明的一个实施例中，预设次数阈值是自由设定的，例如可以设置预设次数阈值的值为2。可以理解的是，预设次数阈值不限于本发明实施例的举例，还包括3，4，10等其它本领域普通技术人员无需创造性劳动即可实现的方式。

S27：输出timescaling后的语音信号。

输出经过上述步骤处理后的每个声道timescaling后的信号。

下面具体描述根据本发明实施例的一种多声道语音信号的timescaling方法的一种实现场景。

对于帧长为L₀的语音信号，进行timescaling后的信号累计长度为L^out，则timescaling比为每次做timescaling的时候，可以根据当前帧语音信号的基音周期的长度以及期望的timescaling比来决定每次压缩或者扩展的长度。在帧长为L₀时，如果当前帧的基音周期小于期望的timescaling比为1.5，那么timescaling就可以扩展2个基音周期长度；然后，预设长度阈值可以定义为2个基音周期长度，预设次数阈值的大小定义为3。如果当前帧的基音周期长度大于期望的timescaling比为1.0，则当前帧timescaling就可以扩展1个基音周期长度；预设长度阈值为1个基音周期长度，预设次数阈值的大小定义为2。可以理解的是，上述举例只是为了帮助更清楚的理解本发明做的一种举例，并不是对本发明技术方案的一种具体限制，本发明还包括所有本领域普通技术人员无需通过创造性劳动即可实现的其它方式。

如图8所示，根据本发明实施例的一种多声道语音信号的timescaling装置80，包括：

获取模块801，单个声道timescaling处理模块802，多声道timescaling控制模块803，输出模块804。其中，获取模块801和单个声道timescaling处理模块802相连，多声道timescaling控制模块803和单个声道timescaling处理模块802相连，输出模块804和多声道timescaling控制模块803相连。

获取模块801用于获取多声道语音的输入信号以及相关的初始化信息，相关的初始化信息包括：帧信号长度、每个声道初始的信号累计长度、timescaling模式，其中所述每个声道初始的信号累计长度为每个声道全部帧的帧信号长度的和；

单个声道timescaling处理模块802，用于根据获取模块801获取的timescaling模式对多声道语音的输入信号做timescaling计算，得到每个声道timescaling后的信号；还用于根据每个声道timescaling后的信号更新每个声道初始的信号累计长度，得到每个声道timescaling后的信号累计长度；

多声道timescaling控制模块803，用于根据单个声道timescaling处理模块802得到的根据每个声道timescaling后的信号累计长度选择timescaling后最长的信号累计长度和最短的信号累计长度；

输出模块804，若多声道timescaling控制模块803选择的所述timescaling后最长的信号累计长度和最短的信号累计长度的差值不大于预设长度阈值，则输出模块804输出每个声道timescaling后的信号。

跟据本发明实施例的多声道语音信号的timescaling的装置80，能够在有效的解决多声道语音信号timescaling后声场改变问题的同时，保证各个声道timescaling后的信号质量仍然十分优良，从而使得多声道语音信号在timescaling后信号质量在感知听觉上仍能保持较高水准。

在本发明的一个实施例中，若timescaling后最长的信号累计长度和最短的信号累计长度差值大于预设长度阈值，则多声道timescaling控制模块803初始化timescaling次数值；

单个声道timescaling处理模块802继续对timescaling后信号累计长度最长的或最短的声道做timescaling，更新每个声道timescaling后的信号，并更新每个声道timescaling后的信号累计长度，多声道timescaling控制模块803根据每个声道timescaling后的信号累计长度更新timescaling后信号累计长度最长的声道索引以及最长的信号累计长度和信号累计长度最短的声道索引以及最短的信号累计长度，timescaling次数值增加1，

输出模块804输出所述每个声道timescaling后的信号。

在本发明的一个实施例中，若所述timescaling次数值大于预设次数阈值，输出模块804输出每个声道timescaling后的信号。

在本发明的一个实施例中，所述时标调制模式包括扩展和压缩；单个声道timescaling处理模块802还包括，

帧长生成单元8021，用于根据所述timescaling模式对所述多声道语音的输入信号的每个声道单独做扩展或者压缩，得到每个声道timescaling后的信号，根据所述每个声道timescaling后的信号得到每个声道timescaling后的全部帧的帧信号长度；

信号累计长度生成单元8022，用于根据所述帧长生成单元8021获得的所述每个声道timescaling后的全部帧的帧信号长度更新所述每个声道初始的信号累计长度，得到每个声道timescaling后的信号累计长度。

在本发明的一个实施例中，预设长度阈值为所述多声道语音信号中任一声道的任一帧的基音周期的长度，可以理解的是，此处预设长度阈值只是为了帮助理解本发明实施例而做出的一种举例，而不应当被视为对本发明实施例的一种具体限制。

在本发明的一个实施例中，单个声道timescaling处理模块802继续对timescaling后信号累计长度最长的或最短的声道做timescaling包括：在扩展的时候，对所述timescaling后的信号累计长度最短的声道做timescaling计算；在压缩的时候，对所述timescaling后的信号累计长度最长的声道做timescaling计算。

在本发明的一个实施例中，单个声道timescaling处理模块802还用于：

根据当前正在处理的帧的基音周期的长度和预设的timescaling比对timescaling后的信号累计长度最短的声道或timescaling后的信号累计长度最长的声道做timescaling计算。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种多声道语音信号的时标调制方法，其特征在于，所述方法包括：

获取多声道语音的输入信号以及相关的初始化信息，所述相关的初始化信息包括帧信号长度、每个声道初始的信号累计长度和时标调制模式，其中所述每个声道初始的信号累计长度为每个声道的全部帧的帧信号长度的和；

根据所述每个声道时标调制后的信号累计长度选择时标调制后最长的信号累计长度和最短的信号累计长度；

若所述时标调制后最长的信号累计长度和所述最短的信号累计长度的差值不大于预设长度阈值，则输出所述每个声道时标调制后的信号。

2.如权利要求1所述的时标调制方法，其特征在于，在所述在根据所述每个声道时标调制后的信号累计长度选择时标调制后最长的信号累计长度和最短的信号累计长度之后，所述方法还包括：

若所述时标调制后最长的信号累计长度和所述最短的信号累计长度的差值大于预设长度阈值，则初始化时标调制次数值；

对所述时标调制后信号累计长度最长的或最短的声道做时标调制，更新所述每个声道时标调制后的信号，更新所述每个声道时标调制后的信号累计长度,根据所述每个声道时标调制后的信号累计长度更新所述时标调制后最长的信号累计长度和最短的信号累计长度，所述时标调制次数值增加1，

重复本步骤直至所述时标调制后最长的信号累计长度和所述最短的信号累计长度的差值不大于预设长度阈值。

3.如权利要求2所述的时标调制方法，其特征在于,在所述时标调制次数值增加1之后，所述方法还包括：

若所述时标调制次数值大于预设次数阈值，则输出所述每个声道时标调制后的信号。

4.如权利要求1至3任意一项所述的时标调制方法，其特征在于，所述时标调制模式包括扩展和压缩；根据所述时标调制模式对所述多声道语音的输入信号做时标调制计算，得到每个声道时标调制后的信号，根据所述每个声道时标调制后的信号更新所述每个声道初始的信号累计长度，得到每个声道时标调制后的信号累计长度包括：

根据所述时标调制模式对所述多声道语音的输入信号的每个声道单独做扩展或者压缩，得到每个声道时标调制后的信号，得到每个声道时标调制后的全部帧的帧信号长度；

根据所述每个声道时标调制后的全部帧的帧信号长度更新所述每个声道初始的信号累计长度，得到每个声道时标调制后的信号累计长度。

5.如权利要求1至3任意一项所述的时标调制方法，其特征在于，所述预设长度阈值为所述多声道语音信号中任一声道的任一帧的基音周期的长度。

6.如权利要求4所述的时标调制方法，其特征在于，所述对所述时标调制后信号累计长度最长的或最短的声道做时标调制包括：

在扩展的时候，对所述时标调制后的信号累计长度最短的声道做时标调制计算；

在压缩的时候，对所述时标调制后的信号累计长度最长的声道做时标调制计算。

7.如权利要求4所述的时标调制方法，其特征在于，所述对所述时标调制后信号累计长度最长的或最短的声道做时标调制还包括：

根据当前正在处理的帧的基音周期的长度和预设的时标调制比对所述时标调制后的信号累计长度最短的声道或所述时标调制后的信号累计长度最长的声道做时标调制计算。

8.如权利要求4所述的时标调制方法，其特征在于，在所述根据时标调制模式对所述多声道语音的输入信号的每个声道单独做扩展或者压缩之后，所述方法还包括：判断每个声道的信号类型是语音或者噪音；

若所述声道的信号类型为语音，则继续按照后续步骤处理；

若所述声道的信号类型为噪音，在所有所述声道信号类型为语音的声道处理完成后，随机选择一个所述声道信号类型为语音的声道的信号累计长度，根据所述信号累计长度对所有所述声道的信号类型为噪音的声道做时标调制计算。

9.一种多声道语音信号的时标调制装置，其特征在于，包括：

获取模块，用于获取多声道语音的输入信号以及相关的初始化信息，相关的初始化信息包括：帧信号长度、每个声道初始的信号累计长度、时标调制模式，其中所述每个声道初始的信号累计长度为每个声道的全部帧的信号长度的和；单个声道时标调制处理模块，用于根据所述获取模块获取的所述时标调制模式对所述多声道语音的输入信号做时标调制计算，得到每个声道时标调制后的信号；还用于根据所述每个声道时标调制后的信号更新所述每个声道初始的信号累计长度，得到每个声道时标调制后的信号累计长度；

多声道时标调制控制模块，用于根据所述单个声道时标调制处理模块得到的所述每个声道时标调制后的信号累计长度选择时标调制后最长的信号累计长度和最短的信号累计长度；

输出模块，若所述多声道时标调制控制模块选择的所述时标调制后最长的信号累计长度和最短的信号累计长度的差值不大于预设长度阈值，则输出所述每个声道时标调制后的信号。

10.如权利要求9所述的时标调制装置，其特征在于，

所述单个声道时标调制处理模块继续对所述时标调制后信号累计长度最长的或最短的声道做时标调制，更新所述每个声道时标调制后的信号，并更新所述每个声道时标调制后的信号累计长度,所述多声道时标调制控制模块根据所述每个声道时标调制后的信号累计长度更新所述时标调制后最长的信号累计长度和最短的信号累计长度，所述时标调制次数值增加1，

11.如权利要求10所述的时标调制装置，其特征在于，所述输出模块还用于：

若所述时标调制次数值大于预设次数阈值，则所述输出模块输出所述每个声道时标调制后的信号。

12.如权利要求9至11任意一项所述的时标调制装置，其特征在于，所述时标调制模式包括扩展和压缩；所述单个声道时标调制处理模块还包括：

帧长生成单元，用于根据所述时标调制模式对所述多声道语音的输入信号的每个声道单独做扩展或者压缩，得到每个声道时标调制后的信号，根据所述每个声道时标调制后的信号得到每个声道时标调制后的全部帧的帧信号长度；

信号累计长度生成单元，用于根据所述帧长生成单元获得的所述每个声道时标调制后的全部帧的帧信号长度更新所述每个声道初始的信号累计长度，得到每个声道时标调制后的信号累计长度。

13.如权利要求9至11任意一项所述的装置，其特征在于，所述预设长度阈值为所述多声道语音信号中任一声道的任一帧的基音周期的长度。

14.如权利要求12所述的时标调制装置，其特征在于，所述单个声道时标调制处理模块继续对所述时标调制后信号累计长度最长的或最短的声道做时标调制包括：

15.如权利要求12所述的时标调制装置，其特征在于，所述单个声道时标调制处理模块还用于：