CN103905149A

CN103905149A - 码本设计方法、通信设备以及码本训练方法

Info

Publication number: CN103905149A
Application number: CN201310741032.2A
Authority: CN
Inventors: 李俊强
Original assignee: MediaTek Singapore Pte Ltd
Current assignee: MediaTek Singapore Pte Ltd
Priority date: 2012-12-27
Filing date: 2013-12-27
Publication date: 2014-07-02
Anticipated expiration: 2033-12-27
Also published as: CN103905149B; US20140184431A1; US8749408B1

Abstract

本发明提供一种码本设计方法、通信设备以及码本训练方法，其中，该码本设计方法，包括：根据预定的码本子集设计，从一组源数据矢量中获得分布信息；根据预定的码本长度L以及该分布信息，为每一个码本子集确定码字个数N_s；将每一个源数据矢量分到对应的码本子集；训练码本子集中的源数据矢量；以及将默认码本矢量值分配到没有源数据矢量的码本子集。使用本发明提供的技术方案，能够使得码本搜索更有效率。

Description

码本设计方法、通信设备以及码本训练方法

技术领域

本发明涉及移动通信网络，以及，尤其涉及基于简化的最大互信息（maximum mutual information，MMI）矢量量化（Vector Quantization，VQ）的混合自动重复请求（Hybrid Automatic Repeat Request，HARQ）缓存减少的方案。

背景技术

长期演进（Long Term Evolution，LTE）系统是一种现代的移动通信标准，已被设计成在用户设备（User Equipment,UE）和封包数据网络（package datanetwork,PDN）之间提供无缝的互联网协议（IP）连接。长期演进系统中使用HARQ，努力保证传输的可靠性以及提高信道的吞吐量。HARQ是停止以及等待（stop-and-wait）的传输方案，其中，在发送端，只有从接收实体接收到ACK/NACK之后，后续的发送才能发生。在接收端，已接收的信息被暂时存储在HARQ存储器。如果所接收到的消息没有被正确的解码，被存储的有用信息能够与随后的同一消息的信息结合，以正确的解码该消息。随着移动网络中不断增加的数据速率，在接收的HARQ队列中要存储的数据量急剧增加。例如，第4类HARQ需要大约11兆(mega)比特的外部存储器和1.4兆比特的内部存储器，用于存储一个HARQ副本。为了减轻增加HARQ存储器空间大小的需求，需要在接收HARQ队列中进行数据压缩。

矢量量化（Vector Quantization，VQ）是一种高效的基于块编码（block coding）原则的数据压缩方法。一矢量量化将矢量空间中的k维矢量映射成一组有限的矢量，称为码字。所有的码字的集合是码本。矢量量化获得源数据矢量（sourcedata vector）以及将该源数据矢量关联到码字，该码字是最近的邻居。当使用矢量量化压缩HARQ数据，应该考虑该HARQ数据的一些特殊特性。HARQ是前向纠错（forward error correction，FEC），错误检测（error detection）和重传机制（retransmission scheme）的强大合并。为了最大限度地提高纠错编码的性能，当等待下一个重传的时候，通常以对数似然比（log-likelihood ratio,LLR）的形式，存储被传输的比特的后验概率（posterior probabilities）。对于对数似然比，一种常见的压缩方案是基于最大互信息（MMI）的矢量量化，其准则是将多个原始比特与被量化的对数似然比之间的互信息最大化。

用于HARQ数据的矢量量化设计存在两个问题。第一个是如何有效地生成码本。第二个是如何优化MMI方案，以用于矢量量化。在一个简单的矢量量化设计中，代码矢量被划分成码本中的码字。存储代码矢量的索引，而不是存储代码矢量本身。当解压缩的时候，索引被用于检索最接近该代码矢量的码字。简单的矢量量化方法对每个数据矢量都需要穷举搜索码本。这样的过程需要很大的计算量。因此，需要一种更有效的实时HARQ数据的矢量量化设计。

其中，一个问题是如何有效地产生码本。由于通用劳埃德算法（GeneralizedLloyd algorithm，GLA）的简易性和相对良好的保真度（fidelity），该经典的广义的劳埃德算法是被引用最多的和广泛使用的矢量量化方法。但是，它需要很高的处理资源。为了使用Lloyd算法，距离被定义在R^K，其中K>1，K表示维度。Lloyd算法包括两个步骤的迭代（iteration）。在第一步骤中，基于被选择的距离测度，将训练点关联到码本中的最近点，称为最近邻居状态（nearestneighbor condition）。在第二步骤中，每一组训练点的质心（centroid）被选择作为新的重建值，称为质心状态(centroid condition)。该算法可以以其他算法提供的原始码本开始或者以简单的从训练组中随机提取的码本开始。为了计算该距离，通常将Lloyd算法与欧几里德距离（Euclidean distance）结合，这会导致均方误差（mean squared error，MSE）最小化。对于Lloyd算法，使用其他的距离测度也是适用的，比如MMI方法。在传统的Lloyd算法或者一些改进的Lloyd算法中，存在的问题是不能有效的生成码本或需要实施额外的缓存器/存储器空间。

另一个问题是如何优化MMI方案，以用于矢量量化。传统矢量量化算法的局限性是要求高处理能力和存储空间。假设随机矢量l={l₁,…,l_k}。为了设计一个最优的码本，我们拉出l的n_τ个样本作为训练点，我们可以模拟随机矢量，t={t₁,...,t_K}，具有数字集合Γ={1，...，N}中的值，其中N是矢量量化单元（cell）的数目。对于具有对数似然比的HARQ，假设x_k是初始比特以及y_k是它的对数似然比的重建值。I(.;.)是随机变量之间的互信息（mutualinformation），H(.)是熵（entropy）和H(.|.)是假定另一个被观察的情况下的随机变量的条件熵（conditional entropy）。为了最大化多个初始比特以及被量化的对数似然比之间的互信息，该矢量量化需要确保互信息损失最小化，互信息损失为ΔI=H(X_k|Y_k)–H(X_k|L_k)。进一步，输入点落入区域R_i的概率被定义为：p(i)=n_i/n_Γ，其中，n_i=|{t∈R_i}|，其为既定量化器输出的概率，该概率被落入与输出值i相关区域的训练点的相关数量近似。后验概率p(x_k|i),能够由公式p(x_k|i)=

获得，其是在多个训练点属于R_i的条件下的初始比特的平均后验概率（average posterior probability）。对数似然比的量化版本能够被与矢量量化器输出相关的索引表示，以及条件熵（conditional entropy）满足：

H (X_{k} | I_{I}) = - Σ_{x_{k} &Element; {0,1}} Σ_{i = 1}^{N} p (x_{k} | i) \log_{2} p (x_{k} | i) .

互信息损失的最终表达式

ΔI = (1 / n_{Γ}) Σ_{t &Element; Γ} D_{KL} (p_{x_{k} | t} | | q_{x_{k} | t}),

其中D_KL(p||q)是在概率分布p以及q之间的KL分支，其定义在共享相同字母（alphabet）的多个随机变量上。应用这个算法来实现最大互信息矢量量化需要大的额外缓存空间以及可能引进大失真，它不是有效的码本设计。本发明揭示了优化的矢量量化算法来使得码本设计更有效。

发明内容

本发明实施例揭示一种码本设计方法、通信设备以及码本训练方法。

本发明一实施例提供一种码本设计方法，包括：根据预定的码本子集设计，从一组源数据矢量中获得分布信息；根据预定的码本长度L以及该分布信息，为每一个码本子集确定码字个数N_s；将每一个源数据矢量分到对应的码本子集；训练码本子集中的源数据矢量；以及将默认码本矢量值分配到没有源数据矢量的码本子集。

本发明另一实施例提供一种通信设备，包括：分布信息模块，用于根据预定的码本子集设计，从一组源数据矢量中获得分布信息；码本子集模块，用于根据预定的码本长度L以及该分布信息，为每一个码本子集确定码字个数N_s；划分模块，用于将每一个源数据矢量分到对应的码本子集；训练模块，用于训练码本子集中的源数据矢量；以及分配模块，用于将默认的码本矢量值分配给不具有源数据矢量的码本子集。

本发明又一实施例提供一种码本训练方法，该码本训练方法使用劳埃德算法，以用于矢量量化，该方法包括：

a)、将一组源数据分割成具有重建值Y_i的k维区域R_i，以及初始化旧的失真测度ΔD_old以及新的失真测度ΔD_new为无限大；

b)、安排该新的失真测度等于该旧的失真测度：ΔD_new=ΔD_old；

c)、对于每一个源数据矢量r，将r分配到R_i，以使得Y_i以及r具有最小失真测度；

d)、如果存在空的区域R_i，将一个或者多个非空区域R_i分割，以及返回从步骤c)重复执行；

e)、对于每一个R_i，根据预定的算法，更新重建值Y_i；

f)、根据该更新的重建值Y_i，更新该新的ΔD_new；以及

g)、重复执行步骤b)到f)，直到满足其中，ε表示预定的界限。

上述码本设计方法以及通信设备中码本的设计可以使得码本搜索更有效率。上述的码本训练方法能够提高矢量量化的效率。

附图说明

图1A是本发明实施例示出的用户设备（user equipment,UE）的功能模块；

图1B是本发明实施例示出的移动装置以及其不同的功能模块的框图；

图2A是本发明实施例示出的具有矢量量化操作的HARQ的框图；

图2B是本发明实施例示出的具有矢量量化操作的Turbo多输入多输出（Multiple Input Multiple Output,MIMO）以及HARQ结合的框图；

图3A是本发明实施例示出的编码器中码本编码功能的框图；

图3B是本发明实施例示出的解码器中码本解码功能的框图；

图4是本发明实施例示出的基于矢量量化的码本设计方法的流程图，其中，源数据首先被划分成子集，以用于码本产生；

图5A是本发明一个实施例示出的使用产生的码本对数据块矢量量化的方法流程图，其中，基于预定的码本子集设计，将每一个数据矢量归类到子码本；

图5B是根据本发明一个实施例示出的基于对数似然比符号的码本划分示意图，其中，对数似然比符号标记被用于将多个代码矢量分成多个子集；

图6是根据本发明实施例示出的一种基于改进的Lloyd算法的码本训练方法流程图；

图7是根据本发明实施例示出的另一种基于改进的Lloyd算法的码本训练方法流程图，其中使用改进的劳埃德算法，以用于MMI矢量量化；

图8是根据本发明实施例示出的又一种基于改进的Lloyd算法的码本训练方法流程图，其中使用改进的劳埃德Lloyd算法，以用于欧几里德Euclidean距离矢量量化；

图9A是出示具有大小为6020的样本输入源数据的分布图；

图9B是出示从图9A的源代码矢量产生的大小为512的样本码本的分布图。

具体实施方式

图1A是根据本发明实施例示出了用户设备的功能模块。功能模块驻留在用户设备的接收器100中，以处理射频（radio frequency,RF）信号。数字前端（DigitalFrontend,DFE）模块101接收以及处理来自天线110的RF信号。数字前端模块101的输出反馈到快速傅立叶反变换（Inverse Fast Fourier Transform，IFFT）模块102。IFFT模块102去除了循环前缀（cyclic prefix）并将数据从频域转换到时域。被转换后的数据进入符号解映射（symbol de-mapper,SB-MAP）模块103，该符号解映射模块103解映射已接收的传输符号，得到比特流。在信道解交织（de-interleaver,DE-INTLV）模块104中，比特流被解交织并且被反馈到Turbo多输入多输出合并器105以及HARQ缓存器106。该HARQ对数似然比数据被存储在外部的存储器108。在存储数据之前，矢量量化模块107能够压缩数据，使得减少外部存储器108的大小。可选的，数据能绕过矢量量化模块107而直接存储在外部存储器108。当数据需要解码时，其被发送到turbo解码器109去解码，以及被发送到下一阶。该用户设备的接收器100中的不同模块是可以被软件、固件、硬件、或者三者中的任何组合所实现的功能模块。

图1B示出支持本发明的一些实施例的移动装置（mobile device）120的示例性框图。天线121发送以及接收RF信号，RF收发器模块131，与天线121耦接，从天线121接收RF信号，将接收的RF信号转换成基带信号以及将基带信号发送到处理器132。RF收发器131也将从处理器132接收的基带信号转换成RF信号，以及将RF信号发送到天线121。处理器132处理已接收的基带信号以及触发移动装置120中不同的功能模块执行功能。存储器133存储程序指令（program instruction）以及数据。

图1B也出示5个功能模块，即分布信息模块（distribution information module）141，码本子集模块（codebook subset module）142，划分模块（partitioning module）143，训练模块（training module）144，分配模块（assigning module）145以及排序模块（ordering module）146，这些功能模块执行本发明的功能。分布信息模块141接收源数据矢量，以及根据预定的码本子集设计，获得源数据分布信息。该分布信息被传递到码本子集模块142。码本子集模块142根据预定的码本长度L以及接收的分布信息，为每一码本子集确定码字个数N_s。划分模块143获取多个源数据矢量，以及根据预定子集设计算法将该多个源数据矢量分到其对应的子集。训练模块144训练已被划分的源数据矢量。训练模块144应用预定的训练算法，以及使用预定的训练算法来训练码本子集中的每一个源数据矢量。分配模块145将默认码字分给每一个没有包含源数据矢量的子集，排序模块146将每一个已训练的码本子集进行排序，以得到具有长度L的最终码本。

图2A根据本发明实施例，示出具有矢量量化操作的HARQ的方块图。快速傅立叶变换（Fast Fourier Transformation，FFT）输出模块201转换已接收的数据，以及将已转换的数据发送到Turbo多输入多输出模块202。Turbo多输入多输出模块202从信道估计器（Channel Estimator）203中获得源数据以及MIMO信道，产生对数似然比（LLR）码，以及将对数似然比码发送到解速率匹配模块（de-rate matching module）204。如果此为数据的首次传输（比如，Tx0），那么对数似然比码被输出到矢量量化模块206，以用于数据压缩。矢量量化模块206从处理模块207获取HARQ处理指示以及代码块索引，训练已接收的数据以及搜寻码本索引。被压缩的数据然后被传递到具有码本索引的HARQ缓存器208，以用于存储数据。另一方面，如果此次为数据重传（比如，Tx m-th），HARQ合并模块205输出数据到矢量量化模块206，以用于数据压缩。该HARQ缓存器208发送已压缩的数据到解矢量量化模块209，以使得该压缩的数据能够被解压缩以及能够在HARQ合并模块205中被使用。当传输成功时，HARQ缓存器208将自己的数据发送到Turbo解码器210，以用于数据解码。

根据本发明实施例，矢量量化模块206能使用改进的Lloyd算法来减少所需要的HARQ缓存大小的总量。在本发明的其他实施例中，矢量量化模块206能够训练码本以及在预定的子集中搜索索引，而不是做完整集合的搜索。这些步骤提高了矢量量化模块206的效率。相似的方法能够应用到Turbo多输入多输出以及HARQ合并设计，如下面的图2B所示。

图2B示出本发明实施例提供的具有矢量量化操作的Turbo多输入多输出以及HARQ组合的框图。该方法包括两个合并—HARQ合并以及Turbo多输入多输出合并。HARQ合并与图2A所示出的方式相似。FFT输出模块221转换已接收的数据，以及将已转换的数据发送到Turbo多输入多输出222。Turbo多输入多输出222从信道估计器（Channel Estimator）223获得源数据以及多输入多输出信道，以及获得从速率匹配模块（rate matching module）232（用于改进的性能）反馈的数据，然后产生对数似然比码以及将所产生的对数似然比码发送到解速率匹配模块（de-rate matching module）224。如果这次是数据的首次传输（比如，Tx0），那么解速率匹配模块224输出数据到矢量量化模块225，以用于数据压缩。矢量量化模块225从处理模块226（该模块存有HARQ处理索引以及代码块（code block）索引）获得HARQ处理索引以及代码块（code block）索引，训练所接收的数据以及搜索码本索引。被压缩的数据然后被传递到具有码本索引的HARQ缓存器229，以用于数据缓存。在另一方面，如果此次是数据的重传（比如，Tx m-th（第m次发送）），HARQ合并模块227输出数据到矢量量化模块225，以用于数据压缩。为了HARQ合并，该HARQ缓存器229发送已经压缩的数据到解矢量量化模块228，以使得该数据能够被解压缩以及在HARQ合并模块227中使用。

除了HARQ合并，Turbo多输入多输出合并被描述成为具有回路索引N的内部回路。如果N=0，那么解速率匹配模块224输出数据到HARQ合并模块227，以及解矢量量化模块228输出已解压缩的数据到Turbo解码器223。在另一方面，如果N>1，那么解速率匹配模块224输出数据到Turbo多输入多输出缓存器231，其将数据传送到Turbo多输入多输出合并模块230。进一步，当N>0，Turbo合并模块230将来自解矢量量化模块228的解压缩数据与来自Turbo多输入多输出缓存器231的数据合并。Turbo合并模块230然后将已经组合的数据发送到Turbo解码器233，以用于数据解码。

根据本发明实施例，矢量量化模块225能使用改进的Lloyd算法，以减少需要的HARQ缓存空间的总量。在本发明的其他实施例中，矢量量化模块225能够训练码本以及在预定的子集中搜索索引，而不是做完整集合的搜索。这些步骤提高了矢量量化模块225的效率。下面将描述这些方法的细节。

矢量量化是基于块编码（blocking coding）原则的有效的数据压缩方法。该矢量量化将矢量空间中的k维矢量映射到一组有限的矢量，称为码字。所有码字的集合称为码本。该矢量量化获取源数据矢量以及将源数据矢量关联到一码字，该码字是最近的邻居。在数据压缩或者编码期间，根据该码本，将源数据映射到索引。被存储的索引随后被用以映射到码本中的码字，以解压缩数据以及解码。

一般来说，对于用于对数似然比中的基于MMI的矢量量化，量化规则是最大化多个原始比特与被量化的对数似然比之间的互信息：

ΔI = H (\frac{X}{Y}) - H (\frac{X}{L})

X=[x₁,...,x_k]

Y=[y₁,...,y_k]

L=[l₁,...,l_k]

其中，X是已传输的比特；

L是已接收的比特的对数似然比；

Y是对数似然比L的重建值；

矢量量化将源数据分成具有重建值Y_i的k维区域R_i。索引i在字母表I={1,...N}中，其中，码本中码字个数的总数N=2^Kxb以及b是每一对数似然比软比特的比特宽度（bit width）。例如，通过设置K=3，以及设置该对数似然比比特宽度=3以用于每一对数似然比软比特，那么，总的码字个数N=2^3x3=512。基于MMI的矢量量化的最终目的是最小化互信息损失ΔI。

图3示出本发明实施例提供的码本编码以及解码功能的框图。根据一般的MMI矢量量化设计，编码器301从源数据矢量X=[x₁,...,x_k]接收输入矢量。然后，通过增加多个软比特来编码该输入矢量，以使得该输入矢量被其对数似然比矢量L=[l₁,...,l_k]所表示。然后，通过编码器中的搜索引擎310对对数似然比矢量分类，以发现在已存储的码本中的最近邻居，该已存储的码本由Y=[y₁,...,y_k]表示。使用迭代来搜索以及比较输入矢量与码本中的每一个码字。在码本中发现最近邻居依赖于不同的算法以及规则，该算法和/或规则提供了最小的失真。当识别出码字时，存储与码字相关的对应索引，以替换存储原始的输入矢量。对每一个输入矢量，编码器301重复这些步骤。通过使用索引表示每一个输入矢量，压缩了输入矢量。

当解码时，解码器302接收码字的索引。解码器302然后用相关的码字替换该索引。显而易见的，码本越大，编码器301所需要的搜索以及匹配越复杂。码本越大，数据压缩导致的失真越小。所以，搜索码本索引需要更快速的处理。在本发明的一个实施例中，根据某些预定的算法，编码器301以及解码器302中的码本被进一步分成子集。将该算法简单的应用到每一个输入矢量，以使得该输入矢量直接的被映射到一子集。随后，编码器搜索引擎310仅仅需要搜索码本的子集，而不是搜索整个码本，以发现最小失真匹配码字。使用矢量量化编码器中的子集算法大大的提高了效率。进一步，当从输入矢量的样本集中产生码本，把输入矢量分成多个矢量的子集，训练以及迭代每一个子集中的矢量来产生码本会更有效率。根据本发明实施例，后续部分将提供详细的步骤。

图4是本发明实施例提供的基于矢量量化的码本设计方法的流程图，其中源数据首先被分到多个子集，以用于产生码本。在步骤401，根据预定的码本子集设计，矢量量化从源数据中获得分布信息。该子集设计是预先定义的。然后，根据算法，将样本源数据计入每一个子集。在步骤402，在样本源数据结束，基于码本中码字的总数，根据预定的子集算法，矢量量化为每一个码本子集确定码字个数N_s。在步骤403，每一个源数据矢量被分到对应的码本子集。在步骤404，根据预定的码本训练方法，矢量量化训练码本子集中的源数据矢量。在本发明的实施例中，训练方法是基于MMI矢量量化的改进的Lloyd算法。在本发明的另一实施例中，训练方法是基于Euclidean距离矢量量化的改进的Lloyd算法的。当完成训练所有样本矢量数据，在步骤405，矢量量化检查是否存在不具有码本码字的子集，即是否存在空的子集。如果存在空的码本子集，算法进入到步骤406，其中，矢量量化将默认的码本矢量值分配到每一个空子集。随后，在步骤407，矢量量化排序已训练的码本，以产生最后的码本。如果在步骤405中没有发现任何空的码本子集，矢量量化直接的进入到步骤407，在步骤407中，通过将已训练的码本排序来产生最后的码本。一旦基于子集设计以及样本数据的分布信息产生码本，随后的矢量量化编码就能简单使用该产生的码本。

图5A是本发明实施例提供的流程图，其中，根据预定的码本子集设计，将每一个数据矢量划分到子码本。在步骤501，矢量量化将输入数据矢量分到预定的子码本子集的一个。在步骤502，根据预定的算法，矢量量化搜索用于该输入矢量的最小失真码字。在本发明的一个实施例中，预定的算法是改进的Lloyd算法，以用于MMI矢量量化。在本发明的另一实施例中，预定的算法是改进的Lloyd算法，以用于Euclidean距离。当发现具有最小失真的最近邻居，该码本索引被返回，以使得它能代替实际的数据矢量。在步骤503，已产生的码本索引将被存储在HARQ缓存器。该被压缩的数据降低了HARQ缓存器的需求。

图5B示出本发明一个实施例提供的框图，其中，对数似然比符号标记被用于将多个代码矢量分到对应的子集。对数似然比具有符号标记0，+以及-。所以，该算法将总的码本分成27个组。每一个组被对数似然比的符号值（0，+或者-）所标记。当作数据压缩时，在组中仅仅具有相同符号值的码本的子集被搜索。例如，在图6中，子集0包括具有对数似然比符号值（0，0，0）的多个矢量，子集1包括具有对数似然比符号值（+，0，0）的多个矢量，....，以及子集26包括具有对数似然比值（-，-，-）的多个矢量。因为每一个子集仅仅包括27分之一的码字，所以搜索能提高27倍的效率。

相似的，也可以使用其他的方法将源数据以及码本分到对应的子集。简单的以及快速的分子集的方法能够减少搜索的处理时间，大大的增加矢量量化的效率。除了将源数据以及码本分成子集，改进的Lloyd算法也能提高矢量量化的效率。

一般来说，改进的Lloyd算法提供了较好的失真测量以及减少存储器需求。存在多种方式来计算失真测度，最普遍的方法是互信息损失以及Euclidean距离。图6是本发明实施例提供的流程图，其中，使用了通用的改进Lloyd算法。在步骤601，矢量量化将源数据分割成具有重建值Y_i的k维区域R_i，初始化旧的失真测度ΔD_old以及新的失真测度ΔD_new为无限大。在步骤602，分配新的失真测度等于该旧的失真测度：ΔD_new=ΔD_old。在步骤603，对于每一个源数据矢量r，将r分配到R_i，以使得Y_i以及r具有最小失真测度。进入到步骤604，该矢量量化检测区域R_i中是否有空的区域。如果存在一个或者多个空的区域，在步骤605，矢量量化将一个或者多个非空区域R_i分割，以及返回重复从步骤603执行，其中，该非空区域R_i中的源数据矢量的个数大于预定值，比如非空区域R_i可以是高密度R_i。如果步骤604发现没有空的区域，则矢量量化进入到步骤606，在步骤606中，对于每一个i，根据预定的算法，更新重建值Y_i。

在步骤607，根据新的集合Y_i，矢量量化计算新的失真测度，比如通过加总每一个r的失真测度来计算新的失真测度。在步骤608，矢量量化检测

是否满足，其中，ε表示预定义的界限。如果步骤608中的上述检测的结果为不满足，则最小失真码字还没有被发现，以及矢量量化返回到步骤602以及重复这些步骤。如果步骤608中检测的结果为满足，则该算法已完成。

图7示出本发明实施例提供的流程图，其中，改进的Lloyd算法被用于MMI矢量量化。在步骤701，矢量量化将源数据分割成具有重建值Y_i的k维区域R_i，初始化旧的互信息损失ΔI_old以及新的互信息损失ΔI_new为无限大。在步骤702，分配新的互信息损失等于该旧的互信息损失：ΔI_new=ΔI_old。在步骤703，对于每一个源数据矢量r，将r分配到R_i，以使得Y_i以及r具有最小的互信息失真，比如

进入到步骤704，该矢量量化检测是否存在空的区域R_i。如果存在一个或者多个空的区域，在步骤705，矢量量化将一个或者多个非空区域R_i分割，以及返回从步骤703重复执行，其中，该非空区域R_i中的源数据矢量的个数大于预定值，比如非空区域R_i可以是高密度R_i。如果步骤704发现没有空的区域，则矢量量化进入到步骤706，在步骤706中，对于每一个i，根据预定的算法，更新重建值如下：

y_{i, k} = \frac{1}{n_{i}} Σ_{r &Element; R_{i}} l_{k}

其中，n_i是区域R_i中相关矢量的数量；

l_k代表区域R_i中源数据矢量r的对应对数似然比；在该迭代之后，产生了Y_i的新集合。

在步骤707，根据新的集合Y_i，矢量量化计算新的互信息损失

其中，是r与Y_i之间的互信息失真。在步骤708，矢量量化检测

是否满足，其中，ε表示预定义的界限。如果步骤708中的上述检测的结果为不满足，则最小失真码字还没有被发现，以及矢量量化返回到步骤702以及重复这些步骤。如果步骤708中检测的结果为满足，则该算法已完成。该改进的Lloyd算法降低了用于HARQ的存储器需求，以及提供更少的失真。所以，该算法比传统算法更有效率。相似的算法也能够用于Euclidean距离矢量量化。

图8示出本发明实施例提供的流程图，其中，改进的Lloyd算法被用于Euclidean距离矢量量化。在步骤801，矢量量化将源数据分割成具有重建值Y_i的k维区域R_i，初始化旧的Euclidean距离Δd_old以及新的Euclidean距离Δd_new为无限大。在步骤802，分配该新的Euclidean距离等于该旧的Euclidean距离：Δd_new=Δd_old。在步骤803，对于每一个源数据矢量r，将r分配到R_i，以使得Y_i以及r具有最小的Euclidean距离，比如Y_i=argmin||r-Y_i||²(Yi∈C)。进入到步骤804，该矢量量化检测是否存在空的区域R_i。如果存在一个或者多个空的区域则执行步骤805，在步骤805中，矢量量化将一个或者多个非空区域R_i分割，以及返回从步骤803重复执行，其中，该非空区域R_i中的源数据矢量的个数大于预定值，比如非空区域R_i可以是高密度R_i。如果步骤804发现没有空的区域，则矢量量化进入到步骤806，在步骤806中，对于每一个i，根据预定的算法，更新重建值如下：

y_{i, k} = \frac{1}{n_{i}} Σ_{r &Element; R_{i}} l_{k}

其中，n_i是区域R_i中相关矢量的数量；

l_k代表区域R_i中源数据矢量r的对应对数似然比；在该迭代之后，产生了新集合Y_i。

在步骤807，根据新集合Y_i，矢量量化计算新的Euclidean距离Δd_new=Σ_r∈τ||r-Y_i||²，其中，||r-Y_i||²是在r与Y_i之间的Euclidan距离。在步骤808，矢量量化检测是否满足条件

其中，ε表示预定义的界限。如果步骤808中的上述检测的结果为不满足，则最小失真码字还没有被发现，以及矢量量化返回到步骤802以及重复这些步骤。如果步骤808中检测的结果为满足，则该算法已完成。该改进的Lloyd算法降低了用于HARQ的存储器需求，以及提供更少的失真。所以，该算法比传统算法更有效率。

根据本发明实施例，矢量量化能够更有效的产生码本以及降低HARQ存储器使用。当数据分布对所有的子集保持相同，根据预定的算法，将码本以及源数据分成多个子集会很好的运作。如下描述使用该方法的有益效果。

图9A是示出具有尺寸6020的样本输入源数据的分布图。根据源数据样本的对数似然比符号值，该源数据样本被分成27个子集。图9A出示在子集1以及2，有接近1200个代码矢量，然而在其他的一些子集中却没有数据，比如从子集12到子集18中没有数据。该样本数据分布信息是确定如何产生映射相似数据分布的码本的第一个步骤。

图9B是示出具有尺寸为512的样本码本的分布图，该样本码本由图9A的源数据矢量产生。这里，根据图9A出示的分布信息，总共有512个码字的码本被产生。对于子集1以及2，从图9A中可以看出子集1以及2具有最多数量的源数据，则在该两个子集中具有最多数量的码字，如图9B所示。对于没有任何源数据的子集，默认的码字被分配给该子集。例如，子集12到子集18，即使在图9A示出的样本数据中没有源数据，每一个子集也具有码字。

从图9A以及图9B可以清楚的看出，采用本发明实施例，搜索能大大的减少。例如，对于落入数量最多的子集1或者2的源数据，矢量量化仅仅需要搜索少于150个码字来发现匹配。其搜索量少于在数量为512个码字的整个码本中搜索，以及子集1或者2其为最大的子集合。对于落入子集20中的源数据，矢量量化仅仅需要搜索少于40个码字。这种设计大大的提高了效率。需要注意的是，如果从一组数据到另一组数据的分布模型具有显著的变化，则最好产生一组新的码本，以及使用该组新的码本来获得最优化结果。这个实施需要大量的更新码本。可选的，每一个HARQ可以根据自己的数据分布而使用不同的码本。

以上描述的该改进的Lloyd算法能够和码本子集相结合使用，以增加效率。也可以独立于传统的码本搜索而使用，传统的码本搜索方案中不会将码本以及源数据分成子集。进一步的，Lloyd算法或者其他优化的矢量量化算法能被用以替换将码本以及源数据分成子集。

本发明上述实施例揭示了基于简化的MMI矢量量化的HARQ缓存降低的方法。在本发明的一个实施例中，根据预定的码本子集设计，矢量量化从源数据获得分布信息，其中该子集设计被预先定义。然后，根据算法，将样本源数据计入到每一个子集中，并在源数据对应的子集中训练源数据，以产生码本。在本发明的一个实施例中，预定的子集算法是基于对数似然比符号的值，以及将该数据分成27个子集。这样，可以通过在码本的对应子集中搜寻而产生码本的索引，而不是在整个码本中搜索，可以大大的减少搜索量。

虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明，任何本领域技术人员，在不脱离本发明的精神和范围内，当可作些许的更动与润饰，因此本发明的保护范围当以所附权利要求为准。

Claims

1.一种码本设计方法，其特征在于，包括：

根据预定的码本子集设计，从一组源数据矢量中获得分布信息；

根据预定的码本长度L以及该分布信息，为每一个码本子集确定码字个数N_S；

将每一个源数据矢量分到对应的码本子集；

训练码本子集中的源数据矢量；以及

将默认码本矢量值分配到没有源数据矢量的码本子集。

2.根据权利要求1所述的方法，其特征在于，

将训练后的每一码本子集排序，得到具有长度L的最终码本。

3.根据权利要求1所述的方法，其特征在于，

该源数据矢量是对数似然比矢量，该预定的码本子集设计是基于该对数似然比矢量的符号标记。

4.根据权利要求3所述的方法，其特征在于，用于每一个码本子集的训练方法涉及使用劳埃德算法，以用于矢量量化。

5.根据权利要求4所述的方法，其特征在于，该矢量量化是基于最大互信息，训练方法包括：

a）、将源数据矢量分割成具有重建值Y_i的k维区域R_i，以及初始化旧的互信息损失ΔI_old以及新的互信息损失ΔI_new为无限大；

b）、分配该新的互信息损失等于该旧的互信息损失：ΔI_new=ΔI_old；

c）、对于每一个源数据矢量r，将r分配到R_i，以使得Y_i以及r具有最小互信息失真；

d）、如果存在一个或者多个空的区域R_i，将一个或者多个非空区域R_i分割，以及返回从步骤c）重复执行；

e）、对于每一个i，根据预定的算法，更新该重建值为y_i，k=

其中，n_i是R_i中相关矢量的数量；以及l_k代表R_i中源数据矢量r对应的对数似然比；

f）、更新该新的互信息损失

其中，

是r以及Y_i之间的互信息失真；τ表示码本子集中源数据矢量的集合，以及

g）、重复步骤b）到f）直到满足

其中，ε表示预定义的界限。

6.根据权利要求4所述的方法，其特征在于，该矢量量化是基于欧几里德距离，该训练方法包括：

a）、将该源数据矢量分割成具有重建值y_i的k维区域R_i，以及初始化旧的欧几里德距离Δd_old以及新的欧几里德距离Δd_new为无限大；

b）、分配该新的欧几里德距离等于该旧的欧几里德距离：Δd_new=Δd_old；

c）、对于每一个源数据矢量r，将r分配到R_i，以使得Y_i以及r具有最小的欧几里德距离；

e）、对于每一个i，更新该重建值为

其中，n_i是R_i中相关矢量的数量；以及l_k代表R_i中该源数据矢量r对应的对数似然比；

f）、更新该新的欧几里德距离

其中，||r-Y_i||²是r以及y_i之间的欧几里德距离；τ表示码本子集中源数据矢量的集合；

g）、重复步骤b）到f）直到满足

其中，ε表示预定的界限。

7.根据权利要求5或者6所述的方法，其特征在于，其中，该非空区域R_i中的源数据矢量的个数大于预定值。

8.根据权利要求1所述的方法，其特征在于，进一步包括：

产生一组对应该源数据矢量的码本索引，以及将该码本索引存储到混合自动重复请求缓存器。

9.一种通信设备，其特征在于，包括：

分布信息模块，用于根据预定的码本子集设计，从一组源数据矢量中获得分布信息；

码本子集模块，用于根据预定的码本长度L以及该分布信息，为每一个码本子集确定码字个数N_S；

划分模块，用于将每一个源数据矢量分到对应的码本子集；

训练模块，用于训练码本子集中的源数据矢量；以及

分配模块，用于将默认的码本矢量值分配给不具有源数据矢量的码本子集。

10.根据权利要求9所述的设备，其特征在于，

排序模块，用于将训练后的每一码本子集进行排序，以得到具有长度L的最终码本。

11.根据权利要求9所述的设备，其特征在于，

该源数据矢量是对数似然比矢量，以及，该预定的码本子集设计是基于该对数似然比矢量的符号标记。

12.根据权利要求9所述的设备，其特征在于，

用于每一个码本子集的训练方法涉及使用劳埃德算法，以用于对数似然比矢量的矢量量化。

13.根据权利要求12所述的设备，其特征在于，

该矢量量化是基于最大互信息，以及，其中，该劳埃德算法搜索已量化的对数似然比，以最小化互信息损失；

或者，

该矢量量化是基于欧几里德距离，以及，其中该劳埃德算法搜索已量化的对数似然比，以最小化欧几里德距离。

14.根据权利要求9所述的设备，其特征在于，进一步包括：

索引模块，用于产生一组对应该源数据矢量的码本索引，以及将该码本索引存储到混合自动重复请求缓存器。

15.一种码本训练方法，该码本训练方法使用劳埃德算法，以用于矢量量化，该方法包括：

e)、对于每一个R_i，根据预定的算法，更新重建值Y_i；

f)、根据该更新的重建值Y_i，更新该新的ΔD_new；以及

16.根据权利要求15所述的码本训练方法，其特征在于，该劳埃德算法是用于最大互信息矢量量化，其中，该失真测度是互信息损失。

17.根据权利要求15所述的码本训练方法，其特征在于，该劳埃德算法是用于欧几里德距离矢量量化，其中，该失真测度是欧几里德距离。

18.根据权利要求15所述的码本训练方法，其特征在于，在步骤e)中，该预定的算法涉及安排重建值Y_i为

其中，n_i是R_i中源数据矢量的数量；l_k代表R_i中该源数据矢量r对应的对数似然比。

19.根据权利要求18所述的码本训练方法，其特征在于，

该失真测度是互信息损失，以及

其中，是r以及Y_i之间的互信息损失，其中，τ是源数据矢量的集合；

或者，

该失真测度是欧几里德距离，其中，ΔD_new=Σ_r∈τ||r-Y_i||²，其中，||r-Y_i||²是r以及Y_i之间的欧几里德距离，其中，τ是源数据矢量的集合。

20.根据权利要求15所述的码本训练方法，其特征在于，该非空区域R_i中的源数据矢量的个数大于预定值。