CN104272297A

CN104272297A - 一维信号的无监督学习

Info

Publication number: CN104272297A
Application number: CN201280072748.1A
Authority: CN
Inventors: 哈马迪·贾迈利
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2012-06-07
Filing date: 2012-06-07
Publication date: 2015-01-07
Also published as: EP2859462A4; WO2013184118A1; US20150052091A1; EP2859462A1

Abstract

一种用于一维信号的无监督学习的方法，包括：从一维信号获得样本矢量并将该样本矢量存储在计算机可存取存储器(115)中；以及识别其中该样本矢量的恒模(CM)性能测量的函数曲面为凸的更高维度凸自然空间。该方法进一步包括利用计算处理器(110)将该样本矢量从原始空间变换为更高维度凸自然空间中的更高维度自然凸空间CM矩阵；以及利用计算处理器(110)求出更高维度凸自然空间中CM性能测量的最优解。计算处理器提取原始空间中CM性能测量的最优解。

Description

一维信号的无监督学习

背景技术

对于许多学科和技术而言，从数据中识别出图案和信号是最基本的。学习数据中的图案和信号允许系统中的元素/参数被识别，元素/参数之间的关系被量化，以及对于系统的影响被建立。

附图说明

所附附图说明了在此所述的原理的多个示例并且是说明书的一部分。所示示例仅是示例并不限制权利要求的范围。

图1是根据在此所述原理的一个示例、用于一维信号的无监督学习的系统的示图。

图2示出了根据在此所述原理的一个示例、用于一维信号的无监督学习的方法的参数和结果的曲线图。

图3示出了根据在此所述原理的一个示例、用于应用于非最小相位示例的一维信号的无监督学习的方法的参数和结果的曲线图。

图4示出了根据在此所述原理的一个示例、用于应用于图3的非最小相位示例但是利用了更大数量模型元素的一维信号的无监督学习的方法的参数和结果的曲线图。

图5示出了根据在此所述原理的一个示例、用于应用于非恒模信号(modulussignal)的一维信号的无监督学习的方法的参数和结果的曲线图。

图6是根据在此所述原理的一个示例、示出了用于一维信号的无监督学习的方法的流程图。

在整个附图中，相同的附图标记表示相似、但是不是必然完全一样的元件。

具体实施方式

在此所述的系统和方法仅从相关信号的测量提供没有监督的一维信号、图案或动态系统的学习。这些方法围绕计算恒模(CM)最小化问题的绝对最小值建立。在一个示例中，这些方法使用来自给定一维信号的有限集样本，以近似嵌入在图案中的信号。这些方法通过识别更高维度的自然空间来工作，在该自然空间中函数曲面是凸的。这些方法然后将非线性问题转换为在具有更易处理属性的更高维度空间中的凸优化的问题。在计算的自然凸空间中确定解的估计。然后，从计算的自然凸空间中算出的解中提取原始空间中解的估计。

这些方法的一个区别特性在于当已知某些方法失败时它们被证实也能工作，该某些方法诸如最小平方误差(MSE)，最小平方(LS)，维纳(Wiener)估计，卡尔曼(Kalman)滤波和最小均方(LMS)。此外，由于方法的带宽效率、数学的易处理性和免除利用训练集的算法训练的能力，甚至在其它算法具有普遍使用的情况下，所提出的方法也作为一个强有力的可替换方案。

与为本领域中最成功的盲自适应方法的常规CM算法相比，这些方法提供了至少三个显著的好处：(1)这些方法以合理的0(n²)阶时间复杂性在各处收敛；(2)这些方法在非CM或更高阶的复合信号存在时进行得很好，该复合信号例如多符号正交幅度调制(M-QAM)组；以及(3)这些方法的特性在其与截顶滤波、非最小或混合相位系统一起使用时，或者在附加噪音存在时，得到很好的理解。

这些方法非常通用并且可以广泛使用在多个工程领域，包括数字信号处理，自适应滤波，图像分析，无线信道估计，电子设计自动化，自动控制系统，最优设计问题，网络设计和操作，金融，供应链管理，调度，概率和统计学，计算几何学，数据拟合以及许多子领域。

在下面的描述中，为了解释的目的，阐述了许多具体的细节以便提供本系统和方法的详尽理解。然而，对于本领域技术人员而言显而易见的是，没有这些具体的细节，本设备、系统和方法也可以实施。说明书中的“示例”或类似语言意味着与该示例有关描述的特定特征、结构或特性包括在至少一个示例中，但是不是必然包括在其它示例中。

在此所述的方法和原理可以通过至少一个计算装置实施。图1示出了用于一维信号的无监督学习的系统(100)，其包括至少一个计算装置(105)。在该示例中，计算装置(105)可以包括多个组件，其包括计算处理器(110)，随机存取存储器(RAM)(115)，和硬盘驱动器(120)。

处理器(110)表示计算装置接收并执行指令以实施一维信号的无监督学习的方法(155)的能力。处理器可以是单芯处理器，多芯处理器，通用处理器和数学协处理器的组合，图形处理器，或在多个计算装置之间分布的处理能力。

RAM(115)和硬盘驱动器(120)表示以处理器可存取的方式存储用于实施在此所述原理的指令的能力。本存储容量的所有或部分对于处理器是本地的或处于远程位置。存储能力可以以多种方式实施，包括任何目前可获得的结构或将来研发的结构。例如，存储器可以包括闪存储器，磁存储器，光学存储器，非易失随机存储存储器(nvSRAM)，铁电随机存取存储器(FeRAM)，磁阻随机存取存储器(MRAM)，相位改变存储器(PRAM)，基于忆阻的存储器，电阻式随机存取存储器(RRAM)，或其它类型的存储器。在一些例子中，单种类型的存储器可以起着RAM和硬盘驱动器两者的作用。

多个输入/输出装置(125)可以连接到计算装置，多个输入/输出装置(125)包括例如键盘、鼠标、照相机、显示装置(130)、网络连接、无线连接以及其它装置的附件。

信号源(135)产生将被操作的信号。信号源(135)可以在计算装置(105)的外部或内部。例如，信号源(135)可以是利用传感器或传感器网络测量的环境参数。可替换地，信号源(135)可以由计算装置(105)本身或通过外部的计算装置产生。

在一些实施方式中，信号调节(140)可以包括在系统中，以在处理之前对电子信号进行所需操作。例如，信号调节可以包括模拟至数字转换、滤波和放大。信号调节可以通过计算装置本身或通过例如数据采集系统的外部组件来进行。

图1所示的计算装置(105)仅是可以用于实施所述原理的装置或包括装置的系统的一个示例。在此所述的方法和原理可以以多种方式实施，该方式包括分布式计算环境、并行计算结构或以其它适当方式。例如，计算过程和/或结果可以通过输入/输出模块(150)发送到多个联网装置(145)。

1.解决的问题

给定时间t时的n×1矢量X_t，t＝0,1,2,...,N，希望确定满足方程(1)的标量s_t和n×1矢量W_t：

s_{t} = W_{t}^{*} X_{t} - - - (1)

其中上标(.)*是复转置算子。它被定义为后面紧接转置算子(.)'的复共轭算子

典型地，对于最小相位系统，X_t＝[x_t x_t-1 ... x_t-n+1]是来自离散时间复数随机序列{x_t}的n个时间样本集。标量s_t是某个感兴趣的离散时间复数随机序列{s_t}在时间t时的值。该序列和{x_t}相关但是不能直接观察得到。矢量W_t＝[w_0,t w_1,t ...w_n-1,t]是时间t时n个未知复数参数集，表示将被设计的有限长度线性滤波。

对于非最小相位系统，仅反因果表示是稳定的。结果，时间下标现在为t＝0,-1,-2,…,-N。因此，矢量Xt包含样本序列{x_t}的、与最小相位情况中不同的值。由于时间下标反转，因此X_t中元素的顺序也不同。然而，尽管这些改变，(1)中的模型仍然适用于这些系统。

对于(1)中存在的上述问题的解决方案的算术易处理闭型表达式的可用性可以显著地推进多个科学和工程学科的理解和发展。此外，使这些方程用公式表示为迭代算法同样显著地用于能够实现在实际条件下这些解决方案的实时实施。

此外，训练是大多数学习技术的特点，成本非常高，将它去除非常有利于学习方法的设计、效率和使用。训练包含利用训练集来定义W_t。训练集包括输入矢量和已知的答案矢量。该训练集可以用于训练经验数据库或加权矩阵W_t，以在给定输入矢量时预测答案矢量。在训练后，加权矩阵可以应用于新的输入矢量以预测答案。这是监督学习的形式。然而，得到训练集在逻辑方面成本高，以及实施训练在计算方面成本高。下面所述的技术消除了在求解上述方程(1)时训练的必要。

如现在所述，(1)中的问题是不适定的。用于解决该问题的一个方法是选择矢量其最小化恒模(CM)性能测量J_w，如下：

J_{w} = \frac{1}{4} E [{({| y_{t} |}^{2} - γ)}^{2}] - - - (2)

其中y_t是时间t时滤波W_t的实际输出，是W_t关于J_w的最优选择，是s_t的CM近似，是{s_t}的分散常数，E[.]是数学期望算子，以及|.|是所讨论的序列的模数。

用于计算的迭代方法是恒模自适应(CMA)算法，如下：

W_{t} = W_{t - 1} - {μϵ}_{t} y_{t} X_{t} - - - (3)

其中ε_t＝|y_t|²-γ是时间t时的输出分散误差，ε_ty_tX_t是关于W_t在J_w的梯度的时间t时的瞬时估计，以及μ是步长适应常数。

(3)中的CMA算法被叫做盲或无监督，因为它不要求所需信号的训练或模板。该算法可以应用于许多信号处理应用，其包括QAM信号恢复，PAM和FM信号均衡，判决引导均衡，多阶AM信号恢复，波束形成，天线阵列，高分辨率电视，非最小相位系统识别，信号分离，通信调制解调器设计，干涉消除，图像恢复，千兆以太网均衡，以及多用户检测等等。

更进一步看一下(1)中的问题公式化，很显然，CM最小化是最小平方误差(MSE)或维纳(Wiener)估计问题的延伸，在该问题中矢量X_t和所需信号{s_t}的模板被假定是已知的。因此，CM最小化可以令人信服地用于替换更常规的方法，例如MSE，维纳检测，卡尔曼滤波，最小平方(LS)方法，最小均方(LMS)算法和它们的许多变形。这反过来将CMA算法的适用性延伸到其它领域，例如电子设计自动化，自动控制系统，最优设计问题，网络设计和操作，金融，供应链管理，调度，概率和统计学，计算几何学，数据拟合以及许多其它领域。

然而，证实(2)的CM标准具有多个最小值。换句话说，利用(3)的CMA算法获得的最优矢量终究不是唯一的。因此，虽然CM公式化在限制(1)中问题的解决方案的数量是成功的，但是它没有完全解决病态定义(ill-definition)的问题。此外，利用CMA算法的挑战方面实际上在于对于(2)中成本函数的固定点不存在已知的闭型表达式。结果，不存在已知的条件以确保(3)会聚到绝对最小值，而不是局部最小值。因此，对于(1)中问题的闭型和迭代解决方案仍然存在强烈需求。

2.一维信号的无监督学习的原理

下面的讨论引入了新的最优化方法，其仅使用来自给定一维信号{x_t}的有限集样本，来近似嵌入在{x_t}中的信号{s_t}、{x_t}中的图案或从{x_t}映射到{s_t}的动态系统的参数W_t。类似于(3)的CMA算法，所提出的方法不要求适用于训练目的的未知信号的模板。

该方法通过首先识别(2)中的函数曲面是凸的自然空间来工作。假定感兴趣的系统W_t具有n个参数，则该凸性的自然空间由至少n²维度构成。将原始非线性问题转换为具有更易处理属性的更高维度空间中的凸最优化问题，最优自然凸空间CM矩阵利用维纳滤波类方法获得。结果，所得到的解决方案利用标准方法的变形来实施，该标准方法例如最陡下降(SD)，牛顿法(NM)，LS方法，LMS算法，递归最小平方(RLS)和来自文献的这些方法的许多变形。

最后，原始系统的估计被选择为计算最优自然凸空间CM矩阵的1级近似。明确地，在第一实施方式中，对于(1)中问题的闭型或离线1级近似解决方案如下所述进行计算。

2.1闭型CM 1级近似：

给定来自样本序列{x_t}的N+1个观测值x_0,x_1,...,x_N，n²×1相关矢量和n²×n²第四阶矩量矩阵其中是样本矢量X_t的n²×1克罗内克(Kronecker)积。也给定感兴趣序列{s_t}的分散常数γ，并且假定x_-1＝x_-2＝…＝x_-n+1＝0，N>>n，那么CM总体最小值的闭型1级近似如下给出：

Θ = matrix (\hat{θ}, n) - - - (5)

[U，Σ，V]＝svd(Θ) (6)

\tilde{W} = \sqrt{σ_{1}} U (:, 1) - - - (7)

\tilde{W} = \frac{\tilde{W}}{{\tilde{W}}_{0}} - - - (8)

如果(最小相位(MinimumPhase))

X_k＝[x_k x_k-1 … x_k-n+1] (9)

否则

X_k＝[x_N-k-n+1 x_N-k-n+2 … x_N-k] (10)

{\hat{S}}_{t} = {\hat{W}}^{*} X_{k} - - - (11)

符号矩阵matrix(θ，n)代表将n²×1矢量θ转换为n×n矩阵的算子，其中第i栏由θ从1+(i-1)n开始、在n+(i-1)n处结束的n个连续元素构成，i＝1,2,…,n。算子svd(Θ)表示奇异值分解方法，其将矩阵Θ映射为两个正交矩阵U和V和对角矩阵∑。量σ₁和U(：，1)是矩阵Θ的最大奇异值和其相应的左奇异矢量。如果系统是最小相位或者是零，变量MinimumPhase被设置为1。元素是矢量的第一分量。

只有当系统被完美地模型化并且没有噪音时，在(4)-(11)中表示的闭型CM 1级近似描述了(1)中CM最小化问题的精确总体最小值。否则，(4)-(11)中的方程仅提供了这些最小值的1级近似。这是因为(4)-(11)中的公式最小化了完全不同的函数，而不是CM成本。通常，新成本函数的总体最小值在(2)中CM函数的绝对最小值的附近，但是在两组值之间存在差。然而，该差在(1)中模型是真实系统的足够表示时很小。该差仅当估计信号{y_t}完美地匹配未知信号{s_t}时归零。

(4)-(11)中的方法可以独立于感兴趣的序列{s_t}的性质来使用。然而，在复合非CM或高阶M-QAM信号存在时，通过使用下面的非CM闭型1级近似代替CM最小化，本方法的准确度可以改进。

2.2闭型非CM 1级近似：

给定n²×1交叉相关矢量和如在闭型CM 1级近似的情况中限定的其它变量，CM总体最小值的闭型非CM 1级近似通过保持所有方程(5)-(11)和改变方程(4)给出：

在例如M-QAM群集的非CM信号的情况下，非CM 1级近似可以产生更精确的结果。然而，通过要求交叉相关矢量代替分散常数γ和自动相关矢量对于CM最小化问题的非CM 1级近似可以不再被称为是盲的。然而，在矢量是已知或很容易被计算的情况下，与更普通的MSE方法相比，使用非CM 1级近似仍然是更有利的。

然而，在这种知识不容易利用的情况下，可由利用CM 1级近似产生的准确度的稍微下降不是大变动并且不用调整切换到其它方法。事实上，准确度的可能丧失大于由CM 1级近似提供的优点所构成的优势，这些优点包括容易使用，带宽的实质保存，有利的收敛属性和避免训练的能力。

因为其计算的复杂性，具有受限计算源的应用典型地避免了(4)中的直接矩阵求逆。在该情况下，通过使用用于求解线性方程组的任何有效算法，其将帮助减小方程(4)的计算成本，(4)-(11)中闭型CM 1级近似方法的变形可以得到。闭型CM 1级近似方法的其它变形也可以通过利用任何加速算法以加速(6)中奇异值分解的计算来获得。

另外，在许多实际情况下，对于(4)中所需的高阶统计矩量矩阵和的精确表达式不是典型地预先可适用。在该情况下，这些矩可以从样本序列的测量中被估计，如下所述。

2.3高阶统计样本矩

给定来自样本序列{x_t}的N+1个观测值x_0, x_1, ..., x_N，N>>n假定x_-1＝x_-2＝…＝x_-n+1＝0，那么高阶统计矩可以通过它们的样本平均值和被近似，如下：

对于k＝0至k＝N

如果(MinimumPhase)

X_k＝[x_k x_k-1 … x_k-n+1] (15)

否则

X_k＝[x_N-k-n+1 x_N-k-n+2 … x_N-k] (16)

结束

一旦(20)和(21)中的估计矩已经被计算，那么通过用估计值和替代未知值和并且保持所有其它的方程未改变，新的闭型CM 1级近似解决方案也可以从(4)-(11)中得到。

(4)-(11)中的闭型CM 1级近似结合(20)和(21)中的样本矩提供了许多所需的精确公式，其可以用作CM最小化问题的所期待解决方案的参考的框架，也可以用作在实际设置中计算本解决方案的可靠方法。然而，在没有一些专用硬件时，本方法典型地不适用于实时或近似实时应用。

为了帮助减小该计算难度，观察到在新参数空间中新的凸CM函数近似的n²×1梯度矢量被证明是依据参数矢量W_t的第3阶多项式方程组。该特别形式然后被利用以使用有效的同伦连续方法，其通常可以比(4)-(11)中的闭型解决方案更快地计算。

2.4基于同伦连续的CM 1级近似：

给定来自样本序列{x_t}的N+1个观测值x_0,x_1,...,x_N，高阶统计矩和的值或它们的样本平均值和的值，以及感兴趣序列{s_t}的分散常数γ。假定x_-1＝x_-2＝…＝x_-n+1＝0，N>>n，那么基于同伦连续的CM 1级近似的公式化如下所示：

1.记录(2)中CM成本函数J_w的梯度矢量在时间t时的所有分量。为了说明目的，该梯度的第τ个元素f_τ,t表示为：

2.然后，观察到梯度的这种表示将CM最小化问题转换为求解矢量W_t的n个分量中n个三次方程组的问题，该方程具有恒定系数，其仅包含样本序列的第二和第四阶统计矩。

3.实施同伦连续多项式方程解算器或改变文献中一个现有的，例如由JanVerschelde生产并且通过芝加哥的伊利诺斯大学可得到的PHC包。然后，读出恒定系数到解算器中。从解算器中返回的答案，(22)中多项式的根，对于所需参数矢量W_t的元素进行估计。这些根然后被用于方程(1)中，以提供对于所需信号s_t的估计。

(22)中的边界限制为和以覆盖最小和非最小相位系统。实际上，这些边界是有限的并且可以与解算器一起使用，因为系统的这些类型总是可以通过因果有限脉冲响应(FIR)滤波来近似。

通过获得(4)-(11)中CM 1级近似的自适应或在线方案，超出经由同伦连续方法可能的附加计算效率也是可能的。在一个示例中，对于(1)中问题的最陡下降(SD)类CM 1级近似解可以描述为最陡下降近似。

2.5基于最陡下降的CM 1级近似：

给定来自样本序列{x_t}的N+1个观测值x_0,x_1,...,x_N，n²×1相关矢量n²×n²第四阶矩量矩阵感兴趣序列{s_t}的分散常数γ，未知但是为常量的n×1矢量W_t的任意初始值W_-1，和适应常数μ。假定x_-1＝x_-2＝…＝x_-n+1＝0，N>>n那么CM总体最小值的基于SD的1级近似可以如下计算：

θ_{- 1} = {\overset{&OverBar;}{W}}_{- 1} &CircleTimes; W_{- 1} - - - (23)

对于k＝0至k＝N

θ_{k} = θ_{k - 1} - μ {&dtri;}_{k} - - - (25)

Θ_k＝matrix(θ_k，n) (26)

[U，Σ，V]_k＝svd(Θ_k) (27)

{\tilde{W}}_{k} = \sqrt{σ_{1}} U (:, 1) - - - (28)

{\hat{W}}_{k} = \frac{{\tilde{w}}_{k}}{{\tilde{w}}_{0, k}} - - - (29)

如果(MinimumPhase)

X_k＝[x_k x_k-1 … x_k-n+1] (30)

否则

X_k＝[x_N-k-n+l x_N-k-n+2 … x_N-k] (31)

{\hat{s}}_{k} = {\hat{W}}_{k}^{*} X_{k} - - - (32)

注意在这里回想(3)的原始CMA算法要求(23)中的初始矢量W_-1根据中心引线或一些其它等同方法被仔细地选择，以便保证该矢量非空。这是因为在参数矢量为零时，CMA算法中的调节项等于零。这不是(23)-(32)中所述算法的情况。事实上，除非之前的知识关于初始矢量W_-1可适用，否则因为(23)-(32)中的算法在各处收敛，该矢量可以被设置为零而不会影响最终解。这是一个显著的优点，因为已知中心引线方法有时是失败的从而使得在实际情况中知道怎样开始CMA算法是不可能的。

通过仅对于方程(24)和(25)从0至N迭代k，(23)-(32)中基于最陡下降CM 1级近似方法的变形可以得到。这可以在比主处理器具有更快速率的专用处理器上实现。然后，在迭代结束时，仅一次继续实施方程(26)-(32)。这可以显著地减小主处理器和专用处理器上的计算负载。

其它变形可以利用统计矩的有效估计或用于求解在讨论闭型CM 1级近似时所述的线性方程组的有效方法来实施。此外，基于SD的CM 1级近似也可以通过采用在(23)-(32)的算法中使用的多个常数矢量和矩阵的查找表来实施。

然而，其它变形也可以通过使用图形处理单元上的通用计算(GPGPU)得到，以便加速方程(24)-(26)的计算。也可以使用这些技术以提高计算(27)中SVD分解的速度。

基于SD的CM 1级近似也可以通过利用变白方法以减小不稳定性而更快，该不稳定性起因于祸害(plague)这类问题的大的特征值扩散度。

基于最陡下降的CM 1级近似的另一方法可以通过将其变换为如下所述的基于牛顿法的CM 1级近似来得到。

2.6基于牛顿法的CM 1级近似：

基于牛顿法的CM 1级近似通过保持除了方程(25)的(23)-(32)中所有方程来得到，方程(25)变形，如下所示：

由于CM最小化的基于牛顿法的CM 1级近似与基于最陡下降的CM 1级近似方法的不同之处仅在于单个方程(25)，因此它们的分析遵循相同方式。特别地，用于改进基于SD的CM 1级近似的所有方法同样地适用于基于牛顿法的CM 1级近似。

基于牛顿法的CM 1级近似的使用也可以允许更有效的矩阵求逆方法在未来被使用或研发。也可以使用一些使用方程组并且不直接计算矩阵求逆的方法。

以真实统计矩和为基础，最陡下降方法在计算方面挑战硬件的某些种类。在下述实施方式中，不明确计算这些更高阶统计的基于LMS的1级近似算法如下导出。

2.7基于最小均方的CM 1级近似：

给定来自样本序列{x_t}的N+1个观测值x_0,x_1,...,x_N，未知n×1矢量的初始值W_-1，分散常数γ，和适应常数μ。假定x_-1＝x_-2＝…＝x_-n+l＝0，N>>n，那么CM总体最小值的基于LMS的1级近似可以如下计算：

Θ_{- 1} = W_{- 1} W_{- 1}^{*} - - - (34)

对于k＝0至k＝N

如果(MinimumPhase)

X_k＝[x_k x_k-l … x_k-n+1] (35)

否则

X_k＝[x_N-k-n+1 x_N-k-n+2 … x_N-k] (36)

Φ_{k} = X_{k} X_{k}^{*} - - - (37)

ε_k＝vec^*(Θ_k-1)vec(Φ_k)-γ (38)

{\tilde{&dtri;}}_{k} = ϵ_{k} Φ_{k} - - - (39)

Θ_{k} = Θ_{k - 1} - μ {\tilde{&dtri;}}_{k} - - - (40)

[U，Σ，V]_k＝svd(Θ_k) (41)

{\tilde{W}}_{k} = \sqrt{σ_{1}} U (:, 1) - - - (42)

{\hat{W}}_{k} = \frac{{\tilde{W}}_{k}}{{\tilde{w}}_{0, k}} - - - (43)

{\hat{s}}_{k} = {\hat{W}}_{k}^{*} X_{k} - - - (44)

这里同样，(34)中的初始矢量W_-1不需要特别选择并且可以设置为零，而不会影响最终解，因为该方法在各处收敛。基于LMS的CM 1级近似方法可以利用对于基于SD类的CM 1级近似的情况在上面列出的相同技术被进一步改进。基于最陡下降、牛顿法和最小均方的CM 1级近似依据适应常数μ用公式表示。然而，不同于仅以第二阶统计为基础的常规自适应算法，在此所述的迭代技术反而基于更高阶统计矩。在该情况和所有其它情况下的常数μ可以如下选择。

2.8适应常数：

适应常数μ的选择是任何自适应算法的稳定性中的决定因子。用于选择μ的一种方法是：

0 < μ < \frac{2}{λ_{\max}} - - - (45)

其中λ_max是第四阶矩量矩阵的最大本征值，而不是如常规LMS设置中的情况、是标准相关矩阵的最大本征值。利用第一对角元素或矩阵的迹来确定μ的上限的其它方法也是可能的。

3.示例:

下面给出的三个示例说明了用于上述一维信号的无监督学习的方法的优点。第一个示例示出了在(1)中的模型是所需系统的完美表示的情况下，这些方法产生了精确解。在第二个示例中，真实的系统是具有无限存储解决方案的非最小相位。上述方法导致截顶估计，其是稳定、健壮且在计算方面有效率的。第三个示例突出了在噪音和非CM更高M-QAM信号存在时上述算法的效率。

3.1完美的模型示例：

考虑下述情况：使用Matlab产生随机序列{s_t}的N＝100的样本，值为±1±i；通过由参数矢量W_a＝[1 0 -0.4500 0 0.0324]表示的动态系统运行这些样本，以根据(1)的模型产生序列{x_t}的相应的100个样本。现在假定仅来自序列{x_t}的100个样本是可用的。还假定需要寻找对于矢量W_a和来自序列{s_t}的样本的估计。

产生(13)-(21)中的高阶统计矩以及运行(4)-(11)中的闭型CM 1级近似，确定(5)中的矩阵Θ仅具有一个非零奇异值σ₁＝1.2035，由此确定Θ的确是1阶矩阵。此外，利用(8)和(11)计算出的和的确分别等于真实的W_α和s_t。

(34)-(44)中基于LMS的CM 1级近似自适应算法的典型特性在图2中证明，其中初始矢量W_-1为零，μ＝0.001以及N＝20000。

图2(a)示出了像云一样、没有可辨别结构的测量序列{x_t}。图2(b)示出了收敛于它们真实值的估计权矢量的5个分量。为了更清楚，w₀没有示出，因为(43)确保该元素总是标准化到1。图2(c)和2(d)分别示出了恢复序列和CM误差ε_t。

相反，注意到，不管初始条件如何，当用相同的示例和μ的相同值运行时，原始的CMA算法不能收敛。还注意到，例如最小平方误差(MSE)、维纳滤波以及最小平方(LS)的其它标准方法不能在这里使用，因为不存在关于模型的足够信息来建立这些方法。

3.2非最小相位示例：

考虑示例1中建立的相同条件以及根据非最小相位关系s_t-0.7s_t-1+0.4s_t-2＝0.2x_t+0.7x_t-1+0.9x_t-2产生序列{x_t}的N＝1000个样本。

在该情况下，为了(1)中模型成立，矢量W_t和X_t需要具有无限长度。然而，实际上典型的是将这种系统截顶到可管理的有限长度。例如假定仅长度5的矢量W_t，对于N＝1000产生(13)-(21)中的样本矩和(4)-(11)中的闭型CM 1级近似。

在该情况下，(5)中的矩阵Θ具有下述5个非零奇异值σ₁＝23.4398,σ₂＝0.9059,σ₃＝0.1727,σ₄＝0.0777，和σ₅＝0.0609。这证实了Θ不是该示例中的1阶矩阵。的元素是w₀＝1,w₁＝-2.1682-0.0064i,w₂＝3.1417+0.0200i,w₃＝-1.7751-0.0197i,和w₄＝0.5337+0.0019i。这些值的曲线图在图3a中示出。这些值与真实系统的最开始5个元素相对接近但是不同。

具有5个元素的参数矢量、(34)-(44)中基于LMS的CM 1级近似自适应算法的结果在图3中示出，其中初始矢量W_-1为零，μ＝0.0001以及N＝200000。图3(c)和3(d)分别示出了恢复序列和CM误差ε_t。

将模型的长度增加到9个元素产生对于无限情况模型更紧密的近似，如图4所示，其中矢量和信号都看起来接近地追踪它们各自的真实值。图4(a)示出了像云一样、没有可辨别结构的测量序列{x_t}。图4(b)示出了收敛于它们真实值的估计权矢量的8个分量。图4(c)和4(d)分别示出了恢复序列和CM误差ε_t。

3.3非CM信号示例：

使用示例1中相同的真实动态系统W_a，其具有由64-QAM序列{s_t}给出的、更复杂的非CM图案。

对于前述示例的相同分析在本情况下同样适用。图5示出了具有5个元素的参数矢量、(34)-(44)中基于LMS的CM 1级近似自适应算法，其中初始矢量W_-1为零，μ＝10^-8以及N＝1,000,000。图5(a)示出了像云一样、没有可辨别结构的测量序列{x_t}。图5(b)示出了收敛于它们真实值的估计权矢量的5个分量。图5(c)和5(d)分别示出了恢复序列和CM误差ε_t。

4.一维信号的无监督学习的方法

图6是示出了用于一维信号的无监督学习的方法的流程图。该方法包括从一维信号{x_t}中获得样本矢量X_t，以及将该样本矢量存储在计算机可存取存储器中(块605)。该样本矢量存在于原始空间中。识别更高维度凸自然空间，在该空间中样本矢量的恒模(CM)性能测量的函数曲面是凸的(块610)。识别更高维度凸自然空间可以通过确定加权矢量中参数的所需数量n来进行，其中更高维度凸自然空间包括至少n²维度。

利用计算处理器将该样本矢量从其原始空间变换到更高维度自然凸空间CM矩阵Θ(块615)。例如，该样本矢量可以通过计算该样本矢量的复共扼与该样本矢量的克罗内克积来进行变换，由给出。可以根据克罗内克积计算相关矩阵和矩量矩阵。相关矩阵和矩量矩阵然后可以用于导出自然凸空间CM矩阵Θ。在一些示例中，相关矩阵是第二阶矩阵，矩量矩阵是第四阶矩阵。在使用迭代解决方案的示例中，系统的适应常数μ可以基于矩量矩阵进行选择。

利用计算处理器求出更高维度自然凸空间中CM性能测量的最优解(块620)。例如，最优解可以通过确定更高维度自然凸空间CM矩阵的总体最小值而被发现。计算处理器从更高维度空间中的最优解提取原始空间中解的估计(块625)。例如，该估计可以采取加权矩阵W的形式，其可以应用于样本矢量以产生所需值st。

上述原理可以应用以产生包括闭型CM 1级近似和闭型非CM 1级近似的一系列解决方案。此外，上述原理可以用于产生迭代解决方案，其包括应用诸如最陡下降(SD)、牛顿法(NM)、最小平方(LS)、最小均方(LMS)、递归最小平方(RLS)及其变形的方法。这些迭代解决方案在相关矩阵和矩量矩阵预先是未知的情况下是有利的。在相关矩阵和矩量矩阵的元素的一些估计预先已知的情况下，该方法可以进一步包括基于同伦连续的CM 1级近似，其对在加权矩阵/矢量的n个分量中n个三次方程组求解，其中三次方程包括恒定系数，恒定系数仅包含样本矢量的相关矩阵和矩量矩阵的元素。n个三次方程的根是对于加权矩阵的元素的估计值。

在一些示例中，一维信号的无监督学习的方法的特征在于：计算时间复杂性与n²成比例，其中n是加权中元素的数量；无论最初的起始条件，收敛以发现绝对最小值；以及有效地应用于CM和非CM信号。

5.优点

上述原理引入用于近似一维信号、图案或动态系统的参数的新方法，该方法仅利用来自相关信号的测量值，不要求未知信号的模板。该方法建立在CM性能测量上，而不是更常规的最小平方误差(MSE)标准。这允许该方法被冷使用，而不需要对将被处理的数据进行任何在先训练。

所提出方法的显著优点在于它被证实可以在下述情况下工作：在对于所需属性的准确模型不能得到以训练时，诸如维纳估计、卡尔曼滤波、LS、LMS、RLS、CMA或其任何变形的其它方法不可行、不合适、或者仅仅知道失败的情况。此外，所述方法无论如何都优于传统算法，甚至在传统算法之前已经使用的情况下，因为上述方法能够保存带宽并且消除许多算法都需要的训练阶段。

该新的方法可以以其闭型版式部署，如同伦连续方法，或作为诸如SD、牛顿或LMS的多个迭代形式之一。方法的迭代实施被证实收敛于(2)的总体最小值附近，而无论初始条件如何；在诸如更高阶QAM信号的多个信号存在时进行得很好；抵抗截顶滤波产生的干扰；甚至利用非最小或混合相位系统时也达到所需解决方案；对于附加噪音是健壮的；以及仅具有0(n²)阶时间复杂性。

同样，通过提供唯一的闭型公式，其对于真实解决方案的接近具有很好的收敛属性，在本专利中概括的CM近似方法适合于设计者和从业者作为参考以有效地离散CMA算法中的总体和局部最小值。这又将有助于CM方法的更宽的采用。

前面已经介绍的描述仅用于说明和描述所述原理的示例。本描述不旨在是详尽的或者将这些原理限制到公开的任何精确的形式。许多变型和变形根据上述教导是可能的。

Claims

1.一种用于一维信号的无监督学习的方法，包括：

在原始空间中从一维信号(135)获得样本矢量，并将所述样本矢量存储在计算机可存取存储器(115)中；

识别其中所述样本矢量的恒模(CM)性能测量的函数曲面为凸的更高维度凸自然空间；

利用计算处理器(110)将所述样本矢量从所述原始空间变换为所述更高维度凸自然空间中的更高维度自然凸空间CM矩阵；

利用所述计算处理器(110)求出所述更高维度凸自然空间中的CM性能测量的最优解；以及

利用所述计算处理器(110)提取所述原始空间中的CM性能测量的最优解。

2.根据权利要求1的方法，其中识别其中恒模性能测量的函数曲面为凸的更高维度凸自然空间包括：确定加权矢量中参数的所需数量n，其中所述更高维度凸自然空间包括至少n²维度。

3.根据权利要求1的方法，其中将所述样本矢量从所述原始空间变换为更高维度凸自然空间CM矩阵包括：计算克罗内克积。

4.根据权利要求3的方法，其中将所述样本矢量从所述原始空间变换为更高维度自然凸空间CM矩阵包括：计算所述样本矢量的复共扼与所述样本矢量的克罗内克积。

5.根据权利要求3的方法，其中将所述样本矢量从所述原始空间变换为更高维度自然凸空间CM矩阵进一步包括：

根据所述克罗内克积计算相关矩阵；

根据所述克罗内克积计算矩量矩阵；以及

根据所述相关矩阵和所述矩量矩阵导出所述更高维度自然凸空间CM矩阵。

6.根据权利要求5的方法，其中所述相关矩阵是第二阶矩阵，所述矩量矩阵是第四阶矩阵。

7.根据权利要求5的方法，进一步包括基于所述矩量矩阵选择系统的适应常数。

8.根据权利要求5的方法，其中对于所述相关矩阵和矩量矩阵的元素的估计预先已知，所述方法进一步包括用于对包含n个三次方程的方程组进行求解的基于同伦连续的CM 1级近似，所述三次方程具有仅包含所述样本矢量的相关矩阵和矩量矩阵的元素的恒定系数。

9.根据权利要求1的方法，其中求出所述更高维度凸自然空间中CM性能测量的最优解包括：根据所述CM性能测量的最优解导出1级近似加权矩阵；所述方法进一步包括将所述加权矩阵应用于所述样本矢量以产生标量值。

10.根据权利要求1的方法，其中用于一维信号的无监督学习的所述方法是闭型CM 1级近似。

11.根据权利要求1的方法，其中用于一维信号的无监督学习的所述方法是闭型非CM 1级近似。

12.根据权利要求1的方法，其中相关矩阵和矩量矩阵的精确表示预先是未知的，并且其中求出所述更高维度凸自然空间中的恒模性能测量的最优解包括：应用下述求解方法之一：最陡下降(SD)，牛顿法(NM)，最小平方(LS)，最小均方(LMS)，递归最小平方(RLS)及其变形。

13.根据权利要求1的方法，其中所述方法包括与n²成比例的计算时间复杂性，其中n是所述原始空间中加权矩阵中的元素的数量；无论最初的起始条件如何，均收敛以发现绝对最小值；以及有效地应用于CM信号和非CM信号。

14.一种用于一维信号的无监督学习的方法，包括：

从一维信号获得样本矢量；

通过确定所述样本矢量的恒模(CM)性能测量中加权矢量中的参数的所需数量(n)，识别其中所述恒模性能测量的函数曲面为凸的更高维度凸自然空间，其中所述更高维度凸自然空间包括至少n²维度；

通过下述步骤，将所述样本矢量从原始空间变换为所述更高维度凸自然空间中的更高维度自然凸空间CM矩阵：

计算所述样本矢量的复共扼与所述样本矢量的克罗内克积；

根据所述克罗内克积计算第二阶相关矩阵；

根据所述克罗内克积计算第四阶矩量矩阵；以及

根据所述相关矩阵和所述矩量矩阵导出所述更高维度自然凸空间CM矩阵；

基于所述矩量矩阵选择系统的适应常数；

求出所述更高维度自然凸空间中的CM性能测量的最优解；

根据所述CM性能测量的最优解导出1级近似加权矩阵；以及

将所述加权矩阵应用于所述样本矢量以产生标量值；

其中所述方法包括：与n²成比例的计算时间复杂性，无论最初的起始条件如何，均收敛以发现绝对最小值；以及有效地应用于CM信号和非CM信号。

15.一种用于一维信号的无监督学习的系统，包括：

计算机可存取存储器(115)；

计算处理器(110)，用于：

从一维信号获得样本矢量并将所述样本矢量存储在所述计算机可存取存储器(115)中；

将所述样本矢量从原始空间变换为更高维度自然凸空间CM矩阵；以及

求出由所述更高维度自然凸空间CM矩阵限定的更高维度自然凸空间中的CM性能测量的最优解。