CN109586820A

CN109586820A - 衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法

Info

Publication number: CN109586820A
Application number: CN201811624213.6A
Authority: CN
Inventors: 徐煜华; 徐以涛; 程云鹏; 孔利君; 丁国如; 张玉立
Original assignee: Army Engineering University of PLA
Current assignee: Army Engineering University of PLA
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2019-04-05

Abstract

本发明公开了一种衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法。该模型为：在无线通信系统的动态频谱抗干扰过程中，包括1个发射机、1个接收机和1个干扰机；干扰机产生干扰信号对用户通信进行干扰；发射机与接收机通过数据链路传输数据帧，通过控制链路传输控制信息；接收机通过数据通信和宽带频谱感知获得信道信息，并执行强化学习算法来优化信道选择策略。算法为：用户在数据信道上传输数据并获得当前信道传输速率，计算出当前工作信道的回报值；通过频谱感知获得当前时刻干扰的信道；通过强化学习决策出新的传输信道，更新Q值表，如此循环最终得到最优策略的状态。本发明解决了在衰落环境中的动态频谱抗干扰问题，提高了系统的吞吐量。

Description

衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法

技术领域

本发明属于无线通信技术领域，特别是一种衰落环境中的动态频谱抗干扰模型及强化学习抗干扰算法。

背景技术

由于无线通信业务需求的飞速增长，频谱资源日益稀缺。此外，随着干扰智能化水平不断提高，使得无线通信系统面临严峻挑战。为了保障新型干扰环境下无线通信可靠传输，如何实现高效的通信抗干扰显得越来越迫切。

针对频谱资源合理分配问题，智能抗干扰领域已有学者展开了动态频谱抗干扰方面的研究，动态频谱接入(Dynamic spectrum access，DSA)突破了当前静态固定的用频方式，实时挖掘频谱空洞，结合强化学习等人工智能方法进行信道选择。动态频谱抗干扰不仅可以缓解频谱资源稀缺问题，而且能够实现智能抗干扰，保证用户的通信质量，被认为是最有前景的抗干扰手段。

目前，已有学者通过将动态频谱接入与强化学习相结合，来开展动态频谱抗干扰方面的研究，其中Q学习是最常用的一种算法。有研究工作(参考文献：F.Slimeni,BSchaeers,Z Chtourou,et al,“Jamming mitigation in cognitive radio networksusing a modified Q-learning algorithm”.International Conference on MilitaryCommunications& Information Systems,pp.1-7,2015.)提出了认知用户通过使用Q学习算法学习干扰的策略，从而提前做出动作，达到躲避干扰的目的，同时提出了改进型Q学习算法通过并行更新Q值表方式解决了经典Q学习收敛速度慢的问题，加快了学习过程。相关研究在此基础上提出了合作Q学习算法，来精准定位干扰信道，通过ACK修正传输效果，实现收发端的合作Q学习。有研究学者将深度学习与Q学习相结合，提出了采用深度学习算法来优化Q学习中的Q值表(参考文献：X.Liu,Y.Xu,L.Jia,et al,"Anti-JammingCommunications Using Spectrum Waterfall:A Deep Reinforcement LearningApproach,"in IEEE Communications Letters,vol.22,no.5,pp.998-1001,May 2018.)，实现动态频谱抗干扰，解决了Q学习中状态空间不能太大的不足，性能很好，但是收敛速度比较慢。

由于目前抗干扰研究多集中在功率域，在动态频谱智能抗干扰方面的研究相对较少。同时现有的动态频谱抗干扰研究大都假定信道环境是理想的，未考虑多径效应、衰落、多普勒频移等因素的影响，使得对无线信道的实时变化性缺乏思考。

发明内容

本发明的目的在于提供一种能够通过智能选择最优策略来实现动态频谱抗干扰的频谱抗干扰模型及强化学习算法，有效地解决在衰落环境中的动态频谱抗干扰问题。

实现本发明目的的技术解决方案为：一种衰落环境中的动态频谱抗干扰模型，对该模型做如下刻画：在无线通信系统的动态频谱抗干扰过程中，包括1个发射机、1个接收机和1个干扰机；干扰机产生不同模式的干扰信号对用户通信进行干扰；发射机与接收机通过数据链路传输数据帧，通过控制链路传输控制信息；接收机通过数据通信和宽带频谱感知获得信道信息，并利用这些信息执行强化学习算法来优化信道选择策略，实现动态频谱抗干扰。

进一步地，采用比特传输速率来刻画慢衰落信道的传输特性，通过自适应地调整无线链路传输的调制方式和编码效率，实时改变信道的传输速率，以适应信道的衰落变化。

进一步地，基于接收信噪比，将信道传输速率分为N个状态，对应N种传输模式，建立有限状态的马尔科夫信道模型，刻画信道传输速率的动态变化；在加性Gaussian 噪声作用下，接收的瞬时信噪比r服从指数分布，r的概率分布函数p(r)为：

公式(1)中为平均信噪比；

设定信道采用恒定功率传输，将信噪比划分为N个连续不重叠的范围，对应N种模式，边界点信噪比表示为d₀＜d₁＜...＜d_N，当r∈[d_n,d_n+1)时，对应模式n，其中 n∈{0,1,...,N-1}；为了避免信道深衰落，设定在模式n＝0时，没有数据发送，令R₀＝0 bits/s，R₀表示每秒传输的比特数，根据公式(1)，模式n的稳态概率π_n为：

设定在有限状态马尔科夫信道模型中，信道衰落属于慢衰落，状态转移只发生在相邻两个状态之间，则信道传输速率转移概率计算如下：

p_n,l＝0,l-n≥2,n,l∈{0,1,...,N-1} (17)

其中，

其中，n,l为传输模式，表示传输速率等级；T_d为数据帧传输时间，是固定值；f_d为多普勒频移的速度，为平均信噪比水平，p_n,l为从状态n到状态l的转移概率，状态的一步转移概率矩阵为：

各传输模式之间传输速率从R_n到R_n+1的转移概率为p_n,n+1，到R_n-1状态的概率为p_n,n-1，保持状态不变的概率为p_n,n；其中R_n和R_n+1表示每秒传输的比特数；

设定k时隙m信道的传输速率为v_m(k)，每个信道的传输速率v_m(k)在不同的时隙间呈随机动态变化，且不同信道的速率变化独立，用户只有在传输数据后，才能获得当前接入信道的即时传输速率。

进一步地，设定在实际通信过程中，有M个可用信道，共有N种传输速率等级，每个信道的传输速率相互独立，传输速率均服从Markov变化规律；系统通过在线学习，最大化当前状态下未被干扰且传输速率高于设定值的信道选择概率；

为了表示系统的抗干扰性能和通信质量，设定k时隙用户选择的信道为ξ(k)，用户的吞吐量u(k)为：

其中，p_m(k)为选择信道m的概率，v_m(k)为信道m当前的传输速率，T_s为传输时隙长度，T_succ为在T_s时间内信道m的成功传输时间；

从在线学习的角度，给定一个网络选择策略τ，设定所有可行策略组成的集合为Ω； k时隙用户选择的信道ξ(k)由信道选择历史[ξ(1),....,ξ(k-1)]和吞吐量历史信息[u(1),...,u(k-1)]确定，为了寻找最优的信道选择策略使累积的期望吞吐量最大，定义系统的效用函数Θ为：

其中，E_τ表示任一可行策略的期望吞吐量，表示截至k时隙的累积吞吐量。

一种基于衰落环境中的动态频谱抗干扰模型的强化学习抗干扰算法，包括以下步骤：

步骤1，假设有M个信道，N个传输速率等级，信道集合记为传输速率集合记为初始化：定义k时隙用户状态、决策动作和信道选择概率向量，设置评估函数即Q值表的更新参数，初始化Q值表为全零矩阵，仿真时隙数为K＞0，设置初始时隙k＝0，初始工作状态为S₀(f_t(0),f_j(0),*)，其中表示0时隙的干扰信道，由宽带频谱感知获得，表示0时隙的工作信道，从空闲信道中随机选择，*代表f_t(0) 信道的传输速率未知；

步骤2，发射机在f_t(k)信道上传输数据；

步骤3，接收机端接收数据，获得当前传输信道的传输速率，计算当前工作信道的回报值；

步骤4，接收机通过宽带频谱感知获得下一时隙干扰信道，计算其他信道的回报值；

步骤5，接收机根据强化学习维护Q值表，并根据Q值表更新信道选择概率向量，探索选择下一时隙的工作信道；

步骤6，接收机根据回报值更新Q值表；

步骤7，接收机通过控制链路将携带下一时隙工作信道的ACK帧发送到发射机端，协调收发端的工作频率；

k＝k+1，循环执行步骤2～步骤7，强化对环境的认知，直到达到k≥K，算法结束。

进一步地，步骤1中所述的定义k时隙用户状态、决策动作和信道选择概率向量，具体如下：

假设有M个信道，N个传输速率等级，信道集合记为传输速率集合记为定义k时隙用户状态为S(f_t(k),f_j(k),v(k))，其中f_t(k)为当前工作信道、f_j(k)为干扰信道，v(k)为信道f_t(k)的传输速率，定义k时隙做出的决策动作为作为下一时隙的工作信道；定义k时隙用户的信道选择概率向量为P(k)＝(p₁(k),...,p_M(k))。

进一步地，步骤5中所述的用户根据强化学习维护Q值表，具体如下：

用户根据强化学习维护一张Q(S,a)值表，用于评估不同状态下各个动作的好坏，并随着用户与环境的交互，不断地更新Q值表，直至强化学习结束，Q值表中的值将趋于一种稳定状态；

在任意k时隙，Q值表的更新公式为：

Q_k+1(S_k,a_k+1)＝Q_k(S_k,a_k+1)+α(r_k+γΦ-Q_k(S_k,a_k+1)) (24)

其中α为学习速率，γ为折扣因子，r_k为当前状态S_k的即时回报值，Φ为S_k+1状态下所有动作的最大Q值，即智能体记忆里最大的利益；智能体在选择并执行动作a_k+1后，在k+1时隙到达S_k+1状态；

r_k和Φ的计算公式如下：

其中v(k)为k时隙f_t信道的传输速率，为信道传输速率集中的最大值，T_succ为一个T_s时隙长度内的成功传输时间，为状态S_k+1下的可选信道。

进一步地，步骤5中所述的更新信道选择概率向量，并根据概率向量探索选择下一时隙的工作信道，具体如下：

信道选择概率向量P(k)＝(p₁(k),...,p_M(k))的更新公式为：

其中β为玻尔兹曼系数常量，p_m(k+1)为k+1时隙选择信道m的概率；

下一时隙的工作信道为：

a(k+1)＝f_t(k+1) (28)。

本发明与现有技术相比，其显著优点在于：(1)充分考虑了衰落环境中的抗干扰问题，通过信道传输速率来反映信道的衰落特性，更加真实地刻画了无线信道的传输性能；(2)将信道选择问题建模为马尔科夫决策过程，实现了在信道速率动态、干扰未知的条件下选择最优的信道进行数据传输；(3)提出的强化学习抗干扰算法不仅能通过宽带频谱感知学习干扰的变化样式，还可以根据历史的信道接入经验学习信道的变化规律，从而通过智能选择最优策略来实现动态频谱抗干扰。

附图说明

图1是本发明基于衰落环境的动态频谱抗干扰模型的系统模型图。

图2是本发明中强化学习算法模型的结构示意图。

图3是本发明中强化学习算法单个时隙T_s内结构设计图。

图4是本发明中用户与干扰机的时频图，其中(a)表示强化学习初期用户与干扰时频图，(b)表示强化学习后期用户与干扰时频图。

图5是本发明实施例中S(f_t＝1,f_j＝4,v1＝2)状态下各信道的Q值变化曲线图。

图6是本发明实施例中S(f_t＝1,f_j＝4,v1＝2)状态下各信道的选择概率变化曲线图。

图7是本发明中基于感知的随机信道选择算法和基于强化学习的信道选择算法的吞吐量变化曲线图。

具体实施方式

下面参考附图并结合实施例来详细说明本发明。

结合图1，本发明基于衰落环境的动态频谱抗干扰模型，对该模型做如下刻画：在无线通信系统的动态频谱抗干扰过程中，包括1个发射机、1个接收机和1个干扰机；干扰机产生各种模式的干扰信号对用户通信进行干扰；发射机与接收机通过数据链路传输数据帧，通过控制链路传输控制信息；接收机通过数据通信和宽带频谱感知获得信道信息，并利用这些信息执行强化学习算法来优化信道选择策略，实现动态频谱抗干扰。

结合图2，本发明一种基于衰落环境的动态频谱抗干扰模型的强化学习抗干扰算法中，处于S_t状态的智能体通过自主决策做出动作a_t，在环境中执行动作a_t之后，获得回报值r_t+1，状态更新为S_t+1，智能体根据回报值更新评估函数，并根据评估函数作出新的动作，如此循环强化对环境的认知，最终达到在动态变化的环境中能做出最优策略的状态。

结合图3，为强化学习抗干扰算法在单个时隙T_s内结构设计图，该结构中用户执行的操作如下：前T_d时间，在指定f_t信道上传输数据，可以获得当前传输信道的传输速率，同时计算出当前工作信道的回报值；之后T_WBSS时间，通过宽带频谱感知，获得当前时刻的干扰信道；最后通过强化学习决策出新的传输信道f_t'，并更新评估函数(Q 值表)，所需时间T_L可以忽略不计；之后T_ACK时间，传输ACK反馈信息至发射机端，协调收发端的工作信道。然后在下一个T_slot时隙内，继续在新的传输信道f_t'上传输数据。

进一步地，一种基于衰落环境中的动态频谱抗干扰模型，采用比特传输速率来刻画慢衰落信道的传输特性，通过自适应地调整无线链路传输的调制方式和编码效率，实时改变信道的传输速率，以适应信道的衰落变化。

进一步地，基于接收信噪比，将信道传输速率分为N个状态，对应N种传输模式，建立有限状态的马尔科夫信道模型，刻画信道传输速率的动态变化；在加性Gaussian 噪声作用下，接收的瞬时信噪比r服从指数分布，其概率分布函数为：

公式(1)中为平均信噪比；

设定信道采用恒定功率传输，将信噪比划分为N个连续不重叠的范围，对应N种模式，边界点信噪比表示为d₀＜d₁＜...＜d_N，当r∈[d_n,d_n+1)时，对应模式n，其中 n∈{0,1,...,N-1}；为了避免信道深衰落，设定在模式n＝0时，没有数据发送，令R₀＝0 (bits/symbol)，R₀表示每秒传输的比特数，根据公式(1)，模式n的稳态概率为：

p_n,l＝0,l-n≥2,n,l∈{0,1,...,N-1} (3)

其中，

进一步地，设定在实际通信过程中，有M个可用信道，共有N种传输速率等级，每个信道的传输速率相互独立，其传输速率均服从Markov变化规律；系统通过在线学习，最大化当前状态下未被干扰且传输速率高的信道选择概率，提高吞吐量性能；

为了表示系统的抗干扰性能和通信质量，设定k时隙用户选择的信道为ξ(k)，用户的吞吐量为：

本发明基于衰落环境的动态频谱抗干扰模型的强化学习抗干扰算法，包括以下步骤：

步骤1，假设有M个信道，N个传输速率等级，信道集合记为传输速率集合记为初始化：定义k时隙用户状态、决策动作和信道选择概率向量，设置评估函数(Q值表)的更新参数，初始化Q值表为全零矩阵，仿真时隙数为K＞0，设置初始时隙k＝0，初始工作状态为S₀(f_t(0),f_j(0),*)，其中表示0时隙的干扰信道，由宽带频谱感知获得，表示0时隙的工作信道，从空闲信道中随机选择，*代表f_t(0) 信道的传输速率未知；

步骤2，发射机在f_t(k)信道上传输数据；

步骤6，接收机根据回报值更新Q值表；

假设有M个信道，N个传输速率等级，信道集合记为传输速率集合记为定义k时隙用户状态为S(f_t(k),f_j(k),v(k))，其中f_t(k)为当前工作信道，f_j(k)为干扰信道，v(k)为信道f_t(k)的传输速率，定义k时隙做出的决策动作为作为下一时隙的工作信道；定义k时隙用户的信道选择概率向量为P(k)＝(p₁(k),...,p_M(k))。

在任意k时隙，Q值表的更新公式为：

Q_k+1(S_k,a_k+1)＝Q_k(S_k,a_k+1)+α(r_k+γΦ-Q_k(S_k,a_k+1)) (10)

r_k和Φ的计算公式如下：

信道选择概率向量P(k)＝(p₁(k),...,p_M(k))的更新公式为：

下一时隙的工作信道为：

a(k+1)＝f_t(k+1) (14)

实施例1

本发明的第一个实施例具体描述如下，系统采用matlab软件对衰落信道环境和所提算法进行了仿真验证，同时分析了所提算法的收敛性，并评估了其抗干扰性能。另外，为了分析系统的吞吐量性能，将其与基于感知的随机信道选择算法进行了比较。基于感知的随机算法是从空闲信道中随机选择信道，是一种比较直观的信道选择算法。

无线通信环境中包含1路扫频干扰信号，1个发射机和1个接收机，有M＝5个可用信道，N＝4个信道传输速率。具体的Markov信道模型的相关参数和强化学习的相关参数设置如表1所示。

表1仿真参数设置

仿真结果分析：

图4(a)、(b)是扫频干扰环境下，利用强化学习抗干扰算法对动态频谱抗干扰系统进行仿真得到的用户与干扰的时频图，其中绿色方块代表用户信号，红色方块代表干扰信道，红色和绿色重叠使得颜色加深的方块代表用户被干扰。图4(a)表示强化学习初期用户与干扰时频图，可见由于随机选择信道，用户与干扰碰撞概率较大。图4(b) 表示强化学习后期用户与干扰时频图，可见在强化学习后期用户通过强化学习基本避开了干扰机的干扰，达到了抗干扰的目的。

图5给出了强化学习过程中在S(f_t＝1,f_j＝4,v1＝2)状态(即用户工作在传输速率为 2Mbps的1信道，干扰在4信道)，各信道的Q值变化曲线，图6给出了在 S(f_t＝1,f_j＝4,v1＝2)状态下的信道选择概率曲线。可见在学习初期阶段，用户对每个信道的Q值均为0，选择每个信道的概率均相等，随着不断的学习更新所选信道的Q值，最后用户将以接近于1的概率选择3信道。可见，强化学习算法可以发掘干扰和信道传输速率变化规律，从而通过智能选择最优的信道选择策略来实现动态频谱抗干扰。

图7给出了基于感知的随机信道选择算法和基于强化学习信道选择算法的吞吐量性能对比图。参数设置为：平均信噪比水平多普勒频移f_d＝10Hz，传输时间 T_d＝2ms。图中每个吞吐量点均由连续的500个时隙的吞吐量计算平均所得。从图中可以看出，基于感知的系统吞吐量在1.2Mbps左右，而基于强化学习信道选择算法的系统平均吞吐量在1.75Mbps左右，比基于感知的吞吐量提升了0.52Mbps，性能提升了 43.3％左右，说明基于强化学习信道选择算法系统比基于感知的随机信道选择算法能够获得更好的吞吐量性能。

综上所述，本发明提出的基于衰落环境的动态频谱抗干扰模型，充分考虑了实际信道的衰落特性，在动态干扰场景中，通过信道传输速率来反映信道的衰落特性，更加真实地刻画了无线信道的传输性能，比传统模型更具有实际意义。提出的基于衰落环境的动态频谱抗干扰模型的强化学习抗干扰算法，不仅能通过宽带频谱感知学习干扰的变化样式，还可以通过历史的信道接入经验学习信道的变化规律，获得最优信道选择策略。仿真结果验证了所提算法的收敛性。同时，通过与基于感知的随机选择算法对比，所提算法的系统吞吐量性能提高了43％左右，能够有效地解决在衰落环境下的动态频谱抗干扰问题，提升系统吞吐量性能。

Claims

1.一种衰落环境中的动态频谱抗干扰模型，其特征在于，对该模型做如下刻画：在无线通信系统的动态频谱抗干扰过程中，包括1个发射机、1个接收机和1个干扰机；干扰机产生不同模式的干扰信号对用户通信进行干扰；发射机与接收机通过数据链路传输数据帧，通过控制链路传输控制信息；接收机通过数据通信和宽带频谱感知获得信道信息，并利用这些信息执行强化学习算法来优化信道选择策略，实现动态频谱抗干扰。

2.根据权利要求1所述的衰落环境中的动态频谱抗干扰模型，其特征在于，采用比特传输速率来刻画慢衰落信道的传输特性，通过自适应地调整无线链路传输的调制方式和编码效率，实时改变信道的传输速率，以适应信道的衰落变化。

3.根据权利要求1所述的衰落环境中的动态频谱抗干扰模型，其特征在于，基于接收信噪比，将信道传输速率分为N个状态，对应N种传输模式，建立有限状态的马尔科夫信道模型，刻画信道传输速率的动态变化；在加性Gaussian噪声作用下，接收的瞬时信噪比r服从指数分布，r的概率分布函数p(r)为：

公式(1)中为平均信噪比；

设定信道采用恒定功率传输，将信噪比划分为N个连续不重叠的范围，对应N种模式，边界点信噪比表示为d₀＜d₁＜...＜d_N，当r∈[d_n,d_n+1)时，对应模式n，其中n∈{0,1,...,N-1}；为了避免信道深衰落，设定在模式n＝0时，没有数据发送，令R₀＝0bits/s，R₀表示每秒传输的比特数，根据公式(1)，模式n的稳态概率π_n为：

p_n,l＝0,l-n≥2,n,l∈{0,1,...,N-1} (3)

其中，

4.根据权利要求1所述的衰落环境中的动态频谱抗干扰模型，其特征在于，设定在实际通信过程中，有M个可用信道，共有N种传输速率等级，每个信道的传输速率相互独立，传输速率均服从Markov变化规律；系统通过在线学习，最大化当前状态下未被干扰且传输速率高于设定值的信道选择概率；

从在线学习的角度，给定一个网络选择策略τ，设定所有可行策略组成的集合为Ω；k时隙用户选择的信道ξ(k)由信道选择历史[ξ(1),....,ξ(k-1)]和吞吐量历史信息[u(1),...,u(k-1)]确定，为了寻找最优的信道选择策略使累积的期望吞吐量最大，定义系统的效用函数Θ为：

5.一种基于衰落环境中的动态频谱抗干扰模型的强化学习抗干扰算法，其特征在于，包括以下步骤：

步骤1，假设有M个信道，N个传输速率等级，信道集合记为传输速率集合记为初始化：定义k时隙用户状态、决策动作和信道选择概率向量，设置评估函数即Q值表的更新参数，初始化Q值表为全零矩阵，仿真时隙数为K＞0，设置初始时隙k＝0，初始工作状态为S₀(f_t(0),f_j(0),*)，其中表示0时隙的干扰信道，由宽带频谱感知获得，表示0时隙的工作信道，从空闲信道中随机选择，*代表f_t(0)信道的传输速率未知；

步骤2，发射机在f_t(k)信道上传输数据；

步骤6，接收机根据回报值更新Q值表；

6.根据权利要求5所述的基于衰落环境中的动态频谱抗干扰模型的强化学习抗干扰算法，其特征在于，步骤1中所述的定义k时隙用户状态、决策动作和信道选择概率向量，具体如下：

假设有M个信道，N个传输速率等级，信道集合记为传输速率集合记为定义k时隙用户状态为S(f_t(k),f_j(k),v(k))，其中f_t(k)为当前工作信道、f_j(k)为干扰信道，v(k)为信道f_t(k)的传输速率，定义k时隙做出的决策动作为a(k+1)＝f_t(k+1),作为下一时隙的工作信道；定义k时隙用户的信道选择概率向量为P(k)＝(p₁(k),...,p_M(k))。

7.根据权利要求5所述的基于衰落环境中的动态频谱抗干扰模型的强化学习抗干扰算法，其特征在于，步骤5中所述的用户根据强化学习维护Q值表，具体如下：

在任意k时隙，Q值表的更新公式为：

Q_k+1(S_k,a_k+1)＝Q_k(S_k,a_k+1)+α(r_k+γΦ-Q_k(S_k,a_k+1)) (10)

r_k和Φ的计算公式如下：

8.根据权利要求5所述的基于衰落环境中的动态频谱抗干扰模型的强化学习抗干扰算法，其特征在于，步骤5中所述的更新信道选择概率向量，并根据概率向量探索选择下一时隙的工作信道，具体如下：

信道选择概率向量P(k)＝(p₁(k),...,p_M(k))的更新公式为：

下一时隙的工作信道为：

a(k+1)＝f_t(k+1) (14)。