CN111800145A

CN111800145A - 一种基于余弦相似度的线性分组码的码长盲识别方法

Info

Publication number: CN111800145A
Application number: CN202010696040.XA
Authority: CN
Inventors: 戴莉; 任春辉; 郭劲宏; 付毓生
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2020-07-20
Filing date: 2020-07-20
Publication date: 2020-10-20

Abstract

本发明属于通信技术领域，具体涉及一种基于余弦相似度的线性分组码的码长盲识别方法。本发明首先对接收到的信息序列以估计的码长建立分析矩阵，对分析矩阵进行高斯列消元，然后计算高斯列消元后矩阵的归一化列重向量，根据当矩阵列数为真实码长或真实码长倍数时，线性分组码码字矩阵的归一化列重向量与随机二进制矩阵的归一化列重向量在校验码元所对应的相关列上取值存在较大差异，从而可通过计算两向量间的余弦相似度，根据余弦相似度极小值的分布情况来识别码长。本发明方法能在未知码字起始点、码率等先验知识条件下，仅利用接收序列完成线性分组码码长的码长识别，算法容错性能好，在较高误码率情况下准确地识别出码长，且适用范围广。

Description

一种基于余弦相似度的线性分组码的码长盲识别方法

技术领域

本发明属于通信技术领域，具体涉及一种基于余弦相似度的线性分组码的码长盲识别方法。

背景技术

信道编码是保证信息能够准确在信道中传输的通信技术。随着电子对抗发展技术的需要，特别是在军事通信对抗领域，要求在没有任何先验知识的条件下，仅通过截获到的数据恢复出原始信息，也就是需要对信道编码参数进行盲识别。

信道编码包括扰码、纠错编码及交织。线性分组码属于纠错编码中最重要的一类码，具有简单的编译码结构、较强的纠错能力以及对编译码设备要求不高等特点，在军事、民用通信领域均得到广泛的应用，因此对线性分组码的参数进行准确有效的识别具有重要意义。参数识别主要包括码长、码率、码字的起始点、校验矩阵、生成矩阵等的识别，而码长识别是其他参数识别的基础。

目前针对线性分组码的码长识别方法主要集中在以下几种:

1.矩阵分析法

矩阵分析法通过以不同的码长构造截获矩阵，根据在正确码长或码长整数倍时，截获矩阵进行初等变换会出现“秩亏”现象且此时的秩取得最小值，从而识别出码字长度。然而误码的影响会随着矩阵初等变换的进行而逐步累加，因此矩阵分析法的容错性能较差，且有些线性分组码并不能仅仅利用矩阵“秩亏”来识别其码长。

2.码重分析法

码重分析法是依据随机码字与线性分组码码字的码重分布存在差异来识别码长。具体原理为：若估计的码长不等于真实码长，此时码字为随机码字，码字中各码元的取值是相互独立的，即每一位码元取“1”或“0”的概率是相等的，此时码重分布趋于等概率分布；若估计码长等于真实码长，则由于线性分组码的信息码元与检验码元之间存在线性约束关系，码字中校验码元的取值取决于信息码元的取值，此时码重分布是非等概率的。码重分析法虽然原理简单，但随着线性分组码的码率的提高以及信道误码率的增加，随机码字与线性分组码码字之间的码重分布差异性越来越小，因此码重分析法只适用于在低误码率环境下对低码率线性分组码的码长盲识别。

3.对偶空间法

该方法基于对偶码字的统计特性，通过设置判决门限实现对偶码字的判决，最后根据在真实码字长度时截获矩阵对应的对偶码空间归一化维数最大，而随机矩阵对应的对偶码空间归一化维数为0，来识别码长。该方法有一定的容错能力，但计算量大，对计算机内存要求很高，不具备实际应用价值。

发明内容

本发明的目的是针对上述问题，提出一种适用范围广且容错性能好的线性分组码码长的盲识别方法。

为了实现本发明的目的，将采用以下技术方案：利用以真实码长或真实码长倍数建立的分析矩阵和以非真实码长或非真实码长建立的分析矩阵进行高斯列消元后得到的归一化列重向量在相关列维度上取值会存在较大差异这一特点，遍历所有可能的码长取值建立分析矩阵，计算每种码长取值下分析矩阵的归一化列重向量与随机码字矩阵归一化列重向量之间的余弦相似度，通过余弦相似度极小值的分布情况，达到码长识别的目的。该方法包括以下步骤：：

S1、设置码长n的遍历范围，初始化码长n；

S2、根据当前码长n，将截获序列X划分为m组码字，将m组码字逐一放入m行n列的分析矩阵C_m×n中；

S3、对分析矩阵C_m×n进行高斯列消元，得到消元后的矩阵D_m×n，高斯列消元的具体步骤为：对矩阵从左到右按列处理，对于每一列，找出该列第一个非零元素，将该非零元素所在的列设为标准列，将位于标准列右侧且在同一行有非零元素的列替换为该列与标准列进行模二加后的结果；

S4、计算高斯列消元后的矩阵D_m×n中每一列中“1”的个数所占的比例，从而得到对应于矩阵D_m×n的归一化列重向量V_n(D)，V_n(D)＝(d₁,…,d_i,…,d_n)，D代表矩阵，n为矩阵列数，d_i为矩阵第i列中“1”的个数所占的比例；

S5、计算V_n(D)与随机码字矩阵R_m×n对应的归一化列重向量V_n(R)之间的余弦相似度T(V_n(D),V_n(R))，

余弦相似度定义为：

T(x,y)∈[-1,1]，T(x,y)绝对值越大表示两向量的夹角越小，相似度越高；绝对值越小表示两向量的夹角越大，相似度越低；

S6、根据步骤S1设置的遍历范围更新码长n，回到步骤S2，直至遍历完设置的遍历范围，得到所有n值下的余弦相似度；

S7、根据得到的余弦相似度极小值的分布情况，以余弦相似度在真实码长或真实码长倍数时取得极小值为判断准则，识别出码长。

本发明的有益效果是：

(1)无需限定截获序列为某种特殊的线性分组码(如循环码、BCH码)，也无需已知截获序列码字起始点，仅根据截获序列为线性分组码这一已知条件即可识别出码长；

(2)采用余弦相似度区分线性分组码和随机码，无需设置判决门限，避免了在误码率未知的情况下判决门限难以选取以及由于判决门限选取不当而造成的错误识别问题，在降低技术难度的同时有效提高了码长识别正确率

(3)本发明提供的码长识别方法适用范围广，对不同码长、不同码率的线性分组码都具有优异的识别效果：对于(7,4)及(15,5)线性分组码，在误码率为0.14时的码长识别正确率依然可达85％。

附图说明

图1为本发明方法码长识别流程图。

图2余弦相似度取值与分析矩阵列数关系图

图3为不同码率下本发明方法码长识别性能曲线

图4为不同码长下本发明方法码长识别性能曲线。

具体实施方式

下面结合附图对本发明的技术方案进行进一步的说明。

如图1所示，本发明包括以下步骤：

步骤1、设置码长n的遍历范围n_min～n_max，从n_min开始，一直遍历到n_max，每次遍历重复步骤2～5；

步骤2、将截获序列X以当前遍历到的码长n划分为m组码字，将m组码字逐一放入m行n列的分析矩阵C_m×n中；

步骤3、对分析矩阵C_m×n进行高斯列消元，高斯列消元的具体步骤为：对矩阵从左到右按列处理，对于每一列，找出该列第一个非零元素，将该非零元素所在的列设为标准列，将位于标准列右侧且在同一行有非零元素的列替换为该列与标准列进行模二加后的结果；

相比于传统高斯列消元法将每一列“1”的个数所占的比例看作一个个单独的数值，并将该值与判决门限进行比较来判断该列是否为相关列，从而判断分析矩阵是否具有相关性，也就是通过度量分析矩阵各列之间的相关性来判断该分析矩阵是否为线性分组码码字矩阵；本发明方法定义的归一化列重向量将每一列“1”的个数所占的比例看作一个整体，判断该归一化列重向量与随机码字矩阵的归一化列重向量的相似度，也就是通过度量该分析矩阵与随机码字矩阵之间的差异性来判断该矩阵是否为线性分组码码字矩阵；

传统高斯列消元法是从个体层面进行判断，而本发明方法是从整体层面进行判断，从个体层面判断的弊端在于个体易受噪声等环境因素的影响从而造成判断错误，而从整体层面进行判断，则每个个体受到的影响会相互抵消，也就是整体受噪声影响的程度会比个体小，因而判断会更准确；

传统高斯列消元法需要确定判决门限才能进行判断，其判决门限的确定不仅与误码率有关，还与线性分组码对偶码字的码重有关，但在盲识别中这些信息都是未知的，因此很难确定最佳判决门限；而本发明方法使用归一化列重向量，通过度量向量之间的相似度避免了与判决门限的比较，也就避免了因判决门限选取不当造成的误判问题，因而提高了识别正确率。

步骤4、计算高斯列消元后的矩阵D_m×n中每一列中“1”的个数所占的比例d_i(1≤i≤n)，从而得到对应于矩阵D_m×n的归一化列重向量(d₁,…,d_i,…,d_n)

步骤5、计算矩阵D_m×n的归一化列重向量与随机码字矩阵R_m×n的归一化列重向量之间的余弦相似度T(V_n(D),V_n(R))；

步骤6、根据余弦相似度极小值的分布情况识别出正确码长。

步骤1中，考虑到实际应用中常用线性分组码的码长在3～256之间，因此令n_min＝3，n_min＝256；

步骤2中，分析矩阵行数

其中，l_X为截获序列X的长度，

为向下取整符号；

步骤4中，归一化列重向量中的每一个元素对应的是矩阵每一列中“1”的个数所占比例，定义为：

V_n(D)＝(d₁,…,d_i,…,d_n)(1)

式(1)中，D代表矩阵，n为矩阵列数，d_i为矩阵第i列中“1”的个数所占的比例；

步骤5中，随机码字矩阵R对应的归一化列重向量为：

对式(2)作简要推导：因为随机码字矩阵R的每一行都为随机码字，码字中各码元的取值是相互独立的，因此码元取值为“1”和“0”的概率分别为：

P₁＝P₀＝0.5(3)

即随机码字矩阵每一列中“1”的个数所占比例均为0.5；

余弦相似度的定义为：

式(4)中：T(x,y)∈[-1,1]，T(x,y)绝对值越大表示两向量的夹角越小，相似度越高；绝对值越小表示两向量的夹角越大，相似度越低；

步骤6中,余弦相似度T(V_n(D),V_n(R))在真实码长和真实码长倍数时取得极小值。具体推导为：将(n,k)线性分组码的码字逐一放入矩阵列数等于真实码长或真实码长倍数的矩阵C＝(c_n-1,…,c_n-k,c_n-k-1,…,c₀)中，则C可表示为如式(5)所示的两个子矩阵形式：

C＝[B|P](5)

B＝(B_n-1,…,B_n-k)(6)

P＝(P_n-k-1,…,P₀)(7)

k个信息码元所在的列B_i(n-1≤i≤n-k)为独立列，n-k个校验码元所在的列P_j(0≤j≤n-k-1)为相关列，由线性分组码校验码元是信息码元的线性组合，得：

因此，在无误码的情况下，对线性分组码码字矩阵进行高斯列消元后，校验码元所在的相关列中的元素将全部转化为0。在实际传输过程中，由于误码的影响，相关列中的元素取值不会全部转化为0，取值为1和0的概率分别为：

P₁＝0.5[1-(1-2τ)^wt(h)](9)

P₀＝0.5[1+(1-2τ)^wt(h)](10)

式(9)、(10)中，τ为信道误码率，wt(h)为线性分组码对偶码字h的重量；由式(9)与式(3)可知，若对线性分组码码字矩阵进行高斯列消元，其相关列中“1”的个数所占比例与随机码字矩阵对应列中“1”的个数所占比例不同。当以真实码长或真实码长倍数建立分析矩阵，此时的矩阵为线性分组码码字矩阵，该矩阵高斯列消元后的归一化列重向量V_n(D)与随机码字矩阵的归一化列重向量V_n(R)在相关列维度上取值存在较大差异，因此余弦相似度T(V_n(D),V_n(R))将小于1；而当以非真实码长或非真实码长倍数建立分析矩阵，此时的矩阵为随机码字矩阵，余弦相似度T(V_n(D),V_n(R))将接近于1；也就是说余弦相似度T(V_n(D),V_n(R))在真实码长和真实码长倍数时取得极小值。

下面结合仿真示施例及图2、图3、图4，证明本发明的有效性：

考虑到实际信息截获时，截获序列的起点未必是真实码字起始点，因此利用matlab内置的encode函数生成500组(15,7)线性分组码，去除最前面3bit，并随机修改其中6％的比特位(0修改为1,1修改为0)，从而形成序列长度为7497bit(l_X＝7497)，码字起始点为第13bit且误码率为0.06的截获序列X。设置码长n的遍历范围为3～128，对于遍历范围内的每一个n,都按照步骤2、3、4建立分析矩阵，进行高斯列消元以及计算每个n对应的余弦相似度。从图2可以看出：当n等于15、30、45、60、75、90、105和120时，余弦相似度取值偏离1且取得极小值；而当分析矩阵列数为其他数值时，余弦相似度取值都接近于1；这说明15、30、45等值为真实码长或真实码长倍数，由于这些值都为15的倍数，因此识别码长为15。此实施例说明即使是在存在误码且不同步的情况下，本发明方法仍能正确识别码长。

考虑码率对本发明方法识别性能的影响：按照上一段所述方法分别生成序列长度为7497bit(l_X＝7497)，码字起始点为第13bit的(15,5),(15,7),(15,11)3种码长相等的线性分组码截获序列，在不同误码率下按本发明方法步骤进行码长识别，每种误码率下进行100次蒙特卡罗仿真实验，绘制其识别性能曲线(图3)。此实施例说明本发明方法适用于不同码率的线性分组码的码长识别。

考虑码长对本发明方法识别性能的影响，按照相同方法分别生成序列长度为255bit(l_X＝3255)，码字起始点为第1bit的(7,4),(15,7),(31,16)3种码率接近的线性分组码截获序列，在不同误码率下按本发明方法步骤进行码长识别，每种误码率下进行100次蒙特卡罗仿真实验，绘制其识别性能曲线(图4)。此实施例说明本发明方法对于不同码长的线性分组码均具有较好的识别效果。

Claims

1.一种基于余弦相似度的线性分组码的码长盲识别方法，其特征在于，包括以下步骤：

S1、设置码长n的遍历范围，初始化码长n；

余弦相似度定义为：