CN106127238B

CN106127238B - 一种过采样方法

Info

Publication number: CN106127238B
Application number: CN201610437539.2A
Authority: CN
Inventors: 李鹏宇; 张琳
Original assignee: Individual
Current assignee: Li Pengyu
Priority date: 2016-06-18
Filing date: 2016-06-18
Publication date: 2019-08-09
Anticipated expiration: 2036-06-18
Also published as: CN106127238A

Abstract

本发明公开了一种过采样方法，包括寻找种子样本、合成新样本、构建新样本的分布函数、实现过采样方法四个步骤。本发明通过直接比较样本与类中心距离和类平均距离得到种子样本，并在种子样本和类中心的连线上合成新样本，构造出新样本的分布函数从而实现过采样，具有估计精度高、结构简单、噪声影响小、适应性较强的优点。

Description

一种过采样方法

技术领域

本发明涉及一种方法，尤其涉及一种过采样方法。

背景技术

电磁波频率低于100khz时,电磁波会被地表吸收,不能形成有效的传输,而电磁波频率高于100khz时，电磁波可以在空气中传播,并经大气层外缘的电离层反射,形成远距离传输能力,这种具有远距离传输能力的高频电磁波即为射频。射频信号即为在空中具有远距离传输能力的无线电波信号。

在射频信号构成的数字通信特别是移动通信中,由于信道中存在干扰和噪声,在接收端会产生一定的误码率。为降低系统误码率,人们普遍采用以下两种方式：一是采用匹配滤波器使信号在采样点时刻获得尽可能高的信噪比；另一个是采用编码调制,如多级编码和网格编码调制。这两种方法的研究重点均在于如何获得渐进的编码增益,虽然可以大大改善误码率性能,但系统构成较为复杂，需要复杂的硬件电路或采用复杂的数字信号处理算法，而且当信噪比很低时,编码增益也会降低，这时误码率仍会迅速提高。

发明内容

为了解决上述技术所存在的不足之处，本发明提供了一种过采样方法。

为了解决以上技术问题，本发明采用的技术方案是：一种过采样方法，其具体步骤如下：

步骤一、寻找种子样本：定义某类样品集合S＝{d_i，i＝1，2，…，n}，其中，d_i表示样品i的向量，n为该类样品的样本总数；首先计算出类中心和类平均距离，然后根据类中心和类平均距离寻找出种子样本；

(a)、将该类样品在数据空间的平均分布点定义为类中心，类中心的计算方法如公式Ⅰ所示；其中，cc表示类中心向量，∑为数学求和符号；

(b)、将该类样品中各样品到类中心距离的平均值定义为类平均距离，类平均距离的计算方法如公式Ⅱ所示；其中，cd表示类平均距离向量；

(c)、将某类样品集合中到类中心的距离大于类平均距离的样品定义为种子样本，用公式Ⅲ表示；其中，SS表示种子样本向量；

ss＝{d_i|D(d_i，cc)＞cd} Ⅲ

步骤二、合成新样本：将种子样本构成的样本集称为候选集；为避免在合成样本中引入过多的噪声，指定类中心作为参照点，由候选集内样本与参照点形成线段，在线段内合成新样本，保证合成新样本位于类的内侧，合成新样本的生成公式所述如下；

sns＝s_i+(s_i-cc)×r Ⅳ

其中，sns为合成新样本向量；S_i为候选集内第i个样本向量；r为取值于 [0，1]之间的随机数；

步骤三、构建新样本的分布函数：候选集内的样本与类中心的距离越远，其所带有效信息就相对较多；利用距离信息，构造出合成样本分布函数；

将候选集定义为cs＝{cs_i，i＝1，2，…，k}，根据欧氏距离计算法得出候选集中每个样品到类中心的距离，表示为D(cs_i，cc)；将每个样品到类中心的距离累加，得到它们的距离之和，表示为s；基于此基础，得出新样本的分布函数，如公式Ⅴ所示；

其中，p_i表示候选集内第i个样本的分布概率值；将各样本分布概率值乘以样本合成总数即可得到基于每个候选样本合成新样本的个数；

步骤四、实现过采样方法：将样本集合定义为DS＝{(d_i，c_i)，i＝1，2，…，n}，其中d_i表示样本向量，c_i表示样本所属类别，c_i取值设定为0和1；根据公式Ⅰ和公式Ⅱ分别求出类中心cc和类平均距离cd，计算出合成样本总数；由公式Ⅲ得到候选集，再根据公式Ⅴ得到概率分布函数，产生随机数r，带入公式Ⅳ合成新样本sns，最后得出分类模型并用于进一步的信号测试。

本发明通过直接比较样本与类中心距离和类平均距离得到种子样本，并在种子样本和类中心的连线上合成新样本，构造出新样本的分布函数从而实现过采样，具有估计精度高、结构简单、噪声影响小、适应性较强的优点。

具体实施方式

下面结合具体实施方式对本发明作进一步详细的说明。

本发明的具体步骤如下：

(b)、将该类样品中各样品到类中心距离的平均值定义为类平均距离，类平均距离的计算方法如公式Ⅱ所示；其中，cd表示类平均距离向量；cd是一标量，它能反映出类的聚集程度，cd值越小，聚集程度越紧，反之较松散；

ss＝{d_i|D(d_i，cc)＞cd} Ⅲ

sns＝s_i+(s_i-cc)×r Ⅳ

本发明通过增加类边缘的样本抽取使其更有助于形成分类边界，然后根据几次采样的结果得出分布函数，从而实现在一个码宽内进行多次采样，可以有效降低一次采样所产生的偶然性判断错误，这实际上也起到了滤波的作用；但本发明与匹配滤波器的算法相比，具有结构简单、估计精度更高、适应性更强的优势；此外，本发明对观察长度要求不高，只需很短的观察时间即可获得满意的估计效果，适用于实时性较高的射频信号应用领域。

上述实施方式并非是对本发明的限制，本发明也并不仅限于上述举例，本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换，也均属于本发明的保护范围。

Claims

1.一种过采样方法，其特征在于：所述过采样方法的具体步骤如下：

ss＝{d_i|D(d_i，cc)＞cd} Ⅲ

sns＝s_i+(s_i-cc)×r Ⅳ

其中，sns为合成新样本向量；s_i为候选集内第i个样本向量；r为取值于[0，1]之间的随机数；