CN106127238B - 一种过采样方法 - Google Patents
一种过采样方法 Download PDFInfo
- Publication number
- CN106127238B CN106127238B CN201610437539.2A CN201610437539A CN106127238B CN 106127238 B CN106127238 B CN 106127238B CN 201610437539 A CN201610437539 A CN 201610437539A CN 106127238 B CN106127238 B CN 106127238B
- Authority
- CN
- China
- Prior art keywords
- sample
- distance
- class
- formula
- new samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种过采样方法,包括寻找种子样本、合成新样本、构建新样本的分布函数、实现过采样方法四个步骤。本发明通过直接比较样本与类中心距离和类平均距离得到种子样本,并在种子样本和类中心的连线上合成新样本,构造出新样本的分布函数从而实现过采样,具有估计精度高、结构简单、噪声影响小、适应性较强的优点。
Description
技术领域
本发明涉及一种方法 ,尤其涉及一种过采样方法。
背景技术
电磁波频率低于100khz时,电磁波会被地表吸收,不能形成有效的传输,而电磁波频率高于100khz时,电磁波可以在空气中传播,并经大气层外缘的电离层反射,形成远距离传输能力,这种具有远距离传输能力的高频电磁波即为射频。射频信号即为在空中具有远距离传输能力的无线电波信号。
在射频信号构成的数字通信特别是移动通信中,由于信道中存在干扰和噪声,在接收端会产生一定的误码率。为降低系统误码率,人们普遍采用以下两种方式:一是采用匹配滤波器使信号在采样点时刻获得尽可能高的信噪比;另一个是采用编码调制,如多级编码和网格编码调制。这两种方法的研究重点均在于如何获得渐进的编码增益,虽然可以大大改善误码率性能,但系统构成较为复杂,需要复杂的硬件电路或采用复杂的数字信号处理算法,而且当信噪比很低时,编码增益也会降低,这时误码率仍会迅速提高。
发明内容
为了解决上述技术所存在的不足之处,本发明提供了一种过采样方法。
为了解决以上技术问题,本发明采用的技术方案是:一种过采样方法,其具体步骤如下:
步骤一、寻找种子样本:定义某类样品集合S={di,i=1,2,…,n},其中,di表示样品i的向量,n为该类样品的样本总数;首先计算出类中心和类平均距离,然后根据类中心和类平均距离寻找出种子样本;
(a)、将该类样品在数据空间的平均分布点定义为类中心,类中心的计算方法如公式Ⅰ所示;其中,cc表示类中心向量,∑为数学求和符号;
(b)、将该类样品中各样品到类中心距离的平均值定义为类平均距离,类平均距离的计算方法如公式Ⅱ所示;其中,cd表示类平均距离向量;
(c)、将某类样品集合中到类中心的距离大于类平均距离的样品定义为种子样本,用公式Ⅲ表示;其中,SS表示种子样本向量;
ss={di|D(di,cc)>cd} Ⅲ
步骤二、合成新样本:将种子样本构成的样本集称为候选集;为避免在合成样本中引入过多的噪声,指定类中心作为参照点,由候选集内样本与参照点形成线段,在线段内合成新样本,保证合成新样本位于类的内侧,合成新样本的生成公式所述如下;
sns=si+(si-cc)×r Ⅳ
其中,sns为合成新样本向量;Si为候选集内第i个样本向量;r为取值于 [0,1]之间的随机数;
步骤三、构建新样本的分布函数:候选集内的样本与类中心的距离越远,其所带有效信息就相对较多;利用距离信息,构造出合成样本分布函数;
将候选集定义为cs={csi,i=1,2,…,k},根据欧氏距离计算法得出候选集中每个样品到类中心的距离,表示为D(csi,cc);将每个样品到类中心的距离累加,得到它们的距离之和,表示为s;基于此基础,得出新样本的分布函数,如公式Ⅴ所示;
其中,pi表示候选集内第i个样本的分布概率值;将各样本分布概率值乘以样本合成总数即可得到基于每个候选样本合成新样本的个数;
步骤四、实现过采样方法:将样本集合定义为DS={(di,ci),i=1,2,…,n},其中di表示样本向量,ci表示样本所属类别,ci取值设定为0和1;根据公式Ⅰ和公式Ⅱ分别求出类中心cc和类平均距离cd,计算出合成样本总数;由公式Ⅲ得到候选集,再根据公式Ⅴ得到概率分布函数,产生随机数r,带入公式Ⅳ合成新样本sns,最后得出分类模型并用于进一步的信号测试。
本发明通过直接比较样本与类中心距离和类平均距离得到种子样本,并在种子样本和类中心的连线上合成新样本,构造出新样本的分布函数从而实现过采样,具有估计精度高、结构简单、噪声影响小、适应性较强的优点。
具体实施方式
下面结合具体实施方式对本发明作进一步详细的说明。
本发明的具体步骤如下:
步骤一、寻找种子样本:定义某类样品集合S={di,i=1,2,…,n},其中,di表示样品i的向量,n为该类样品的样本总数;首先计算出类中心和类平均距离,然后根据类中心和类平均距离寻找出种子样本;
(a)、将该类样品在数据空间的平均分布点定义为类中心,类中心的计算方法如公式Ⅰ所示;其中,cc表示类中心向量,∑为数学求和符号;
(b)、将该类样品中各样品到类中心距离的平均值定义为类平均距离,类平均距离的计算方法如公式Ⅱ所示;其中,cd表示类平均距离向量;cd是一标量,它能反映出类的聚集程度,cd值越小,聚集程度越紧,反之较松散;
(c)、将某类样品集合中到类中心的距离大于类平均距离的样品定义为种子样本,用公式Ⅲ表示;其中,SS表示种子样本向量;
ss={di|D(di,cc)>cd} Ⅲ
步骤二、合成新样本:将种子样本构成的样本集称为候选集;为避免在合成样本中引入过多的噪声,指定类中心作为参照点,由候选集内样本与参照点形成线段,在线段内合成新样本,保证合成新样本位于类的内侧,合成新样本的生成公式所述如下;
sns=si+(si-cc)×r Ⅳ
其中,sns为合成新样本向量;Si为候选集内第i个样本向量;r为取值于 [0,1]之间的随机数;
步骤三、构建新样本的分布函数:候选集内的样本与类中心的距离越远,其所带有效信息就相对较多;利用距离信息,构造出合成样本分布函数;
将候选集定义为cs={csi,i=1,2,…,k},根据欧氏距离计算法得出候选集中每个样品到类中心的距离,表示为D(csi,cc);将每个样品到类中心的距离累加,得到它们的距离之和,表示为s;基于此基础,得出新样本的分布函数,如公式Ⅴ所示;
其中,pi表示候选集内第i个样本的分布概率值;将各样本分布概率值乘以样本合成总数即可得到基于每个候选样本合成新样本的个数;
步骤四、实现过采样方法:将样本集合定义为DS={(di,ci),i=1,2,…,n},其中di表示样本向量,ci表示样本所属类别,ci取值设定为0和1;根据公式Ⅰ和公式Ⅱ分别求出类中心cc和类平均距离cd,计算出合成样本总数;由公式Ⅲ得到候选集,再根据公式Ⅴ得到概率分布函数,产生随机数r,带入公式Ⅳ合成新样本sns,最后得出分类模型并用于进一步的信号测试。
本发明通过增加类边缘的样本抽取使其更有助于形成分类边界,然后根据几次采样的结果得出分布函数,从而实现在一个码宽内进行多次采样,可以有效降低一次采样所产生的偶然性判断错误,这实际上也起到了滤波的作用;但本发明与匹配滤波器的算法相比,具有结构简单、估计精度更高、适应性更强的优势;此外,本发明对观察长度要求不高,只需很短的观察时间即可获得满意的估计效果,适用于实时性较高的射频信号应用领域。
上述实施方式并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换,也均属于本发明的保护范围。
Claims (1)
1.一种过采样方法,其特征在于:所述过采样方法 的具体步骤如下:
步骤一、寻找种子样本:定义某类样品集合S={di,i=1,2,…,n},其中,di表示样品i的向量,n为该类样品的样本总数;首先计算出类中心和类平均距离,然后根据类中心和类平均距离寻找出种子样本;
(a)、将该类样品在数据空间的平均分布点定义为类中心,类中心的计算方法如公式Ⅰ所示;其中,cc表示类中心向量,∑为数学求和符号;
(b)、将该类样品中各样品到类中心距离的平均值定义为类平均距离,类平均距离的计算方法如公式Ⅱ所示;其中,cd表示类平均距离向量;
(c)、将某类样品集合中到类中心的距离大于类平均距离的样品定义为种子样本,用公式Ⅲ表示;其中,SS表示种子样本向量;
ss={di|D(di,cc)>cd} Ⅲ
步骤二、合成新样本:将种子样本构成的样本集称为候选集;为避免在合成样本中引入过多的噪声,指定类中心作为参照点,由候选集内样本与参照点形成线段,在线段内合成新样本,保证合成新样本位于类的内侧,合成新样本的生成公式所述如下;
sns=si+(si-cc)×r Ⅳ
其中,sns为合成新样本向量;si为候选集内第i个样本向量;r为取值于[0,1]之间的随机数;
步骤三、构建新样本的分布函数:候选集内的样本与类中心的距离越远,其所带有效信息就相对较多;利用距离信息,构造出合成样本分布函数;
将候选集定义为cs={csi,i=1,2,…,k},根据欧氏距离计算法得出候选集中每个样品到类中心的距离,表示为D(csi,cc);将每个样品到类中心的距离累加,得到它们的距离之和,表示为s;基于此基础,得出新样本的分布函数,如公式Ⅴ所示;
其中,pi表示候选集内第i个样本的分布概率值;将各样本分布概率值乘以样本合成总数即可得到基于每个候选样本合成新样本的个数;
步骤四、实现过采样方法:将样本集合定义为DS={(di,ci),i=1,2,…,n},其中di表示样本向量,ci表示样本所属类别,ci取值设定为0和1;根据公式Ⅰ和公式Ⅱ分别求出类中心cc和类平均距离cd,计算出合成样本总数;由公式Ⅲ得到候选集,再根据公式Ⅴ得到概率分布函数,产生随机数r,带入公式Ⅳ合成新样本sns,最后得出分类模型并用于进一步的信号测试。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610437539.2A CN106127238B (zh) | 2016-06-18 | 2016-06-18 | 一种过采样方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610437539.2A CN106127238B (zh) | 2016-06-18 | 2016-06-18 | 一种过采样方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106127238A CN106127238A (zh) | 2016-11-16 |
CN106127238B true CN106127238B (zh) | 2019-08-09 |
Family
ID=57470834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610437539.2A Active CN106127238B (zh) | 2016-06-18 | 2016-06-18 | 一种过采样方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106127238B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106992661A (zh) * | 2017-04-17 | 2017-07-28 | 广西大学 | 用于pwm数字控制的过采样即时信号处理方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104009949A (zh) * | 2014-06-09 | 2014-08-27 | 天津师范大学 | 一种提高数字基带信号传输质量的解码方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040210790A1 (en) * | 2001-11-26 | 2004-10-21 | Yongsam Moon | 0.6-2.5 GBaud CMOS tracked 3X oversampling transceiver with dead zone phase detection for robust clock/data recovery |
US8180007B2 (en) * | 2010-01-14 | 2012-05-15 | Freescale Semiconductor, Inc. | Method for clock and data recovery |
-
2016
- 2016-06-18 CN CN201610437539.2A patent/CN106127238B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104009949A (zh) * | 2014-06-09 | 2014-08-27 | 天津师范大学 | 一种提高数字基带信号传输质量的解码方法 |
Non-Patent Citations (2)
Title |
---|
《Effects of Oversample in Tone Reservation Scheme for PAPR Reduction in OFDM Systems》;Chen Jing 等;《2012 International Conference on Computer Science and Information Processing》;20120826;全文 * |
《基于编码辅助和过采样的成对载波多址信号盲分离算法》;丁良辉 等;《上海交通大学学报》;20151031;第49卷(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN106127238A (zh) | 2016-11-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9515748B2 (en) | Encoding apparatus and method for encoding sound code, decoding apparatus and method for decoding the sound code | |
CN106646410B (zh) | 宽带认知被动雷达架构下的学习-感知-决策-响应方法 | |
Wang et al. | PhaseFi: Phase fingerprinting for indoor localization with a deep learning approach | |
CN100466061C (zh) | 一种宽带波束形成方法和装置 | |
CN101764786B (zh) | 基于聚类算法的mqam信号识别方法 | |
CN102576542A (zh) | 从窄频带信号确定上频带信号 | |
CN105137423B (zh) | 一种穿墙雷达对多运动目标实时探测、分离的方法 | |
CN102279390A (zh) | 一种低信噪比雷达辐射源信号脉内调制识别方法 | |
CN109407045A (zh) | 一种非均匀传感器阵列宽带信号波达方向估计方法 | |
CN108680910A (zh) | 基于波形认知的调频广播外辐射源雷达目标检测方法 | |
CN107290717B (zh) | 针对非圆信号的多目标直接定位方法 | |
CN110113288A (zh) | 一种基于机器学习的ofdm解调器的设计和解调方法 | |
CN103529436A (zh) | 基于hht的无接触生命探测中呼吸和心跳信号的分离及时频分析方法 | |
CN109743272A (zh) | 宽带专网系统高精度的干扰对齐窄带干扰抑制算法 | |
CN109617845A (zh) | 一种基于深度学习的无线通信解调器的设计及解调方法 | |
CN108333564A (zh) | 用于谐波雷达频谱感知与频率选择的方法 | |
Tsai et al. | Refined autoencoder-based CSI hidden feature extraction for indoor spot localization | |
Liu et al. | Jamming recognition based on feature fusion and convolutional neural network | |
CN106127238B (zh) | 一种过采样方法 | |
CN114268902B (zh) | 一种基于pdoa的脉冲超宽带测向方法 | |
CN102087313A (zh) | 一种卫星搜救信号的频率估计方法 | |
Li et al. | DeFe: Indoor localization based on channel state information feature using deep learning | |
CN107276703A (zh) | 一种采用压缩感知技术的正交空间调制系统检测方法 | |
Lee et al. | A novel location estimation based on pattern matching algorithm in underwater environments | |
CN104270328A (zh) | 一种信噪比实时估计方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190711 Address after: 100026 Unit 301, Unit 5, Building 4, Tianshuiyuan Beili, Chaoyang District, Beijing Applicant after: Li Pengyu Address before: 226300 No. 299 Xingyuan Road, Tongzhou District, Nantong City, Jiangsu Province Applicant before: Nantong Shang Qing Medical Technology Co., Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |