CN106127238B - 一种过采样方法 - Google Patents

一种过采样方法 Download PDF

Info

Publication number
CN106127238B
CN106127238B CN201610437539.2A CN201610437539A CN106127238B CN 106127238 B CN106127238 B CN 106127238B CN 201610437539 A CN201610437539 A CN 201610437539A CN 106127238 B CN106127238 B CN 106127238B
Authority
CN
China
Prior art keywords
sample
distance
class
formula
new samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610437539.2A
Other languages
English (en)
Other versions
CN106127238A (zh
Inventor
李鹏宇
张琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Li Pengyu
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610437539.2A priority Critical patent/CN106127238B/zh
Publication of CN106127238A publication Critical patent/CN106127238A/zh
Application granted granted Critical
Publication of CN106127238B publication Critical patent/CN106127238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Complex Calculations (AREA)

Abstract

本发明公开了一种过采样方法,包括寻找种子样本、合成新样本、构建新样本的分布函数、实现过采样方法四个步骤。本发明通过直接比较样本与类中心距离和类平均距离得到种子样本,并在种子样本和类中心的连线上合成新样本,构造出新样本的分布函数从而实现过采样,具有估计精度高、结构简单、噪声影响小、适应性较强的优点。

Description

一种过采样方法
技术领域
本发明涉及一种方法 ,尤其涉及一种过采样方法。
背景技术
电磁波频率低于100khz时,电磁波会被地表吸收,不能形成有效的传输,而电磁波频率高于100khz时,电磁波可以在空气中传播,并经大气层外缘的电离层反射,形成远距离传输能力,这种具有远距离传输能力的高频电磁波即为射频。射频信号即为在空中具有远距离传输能力的无线电波信号。
在射频信号构成的数字通信特别是移动通信中,由于信道中存在干扰和噪声,在接收端会产生一定的误码率。为降低系统误码率,人们普遍采用以下两种方式:一是采用匹配滤波器使信号在采样点时刻获得尽可能高的信噪比;另一个是采用编码调制,如多级编码和网格编码调制。这两种方法的研究重点均在于如何获得渐进的编码增益,虽然可以大大改善误码率性能,但系统构成较为复杂,需要复杂的硬件电路或采用复杂的数字信号处理算法,而且当信噪比很低时,编码增益也会降低,这时误码率仍会迅速提高。
发明内容
为了解决上述技术所存在的不足之处,本发明提供了一种过采样方法。
为了解决以上技术问题,本发明采用的技术方案是:一种过采样方法,其具体步骤如下:
步骤一、寻找种子样本:定义某类样品集合S={di,i=1,2,…,n},其中,di表示样品i的向量,n为该类样品的样本总数;首先计算出类中心和类平均距离,然后根据类中心和类平均距离寻找出种子样本;
(a)、将该类样品在数据空间的平均分布点定义为类中心,类中心的计算方法如公式Ⅰ所示;其中,cc表示类中心向量,∑为数学求和符号;
(b)、将该类样品中各样品到类中心距离的平均值定义为类平均距离,类平均距离的计算方法如公式Ⅱ所示;其中,cd表示类平均距离向量;
(c)、将某类样品集合中到类中心的距离大于类平均距离的样品定义为种子样本,用公式Ⅲ表示;其中,SS表示种子样本向量;
ss={di|D(di,cc)>cd} Ⅲ
步骤二、合成新样本:将种子样本构成的样本集称为候选集;为避免在合成样本中引入过多的噪声,指定类中心作为参照点,由候选集内样本与参照点形成线段,在线段内合成新样本,保证合成新样本位于类的内侧,合成新样本的生成公式所述如下;
sns=si+(si-cc)×r Ⅳ
其中,sns为合成新样本向量;Si为候选集内第i个样本向量;r为取值于 [0,1]之间的随机数;
步骤三、构建新样本的分布函数:候选集内的样本与类中心的距离越远,其所带有效信息就相对较多;利用距离信息,构造出合成样本分布函数;
将候选集定义为cs={csi,i=1,2,…,k},根据欧氏距离计算法得出候选集中每个样品到类中心的距离,表示为D(csi,cc);将每个样品到类中心的距离累加,得到它们的距离之和,表示为s;基于此基础,得出新样本的分布函数,如公式Ⅴ所示;
其中,pi表示候选集内第i个样本的分布概率值;将各样本分布概率值乘以样本合成总数即可得到基于每个候选样本合成新样本的个数;
步骤四、实现过采样方法:将样本集合定义为DS={(di,ci),i=1,2,…,n},其中di表示样本向量,ci表示样本所属类别,ci取值设定为0和1;根据公式Ⅰ和公式Ⅱ分别求出类中心cc和类平均距离cd,计算出合成样本总数;由公式Ⅲ得到候选集,再根据公式Ⅴ得到概率分布函数,产生随机数r,带入公式Ⅳ合成新样本sns,最后得出分类模型并用于进一步的信号测试。
本发明通过直接比较样本与类中心距离和类平均距离得到种子样本,并在种子样本和类中心的连线上合成新样本,构造出新样本的分布函数从而实现过采样,具有估计精度高、结构简单、噪声影响小、适应性较强的优点。
具体实施方式
下面结合具体实施方式对本发明作进一步详细的说明。
本发明的具体步骤如下:
步骤一、寻找种子样本:定义某类样品集合S={di,i=1,2,…,n},其中,di表示样品i的向量,n为该类样品的样本总数;首先计算出类中心和类平均距离,然后根据类中心和类平均距离寻找出种子样本;
(a)、将该类样品在数据空间的平均分布点定义为类中心,类中心的计算方法如公式Ⅰ所示;其中,cc表示类中心向量,∑为数学求和符号;
(b)、将该类样品中各样品到类中心距离的平均值定义为类平均距离,类平均距离的计算方法如公式Ⅱ所示;其中,cd表示类平均距离向量;cd是一标量,它能反映出类的聚集程度,cd值越小,聚集程度越紧,反之较松散;
(c)、将某类样品集合中到类中心的距离大于类平均距离的样品定义为种子样本,用公式Ⅲ表示;其中,SS表示种子样本向量;
ss={di|D(di,cc)>cd} Ⅲ
步骤二、合成新样本:将种子样本构成的样本集称为候选集;为避免在合成样本中引入过多的噪声,指定类中心作为参照点,由候选集内样本与参照点形成线段,在线段内合成新样本,保证合成新样本位于类的内侧,合成新样本的生成公式所述如下;
sns=si+(si-cc)×r Ⅳ
其中,sns为合成新样本向量;Si为候选集内第i个样本向量;r为取值于 [0,1]之间的随机数;
步骤三、构建新样本的分布函数:候选集内的样本与类中心的距离越远,其所带有效信息就相对较多;利用距离信息,构造出合成样本分布函数;
将候选集定义为cs={csi,i=1,2,…,k},根据欧氏距离计算法得出候选集中每个样品到类中心的距离,表示为D(csi,cc);将每个样品到类中心的距离累加,得到它们的距离之和,表示为s;基于此基础,得出新样本的分布函数,如公式Ⅴ所示;
其中,pi表示候选集内第i个样本的分布概率值;将各样本分布概率值乘以样本合成总数即可得到基于每个候选样本合成新样本的个数;
步骤四、实现过采样方法:将样本集合定义为DS={(di,ci),i=1,2,…,n},其中di表示样本向量,ci表示样本所属类别,ci取值设定为0和1;根据公式Ⅰ和公式Ⅱ分别求出类中心cc和类平均距离cd,计算出合成样本总数;由公式Ⅲ得到候选集,再根据公式Ⅴ得到概率分布函数,产生随机数r,带入公式Ⅳ合成新样本sns,最后得出分类模型并用于进一步的信号测试。
本发明通过增加类边缘的样本抽取使其更有助于形成分类边界,然后根据几次采样的结果得出分布函数,从而实现在一个码宽内进行多次采样,可以有效降低一次采样所产生的偶然性判断错误,这实际上也起到了滤波的作用;但本发明与匹配滤波器的算法相比,具有结构简单、估计精度更高、适应性更强的优势;此外,本发明对观察长度要求不高,只需很短的观察时间即可获得满意的估计效果,适用于实时性较高的射频信号应用领域。
上述实施方式并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的技术方案范围内所做出的变化、改型、添加或替换,也均属于本发明的保护范围。

Claims (1)

1.一种过采样方法,其特征在于:所述过采样方法 的具体步骤如下:
步骤一、寻找种子样本:定义某类样品集合S={di,i=1,2,…,n},其中,di表示样品i的向量,n为该类样品的样本总数;首先计算出类中心和类平均距离,然后根据类中心和类平均距离寻找出种子样本;
(a)、将该类样品在数据空间的平均分布点定义为类中心,类中心的计算方法如公式Ⅰ所示;其中,cc表示类中心向量,∑为数学求和符号;
(b)、将该类样品中各样品到类中心距离的平均值定义为类平均距离,类平均距离的计算方法如公式Ⅱ所示;其中,cd表示类平均距离向量;
(c)、将某类样品集合中到类中心的距离大于类平均距离的样品定义为种子样本,用公式Ⅲ表示;其中,SS表示种子样本向量;
ss={di|D(di,cc)>cd} Ⅲ
步骤二、合成新样本:将种子样本构成的样本集称为候选集;为避免在合成样本中引入过多的噪声,指定类中心作为参照点,由候选集内样本与参照点形成线段,在线段内合成新样本,保证合成新样本位于类的内侧,合成新样本的生成公式所述如下;
sns=si+(si-cc)×r Ⅳ
其中,sns为合成新样本向量;si为候选集内第i个样本向量;r为取值于[0,1]之间的随机数;
步骤三、构建新样本的分布函数:候选集内的样本与类中心的距离越远,其所带有效信息就相对较多;利用距离信息,构造出合成样本分布函数;
将候选集定义为cs={csi,i=1,2,…,k},根据欧氏距离计算法得出候选集中每个样品到类中心的距离,表示为D(csi,cc);将每个样品到类中心的距离累加,得到它们的距离之和,表示为s;基于此基础,得出新样本的分布函数,如公式Ⅴ所示;
其中,pi表示候选集内第i个样本的分布概率值;将各样本分布概率值乘以样本合成总数即可得到基于每个候选样本合成新样本的个数;
步骤四、实现过采样方法:将样本集合定义为DS={(di,ci),i=1,2,…,n},其中di表示样本向量,ci表示样本所属类别,ci取值设定为0和1;根据公式Ⅰ和公式Ⅱ分别求出类中心cc和类平均距离cd,计算出合成样本总数;由公式Ⅲ得到候选集,再根据公式Ⅴ得到概率分布函数,产生随机数r,带入公式Ⅳ合成新样本sns,最后得出分类模型并用于进一步的信号测试。
CN201610437539.2A 2016-06-18 2016-06-18 一种过采样方法 Active CN106127238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610437539.2A CN106127238B (zh) 2016-06-18 2016-06-18 一种过采样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610437539.2A CN106127238B (zh) 2016-06-18 2016-06-18 一种过采样方法

Publications (2)

Publication Number Publication Date
CN106127238A CN106127238A (zh) 2016-11-16
CN106127238B true CN106127238B (zh) 2019-08-09

Family

ID=57470834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610437539.2A Active CN106127238B (zh) 2016-06-18 2016-06-18 一种过采样方法

Country Status (1)

Country Link
CN (1) CN106127238B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106992661A (zh) * 2017-04-17 2017-07-28 广西大学 用于pwm数字控制的过采样即时信号处理方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104009949A (zh) * 2014-06-09 2014-08-27 天津师范大学 一种提高数字基带信号传输质量的解码方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040210790A1 (en) * 2001-11-26 2004-10-21 Yongsam Moon 0.6-2.5 GBaud CMOS tracked 3X oversampling transceiver with dead zone phase detection for robust clock/data recovery
US8180007B2 (en) * 2010-01-14 2012-05-15 Freescale Semiconductor, Inc. Method for clock and data recovery

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104009949A (zh) * 2014-06-09 2014-08-27 天津师范大学 一种提高数字基带信号传输质量的解码方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Effects of Oversample in Tone Reservation Scheme for PAPR Reduction in OFDM Systems》;Chen Jing 等;《2012 International Conference on Computer Science and Information Processing》;20120826;全文 *
《基于编码辅助和过采样的成对载波多址信号盲分离算法》;丁良辉 等;《上海交通大学学报》;20151031;第49卷(第10期);全文 *

Also Published As

Publication number Publication date
CN106127238A (zh) 2016-11-16

Similar Documents

Publication Publication Date Title
US9515748B2 (en) Encoding apparatus and method for encoding sound code, decoding apparatus and method for decoding the sound code
CN106646410B (zh) 宽带认知被动雷达架构下的学习-感知-决策-响应方法
Wang et al. PhaseFi: Phase fingerprinting for indoor localization with a deep learning approach
CN100466061C (zh) 一种宽带波束形成方法和装置
CN101764786B (zh) 基于聚类算法的mqam信号识别方法
CN102576542A (zh) 从窄频带信号确定上频带信号
CN105137423B (zh) 一种穿墙雷达对多运动目标实时探测、分离的方法
CN102279390A (zh) 一种低信噪比雷达辐射源信号脉内调制识别方法
CN109407045A (zh) 一种非均匀传感器阵列宽带信号波达方向估计方法
CN108680910A (zh) 基于波形认知的调频广播外辐射源雷达目标检测方法
CN107290717B (zh) 针对非圆信号的多目标直接定位方法
CN110113288A (zh) 一种基于机器学习的ofdm解调器的设计和解调方法
CN103529436A (zh) 基于hht的无接触生命探测中呼吸和心跳信号的分离及时频分析方法
CN109743272A (zh) 宽带专网系统高精度的干扰对齐窄带干扰抑制算法
CN109617845A (zh) 一种基于深度学习的无线通信解调器的设计及解调方法
CN108333564A (zh) 用于谐波雷达频谱感知与频率选择的方法
Tsai et al. Refined autoencoder-based CSI hidden feature extraction for indoor spot localization
Liu et al. Jamming recognition based on feature fusion and convolutional neural network
CN106127238B (zh) 一种过采样方法
CN114268902B (zh) 一种基于pdoa的脉冲超宽带测向方法
CN102087313A (zh) 一种卫星搜救信号的频率估计方法
Li et al. DeFe: Indoor localization based on channel state information feature using deep learning
CN107276703A (zh) 一种采用压缩感知技术的正交空间调制系统检测方法
Lee et al. A novel location estimation based on pattern matching algorithm in underwater environments
CN104270328A (zh) 一种信噪比实时估计方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20190711

Address after: 100026 Unit 301, Unit 5, Building 4, Tianshuiyuan Beili, Chaoyang District, Beijing

Applicant after: Li Pengyu

Address before: 226300 No. 299 Xingyuan Road, Tongzhou District, Nantong City, Jiangsu Province

Applicant before: Nantong Shang Qing Medical Technology Co., Ltd.

GR01 Patent grant
GR01 Patent grant