CN109063128A - 集成核密度估计器窗口参数优化方法、装置及终端设备 - Google Patents
集成核密度估计器窗口参数优化方法、装置及终端设备 Download PDFInfo
- Publication number
- CN109063128A CN109063128A CN201810870314.5A CN201810870314A CN109063128A CN 109063128 A CN109063128 A CN 109063128A CN 201810870314 A CN201810870314 A CN 201810870314A CN 109063128 A CN109063128 A CN 109063128A
- Authority
- CN
- China
- Prior art keywords
- data block
- density estimator
- window width
- random sample
- estimator device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Mathematical Optimization (AREA)
- Life Sciences & Earth Sciences (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Algebra (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Complex Calculations (AREA)
Abstract
本发明适用于数据挖掘技术领域,提供了一种集成核密度估计器窗口参数优化方法、装置及终端设备,其方法包括:基于原始数据集获取随机样本划分数据块;通过Parzen窗口法,在每个随机样本划分数据块上构建集成核密度估计器,并标定集成核密度估计器的初始窗口宽度参数;选择个不同的随机样本划分数据块构建训练集;选择个不同的随机样本划分数据块构建验证集;根据训练集和验证集对集成核密度估计器的初始窗口宽度参数进行优化,获得最优窗口宽度参数值;根据最优窗口宽度参数值优化集成核密度估计器。通过本发明能够提高对概率密度函数的估算的准确性,且能够应用于大规模数据集的概率密度函数估计。
Description
技术领域
本发明涉及数据挖掘领域,尤其涉及一种集成核密度估计器窗口参数优化方法、装置及终端设备。
背景技术
对未知概率分布数据进行概率密度函数估计是机器学习和数据挖掘领域中一项重要的研究内容。Parzen窗口法是一种经典的概率密度函数估计方法,又称核密度估计法。使用核密度估计法对未知概率分布数据进行概率密度函数估计的关键在于窗口宽度参数的选取,窗口宽度参数的选取对核密度估计器的影响非常大:过大的窗口宽度,将导致过平滑的概率密度函数估计;而过大的窗口宽度,将导致欠平滑的概率密度函数估计。
然而,已有概率密度函数估计方法在优化窗口参数时,对概率密度函数的估算不准确,且应用于大规模数据集的概率密度函数估计时,时间复杂度高。
发明内容
本发明的主要目的在于提出一种集成核密度估计器窗口参数优化方法、装置及终端设备,以解决现有技术中,对概率密度函数的估算不准确,且应用于大规模数据集的概率密度函数估计时,时间复杂度高的问题。
为实现上述目的,本发明实施例第一方面提供一种集成核密度估计器窗口参数优化方法,包括:
基于原始数据集获取随机样本划分数据块;
通过Parzen窗口法,在每个所述随机样本划分数据块上构建集成核密度估计器,并标定所述集成核密度估计器的初始窗口宽度参数;
选择个不同的所述随机样本划分数据块构建训练集;
选择个不同的所述随机样本划分数据块构建验证集;
根据所述训练集和所述验证集对所述集成核密度估计器的初始窗口宽度参数进行优化,获得最优窗口宽度参数值;
根据所述最优窗口宽度参数值优化所述集成核密度估计器。
结合本发明实施例第一方面,本发明实施例第一方面的第一实施方式中,所述基于原始数据集获取随机样本划分数据块包括:
对所述原始数据集的原始样本进行划分,获得原始样本划分数据块;
对所述原始样本划分数据块进行混洗操作,获得混洗数据块;
从所述混洗数据块中依次抽取样本,构成所述原始数据集的随机样本划分数据块。
结合本发明实施例第一方面,本发明实施例第一方面的第二实施方式中,所述通过Parzen窗口法,在每个所述随机样本划分数据块上构建集成核密度估计器,并标定所述集成核密度估计器的初始窗口宽度参数包括:
通过Parzen窗口法估计所述随机样本划分数据块的概率密度函数,并标定所述集成核密度估计器的初始窗口宽度参数,公式为:
其中,pk(x)为所述随机样本划分数据块的概率密度函数,为所述初始窗口宽度参数;为所述训练集中的随机样本划分数据块。
结合本发明实施例第一方面,本发明实施例第一方面的第二实施方式中,所述集成核密度估计器的初始窗口宽度参数在预设实数区间内随机选取。
结合本发明实施例第一方面,本发明实施例第一方面的第三实施方式中,所述根据所述验证集和所述训练集对所述集成核密度估计器的初始窗口宽度参数进行优化,获得最优窗口宽度参数值包括:
建立所述集成核密度估计器的窗口宽度参数的优化准则,对所述集成核密度估计器的初始窗口宽度参数进行优化,获得第一窗口宽度参数值,公式为:
其中,D为所述原始数据集;E1和E2项分别代表所述集成核密度估计器的经验误差和模型复杂度;为验证集,为训练集中的随机样本划分数据块个数;为验证集中的随机样本划分数据块个数;和为随机样本划分数据块的概率密度函数;λ为正则化因子,λ∈(0,1);h1,h2,...hk为所述第一窗口宽度参数值;
使用优化算法对所述优化准则进行优化,获得最优窗口宽度参数值。
结合本发明实施例第一方面,本发明实施例第一方面的第三实施方式中,所述优化算法包括粒子群优化算法。
结合本发明实施例第一方面的第一实施方式、第二实施方式和第一实施方式,本发明实施例第一方面的第四实施方式中,所述根据所述最优窗口宽度参数值优化所述集成核密度估计器包括:
根据所述训练集、所述验证集和所述最优窗口宽度参数值训练所述集成核密度估计器,公式为:
其中,为基于随机样本划分数据块训练的,使用了最优窗口宽度参数的核密度估计器;为所述训练集中的随机样本划分数据块个数。
本发明实施例第二方面提供一种集成核密度估计器窗口参数优化装置,包括:
数据划分模块,用于基于原始数据集获取随机样本划分数据块;
集成核密度估计器构建模块,用于通过Parzen窗口法,在每个所述随机样本划分数据块上构建集成核密度估计器,并标定所述集成核密度估计器的初始窗口宽度参数;
训练集构建模块,用于选择个不同的所述随机样本划分数据块构建训练集;
验证集构建模块,用于选择个不同的所述随机样本划分数据块构建验证集;
第一优化模块,用于根据所述训练集和所述验证集对所述集成核密度估计器的初始窗口宽度参数进行优化,获得最优窗口宽度参数值;
第二优化模块,用于根据所述最优窗口宽度参数值优化所述集成核密度估计器。
结合本发明实施例第二方面,本发明实施例第二方面的第一实施方式中,所述数据划分模块包括:
原始样本划分单元,用于对所述原始数据集的原始样本进行划分,获得原始样本划分数据块;
混洗单元,用于对所述原始样本划分数据块进行混洗操作,获得混洗数据块;
样本抽取单元,用于从所述混洗数据块中依次抽取样本,构成所述原始数据集的随机样本划分数据块。
结合本发明实施例第二方面,本发明实施例第二方面的第二实施方式中,所述集成核密度估计器构建模块包括:
通过Parzen窗口法估计所述随机样本划分数据块的概率密度函数,并标定所述集成核密度估计器的初始窗口宽度参数,公式为:
其中,pk(x)为所述随机样本划分数据块的概率密度函数,为所述初始窗口宽度参数;为所述训练集中的随机样本划分数据块。
结合本发明实施例第二方面,本发明实施例第二方面的第二实施方式中,所述集成核密度估计器的初始窗口宽度参数在预设实数区间内随机选取。
结合本发明实施例第二方面,本发明实施例第二方面的第三实施方式中,所述第一优化模块包括:
准则优化单元,用于建立所述集成核密度估计器的窗口宽度参数的优化准则,对所述集成核密度估计器的初始窗口宽度参数进行优化,获得第一窗口宽度参数值,公式为:
其中,D为所述原始数据集;E1和E2项分别代表所述集成核密度估计器的经验误差和模型复杂度;为验证集,为训练集中的随机样本划分数据块个数;为验证集中的随机样本划分数据块个数;和为随机样本划分数据块的概率密度函数;λ为正则化因子,λ∈(0,1);h1,h2,...hk为所述第一窗口宽度参数值;
算法优化单元,用于使用优化算法对所述优化准则进行优化,获得最优窗口宽度参数值。
结合本发明实施例第二方面,本发明实施例第二方面的第三实施方式中,所述优化算法包括粒子群优化算法。
结合本发明实施例第二方面的第一实施方式、第二实施方式和第一实施方式,本发明实施例第二方面的第四实施方式中,所述第二优化模块包括:
根据所述训练集、所述验证集和所述最优窗口宽度参数值训练所述集成核密度估计器,公式为:
其中,为基于随机样本划分数据块训练的,使用了最优窗口宽度参数的核密度估计器;为所述训练集中的随机样本划分数据块个数。
本发明实施例的第三方面提供了一种复杂网络中传播源选择的终端设备,包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上第一方面所提供的方法的步骤。
本发明实施例的第四方面提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现如上第一方面所提供的方法的步骤。
本发明实施例提出一种集成核密度估计器窗口参数优化方法,一方面,基于原始数据集的随机样本划分数据块,通过Parzen窗口法构建集成核密度估计器,同时从原始数据集的随机样本划分数据块中抽取数据块构建训练集和验证集,从而对集成核密度估计器的初始窗口宽度参数进行优化,获得最优窗口宽度参数值以及具有最优窗口宽度参数值的集成核密度估计器,使得在随机样本划分数据块上估计的概率密度函数之间的差异性达到最小,即获得更加准确的概率密度函数估计;另一方面,在本发明提出的集成核密度估计器窗口参数优化方法中,基于原始数据的部分数据即可获得原始数据的概率密度函数,因此优化后的集成核密度估计器,能够处理大数据的概率密度函数估计问题。
附图说明
图1为本发明实施例一提供的集成核密度估计器窗口参数优化方法的实现流程示意图;
图2为图1中步骤S101的详细实现流程示意图;
图3为图1中步骤S105的详细实现流程示意图;
图4为本发明实施例二提供的抽取样本构成随机样本划分数据块的流程示意图;
图5为本发明实施例三提供的集成核密度估计器在正态分布的随机数数据集上的训练情况;
图6为本发明实施例三提供的集成核密度估计器在指数分布的随机数数据集上的训练情况;
图7为本发明实施例三提供的集成核密度估计器窗口参数优化装置的结构示意图;
图8为图7中数据划分模块的结构示意图;
图9为图7中第一优化模块的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本文中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明,其本身并没有特定的意义。因此,"模块"与"部件"可以混合地使用。
在后续的描述中,发明实施例序号仅仅为了描述,不代表实施例的优劣。
实施例一
如图1所示,本发明实施例提供一种集成核密度估计器窗口参数优化方法,包括如下步骤:
S101、基于原始数据集获取随机样本划分数据块。
在上述步骤S101中,原始数据集包括一维数据和多维数据,随机样本划分数据块中包括原始数据集中的一个或多个数据。
如图2所示,上述步骤S101中获取随机样本划分数据块的详细实现流程可以包括:
S1011、对所述原始数据集的原始样本进行划分,获得原始样本划分数据块。
在上述步骤S1011中,在原始数据集中选择多个原始样本,在有此原始样本处划分数据,得到原始数据集的原始样本划分数据块。
S1012、对所述原始样本划分数据块进行混洗操作,获得混洗数据块。
在上述步骤S1012中,根据原始数据集的原始样本划分的数据块OSP有多个;混洗后的原始样本划分数据块的排列方式改变,与原始样本的位置无关。
在具体应用中,可以同时对多组原始样本划分数据块进行混洗,也可以依次单独地对一组原始样本划分数据块进行混洗;同时混洗对多组原始样本划分数据块时,可减少多源数据重排所需要的指令数量,提高处理器的执行速度。
S1013、从所述混洗数据块中依次抽取样本,构成所述原始数据集的随机样本划分数据块。
在上述步骤S1013中,混洗数据块为重排后的原始样本划分数据块,以一维数据为例,从混洗数据块中依次抽取样本可以表现为:由原始数据集划分的多个原始样本划分数据块为A、B、C,重排后的混洗数据块为B、C、A,依次抽取的样本为B1C1A1、B2C2A2...BnCnAn。
在具体应用中,上述步骤S1011至步骤S1013将原始数据集划分为多个原始样本划分数据块,将原始样本划分数据块进行混洗重排后,依次从中抽取样本,构成原始数据集的随机样本划分数据块。
S102、通过Parzen窗口法,在每个所述随机样本划分数据块上构建集成核密度估计器,并标定所述集成核密度估计器的初始窗口宽度参数。
在上述步骤S102中,Parzen窗口法是一种核密度估计法,能够估计数据集的概率密度函数,此时集成核密度估计器的窗口宽度参数没有优化。
S103、选择个不同的所述随机样本划分数据块构建训练集。
在上述步骤S103中,设置训练集用以估计模型。
S104、选择个不同的所述随机样本划分数据块构建验证集。
在上述步骤S104中,设置验证集用以确定网络结构或者控制模型复杂程度的参数。
在一个实施例中,上述步骤S102中通过Parzen窗口法,在每个所述随机样本划分数据块上构建集成核密度估计器,并标定所述集成核密度估计器的初始窗口宽度参数的具体实现步骤可以包括:
通过Parzen窗口法估计所述随机样本划分数据块的概率密度函数,并标定所述集成核密度估计器的初始窗口宽度参数,公式为:
其中,pk(x)为所述随机样本划分数据块的概率密度函数,为所述初始窗口宽度参数;为所述训练集中的随机样本划分数据块。
在具体应用中,所述集成核密度估计器的初始窗口宽度参数在预设实数区间内随机选取。
S105、根据所述训练集和所述验证集对所述集成核密度估计器的初始窗口宽度参数进行优化,获得最优窗口宽度参数值。
在上述步骤S105中,
如图3所示,上述步骤S105中根据所述训练集和所述验证集对所述集成核密度估计器的初始窗口宽度参数进行优化,获得最优窗口宽度参数值的详细实现流程可以包括:
S1051、建立所述集成核密度估计器的窗口宽度参数的优化准则,对所述集成核密度估计器的初始窗口宽度参数进行优化,获得第一窗口宽度参数值,公式为:
其中,D为所述原始数据集;E1和E2项分别代表所述集成核密度估计器的经验误差和模型复杂度;为验证集,为训练集中的随机样本划分数据块个数;为验证集中的随机样本划分数据块个数;和为随机样本划分数据块的概率密度函数;λ为正则化因子,λ∈(0,1);h1,h2,...hk为所述第一窗口宽度参数值。
在上述步骤S1051中,通过设计基核密度估计器窗口宽度参数的优化准则,对初始窗口宽度参数进行优化,使得在随机样本划分数据块上估计的概率密度函数之间的差异性达到最小。
在具体应用中,正则化因子λ,用于对经验误差和模型复杂度这两项进行折中。如果优化准则中仅含有经验误差项,即令通过最小化更倾向于选取较大的窗口宽度参数而当窗口宽度参数过大时,通常导致过平滑的概率密度函数估计。因此,在优化准则中引入E2项,能够解决过大窗口参数被选取的问题。
S1052、使用优化算法对所述优化准则进行优化,获得最优窗口宽度参数值。
在上述步骤S1052中,使用优化算法对上述的优化准则进行优化,从而选取最优的窗口宽度参数
在具体应用中,优化算法可以为任意的能够优化上述优化准则,确定最优窗口参数值的算法;在一个实施例中,优化算法可以包括粒子群优化算法。
S106、根据所述最优窗口宽度参数值优化所述集成核密度估计器。
在上述步骤S106中,具有最优窗口宽度参数值的集成核密度估计器能够能够获得更加准确的概率密度函数估计。
在一个实施例中,上述步骤S106中根据所述最优窗口宽度参数值优化所述集成核密度估计器的具体实现步骤可以包括:
根据所述训练集、所述验证集和所述最优窗口宽度参数值训练所述集成核密度估计器,公式为:
其中,为基于随机样本划分数据块训练的,使用了最优窗口宽度参数的核密度估计器;为所述训练集中的随机样本划分数据块个数。
其中,为集成核密度估计器的具体形式。
本发明实施例所提供的集成核密度估计器窗口参数优化方法,一方面,基于原始数据集的随机样本划分数据块,通过Parzen窗口法构建集成核密度估计器,同时从原始数据集的随机样本划分数据块中抽取数据块构建训练集和验证集,从而对集成核密度估计器的初始窗口宽度参数进行优化,获得最优窗口宽度参数值以及具有最优窗口宽度参数值的集成核密度估计器,使得在随机样本划分数据块上估计的概率密度函数之间的差异性达到最小,即获得更加准确的概率密度函数估计;另一方面,在本发明提出的集成核密度估计器窗口参数优化方法中,基于原始数据的部分数据即可获得原始数据的概率密度函数,因此优化后的集成核密度估计器,能够处理大数据的概率密度函数估计问题。
实施例二
本发明实施例以一维的原始数据集为例,对上述实施例一中所提供的集成核密度估计器窗口参数优化方法的实现流程进行示例性说明。
假设现有数据集其中为数据集D中训练样本的个数。
假设现有数据集D的随机样本划分数据块其中满足条件:
1、
2、对于任意的且ki≠kj,成立;
E[pk(x)]=p(x),其中pk(x)和p(x)分别为随机样本划分数据块Dk和原始数据集D的概率密度函数,E(X)为随机变量X的期望。
则获取原始数据集D的随机样本划分数据块具体为:
首先,通过对原始数据集D在样本处进行直接划分操作公式为:得到原始数据集D的原始样本划分数据块
其中, 和
之后,对OSP数据块Am进行“混洗操作”,得到Am的混洗数据块
从而生成一个到之间的、长度为的整数随机数列,按照随机数列中整数的顺序依次从Am中抽取样本放置在Bm中。此处值得注意的是
如图4所示,是本发明实施例所提供的从混洗数据块中依次抽取样本构成原始数据集D的随机样本划分数据块的过程。
在本发明实施例中,将图4中的随机样本划分数据块表示为:
上述随机样本划分数据块Dk的生成概率为:
而采用无放回逐个抽样的方式生成随机样本划分数据块Dk的概率为
易见P1=P2,表明实施例一所提供的集成核密度估计器窗口参数优化方法中,获取随机样本划分数据块的方法与无放回抽样是等价的,但是实施例一所提供的集成核密度估计器窗口参数优化方法还能够处理大数据集的随机样本划分数据块生成问题。
获得原始数据集D的随机样本划分数据块之后,从中任选个不同的随机样本划分数据块用作训练集成核密度估计器的训练集,其中令
之后采用核密度估计法,即Parzen窗口法估计数据集的概率密度函数pk(x),可得
其中为窗口宽度参数。接下来我们在中随机抽取个不相同的随机样本划分数据块用作训练集成核密度估计器的验证集,其中令
此处值得注意的是,在具体的训练中,为了简化训练的过程,我们可以令即训练集和验证集相同。
训练集成核密度估计器的核心是确定的窗口宽度参数使得如下式所示的误差函数达到最小值:
上述公式为本发明中我们设计的窗口宽度优化标准,其中和E1和E2项分别代表集成核密度估计器的经验误差和模型复杂度,λ∈(0,1)为正则化因子,用于对经验误差和模型复杂度这两项进行折中。如果优化标准中仅含有经验误差项,即令通过最小化更倾向于选取较大的窗口宽度参数而当窗口宽度参数过大时,通常导致过平滑的概率密度函数估计。因此,我们在评价标准中引入了E2项,用于解决过大窗口参数被选取的问题。
最后,使用粒子群优化算法对窗口宽度优化标准进行优化,从而选取最优的窗口宽度参数窗口宽度参数的初始值在区间中任意选取,其中
当得到最优窗口宽度参数之后,基于原始数据集D的随机样本划分数据块训练集和验证集训练的集成核密度估计器的具体形式为:
其中,为基于随机样本划分数据块训练的、使用了最优窗口宽度参数的核密度估计器。
实施例三
本发明实施例针对实施例一中所提供的集成核密度估计器窗口参数优化方法,以试验数据示例性地说明在其实际应用中的有益效果。
本发明实施例分别采用正态分布和指数分布的随机数数据集,验证集成核密度估计器的收敛性和测试误差。
在正态分布和指数分布的随机数数据集中分别随机抽取5个RSP数据块,每个数据块含有100个样本作为训练集和验证集,另外随机生成了200个随机样本作为测试集。集成核密度估计器中的粒子群优化算法迭代次数为200次,集成核密度估计器的初始窗口宽度参数在区间(0,10]内随机选取。
如图5所示,为集成核密度估计器在正态分布(其中μ=0,σ2=1)数据集上的训练情况,其中,曲线51为集成核密度估计器的收敛曲线或的值,曲线52为经典Parzen窗口法的误差曲线,曲线53为集成核密度估计器的误差曲线;此时集成核密度估计器的最优窗口宽度分别为0.1581、0.2051、0.2514、0.1966、0.1843。
如图6所示,为集成核密度估计器在指数分布(p(x)=λexp(-λx),x≥0,λ>0,其中λ=1)数据集上的训练情况,纵坐标表示误差数值,左图的横坐标表示轮化(lferation),右图的横坐标表示高度(h);其中,曲线61为集成核密度估计器的收敛曲线或的值,曲线62为经典Parzen窗口法的误差曲线,曲线63为集成核密度估计器的误差曲线;此时集成核密度估计器的最优窗口宽度分别为0.2423、0.2587、0.1750、0.1895、0.2761。
由图5和图6的左子图中可以得出,集成核密度估计器是收敛的,这说明当前设计的窗口宽度优化标准是可行的;从图5和图6的右子图中我们可以得出,集成核密度估计器的测试误差低于基于穷尽法获得的经典Parzen窗口法的测试误差,这说明本发明实施例所设计的集成核密度估计器对概率密度函数的估算较为准确。
实施例四
如图7所示,本发明实施例提供了一种集成核密度估计器窗口参数优化装置70,包括:
数据划分模块71,用于基于原始数据集获取随机样本划分数据块。
如图8所示,上述数据划分模块71可以包括:
原始样本划分单元711,用于对所述原始数据集的原始样本进行划分,获得原始样本划分数据块;
混洗单元712,用于对所述原始样本划分数据块进行混洗操作,获得混洗数据块;
样本抽取单元713,用于从所述混洗数据块中依次抽取样本,构成所述原始数据集的随机样本划分数据块。
集成核密度估计器构建模块72,用于通过Parzen窗口法,在每个所述随机样本划分数据块上构建集成核密度估计器,并标定所述集成核密度估计器的初始窗口宽度参数。
在一个实施例中,所述集成核密度估计器构建模块包括:
通过Parzen窗口法估计所述随机样本划分数据块的概率密度函数,并标定所述集成核密度估计器的初始窗口宽度参数,公式为:
其中,pk(x)为所述随机样本划分数据块的概率密度函数,为所述初始窗口宽度参数;为所述训练集中的随机样本划分数据块。
在具体应用中,所述集成核密度估计器的初始窗口宽度参数在预设实数区间内随机选取。
训练集构建模块73,用于选择个不同的所述随机样本划分数据块构建训练集。
验证集构建模块74,用于选择个不同的所述随机样本划分数据块构建验证集。
第一优化模块75,用于根据所述训练集和所述验证集对所述集成核密度估计器的初始窗口宽度参数进行优化,获得最优窗口宽度参数值。
如图9所示,上述第一优化模块75包括:
准则优化单元751,用于建立所述集成核密度估计器的窗口宽度参数的优化准则,对所述集成核密度估计器的初始窗口宽度参数进行优化,获得第一窗口宽度参数值,公式为:
其中,D为所述原始数据集;E1和E2项分别代表所述集成核密度估计器的经验误差和模型复杂度;为验证集,为训练集中的随机样本划分数据块个数;为验证集中的随机样本划分数据块个数;和为随机样本划分数据块的概率密度函数;λ为正则化因子,λ∈(0,1);h1,h2,...hk为所述第一窗口宽度参数值;
算法优化单元752,用于使用优化算法对所述优化准则进行优化,获得最优窗口宽度参数值。
在具体应用中,所述优化算法包括粒子群优化算法。
第二优化模块76,用于根据所述最优窗口宽度参数值优化所述集成核密度估计器。
在一个实施例中,所述第二优化模块包括:
根据所述训练集、所述验证集和所述最优窗口宽度参数值训练所述集成核密度估计器,公式为:
其中,为基于随机样本划分数据块训练的,使用了最优窗口宽度参数的核密度估计器;为所述训练集中的随机样本划分数据块个数。
本发明实施例还提供一种终端设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如实施例一中所述的集成核密度估计器窗口参数优化方法中的各个步骤。
本发明实施例还提供一种存储介质,所述存储介质为计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如实施例一中所述的集成核密度估计器窗口参数优化方法中的各个步骤。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (16)
1.一种集成核密度估计器窗口参数优化方法,其特征在于,包括:
基于原始数据集获取随机样本划分数据块;
通过Parzen窗口法,在每个所述随机样本划分数据块上构建集成核密度估计器,并标定所述集成核密度估计器的初始窗口宽度参数;
选择个不同的所述随机样本划分数据块构建训练集;
选择个不同的所述随机样本划分数据块构建验证集;
根据所述训练集和所述验证集对所述集成核密度估计器的初始窗口宽度参数进行优化,获得最优窗口宽度参数值;
根据所述最优窗口宽度参数值优化所述集成核密度估计器。
2.如权利要求1所述的集成核密度估计器窗口参数优化方法,其特征在于,所述基于原始数据集获取随机样本划分数据块包括:
对所述原始数据集的原始样本进行划分,获得原始样本划分数据块;
对所述原始样本划分数据块进行混洗操作,获得混洗数据块;
从所述混洗数据块中依次抽取样本,构成所述原始数据集的随机样本划分数据块。
3.如权利要求1所述的集成核密度估计器窗口参数优化方法,其特征在于,所述通过Parzen窗口法,在每个所述随机样本划分数据块上构建集成核密度估计器,并标定所述集成核密度估计器的初始窗口宽度参数包括:
通过Parzen窗口法估计所述随机样本划分数据块的概率密度函数,并标定所述集成核密度估计器的初始窗口宽度参数,公式为:
其中,pk(x)为所述随机样本划分数据块的概率密度函数,为所述初始窗口宽度参数;为所述训练集中的随机样本划分数据块。
4.如权利要求3所述的集成核密度估计器窗口参数优化方法,其特征在于,所述集成核密度估计器的初始窗口宽度参数在预设实数区间内随机选取。
5.如权利要求1所述的集成核密度估计器窗口参数优化方法,其特征在于,所述根据所述验证集和所述训练集对所述集成核密度估计器的初始窗口宽度参数进行优化,获得最优窗口宽度参数值包括:
建立所述集成核密度估计器的窗口宽度参数的优化准则,对所述集成核密度估计器的初始窗口宽度参数进行优化,获得第一窗口宽度参数值,公式为:
其中,D为所述原始数据集;E1和E2项分别代表所述集成核密度估计器的经验误差和模型复杂度;为验证集,为训练集中的随机样本划分数据块个数;为验证集中的随机样本划分数据块个数;和为随机样本划分数据块的概率密度函数;λ为正则化因子,λ∈(0,1);h1,h2,...hk为所述第一窗口宽度参数值;
使用优化算法对所述优化准则进行优化,获得最优窗口宽度参数值。
6.如权利要求5所述的集成核密度估计器窗口参数优化方法,其特征在于,所述优化算法包括粒子群优化算法。
7.如权利要求1至6任一项所述的集成核密度估计器窗口参数优化方法,其特征在于,所述根据所述最优窗口宽度参数值优化所述集成核密度估计器包括:
根据所述训练集、所述验证集和所述最优窗口宽度参数值训练所述集成核密度估计器,公式为:
其中,为基于随机样本划分数据块训练的,使用了最优窗口宽度参数的核密度估计器;为所述训练集中的随机样本划分数据块个数。
8.一种集成核密度估计器窗口参数优化装置,其特征在于,包括:
数据划分模块,用于基于原始数据集获取随机样本划分数据块;
集成核密度估计器构建模块,用于通过Parzen窗口法,在每个所述随机样本划分数据块上构建集成核密度估计器,并标定所述集成核密度估计器的初始窗口宽度参数;
训练集构建模块,用于选择个不同的所述随机样本划分数据块构建训练集;
验证集构建模块,用于选择个不同的所述随机样本划分数据块构建验证集;
第一优化模块,用于根据所述训练集和所述验证集对所述集成核密度估计器的初始窗口宽度参数进行优化,获得最优窗口宽度参数值;
第二优化模块,用于根据所述最优窗口宽度参数值优化所述集成核密度估计器。
9.如权利要求8所述的集成核密度估计器窗口参数优化装置,其特征在于,所述数据划分模块包括:
原始样本划分单元,用于对所述原始数据集的原始样本进行划分,获得原始样本划分数据块;
混洗单元,用于对所述原始样本划分数据块进行混洗操作,获得混洗数据块;
样本抽取单元,用于从所述混洗数据块中依次抽取样本,构成所述原始数据集的随机样本划分数据块。
10.如权利要求8所述的集成核密度估计器窗口参数优化装置,其特征在于,所述集成核密度估计器构建模块包括:
通过Parzen窗口法估计所述随机样本划分数据块的概率密度函数,并标定所述集成核密度估计器的初始窗口宽度参数,公式为:
其中,pk(x)为所述随机样本划分数据块的概率密度函数,为所述初始窗口宽度参数;为所述训练集中的随机样本划分数据块。
11.如权利要求10所述的集成核密度估计器窗口参数优化装置,其特征在于,所述集成核密度估计器的初始窗口宽度参数在预设实数区间内随机选取。
12.如权利要求8所述的集成核密度估计器窗口参数优化装置,其特征在于,所述第一优化模块包括:
准则优化单元,用于建立所述集成核密度估计器的窗口宽度参数的优化准则,对所述集成核密度估计器的初始窗口宽度参数进行优化,获得第一窗口宽度参数值,公式为:
其中,D为所述原始数据集;E1和E2项分别代表所述集成核密度估计器的经验误差和模型复杂度;为验证集,为训练集中的随机样本划分数据块个数;为验证集中的随机样本划分数据块个数;和为随机样本划分数据块的概率密度函数;λ为正则化因子,λ∈(0,1);h1,h2,...hk为所述第一窗口宽度参数值;
算法优化单元,用于使用优化算法对所述优化准则进行优化,获得最优窗口宽度参数值。
13.如权利要求12所述的集成核密度估计器窗口参数优化装置,其特征在于,所述优化算法包括粒子群优化算法。
14.如权利要求8至13所述的集成核密度估计器窗口参数优化装置,其特征在于,所述第二优化模块包括:
根据所述训练集、所述验证集和所述最优窗口宽度参数值训练所述集成核密度估计器,公式为:
其中,为基于随机样本划分数据块训练的,使用了最优窗口宽度参数的核密度估计器;为所述训练集中的随机样本划分数据块个数。
15.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
16.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810870314.5A CN109063128A (zh) | 2018-08-02 | 2018-08-02 | 集成核密度估计器窗口参数优化方法、装置及终端设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810870314.5A CN109063128A (zh) | 2018-08-02 | 2018-08-02 | 集成核密度估计器窗口参数优化方法、装置及终端设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109063128A true CN109063128A (zh) | 2018-12-21 |
Family
ID=64832846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810870314.5A Pending CN109063128A (zh) | 2018-08-02 | 2018-08-02 | 集成核密度估计器窗口参数优化方法、装置及终端设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109063128A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020409A (zh) * | 2019-04-01 | 2019-07-16 | 南京信息工程大学 | 基于自适应核密度估计算法的地面气温观测资料分析方法 |
CN110825826A (zh) * | 2019-11-07 | 2020-02-21 | 深圳大学 | 聚类簇计算方法、装置、终端及存储介质 |
WO2023000251A1 (zh) * | 2021-07-22 | 2023-01-26 | 深圳大学 | 核密度估计器的构建方法、装置、电子设备及介质 |
-
2018
- 2018-08-02 CN CN201810870314.5A patent/CN109063128A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020409A (zh) * | 2019-04-01 | 2019-07-16 | 南京信息工程大学 | 基于自适应核密度估计算法的地面气温观测资料分析方法 |
CN110020409B (zh) * | 2019-04-01 | 2023-06-27 | 南京信息工程大学 | 基于自适应核密度估计算法的地面气温观测资料分析方法 |
CN110825826A (zh) * | 2019-11-07 | 2020-02-21 | 深圳大学 | 聚类簇计算方法、装置、终端及存储介质 |
WO2023000251A1 (zh) * | 2021-07-22 | 2023-01-26 | 深圳大学 | 核密度估计器的构建方法、装置、电子设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gentile et al. | Learning models of quantum systems from experiments | |
Hutter et al. | Algorithm runtime prediction: Methods & evaluation | |
Sevon et al. | Link discovery in graphs derived from biological databases | |
CN104346629B (zh) | 一种模型参数训练方法、装置及系统 | |
Jiang et al. | Neurips 2020 competition: Predicting generalization in deep learning | |
Bogdanowicz et al. | On a matching distance between rooted phylogenetic trees | |
Borrero et al. | Reaction coordinates and transition pathways of rare events via forward flux sampling | |
CN109063128A (zh) | 集成核密度估计器窗口参数优化方法、装置及终端设备 | |
CN110084271A (zh) | 一种图片类别的识别方法和装置 | |
Damaschke et al. | Competitive group testing and learning hidden vertex covers with minimum adaptivity | |
Panagopoulos et al. | Multi-task learning for influence estimation and maximization | |
Blanken et al. | Estimating network structures using model selection | |
CN109685204A (zh) | 模型搜索方法及装置、图像处理方法及装置 | |
CN108062448A (zh) | 预测边坡稳定性的建模及分析方法、设备和存储介质 | |
Xiang et al. | Simultaneous feature and feature group selection through hard thresholding | |
CN109214692B (zh) | 基于用户时序行为的电子书评分方法及电子设备 | |
Smith et al. | Phylogenetic inference using generative adversarial networks | |
Yang et al. | Large-scale metagenomic sequence clustering on map-reduce clusters | |
CN106204293B (zh) | 一种基于Hadoop平台的社区发现算法 | |
CN111369010B (zh) | 一种信息资产类别识别方法、装置、介质和设备 | |
Sood | Iterative solver selection techniques for sparse linear systems | |
CN110457304A (zh) | 数据清洗方法、装置、电子设备及可读存储介质 | |
Walker | Visualising multi-objective populations with treemaps | |
Fraideinberze et al. | Effective and Unsupervised Fractal-based Feature Selection for Very Large Datasets: removing linear and non-linear attribute correlations | |
CN109241421A (zh) | Id数据网处理方法、装置、计算设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181221 |
|
RJ01 | Rejection of invention patent application after publication |