CN109388784A

CN109388784A - 最小熵核密度估计器生成方法、装置和计算机可读存储介质

Info

Publication number: CN109388784A
Application number: CN201811060759.3A
Authority: CN
Inventors: 何玉林; 蒋捷
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2018-09-12
Filing date: 2018-09-12
Publication date: 2019-02-26

Abstract

一种最小熵核密度估计器生成方法、装置和计算机可读存储介质，以减小目标函数的不确定性和增强核密度估计器的健壮性。所述方法包括：针对第一数据集构建第一核密度估计器；确定求取所述窗口宽度参数h的最优值的目标函数；由第二核密度估计器和目标函数求解窗口宽度参数h的表达式；选取预设误差阈值ξ和窗口宽度参数h的初始值h₀，采用迭代算法将窗口宽度参数h的值迭代到与前一次迭代所得h的值的绝对差值不大于ξ为止。本申请的技术方案减小了目标函数的不确定性和增强了核密度估计器的健壮性。

Description

最小熵核密度估计器生成方法、装置和计算机可读存储介质

技术领域

本申请属于数据挖掘领域，尤其涉及一种最小熵核密度估计器生成方法、装置和计算机可读存储介质。

背景技术

估计未知分布数据的概率密度函数是数据挖掘领域的一项重要研究内容。经典的概率密度函数估计方法是核密度估计方法，又称Parzen窗口法，它利用核函数叠加的平均去拟合数据真实的概率密度函数，从而生成核密度估计器，以此估计未知分布数据的概率密度函数。

对于核密度估计器的构建而言，关键在于窗口宽度参数的选取：较大的窗口宽度将导致“过平滑”的密度估计，而较小的窗口宽度将导致“欠平滑”的密度估计。对于最优窗口宽度参数的选取，一般需要构建一个基于真实密度和估计密度误差最小化的目标函数。其中，有偏交叉验证核密度估计器(BiasedCross-ValidationBasedKernel DensityEstimator，BCV-KDE)是一种经典的未知分布数据集概率密度函数的估计器。BCV-KDE基于交叉验证的策略构建计算核密度估计器最优窗口宽度参数的目标函数，之后通过诸如梯度下降、不动点迭代、粒子群等优化算法确定核密度估计器的最优窗口宽度参数。

在BCV-KDE的目标函数中，真实密度是未知的，因此不得不通过交叉验证的策略去近似数据集的真实密度。而目标函数中已存在一个估计量(即估计密度)，为了近似真实密度又必须引入新的估计量，这就相当于在未知中再次引入未知，从而增加了目标函数的不确定性和降低了核密度估计器的健壮性。

发明内容

本申请的目的在于提供一种最小熵核密度估计器生成方法、装置和计算机可读存储介质，以减小目标函数的不确定性和增强核密度估计器的健壮性。

本申请第一方面提供一种最小熵核密度估计器生成方法，所述方法包括：

针对第一数据集构建第一核密度估计器，所述第一核密度估计器含有值大于0的窗口宽度参数h；

确定求取所述窗口宽度参数h的最优值的目标函数，所述目标函数以第二核密度估计器为对数函数的变量，所述第二核密度估计器针对第二数据集构建，所述第二数据集为从所述第一数据集剔除任意一个数据构成；

由所述第二核密度估计器和目标函数求解所述窗口宽度参数h的表达式；

选取预设误差阈值ξ和所述窗口宽度参数h的初始值h₀，采用迭代算法将所述窗口宽度参数h的值迭代到与前一次迭代所得h的值的绝对差值不大于所述ξ为止。

本申请第二方面提供一种最小熵核密度估计器生成装置，所述装置包括：

构建模块，用于针对第一数据集构建第一核密度估计器，所述第一核密度估计器含有值大于0的窗口宽度参数h；

确定模块，用于确定求取所述窗口宽度参数h的最优值的目标函数，所述目标函数以第二核密度估计器为对数函数的变量，所述第二核密度估计器针对第二数据集构建，所述第二数据集为从所述第一数据集剔除任意一个数据构成；

求解模块，用于由所述第二核密度估计器和目标函数求解所述窗口宽度参数h的表达式；

迭代模块，用于选取预设误差阈值ξ和所述窗口宽度参数h的初始值h₀，采用迭代算法将所述窗口宽度参数h的值迭代到与前一次迭代所得h的值的绝对差值不大于所述ξ为止。

本申请第三方面提供一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下方法的步骤：

本申请第四方面提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如下方法的步骤：

从上述本申请技术方案可知，一方面，由于，用于求取窗口宽度参数h的最优值的目标函数以第二核密度估计器为对数函数的变量，而第二核密度估计器针对第二数据集构建，即目标函数依赖于给定的数据集，因此，与现有技术在未知量中再次引入未知量导致的目标函数的不确定性增加相比，本申请的技术方案降低了用于求取窗口宽度参数h的最优值的目标函数的不确定性；另一方面，选取预设误差阈值ξ和窗口宽度参数h的初始值h₀，采用迭代算法将窗口宽度参数h的值迭代到与前一次迭代所得h的值的绝对差值不大于ξ为止，使得确定窗口宽度参数h的最优值的时间开销更小，也使得有利于增强核密度估计器的健壮性。

附图说明

图1是本申请实施例提供的最小熵核密度估计器生成方法的实现流程示意图；

图2本申请实施例提供的最小熵核密度估计器生成方法生成的最小熵核密度估计器的相关示意图；

图3本申请另一实施例提供的最小熵核密度估计器生成方法生成的最小熵核密度估计器的相关示意图；

图4本申请实施例提供的最小熵核密度估计器生成装置的结构示意图；

图5是本申请另一实施例提供的最小熵核密度估计器生成装置的结构示意图；

图6是本申请实施例提供的计算设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

附图1是本申请实施例提供的最小熵核密度估计器生成方法的实现流程示意图，主要包括以下步骤S101至S104，以下详细说明：

S101，针对第一数据集构建第一核密度估计器，其中，第一核密度估计器含有值大于0的窗口宽度参数h。

具体地，可以以D＝{x_i|x_i∈R,i＝1,2,...,L,...,N}为第一数据集，构建如下形式的核密度估计器

其中，R表示实数集，N表示第一数据集中的数据x_i的个数，h表示窗口宽度参数，是高斯核函数u∈(-∞,+∞)。

S102，确定求取窗口宽度参数h的最优值的目标函数，其中，目标函数以第二核密度估计器为对数函数的变量，第二核密度估计器针对第二数据集构建，第二数据集为从第一数据集剔除任意一个数据构成。

本领域技术人员可以理解的是，概率密度函数估计即核密度估计器的关键在于选取一个窗口宽度参数h的最优值即最优窗口宽度参数。为了选取最优窗口宽度参数，窗口宽度参数h的最优值的目标函数可以设计为：

其中，为针对第二数据集D_-i＝D-x_i构建的第二核密度估计器，为数据x_i对应的概率密度值，此处的第二数据集是从第一数据集剔除任意一个数据构成。

S103，由第二核密度估计器和窗口宽度参数h的最优值的目标函数求解窗口宽度参数h的表达式。

为了实现步骤S103，可以将代入目标函数，进而求解得到窗口宽度参数h的如下表达式：

其中，

具体地，将代入目标函数时，可以得到：

进而对h求导并令可以得到：

即：

S104，选取预设误差阈值ξ和窗口宽度参数h的初始值h₀，采用迭代算法将窗口宽度参数h的值迭代到与前一次迭代所得h的值的绝对差值不大于ξ为止。

由于从上述表达式(6)很难求解出窗口宽度参数h的最优值的显示解，因此，步骤S104可通过如下步骤S’1至S’5实现：

S’1，将初始值h₀代入中等号右边的求得h的一个值h_k；

S’2，比较|h_k-h₀|与ξ的大小；

S’3，若|h_k-h₀|不大于ξ，则将h₀作为窗口宽度参数h的最优值并停止迭代算法，若|h_k-h₀|大于ξ，则将h_k代入中等号右边的求得h的一个值h'_k；

S’4，比较|h'_k-h₀|与ξ的大小；

S’5，若|h'_k-h₀|不大于ξ，则将h'_k作为窗口宽度参数h的最优值并停止迭代算法，若|h'_k-h₀|大于ξ，则将h'_k代入中等号右边的将求得h的值记为h'_k；

重复上述步骤S’4和S’5，直到|h'_k-h₀|不大于ξ，将h'_k作为窗口宽度参数h的最优值并停止迭代算法。

从上述附图1示例的最小熵核密度估计器生成方法可知，一方面，由于，用于求取窗口宽度参数h的最优值的目标函数以第二核密度估计器为对数函数的变量，而第二核密度估计器针对第二数据集构建，即目标函数依赖于给定的数据集，因此，与现有技术在未知量中再次引入未知量导致的目标函数的不确定性增加相比，本申请的技术方案降低了用于求取窗口宽度参数h的最优值的目标函数的不确定性；另一方面，选取预设误差阈值ξ和窗口宽度参数h的初始值h₀，采用迭代算法将窗口宽度参数h的值迭代到与前一次迭代所得h的值的绝对差值不大于ξ为止，使得确定窗口宽度参数h的最优值的时间开销更小，也使得有利于增强核密度估计器的健壮性。

为了更好地说明上述本申请技术方案的有益效果，以下举例说明之：

如附图2所示，中间图的圆圈表示200个服从标准正态分布的随机数，左图为对应的曲线，其中最小熵对应的窗口宽度参数h为0.473；右图为使用附图1的技术方案优化窗口宽度参数h的学习曲线，经过93次迭代，窗口宽度参数h从初始值h₀＝5收敛到最优值即最优窗口宽度参数其中，预设误差阈值ξ＝10^-5；中图黑线即为采用了的ME-KDE。

再如附图3所示，中间图的圆圈表示200个服从标准正态分布的随机数，左图为对应的曲线，其中最小熵对应的窗口宽度参数h为0.350；右图为使用附图1的技术方案优化窗口宽度参数h的学习曲线，经过180次迭代，窗口宽度参数h从初始值h₀＝0.001收敛到最优值即最优窗口宽度参数其中，预设误差阈值ξ＝10^-5；中图黑线即为采用了的ME-KDE。

图4是本申请实施例提供的最小熵核密度估计器生成装置的示意图。为了便于说明，仅仅示出了装置的必要部分。图4示例的装置主要包括构建模块401、确定模块402、求解模块403和迭代模块404，详细说明如下：

构建模块401，用于针对第一数据集构建第一核密度估计器，其中，第一核密度估计器含有值大于0的窗口宽度参数h；

确定模块402，用于确定求取窗口宽度参数h的最优值的目标函数，其中，目标函数以第二核密度估计器为对数函数的变量，第二核密度估计器针对第二数据集构建，第二数据集为从所述第一数据集剔除任意一个数据构成；

求解模块403，用于由第二核密度估计器和目标函数求解窗口宽度参数h的表达式；

迭代模块404，用于选取预设误差阈值ξ和窗口宽度参数h的初始值h₀，采用迭代算法将窗口宽度参数h的值迭代到与前一次迭代所得h的值的绝对差值不大于ξ为止。

需要说明的是，本申请实施例提供的装置，由于与本申请方法实施例基于同一构思，其带来的技术效果与本申请方法实施例相同，具体内容可参见本申请方法实施例中的叙述，此处不再赘述。

附图4示例的构建模块401可以包括估计器构建单元501，如附图5示例的最小熵核密度估计器生成装置。估计器构建单元501用于以D＝{x_i|x_i∈R,i＝1,2,...,L,...,N}为第一数据集，构建如下形式的核密度估计器

其中，R表示实数集，N表示第一数据集的数据个数，h表示窗口宽度参数，是高斯核函数

上述附图4或5示例的最小熵核密度估计器生成装置中，窗口宽度参数h的最优值的目标函数为：

其中，为针对第二数据集D_-i＝D-x_i构建的第二核密度估计器，为数据x_i对应的概率密度值。

图6是本申请一实施例提供的计算设备的结构示意图。如图6所示，该实施例的计算设备6包括：处理器60、存储器61以及存储在存储器61中并可在处理器60上运行的计算机程序62，例如最小熵核密度估计器生成方法的程序。处理器60执行计算机程序62时实现上述最小熵核密度估计器生成方法实施例中的步骤，例如图1所示的步骤S101至S104，或者，处理器60执行计算机程序62时实现上述各装置实施例中各模块/单元的功能，例如图4所示构建模块401、确定模块402、求解模块403和迭代模块404的功能。

示例性的，最小熵核密度估计器生成方法的计算机程序62主要包括：针对第一数据集构建第一核密度估计器，所述第一核密度估计器含有值大于0的窗口宽度参数h；确定求取所述窗口宽度参数h的最优值的目标函数，所述目标函数以第二核密度估计器为对数函数的变量，所述第二核密度估计器针对第二数据集构建，所述第二数据集为从所述第一数据集剔除任意一个数据构成；由所述第二核密度估计器和目标函数求解所述窗口宽度参数h的表达式；选取预设误差阈值ξ和所述窗口宽度参数h的初始值h₀，采用迭代算法将所述窗口宽度参数h的值迭代到与前一次迭代所得h的值的绝对差值不大于所述ξ为止。计算机程序62可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器61中，并由处理器60执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序62在计算设备6中的执行过程。例如，计算机程序62可以被分割成构建模块401、确定模块402、求解模块403和迭代模块404(虚拟装置中的模块)的功能，各模块具体功能如下：构建模块401，用于针对第一数据集构建第一核密度估计器，其中，第一核密度估计器含有值大于0的窗口宽度参数h；确定模块402，用于确定求取窗口宽度参数h的最优值的目标函数，其中，目标函数以第二核密度估计器为对数函数的变量，第二核密度估计器针对第二数据集构建，第二数据集为从所述第一数据集剔除任意一个数据构成；求解模块403，用于由第二核密度估计器和目标函数求解窗口宽度参数h的表达式；迭代模块404，用于选取预设误差阈值ξ和窗口宽度参数h的初始值h₀，采用迭代算法将窗口宽度参数h的值迭代到与前一次迭代所得h的值的绝对差值不大于ξ为止。

计算设备6可包括但不仅限于处理器60、存储器61。本领域技术人员可以理解，图6仅仅是计算设备6的示例，并不构成对计算设备6的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算设备还可以包括输入输出设备、网络接入设备、总线等。

所称处理器60可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器61可以是计算设备6的内部存储单元，例如计算设备6的硬盘或内存。存储器61也可以是计算设备6的外部存储设备，例如计算设备6上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，存储器61还可以既包括计算设备6的内部存储单元也包括外部存储设备。存储器61用于存储计算机程序以及计算设备所需的其他程序和数据。存储器61还可以用于暂时地存储已经输出或者将要输出的数据。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的实施例中，应该理解到，所揭露的装置/计算设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/计算设备实施例仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，最小熵核密度估计器生成方法的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤，即，针对第一数据集构建第一核密度估计器，所述第一核密度估计器含有值大于0的窗口宽度参数h；确定求取所述窗口宽度参数h的最优值的目标函数，所述目标函数以第二核密度估计器为对数函数的变量，所述第二核密度估计器针对第二数据集构建，所述第二数据集为从所述第一数据集剔除任意一个数据构成；由所述第二核密度估计器和目标函数求解所述窗口宽度参数h的表达式；选取预设误差阈值ξ和所述窗口宽度参数h的初始值h₀，采用迭代算法将所述窗口宽度参数h的值迭代到与前一次迭代所得h的值的绝对差值不大于所述ξ为止。其中，计算机程序包括计算机程序代码，计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括：能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围，均应包含在本申请的保护范围之内。

Claims

1.一种最小熵核密度估计器生成方法，其特征在于，所述方法包括：

2.如权利要求1所述的最小熵核密度估计器生成方法，其特征在于，所述针对第一数据集构建第一核密度估计器，包括：

以D＝{x_i|x_i∈R,i＝1,2,...,L,...,N}为所述第一数据集，构建如下形式的核密度估计器

所述R表示实数集，所述N表示所述第一数据集的数据个数，所述h表示所述窗口宽度参数，所述是高斯核函数

3.如权利要求1或2所述的最小熵核密度估计器生成方法，其特征在于，所述窗口宽度参数h的最优值的目标函数为：

其中，为针对所述第二数据集D_-i＝D-x_i构建的第二核密度估计器，为数据x_i对应的概率密度值。

4.如权利要求3所述的最小熵核密度估计器生成方法，其特征在于，所述由所述第二核密度估计器和目标函数求解所述窗口宽度参数h的表达式，包括：

将所述代入所述目标函数，进而求解得到所述窗口宽度参数h的如下表达式：

其中，

5.如权利要求4所述的最小熵核密度估计器生成方法，其特征在于，所述选取预设误差阈值ξ和所述窗口宽度参数h的初始值h₀，采用迭代算法将所述窗口宽度参数h的值迭代到与前一次迭代所得h的值的绝对差值不大于所述ξ为止，包括：

S’1，将初始值h₀代入中等号右边的求得所述h的一个值h_k；

S’2，比较|h_k-h₀|与ξ的大小；

S’3，若|h_k-h₀|不大于ξ，则将h₀作为所述窗口宽度参数h的最优值并停止所述迭代算法，若|h_k-h₀|大于ξ，则将h_k代入中等号右边的求得所述h的一个值h'_k；

S’4，比较|h'_k-h₀|与ξ的大小；

S’5，若|h'_k-h₀|不大于ξ，则将h'_k作为所述窗口宽度参数h的最优值并停止所述迭代算法，若|h'_k-h₀|大于ξ，则将h'_k代入中等号右边的将求得h的值记为h'_k；

重复上述步骤S’4和S’5。

6.一种最小熵核密度估计器生成装置，其特征在于，所述装置包括：

7.如权利要求6所述的最小熵核密度估计器生成方法，其特征在于，所述构建模块包括：

估计器构建单元，用于以D＝{x_i|x_i∈R,i＝1,2,...,L,...,N}为所述第一数据集，构建如下形式的核密度估计器

所述R表示实数集，所述N表示所述第一数据集的数据个数，所述h表示所述窗口宽度参数，所述是高斯核函数u∈(-∞,+∞)。

8.如权利要求6或7所述的最小熵核密度估计器生成方法，其特征在于，所述窗口宽度参数h的最优值的目标函数为：

9.一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任意一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任意一项所述方法的步骤。