CN111814979A

CN111814979A - 一种基于动态规划的模糊集自动划分方法

Info

Publication number: CN111814979A
Application number: CN202010638635.XA
Authority: CN
Inventors: 母亚双; 孙丽君; 郭红月; 王利东; 刘晓东
Original assignee: Henan University of Technology
Current assignee: Henan University of Technology
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2020-10-23
Anticipated expiration: 2040-07-06
Also published as: CN111814979B

Abstract

本发明涉及一种基于动态规划的模糊集自动划分方法，属于模糊理论系统、知识发现技术领域。本发明根据动态规划理论，针对传统样本数据模糊化方法需要预先指定模糊集划分个数的问题，设计一个优化目标函数，首先对每个属性的属性值数据从大到小进行排序，然后根据提出的动态规划算法对排好序的数据进行样本区间的自动划分，最后计算每个区间所涵盖属性值数据的均值，并将所有的均值作为参数对该属性上的模糊集进行构建。本发明对样本数据的模糊化问题进行研究，实现了每个属性上模糊集自动构建的同时又使得所构建的模糊集具备较好的表征效果。

Description

一种基于动态规划的模糊集自动划分方法

技术领域

本发明涉及一种基于动态规划的模糊集自动划分方法，属于模糊理论系统、知识发现技术领域。

背景技术

随着科技的进步、联网的发展以及数据存储能力的不断提升，人们在日常的社会生活中产生了越来越多的数据积累，例如“旅游”、“医疗”、“饮食”、“购物”等，人类社会已进入大数据时代。这些来自各行各业的海量数据中蕴含着极其有价值的信息，与我们的生活息息相关、密不可分的，对社会生产和日常生活产生了重要的影响，已经成为了一种能够加强决策、发现和优化处理模式的高容量、高速度以及多样化的信息资产。因此，如何合理有效的从这些海量数据发现有价值的信息并对这些信息进行应用的研究也就愈发受到社会各界的重视。

这些“有价值的信息”可认为是一种“知识”，对“有价值的信息”进行提取的过程可认为是知识发现的过程。知识发现是从数据集中识别出有效的、新颖的、潜在有用的，以及最终可理解的模式的非平凡过程。知识发现的主要目的是探索应用领域的新知识，一般来说由数据预处理、数据变换、数据挖掘、解释分析等基本步骤构成。知识发现从数据中进行知识发现，其过程并不是简单的查询，而是根据实际情况为用户需要必要的决策支持，所发现的知识一般都是特定条件下针对特定问题的知识，并且这些知识还能被自然语言所表达，易于被用户所理解。目前，从数据中进行知识发现的研究已经在商业服务、航海航天、股票期货、工业生产等方面产生了越来越多的价值。

在当今数字化和智能化快速发展的信息化时代，从数据中快速有效地发现知识变得越来越重要。目前国内外研究学者已经提出了各种各样的知识发现技术，例如统计方法、神经网络、决策树、规则提取、支持向量机、模糊集、粗糙集等方法。在这众多的知识发现方法中，基于模糊集的方法是最常用的知识发现工具之一，该类方法通过构建模糊集对数据集进行模糊化，然后利用模糊规则对知识进行合理表示，并采用模糊逻辑对知识进行推理和应用，这类研究已经涉及到分类、聚类等各种各样的知识工程领域。基于模糊集的方法在收敛速度、准确率以及可解释性等方面具有较大优势，目前成为了一种非常受欢迎的知识发现方法，在信用评估、医疗卫生、交通管理、金融服务等实际领域得到了广泛的应用。

在基于模糊集的知识发现方法中，对模糊集进行合理划分和构建是其中的必备步骤。现有的大多数方法在对模糊集进行划分时往往需要预先指定所要划分的个数，而且在数据集的不同属性上一般指定相同个数的模糊集，虽然这种处理方式可以有效地降低时间复杂度，但是却带来了额外的参数负担，并且在参数指定上往往依赖于专家经验。从人们对事物进行认知和感知的过程出发，这种模糊集的划分方式并不能精确地发现数据中的内在规律，因而不能取得最合理有效的表征效果。

发明内容

本发明要解决的技术问题是提供一种基于动态规划的模糊集自动划分方法，以用于解决传统数据模糊化方法需要预先指定模糊集划分个数的问题，实现在知识发现过程中模糊集自动划分的同时又使得模糊集的表征效果更好的目标。

本发明采用动态规划的思想，设计了一个优化目标函数，首先对每个属性上的属性值数据进行排序，然后根据提出的动态规划算法对排序好的数据进行样本区间的自动划分，进一步对每个区间所覆盖的数据计算均值，通过将所有均值作为参数来完成对应属性上模糊集的自动构建过程，实现在知识发现过程中既能确保模糊集自动划分的同时又能使所构造的模糊集具有更好表征效果的目标。

为了达到上述目标，以知识发现领域常用的具有类标签的实际数据为基础，在动态规划的思想框架下先对不同属性上的数据进行排序，并通过优化目标函数对属性值数据进行自动划分和构建模糊集。提出了一种基于动态规划的模糊集自动划分法方法。

本发明的技术方案是：一种基于动态规划的模糊集自动划分方法，根据动态规划理论，针对传统样本数据模糊化方法需要预先指定模糊集划分个数的问题，设计了一个优化目标函数，首先对每个属性的属性值数据从大到小进行排序，然后根据提出的动态规划算法对排序好的属性值数据进行样本区间的自动划分，最后计算每个区间所涵盖属性值数据的均值，并将所有的均值作为参数对该属性上的模糊集进行构建。

所述基于动态规划的模糊集自动划分方法共包含四个步骤，若

表示含有n个样本点的数据集，

表示数据集X的m个属性集，样本x_i在属性A_k上的属性值用v(x_i,A_k)来表示，则其具体实施步骤如下：

Step1、对数据集

的每个属性A_k的属性值v(x_i,A_k)进行从大到小的排序；

所述Step1的主要作用是对每个属性上的属性值数据按从大到小进行排序，该步骤可认为是一种数据预处理过程，其主要目的是为步骤Step2做准备。

Step2、利用动态规划算法对排序好的属性值数据进行样本区间的自动划分

所述步骤Step2的主要作用是利用动态规划算法对属性上排序后的属性值数据进行聚集，可以达到对该属性上数据进行合理自动聚集的目的，其具体步骤为：

Step2.1、假设数据集X的属性A_k上属性值按从大到小的原则进行排序，排序后的结果为：p₁,p₂,...,p_n。

Step2.2、设f(0)＝0，B₀＝Φ，r₀＝0，这里f(0)＝0表示目标函数的初值为0，B₀＝Φ表示初始划分，且其不包含任何属性值数据，r₀＝0表示初始状态，且其从0开始计数。

Step2.3、迭代计算f(t)，B_t，r_t，t＝1,2,...,n，计算过程可根据下面的式子：

在区间[r_t-1，t-1]会有不同的整数值，每个整数值都对应产生一个目标函数值，这里f(t)表示区间[r_t-1，t-1]中目标函数最小的目标函数值，r_t表示区间[r_t-1，t-1]中使目标函数最小的那个整数，B_t表示所产生的一个划分，p_i+1,t的定义如下：

这里α(0＜α≤1)是一个参数，其目的是用于调节划分的粗细或包含属性值数据的多少；该步骤中的||diff(B_t)||的定义如下：

表示以[r_t-1，t-1]中的整数为下标的属性值数据的进行差分并求和，其目的是对划分进行进一步的修正，使相同划分中的属性值数据尽可能的相近。

Step2.4、从B_n(B_n表示产生的所有划分中位于最后的一个划分)开始，利用回溯法得到属性A_k上所有属性值数据的最优划分

Step2.5、输出属性A_k上n_k个划分：

这里每个划分可认为是一个集合，集合中的元素表示被划分到该集合里的属性值数据。

Step3、计算划分区间所涵盖属性值数据的平均值

所述步骤Step3的主要作用是对属性A_k上的n_k个划分

分别求取平均值。若用B_s'表示n_k个划分

中的任意一个，即s＝1,2,...,n_k，将B_s'中覆盖的所有属性值数据的平均值记为ms_s，则ms_s的计算公式如下：

这里的p表示B_s'中覆盖的所有属性值数据，|B_s'|表示B_s'中覆盖的属性值数据的个数。

Step4、将属性A_k上的所有划分的平均值

作为参数，构建模糊集

所述步骤Step4的主要作用是利用属性A_k上的每个划分的均值

构造模糊集

其具体构造过程如下：

Step4.1、将A_k ¹设为右梯形的模糊集，由ms₁,ms₂构成。

Step4.2、将

设为左梯形的模糊集，由

构成。

Step4.3、将A_k ^s(s＝2,3,...,n_k-1)设为三角形的模糊集，由ms_s-1,ms_s,ms_s+1构成。

Step4.4、输出所有的模糊集

本发明的有益效果是：本发明对知识发现领域的模糊集划分问题进行了自动划分研究，实现模糊集应用过程中既确保自动划分的同时又使得构造的模糊集具有较好表征效果的目标，本发明方法能克服模糊集在知识发现过程中需要预先指定模糊集个数的问题，为模糊理论领域的研究提供重要参考，进一步为与模糊集相关的机器学习、知识发现方法提供有重要的辅助分析工具，为实际应用提供技术支撑。

附图说明

图1是本发明实施例2中模糊集A_k ¹,A_k ²,A_k ³对应的隶属函数和语义解释图；

图2是本发明实施例3中在Iris数据集的petallength属性上的聚集效果图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：一种基于动态规划的模糊集自动划分方法，其特征在于：首先对每个属性的属性值数据从大到小进行排序，然后根据提出的动态规划算法对排序好的属性值数据进行样本区间的自动划分，最后计算每个区间所涵盖属性值数据的均值，并将所有的均值作为参数对该属性上的模糊集进行构建。

具体步骤为：

Step1、对数据集

的每个属性A_k上的属性值v(x_i,A_k)从大到小进行排序。

每个划分可认为是一个包含某些属性值数据的集合。

Step3、分别计算划分区间所涵盖属性值数据的平均值

Step4、将属性A_k上每个划分的平均值

作为参数，构建该属性上的模糊集

优选的，所述步骤Step2的具体步骤为：

Step2.2、设f(0)＝0，B₀＝Φ，r₀＝0，f(0)＝0表示目标函数的初值为0，B₀＝Φ表示初始划分，且其不包含任何属性值数据，r₀＝0表示初始状态，且其从0开始计数。

Step2.3、迭代计算f(t)，B_t，r_t，t＝1,2,...,n，计算过程根据下面的公式：

在区间[r_t-1，t-1]会有不同的整数值，每个整数值都对应产生一个目标函数值，式中，f(t)表示区间[r_t-1，t-1]中目标函数最小的目标函数值，r_t表示区间[r_t-1，t-1]中使目标函数最小的那个整数，B_t表示所产生的一个划分，p_i+1,t的定义如下：

式中，α是一个参数，0＜α≤1；其目的是用于调节划分的粗细或涵盖属性值数据的多少。

该步骤中的||diff(B_t)||的定义如下：

表示以[r_t-1，t-1]中的整数为下标的属性值数据的进行差分并求和；其目的是对划分进行进一步的修正，使相同划分中的属性值数据尽可能的相近。

Step2.5、输出属性A_k上n_k个划分：

优选的，所述步骤Step3具体是对属性A_k上的n_k个划分

分别求取平均值ms_s，的具体步骤为：

若用B_s'表示n_k个划分

式中，p表示B_s'中覆盖的所有属性值数据，|B_s'|表示B_s'中覆盖的属性值数据的个数。

优选的，所述步骤Step4的具体步骤为：

Step4.1、将A_k ¹设为右梯形模糊集，由ms₁,ms₂构建。

Step4.2、将

设为左梯形模糊集，由

构建。

Step4.3、将A_k ^s(s＝2,3,...,n_k-1)设为三角形模糊集，由ms_s-1,ms_s,ms_s+1构建。

Step4.4、输出所有的模糊集

实施例2：本实施例以含有一个属性的10个属性值数据集(如表1)为例，所述模糊集划分方法的具体步骤如下：

表1：含有10个样本的数据集

Step1、对属性值数据按从大到小排序：10，10，3，1.8，1，1，1，1，1，1；

Step2、利用动态规划算法对排序好的属性值数据进行自动划分：

Step2.1、将排序后的属性值数据分别用p_i(i＝1,2,...,10)表示,即p₁＝10，p₂＝10，p₃＝3，p₄＝1.8，p₅＝1，p₆＝1，p₇＝1，p₈＝1，p₉＝1，p₁₀＝1；

Step2.2、设f(0)＝0，B₀＝Φ，r₀＝0；

Step2.3、计算f(t)＝0，B_t，r_t，t＝1,2,...,10，计算过程可根据下面的式子：

这里

α＝0.5，||diff(B_t)||定义如下：

通过计算可得：B₁＝{p₁}，B₂＝{p₁,p₂}，B₃＝{p₁,p₂,p₃}，B₄＝{p₃,p₄}，B₅＝{p₄,p₅}，B₆＝{p₄,p₅,p₅}，B₇＝{p₄,p₅,p₆,p₇}，B₈＝{p₅,p₆,p₇,p₈}，B₉＝{p₅,p₆,p₇,p₈,p₉}，B₁₀＝{p₅,p₆,p₇,p₈,p₉,p₁₀}；

Step2.4、从B₁₀＝{p₅,p₆,p₇,p₈,p₉,p₉}开始，利用回溯法得到最优的划分{p₁,p₂},{p₃,p₄}，{p₅,p₆,p₇,p₈,p₉,p₉}；

Step2.5、输出B₁'＝{p₁,p₂},B'₂＝{p₃,p₄}，B₃'＝{p₅,p₆,p₇,p₈,p₉,p₉}。

Step3、计算划分区间所覆盖属性值数据的平均值ms₁,ms₂,ms₃，其中：

Step4、将所有划分的平均值ms₁,ms₂,ms₃作为参数构建模糊集A_k ¹,A_k ²,A_k ³；

Step4.1、将A_k ¹设为右梯形的模糊集，其隶属函数由参数ms₁,ms₂构成；

Step4.2、将A_k ³设为左梯形的模糊集，其隶属函数由参数ms₂,ms₃构成；

Step4.3、将A_k ²设为三角形的模糊集，其隶属函数由参数ms₁,ms₂,ms₃构成；

Step4.4、输出所有的模糊集A_k ¹,A_k ²,A_k ³，具体隶属形式和语义解释如附图1所示，其中A_k ¹表示语义上的“小”，A_k ²语义上的“中”，A_k ³表示语义上的“大”。

实施例3：为了现实本发明在实际数据集上的效果，本实施例以UCI数据库中的含有3个类别的150条数据(样本)的Iris数据集为例，这里仅考虑petallength属性上的数据，通过所述的基于动态规划的模糊集划分方法Step1-Step2的处理，该属性上的数据可被自动划分为三个类簇或划分，具体形式如附图2所示。在图2中，横坐标表示样本点的序号或ID，纵坐标表示样本的属性值，来自同一个类簇或划分的样本点用相同的符号来标注，从图2中划分后数据的分布可以发现，本发明可以取得较好的表征效果。

实施例4：为了验证所涉及的基于动态规划的模糊集自动划分方法在模糊理论系统、知识发现领域中的应用效果，本实施例将本发明所自动构建的模糊集应用于决策树的构造中(记作DP-FDT，其中α＝0.1，模糊决策树构造中所涉及截集的参数设置为0.5)，并与传统的C4.5、LAD、SC、RF等决策树算法进行了对比分析。这些传统决策树算法都是利用WEKA工具箱(软件版本是3.6.9)实现的，同时算法中所有的参数都是用的工具箱中的默认值。本实施例中的对比实验所采用的数据集是UCI数据库中经常使用的24个数据集，这些数据集的具体信息如下表2所示：

表2：24个样本数据集的详细信息

通过将传统的C4.5、LAD、SC、RF以及DP-FDT等决策树算法应用于表2中每个数据集上，在10次10折交叉验证后，各个数据集的平均分类正确率结果如表3所示，其中表中每行标粗的结果表示在该数据集上表现最优的算法，倒数第二行是在所有数据集上对应算法的平均正确率，最后一行表示当前算法在所有数据集上表现最优的个数，具体如下：

表3：在24个数据集上的对比分析

通过表3中的结果可以发现，C4.5算法、LAD算法、SC算法、RT算法和RF算法在24个数据集上能分别有6个、2个、3个、0个和1个数据集取得了较好的效果，而基于本发明的模糊集作构造的DP-FDT算法有12个，这说明DP-FDT算法具有较好的分类能力。

以上结合附图对本发明的具体实施方式作了详细说明，然后还分别在实际数据集上的表征效果以及在模糊决策树中的应用等方面对本发明的具体实际效果进行了分析，但是本发明并不限于上述实施方式以及效果的分析方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。