CN105893483A

CN105893483A - 大数据挖掘过程模型总体框架的构造方法

Info

Publication number: CN105893483A
Application number: CN201610187348.5A
Authority: CN
Inventors: 杨炳儒
Original assignee: Tianjin Bdm Science And Technology Co Ltd
Current assignee: Tianjin Bdm Science And Technology Co Ltd
Priority date: 2016-03-29
Filing date: 2016-03-29
Publication date: 2016-08-24

Abstract

本发明实现了一种大数据挖掘过程模型总体框架的构造方法，对于大数据挖掘(BDM)，不该也不能延续海量数据挖掘(DM)主流发展轨迹‑‑高效可扩展性算法及其应用的研究，因存在着算法运行要依据的过程模型和内在机理；更宏大的软硬件运行与数据存储环境；以及全新的数据前处理与知识后处理的研究。基于此，本发明在20余年DM研究基础上，在拓展基本上共识的BDM定义并严格界定BDM与大数据分析区别的前提下，在与实验科学、理论推演、模拟仿真这三种科研范式相辅相成的第四范式背景下，实现与其有本质差别的BDM机理与模型的突破，即得到BDM本体的内在规律，进而给出较为系统、完备的过程模型整体架构，为后续算法研究奠定基础。

Description

大数据挖掘过程模型总体框架的构造方法

技术领域

本发明在近20余年DM研究的基础上，力求在第四范式背景下实现与其有本质差别的BDM过程模型的突破，给出较为系统、完备的过程模型的总体架构；旨在为后续具体环节上探索性、引领性的方法论研究奠定基础，并以此为突破口演绎出BDM算法与应用研究的核心技术。BDM总体过程模型图如图2所示。

背景技术

一、数据挖掘技术：

数据挖掘(知识发现或KDD)是国际学术前沿多学科交叉的新兴边缘学科，它是指从海量信息中发现新颖的、潜在有用、最终可被用户理解的知识。它融合了人工智能、机器学习、模式识别、统计学、数据库、计算机网络、自然语言处理等众多学科的内容，它是针对生成收集数据的能力迅猛发展，而对信息的处理仍然采用数据统计等传统的方法，这一矛盾而产生的，并迅速发展起来的。

KDD是从海量数据中提取可信的、新颖的、有效的、最终被用户所理解的模式的非平凡提取过程。(DM是KDD的关键步骤或处理阶段)

随时间推移,知识发现(数据挖掘)概念内涵与外延产生了重要扩展,粗略地可划分为四个阶段:结构化数据挖掘DM-----复杂类型数据挖掘CDM(Web与多媒体数据构成的大型异质异构数据库)-----面向系统挖掘(动态--在线—分布式--并行--网络等系统)-----基于知识库的知识发现(KDK).据此,KDD(DM)有如下描述性定义:

在现实世界中，针对客观存在的具有海量性、不确定性、不完全性的量的、质的、复杂形态的知识源，挖掘其中潜在的、先前未知的、用户感兴趣的、最终可被用户理解的模式的非平凡提取过程。大数据特征如图3所示

Gartner公司发布的新兴技术成熟度曲线,引起了研究者的思考：从科学角度而论，大数据的意义何在？WSDM2015为此举行了一场热烈而尖锐的圆桌讨论。这场讨论，由谷歌公司的安德烈研究员组织和主持。专家们基本认同大数据既不是“喧哗与骚动”，也不仅仅是现有技术的放大。超大规模的数据确实能够为信息检索与数据挖掘带来新的概念和挑战，虽然这种突破还达不到爱因斯坦相对论与牛顿力学的程度。

当前应清醒地觉察到：大数据的火热并不意味着对于大数据的了解深入，反而表明大数据存在过度炒作的危险。大数据的基本概念、关键技术以及对其利用上均存在很多疑问和争议。作为大数据的核心专题与热点问题之一的BDM正处于相当初级的阶段。

由于大数据本体的固有特性、原有传统的DM的现实发展和人类认知的局限，逻辑必然地导致BDM面临的若干难以突破的理论瓶颈和应用困境。然而，当前BDM发展的基本态势可能再现了2003年8月27日华盛顿会议(KD&DM)上，科学家们对传统的DM经14年发展做出的科学论断----Fayyad指出：“从科学发展的长远来看，最大的伴脚石是基础理论的缺乏以及所面临的问题和挑战的清晰明白的阐述。...”；R.Uthurusamy也认为“Web的使用和生产厂家的大肆宣传等都会在短时期内影响本领域的发展，...，KDD的基础研究必须消除这些干扰而去努力解决KDD的真正的根本问题。”实应汲取此训。

基于以上背景，我们在基本上达到共识的大数据与BDM定义，以及界定BDM与大数据分析(BDA)区别的前提下；在与实验科学、理论推演、模拟仿真这三种科研范式相辅相成的科学研究第四范式。

二、KDD过程模型

通过数据挖掘(KDD，Knowledge Discovery in Database)过程，感兴趣的知识或高层信息可以从数据库相关数据集中抽取出来并从不同角度进行研究。目前绝大部分KDD的算法没有将KDD作为认知的复杂系统对其内在的规律性加以研究，且都没有深层次地考虑知识库，挖掘出来的许多假设规则与知识库中的已有知识是重复的和冗余的，甚至是不相容的，并且仅靠人机交互形成聚焦，而没有体现系统自身的认知自主性，因此对KDD定义中要求的新颖性和有效性就无法体现出来。为此，KDD*过程模型从知识发现、认知科学与智能系统交叉结合的角度，提出了双库协同机制。构建了将KDD与双库协同机制相结合的KDD*过程模型，从而改变了KDD固有的运行机制，在结构与功能上形成了相对于KDD而言的一个开放的、优化的扩体。双库协同机制的引入使得KDD在功能上得到了进一步的完善，KDD*过程模型的结构如图1所示。

发明内容

一、本发明的目的在于，根据在第四范式背景下实现的与其有本质差别的BDM过程模型的突破，给出较为系统、完备的过程模型的总体架构；旨在为后续具体环节上探索性、引领性的方法论研究奠定基础，并以此为突破口演绎出BDM算法与应用研究的核心技术。

二、本发明的技术方案为：

构造BDM总体过程模型(总体流程)主要取决于下列五点：

1)BDM的内在机理；

2)BDM的创新理念，特别是大数据本身所具有的4V特征,及其矛盾分析的结果；

3)BDM技术架构与基础设施；

4)现代研究表明：分层递阶结构是降低系统复杂度的最有效的处理手段,而有序的粒度空间理论是建立复杂系统的分层递阶结构最有效的手段之一；

5)直接或间接地做了部分的实验验证。

基于此，提出全新的、与海量数据挖掘有着本质区别的BDM过程模型的总体架构。如图2所示。

1)虚拟协同过滤(筛)层：本层综合了流过滤、数据场筛、信息熵筛和因果关系链筛技术；

流过滤:布隆过滤技术就是通过哈希操作，可去掉不满足选择准则的大部分元祖；Web网页过滤就是通过迭代计算每个网页的权威度与导航度，以决取舍。

数据场筛：数据场筛就是在数据场中，通过数据集的规模与辐射系数建立函数关系，以达到对数据进行筛选的目的。

信息熵筛：热力学熵适合于研究海量粒子的分布规律,一个系统的熵值是与其无规程度相关的，一个系统无规程度越高则其熵值越大，因此,熵值是一个系统有序度的度量。用熵这个度量无组织程度的参量经转化为知识信息熵后，对数据挖掘中数据向知识的转化情况进行描述。通过它与规则强度的关系，达到预测挖掘效果、找到供挖掘的最小数据量的目标。

因果关系链筛：在各种不同的因果变态之间定义一种偏序关系，从而构成“因果变态链表”。我们视数据元素为“因”，视挖掘目标为“果”；利用执果索因方法，得到n个视角判定各自主因的序列——对挖掘目标影响较大的数据序列，留之弃它。

2)数据分流分类层：依据区分类型论思想。对于类别属性和取值范围不宽的离散型数值属性，可以将每个属性值映射到相应语言变量的语言值；但对于连续型属性、取值范围很宽的离散型属性，必须将其分为若干区间，然后将每个区间映射为一个相应的语言值。

3)基础架构与设施层：本分流后按形态递进新理念，各类数据分别落在Hadoop服务器和大规模集群计算机各自的存储器内；

4)数据集“大化小”层：本层主要设计倾向“磁效应法”、“信息熵法”、“交际法”及“聚焦法”四类方法，另外在这三类方法的基础上，还可利用若干可用、有效的数据压缩、空间降维、属性约简、记录约简等技术。

5)数据挖掘进程层：本层主要任务，就是挖掘任务(场景设想)→预处理→多元聚焦→各类过程模型→各类算法→后处理

三、本发明技术方案的特征与优势：

由所构造的BDM总体过程模型的各层功能与方法的分析可知，具有以下特征与优势：

1)一套从硬件到软件的全新的IT系统。在现实发展中，可在原有的数据平台基础上，做渐近式改进，逐步使其具备分析和处理大数据的能力。对于网络大数据平台，可据实情搭建：本体的、企业日常事务的、流数据的、电子商务的几类。

2)领域知识驱动：不就数据库论BDM，而借助知识库这一“外力”驱动之，具体地实现:“采用领域知识辅助初始发现的聚焦，限制性的搜索(1992,G.Piatesky-Shapiro)、“使用正反两方面的例子来发现新旧知识的协调一致；知识与数据库同步进化”(1993，Jong P.Yoon与Larry Kerschberg)、“用户的先验知识与先前发现的知识可以耦合到发现过程中”(1996，Sarabjot S.Anand)。

3)形态递进：采取结构化数据——Web数据----多媒体数据的挖掘进程。

4)抓主要矛盾：大数据的主要特征：规模大(记A)、种类多(记B)、速度快(记C)、价值密度低(记D)。矛盾分析：数据以一个或多个流的方式到来，不及时处理或存储，则永失之。存在是第一性的！(C)；速度极快，以致将其全部存于活动存储器或在选定时间交互是不可能的，且“抛废物，轻负担”。(D)；再区别类型论(B)；再逐类进行“大化小”(A)。故处理序为：C、D→B→A。(这一点将在后面“BDM总体流程图”中呈现出来)。

5)抓矛盾的主要方面：BDM本质上是数据“模型”的发现过程，实现“三个不”：不采取随机采样而采用全体数据；不竭求精确化而力求混杂性；不竭求发现因果关系而力求发现相关关系。

6)批判的继承性与累积性——自然科学发展规律之一。BDM与传统的DM有本质区别也有联系；在“大化小”的前提下，有些DM算法仍可在BDM中使用；当然还需创新算法。

7)邦弗朗尼原理：给出一个在统计上可行的方法，来避免在搜索数据时出现的大部分“臆造”正响应。(避免将随机出现看成真正出现)。

8)必须开发数据密集型挖掘技术，以有效处理大数据(特别是TB级别或者PB级别规模的数据)。数据密集型挖掘技术的应用背景很广阔，包括信息网络分析、移动对象数据分析等诸多领域。

9)BDM的四项策略：尽量设想挖掘场景；尽量多方面收集数据；尽量整合数据；悉心观察数据特征。

10)云计算是BDM的基础平台与支撑技术。

附图说明

图1为KDD*的总体结构图；

图2为BDM总体过程模型图；

图3为大数据特征图；

图4为知识子库与数据子库的对应结构图,给出了知识子库中“知识结点”与相应数据子库中“数据子类结构”中的层之间的一一对应关系；

图5辐射系数σ与数据集规模的关系图

具体实施方式

一、理论基础：

1、知识表示方法－语言场与语言值结构

定义1：C＝<D，I，N，≤N>，若满足下列条件：

(1)D为基础变量论域R上交叉闭区间的集合，D+为其对应开集；

(2)N≠Φ为语言值的有限集；

(3)≤N为N上的全序关系；

(4)I：N→D为标准值映射，满足保序性，即：n2∈N(n1≠n2∧n1≤N n2→I(n1)≤I(n2))，(≤为偏序关系)；则称C为语言场。

定义2：对于语言场C＝<D，I，N，≤N>，称F＝<D，W，K>为C的语言值结构，如果：(1)C满足定义1；

(2)K为自然数；

(3)W：N→Rk满足：

n2∈N(n1≤N n2→W(n1)≤dicW(n2)〉，

n2∈N(n1≠n2→W(n1)≠W(n2))。

其中，≤dic为[0，1]k上的字典序，即(a1，…。，ak)≤dic(b1，…。，bk)当且仅当存在h，使得当0≤j<h时aj＝bj，ah≤bh。

2、挖掘库与知识库之间泛同伦关系的建立：

1)知识结点：

定义3：在相关于论域X的知识子库中，称按如下形式表达的知识为不确定性规则型知识：

(1)

(2)

(3)

(4)

其中P(X)，Pi(x)，Q(X)，Qj(X)分别为“属性词”(或“状态词”)+“程度词”的形式。

定义4：在定义3中，P(X)与Pi(x)称为知识始结点，Q(X)与Qj(X)称为知识终结点，并分别称为知识素结点；分别称为知识合结点；两者统称为知识结点。

2)数据子类(结构)：

定义5：对于论域X，在相应于知识子库的数据子库中，与每个知识素结点相应的结构S＝<U，N，I，W>称为数据子类结构。其中，U≠Φ，U＝{u1，u2，…}，(ui是数据集，由下述的I形成)，它是在特定的语言场与语言值结构下，表征相应于知识素结点“属性词”或“状态词”的数据集的类(称为数据子类)；N≠Φ为语言值的有限集，它是刻划相应于知识素结点“程度词”的语言值的集合；

I：N→U，它是按语言值将数据集的类U进行划分的映射。在数据连续分布时，通常划分为若干交叉区间(即：)；

W：N→[0，1]K(k为正整数)满足：

n2∈N(n1≤N n2→W(n1)≤dicW(n2))，

n2∈N(n1≠n2→W(n1)≠W(n2))。

3)“知识结点”与“数据子类(结构)”的关系：

定义6：设X与Y是任意的拓扑空间，称连续映射

F：X×[0,1]ⁿ→Y为X到Y的映射的泛同伦。(通常意义下同伦概念的扩展)。

定义7：设f，g为从拓扑空间X到Y的连续映射，若存在泛同伦F(x，t)＝ft(x)，使得对于任意点x∈X均有f(x)＝F(x，(0，…，0))，g(x)＝F(x，(1，…，1))，则称g泛同伦于f，并称F为连续映射f与映射g的泛同伦，记作f～g。

定义8：设给定两个拓扑空间，若至少存在一个空间到另一个空间的一个泛同伦等价的映射，则称这两个空间为同一泛同伦型的空间。

由上述分析可知：在把一个空间换成同一个泛同伦型的空间时，泛同伦类集合的结构并无改变，所以在同伦理论里，可以把同一泛同伦型的空间看做是相同的。给出了知识子库中“知识结点”与相应数据子库中“数据子类结构”中的层之间的一一对应关系，如图4所示。

3、广义细胞自动机

定义9：在离散化的欧几里德时空条件下，Ц＝<U，T，E，η>称为细胞自动机。其中，U是状态空间U，其元素u称为状态；T是时间序列，其元素t称为时刻；E是细胞集合，其元素e称为细胞(即空间区域)；是映射集合，元素称为赋态映射。

定义10：Π＝<Ц，→>称为因果细胞自动机，若因果必然性规律满足下列三个条件：

(1)有限变化原理—自然界的因果必然性规律是构筑在适于描述任何时空区域的有限集合基础上，每个时空区域都可作为这些性质的描述对象；

(2)因果存在性原理—规律支配某时空区域，则对自动机大部分区域也适用(适于似决定论的细胞自动机)；

(3)因果一致性原理—该规律不仅适于某时空区域，而且适于整个细胞自动机，即整个可达性时空区域(适于决定论的细胞自动机)；

定义11：归纳逻辑因果模型是满足下列条件的语义结构X＝<S，Π>

(1)S＝(S_a，S₁，……S_M)，S_i为受因果必然性规律所支配的可能的因果世界，S_a为现实的世界；S_i＝(V_i1，V_i2，……)，V_ij表示组成S_i的不同的历史，每个历史是不同时空段的世界。

(2)Π是满足定义10的因果细胞自动机；每个可能的因果世界都用相应的因果细胞自动机来描述。

定义12：Γ^*＝＜Π^*,→>称为广义细胞自动机，若因果必然性规律满足定义10，和下述条件：

(1)因果状(变)态原理—在连续、渐变的因果联系过程中，对于任意样本空间而言，细胞e在时刻t′的所有可能的状(变)态(作为结果)必然是由前一时刻t细胞e的邻域N(e)取“正”(如语言值“小”)与“反”(如语言值“不小”)两类状态作为原因所导致的。

(2)(变态与状态转换原理)当原因与结果所取变态与状态的语言场同构时，对于因果变态联系的规律同样适用于因果状态联系的规律，反之亦然。

4、知识短缺

启发型协调器的功能是模拟“创见意象”这一认知心理特征，从而实现系统自身发现知识短缺(短缺知识就是知识库中到当前为止还没有的知识)。在经典KDD进程中，系统的聚焦通常是由用户提供感兴趣方向，大量数据中的潜在有用的信息往往被用户忽略。为帮助KDD尽可能多的搜索到对用户有用的信息，以弥补用户或领域专家自身的局限性，提高机器的认知自主性，我们构造了启发型协调器。这样，知识发现系统在原有的用户聚焦的基础上，又增加了系统自身提供聚焦方向的功能。

那么何为“知识短缺”呢？我们要做如下的限定：

(1)短缺知识只考虑单个后件的规则；

(2)同一属性的属性程度词不同时出现在同一规则的前件和后件中；

(3)根据具体问题确定短缺知识最多的前件个数，因为前件个数过多势必造成规则难于理解。

(4)对某条规则e₁∧e₂∧…∧e_m→h，其规则长度为m+1：

(5)如果知识库中已有了A→B和B→C，则规则A→C就不是短缺的知识。

如何发现“知识短缺”呢？如果知识库中只考虑单前件和单后件的知识，我们可以把规则的前件和后件看作图的顶点，利用图论中求解可达关系的方法来发现“知识短缺”。但知识库中的规则很多都具有多个条件，为此，我们定义了有向超图来解决这个问题。

定义13：一个超图是一个二元组<V，E>，其中V＝{p₁，p₂，…p_n}是一个非空集合，它的元素称为有向图的顶点；E＝{e₁，e₂，…，e_m}是超边的集合，其中任意的e_i(i＝1，2，…，m)都是V的一个子集。

定义14：一个有向超图是一个二元组<V，E>，其中V＝{p₁，p₂，…p_n}是素知识结点的集合作为图的顶点，E＝{e₁，e₂，…，e_m}是知识库中规则所对应的有向边。如一条规则r_i＝p₁∧p₂∧…∧p_k→p_j，则有向边ei＝<(p₁，p₂，…，p_k)，p_j>是一个序偶，其第一个元素是V的一个子集，与规则的前件相对应，其第二个元素是V的一个元素，与规则的后件相对应。

定义15：我们称与同一条超边关联的顶点互相邻接；若两条超边有一公共顶点，则称这两条有向超边邻接。

我们使用关联规则的支持度(support)的概念来描述规则强度的客观方面。即规则A→B的支持度是数据库事务的集合中同时包含A和B的百分比。

定义16：感兴趣度(interestingness)是指对数据库中的各属性或属性程度词的感兴趣程度，也就是用户对知识库中知识素结点的感兴趣程度。在预处理阶段，首先由用户给出每个属性程度词的感兴趣度，即对知识素结点e_k的感兴趣程度，记为Interestingness(e_k)，其值域为[0，1]，该值越大，说明用户对该知识素结点越感兴趣。对于知识合结点F＝e₁∧e₂∧…∧e_m，其感兴趣度为各知识素结点的感兴趣度的平均值，即

I n t e r e s t i n g (F) = Σ_{i = 1}^{m} I n t e r s t i n g n e s s (e_{i}) / m

对于一条规则r_i:F→h，它的感兴趣度为

I n t e r e s t i n g n e s s (r_{i}) = [Σ_{i = 1}^{m} I n t e r s t i n g n e s s (e_{i}) + I n t e r e s t i n g n e s s (h)] / L e n (r_{i})

其中，Len(r_i)是规则r_i的长度。

定义17：规则强度(Intensity)包含对规则的客观的支持度和主观的感兴趣度两方面。对规则r_i:F→h，其规则强度为

Intensity(r_i)＝[Interestingness(r_i)+support(r_i)]/2

规则强度同时考虑了主观和客观两方面。一方面，即使支持度较小，只要用户对该规则特别感兴趣，则规则强度就不会太小，从而该知识还可以被聚焦；另一方面，如果用户对某一规则不太感兴趣，只有该规则具有很高的支持度才有可能被聚焦。

维护型协调器的功能是模拟“心理信息修复”这一认知心理特征，从而实现知识库的实时维护。由于维护型协调器对KDD过程的介入，可以在对于重复性、矛盾、冗余性给予准确定义的基础上，利用超图等理论工具，实时地、尽早地将重复、矛盾、冗余的知识进行处理，从而做到只对那些有可能成为新知识的假设进行评价，最大限度地减少了评价工作量；同时，可对知识库进行实时维护。在实际的专家系统中，最终成为新知识的假设占原假设的比例是很小的，大量假设会是重复和冗余的，因此维护型协调器的引入将提高KDD的效率。在这里，首先给出知识重复、矛盾和冗余的定义，然后给出维护型协调算法。

定义18:若在可达矩阵中p(f_i1，f_i2，…，f_is)，j)＝1，则称知识R:f_i1∧f_i2∧…∧f_is→j是重复的。

定义19:知识R:f_i1∧f_i2∧…∧f_is→j是矛盾的当且仅当在知识库中存在一个知识T:f_i1，f_i2，…，f_is→i且attr(p_i)＝attr(p_s)。

定义20:知识R:f_i1∧f_i2∧…∧f_is→j是冗余的当且仅当在知识库中存在一个知识T:f_i1，f_i2，…，f_is→i和知识K:i→j。

5、双库对应原理

Neisser把认知心理学定义为“由感官获取的信息的传输、简约、分散、存储、恢复和使用的全过程”，这与数据挖掘认知过程惊人地相似。于是我们利用认知心理学的两个重要特征(即“创建意象”与“心理信息修复”)来研究数据挖掘的两个重要主题,：(1)通过模拟“创建意象”来实现系统自主发现知识短缺,实施启发式的聚焦(除用户感兴趣式的聚焦外)；(2)通过模拟“心理信息修复”来实现知识库的实时维护。即对于BDM而言，不能仅就数据库论数据挖掘，而要利用其“外力”---知识库，即领域知识驱动数据挖掘；实现“用户的先验知识与先前发现的知识可以耦合到发现过程中”。

在巨大的数据集面前，要实现上述两个主题，就必须避免的全局搜索和全局挖掘,而要采取“定向搜索”和“定向挖掘”；从而,等效地缩小搜索空间、降低算法的复杂度。为此,必须在数据挖掘进程中、数据库和知识库的特定构造下,建立二者之间的某种对应关系。

我们有如下结果：

定义21:论域X的知识结点集N连同其元素间的推理关系r构成一个范畴。把N连同其元素间的推理关系r构成的范畴，称为论域X的推理范畴,记为Cr(N)。

定义22:论域X的数据子类结构集连同其元素间的可达关系“∝”构成一个范畴(证略)。把连同“∝”构成的范畴称为X的数据子类结构可达范畴,记为相应的本原数据子类结构可达范畴记为完全数据子类结构可达范畴记为

定义23：论域X的推理范畴Cr(N)到本原数据子类结构(完全数据子类结构)可达范畴之间存在函子。

证：首先，我们建立论域X的知识结点集N到数据子类结构集之间的自然的1-1映射:其中，f和g的意义分别为1-1映射。当把数据子类结构集换成本原数据子类结构集或完全数据子类结构集时，FO的意义不变。

对任意(n→k)∈HomCr(N)，在元组集中任取u,必有a(u)∈ψ(f-1(n)),也即u/n。但由于u是本原数据库中的元组，故它必须满足论域X本身所固有的属性间的相关规律。由规则的定义，可得u/k,从而a(u)∈f-1(ψ(k))，即于是，从而所以，若有n→k，就有上式成立。于是，我们由这个关系得到了一个从正规则集到可达关系集的映射FH：

下面我们证明映射对(Fo,FH)是一个函子。

设任意η,ζ∈HomCr(N)，η＝(m→n),ζ＝(n→k).由FO的定义，我们来验证(FO,FH)满足函子的4个条件：FO(dom(η))＝dom(FH(η))。由FH的定义，显然成立。FO(cod(η))＝cod(FH(η)).由FH的定义，显然成立。

因为comp(η,ζ)∈HomCr(Ν),所以于是，FH(comp(η,ζ))＝FH(comp(m→n,n→k))＝FH(m→k)＝(FO(m)∝FO(k))＝comp(FO(m)∝FO(n),FO(n)∝FO(k))＝comp(FH(η),FH(ζ))。

对知识结点n，必有n→n，因此有FO(n)∝FO(n).也就是说，FH(1(n))＝1(FO(n))。

故(FO,FH)是Cr(N)到的一个函子。证毕。

从定义23可见，若Cr(Ν)中m到n的推理关系存在，则在中FO(m)到FO(n)的可达关系存在，但反之却不一定成立。因此，进一步地，我们给出双库对应原理中最重要的范畴等价定理：

定义24：(结构对应定理)论域X的推理范畴C_r(N)与完全数据子类结构可达范畴等价。

证：假设函子(FO FH)的意义如引理3所述。由引理3的证明知：FO是一个1-1映射，故FO-1存在。下面再证明FH也是一个一一映射。

取中的任意一个态射(FO(m)∝FO(n)),我们要证明m→n。反证：若不然，则m×→n.由完全数据库的定义，至少存在一个元组u,使得u/m且即但也即关系不成立，从而FO(m)∝FO(n)不成立。这与假设(FO(m)∝FO(n))是态射矛盾。因此，m→n.所以FH-1存在。

容易证明，(FO-1,FH-1)是到Cr(Ν)的一个函子。所以Cr(Ν)与等价。

6、信息扩张原理

(1)基于认知物理学的“语言场理论”(笔者独立提出)与“信息扩散原理”，发现了关联规则的特类——意外规则参数演化的规律；解决了动态和在线挖掘过程中知识评价与取舍等难题。

参数演化定理：在KDD的动态挖掘进程中的某一时间段内，在对实时数据库DB实施分库和每种参数只考虑上升、平行、下降三种演化情况的前提下，对于特类关联规则(意外规则)而言，其组态空间可划归为S＝{<0,0,0,0,0>,<0,0,0,1,-1>,<0,0,0,-1,1>,<-1,0,-1,0,0>,<-1,0,-1,1,-1>,<-1,0,-1,-1,1>,<0,1,-1,0,1>,<0,1,-1,-1,1>,<0,1,-1,1,0>,<0,1,-1,1,1>,<0,1,-1,1,-1>,<-1,1,-1,0,1>,<-1,1,-1,-1,1>,<-1,1,-1,1,0>,<-1,1,-1,1,1>,<-1,1,-1,1,-1>}。(对波动型的情形，利用模糊论的信息扩散原理，可得规则参数波动变化的781种状态)。

利用之，可实现“知识与数据库同步进化”。

(2)信息量定理：如果表示任何一个元素在S_j中出现的概率，I_j是对S_j中的任何一个元素分类所需要的平均信息量，则对样本空间中任一个元素分类所需要的信息量为：

利用之，可在BDM的前处理中，对大数据流进行价值密度低劣数据的过滤。

7、生态演化原理

在BDM中，生态形式可对应归结为：个体(生物)←→数据；个体群←→同类数据集(结构的，Web的，多媒体的等)；群落←→由前者归并的各类数据簇；生态系统←→混杂型数据簇构成的大数据系统。

(1)种群自然调节：在环境无明显变化的条件下，数据集(指由同类数据组成的数据集)的数量有保持稳定的趋势。

(2)演替：数据在挖掘过程中，不断地由知识库等环境输入知识信息等驱动挖掘过程，同时又向其输出挖掘出并经评价过的知识；而被数据改变的知识库等又反过来影响着数据或对数据的选择(聚焦)。

(3)免疫进化:a.把新增加的数据作为抗原，把已有的知识作为抗体；通过抗体对抗原的识别，依据其结合强度的大小，实现抗体的增值、分化、变异；通过记录知识的持续数，表征知识的衰减和保持。在动态挖掘进程和生物免疫进化过程协同原理的基础上，按照哈肯协同学思想,若把每次挖掘的结果看成是一个微观层次的子系统,则整个动态挖掘进程就是在已有的结果上再进一步给予宏观上研究,形成整体认识和评价,有效地防止上一次挖掘的结果的不确定性所带来的影响。b.结合双库对应原理中的启发型和维护型协调器，把常识、用户与专家知识作为疫苗，实现对抗体的接种，形成定向挖掘，提高抗体的适应性以及获取新的知识的能力。对获得的新规则不急于作为记忆保存，而是先评价。期望去除矛盾知识，但是重复或冗余的知识要记忆；在形成新的应答抽取初始抗体群时，重复的知识被抽取的可能性更大，宜于实现知识库(记忆库)的实时维护和奉行。

(4)利用生态演化原理，对以前经常挖掘出的知识，在一次挖掘中不因为其不能满足参数阈值要求就随意抛弃，而是加以保护(但持续数降低)，这避免了由于数据的随机分布而带来对挖掘结果的过大影响。

8、泛互克性原理

美国控制论专家、模糊数学创始人查德教授提出互克性原理：当系统的复杂性日益增长时，我们作出系统特性的精密而有意义的描述能力将相应降低，直至达到这样一个界限，其精密性和有意义(或适当性)变成互相排斥的特性。

(1)拓展边界效用递减原理,显见BDM系统相对于海量数据挖掘系统而言复杂性猛增,因此原来意义下挖掘结果的精度与单纯度在大数据显现的特征面前越发显得无意义；代之以不竭求精确化而力求混杂性。

(2)进一步深入的推论是：不采取随机采样而采用全体数据(据邦弗朗尼原理)；不竭求发现因果关系而力求发现相关关系。[7]

(3)在许多场景中，算法需在处理的实时性与准确性间获取一平衡。

二、本发明的具体技术方案:

大数据挖掘过程模型总体框架包括虚拟协同过滤(筛)层、数据分流分类层、分流分类层、基础架构与设施层、数据集“大化小”层、数据挖掘进程层。虚拟协同过滤层主要应用流过滤、数据场筛技术、信息熵筛以及因果关系链筛；分流分类层主要应用区分类型论思想；基础架构与设施层主要是根据分流后按形态递进新理念，各类数据分别落在Hadoop服务器和大规模集群计算机各自的存储器内；数据集“大化小”层主要应用磁效应法、交集法、聚焦法以及其他数据压缩、空间降维、属性约简、记录约简等技术；数据挖掘进程层主要功能是利用各类过程模型和算法对数据进行处理。

下面分别论述大数据挖掘过程模型总体框架中各层次主要涉及的具体技术的实现方案：

1、数据场筛技术的实现有两个步骤组成：

第一步,在数据场中，根据数据集规模与辐射系数σ之间的关系(如图5所示)以及σ与节点间欧式距离，可计算任意结点势函数值，如下公式所示

对于数据流中某个节点位置的势函数值较高者，可形成获准结构；较低者形成剔除结构。

第二步,让所有键值在S中的流元素通过，而阻挡大部分键值不在S中的流元素通过。(即对应的位值全部为1，则允许流元素通过；否则拒绝通过。)

2、信息熵筛技术：

在信息熵筛技术中，利用了在统计力学中的物理学原理：在一定的宏观条件下，一个热力学系统的熵值对应于在满足给定的宏观条件下组成该热力系统的粒子的最可几分布，也就是满足该宏观条件的最无规的分布。热力学理论的研究还证实:一个系统的熵值是与其无规程度相关的，一个系统无规程度越高则其熵值越大，因此，熵值是一个系统有序度的度量。一个系统有序度越高，关于这个系统可获得的知识就越多，一个系统若处于完全无序的状态，则其蕴含的知识量就越小。把这一思想应用到布尔型数据库中，如果一个布尔型数据库中的交易分布是最无规的，那么关于该数据库的各交易之间的关系就找不到什么规律，因此，也就不可能从中挖掘出任何知识。数据库中之所以蕴含有规则(或知识)正是因为数据的分布偏离了无规分布，与最无规分布的偏离越大，则它蕴含的知识就越多。以知识库的信息蕴含量来恒量其知识蕴含量，一个数据库，其信息蕴含量越高则从中可以发现的知识量就越大。

步骤1：在原始数据库中抽取样本；

步骤2：根据抽取的样本计算该数据库的熵值；

步骤3：将最无规分布下的布尔型数据库的熵值与计算出的熵值做差比较；

步骤4：判断比较值。如果差值大于零，该数据库具有有效信息量；如果差值小于零，该数据库不具有有效信息量。

步骤5：程序终止，输出结果。

其中：

最无规分布下的布尔型数据库的熵值公式为：

I_{0} = - Σ_{n = 1}^{K} C_{K}^{n} P_{n} {logP}_{n} = l o g (2^{K} - 1)

公式中的n为数据库中的数据组合，K为数据量，Pn为数据组合出现的概率。

一般认为这一熵值对应的分布为有效信息量为零的分布

计算数据库熵值公式为：

I = - Σ_{k = 1}^{2^{K} - 1} \frac{1}{N_{K}} l o g \frac{1}{N_{K}}

差值的公式为：

I_{e} = I_{0} - I = l o g (2^{K} - 1) + Σ_{k = 1}^{2^{K} - 1} \frac{1}{N_{K}} l o g \frac{1}{N_{K}}

差值反映了数据库中的交易分布与最无规分布的偏离程度即为交易数据库的有效信息量。I_e的最小值为零，只有当交易数据库的I_e值大于零时，才可能从中挖掘出关联规则，并且从统计意义上说，该值越大则数据库中所含规则量就越大。

3、因果关系链筛技术：

在因果关系链筛技术中，由于一个结果的产生是受多个原因制约的，在复杂系统中，当对其中一个原因进行扰动时，其它的原因也可能会受到影响，这样在判定主因的过程中就会遇到一些困难。在用扰动策略来解决因果关系问题上，下面将从另一个方面入手，即给结果一个微弱扰动后，考察各种原因变化的情况，运用执果索因的因果关系主因判定方法进行主因的判定。

因果关系链筛技术实现步骤为：

步骤1：取出各个原因和结果的样本，按照组合情况获得对应的原因和结果的变化值；将变化值进行归一化处理，这样便于比较和处理；

步骤2：将各种变化值根据语言场理论进行量化，确定它们所属的变态的语言值类型；

步骤3：当给结果一个扰动后，计算各种原因变化的情况：①.针对不同的原因，确定大前提(可得该原因相应的Fuzzy条件语句)；②.运用模糊关系方程求解或求最优近似解的方法，求出在上述情况下该原因的因变态变化区间值。

步骤4：通过分析找出果变态下，对应的原因的最小变态值，查因果变态表，经过近似比对后，确定该因变态所属的类型号；

步骤5：根据“因果变态链”判定各个因变态类型在整个链中的位置。其中对应位置在最右边的那个原因就是在给定论域上影响结果变化最大的主因。

4、磁效应法技术分析：

①若给定挖掘任务T及精度δ，则存在“最小”数据子集K≤D(D为真实数据集)，其势为Ω(Ω<|D|)，使得在K中实施挖掘任务T至少具有精度δ，且Ω是可估的，称K是D的“核集”。K本质上是数据场中重质量数据构成的，Ω极大可能通过优化两个目标函数(二次规划)来获得，即min J(语言场下)、max Iv(信息熵下)。

②K的构造性算法：根据估计值Ω，可通过对若干初始数据样本(称为“核吸引子”)做有限次扩展(利用“语义测度”实施“磁吸引”)，直到其势达到Ω为止。

5、信息熵法技术分析：

通过知识信息熵与规则强度的关系，找到达到预测挖掘效果、供挖掘的最小数据量的目标(如可至TB级)；然后采用“基于最小包含球的大数据集快速

聚类算法”等寻求聚类中心，再用“核吸引子”方法形成挖据数据集。

6、交集法技术分析：

据“双库协同机制”，在给定挖掘任务的语言值描述下：i)将涉及相应语言值的知识结点所对应的数据子类结构的层(数值集)取交集；ii)依此交集(数值集)所对应的关系数据库中的记录，再造新的挖掘数据集。

7、聚焦法技术分析：

用户兴趣(或OLAP等)与“知识短缺”(通过有向超图关联矩阵---大型稀疏矩阵求得)两者存在且相同时，所对应的关系数据库中的记录集，构成挖掘数据子集。

8、多元聚焦技术分析：主要利用兴趣度、OLAP、知识短缺等技术。

9、各类具体算法分析：

①“大化小”处理后，可沿用传统的DM的若干算法；

②大数据背景下的若干创新性算法初探。

10、后处理分析：利用知识融合技术、可视化技术等。

11、针对结构化数据挖掘的KDD*模型。

结构化数据挖掘的KDD*模型就是KDD+双库协同机制。

其中，符号“+”表示在KDD技术的基础上融入双库协同机制的机理，即构建数据库与基础知识库的内在联系“通道”，从而用基础知识库去制约与驱动KDD的挖掘过程，改变KDD固有的运行机制，在结构与功能上形成了相对于KDD而言的一个开放的、优化的扩体。

该模型中主要包括如下几方面：

(1)预处理：对原始数据进行包括数据净化、数值化与特定转换等在内的处理，形成挖掘数据库DMDB，以供数据挖掘过程使用。

(2)聚焦：即从挖掘数据库里进行数据的选择。进行聚焦的方法主要是利用聚类分析和判别分析。指导数据聚焦的方式有：①通过人机交互由专家提出感兴趣的内容，让专家来指导数据挖掘的方向。②利用启发式协调器进行定向的数据挖掘。

(3)求取假设规则：这是KDD的核心，它是针对真实数据库(具有大数据量、不完全性、不确定性、结构性、稀疏性等特点)中数据所隐藏的、先前未知的及具有潜在应用价值的信息进行非平凡抽取。在本系统中主要是抽取因果关联规则，从而进一步丰富基础知识库。使用的挖掘方法是统计归纳推理法与因果关系定性推理法。

(4)双库协同机制：即采用维护型协调器、启发型协调器，分别对所获得的假设规则进行处理和利用关联强度激发数据聚焦进行数据挖掘。这是我们的主要创新点，将在下面的几节中加以介绍。

(5)评价：这一环节主要用于对所获得的假设规则进行评价，以决定所得的规则是否存入知识库。使用的方法主要有：1)由规则的关联强度，通过设定一定的阈值，由计算机来实现；2)通过人机交互界面由专家来评价，也可利用可视化工具所提供的各类图形和分析资料进行评价。将经评价认可的规则作为新知识存入衍生知识库中。

12、针对非(半)结构化数据挖掘的DFSSM模型。

非(半)结构化数据挖掘的DFSSM模型是通过Hilbert子空间构造，将特征抽取、变换与映射过程融为一体，使挖掘对象范围更加广泛，同时简约了特征子空间的选取过程，提高了挖掘效率。

DFSSM主要分为如下几个部分：

(1)复杂类型数据的知识表示及数据预处理过程

为了全面地表征待挖掘对象，需在高维空间中构建其表示方式。由于Hilbert空间可以很好地描述和刻画挖掘对象在状态空间中的性质和结构，所以在此空间进行特征抽取、特征变化及特征子空间的选取等一系列的操作；最终用模式来表征复杂类型数据，使得后续的各种处理过程可以参考结构化知识发现过程。

在数据预处理阶段，首先判断复杂数据的类型(如文本数据、多媒体数据、空间数据及时序数据等)，然后选择合适的特征抽取工具，进行复杂数据对象的特征抽取操作，形成原始的特征表征方式。该数据表征方式是构建在高维数据空间(Hilbert空间)中，由Hilbert空间定义可知Hilbert空间是一个完备的线性赋范空间，所以它必然是一个线性空间。在线性空间中存在线性变换，通过线性变换可以构建子空间，并可以利用子空间来对原始空间进行描述。其中空间变换成为从不同的角度分析和观察原始空间的有益工具。同时从原始空间到子空间，其维数将减少，更加适合于知识发现过程。在此提出了发现特征子空间模型DFSSM方法。相对于传统的向量空间模型VSM方法而言，它将特征表征中的特征抽取、变换及映射过程融合成一个整体；其适用的挖掘对象范围更加广泛；同时简约了特征子集的选取过程，提高了挖掘效率。

DFSSM方法主要通过在高维的Hilbert空间进行特征抽取，形成原始数据集；然后在此基础上进行特征变换(对于文本数据类型、多媒体等数据类型可以采用空间层次分解方法，如小波分析处理)，构造维数适中的特征子空间；在该特征子空间可以利用矩阵的奇异值分解变化和近似计算方法来构造模式。

(2)复杂类型数据的知识发现过程

基于模式的知识发现同形象思维十分相似，它包含着比较、研究、推测、预测并遵从抽象化和具体化的法则。利用不同层次的模式可获得反映事物的共性或本质的规律，通过模式操作来形成分类、聚类、相似等形式以反映事物内在的本质或规律。

在关系数据库R中，对于规范化以后的数据库模式来说，任何一个非主属性的完全函数依赖于每个候选关键字，并且不存在任何非主属性传递函数依赖于R的某个候选关键字；属性与属性之间则是相互独立的。结构化的知识发现就是建立在此基础之上。知识发现过程中是以属性为基本的信息单元参与知识发现的全过程，并以属性与属性之间的关系来表征知识。

但是对于文本、多媒体数据、空间数据、时序数据等复杂类型的数据来说，难以用独立的属性来对其进行表征，而是用属性的集合以及集合之间的关系来进行描述。模式可以很好地表征这种数据的集合及其元素之间的关系。由于模式表示的是一个相对来说独立的概念，模式可以同客观对象的组织结构建立联系，也可以表示十分抽象的概念更具有可理解性。在复杂类型数据的知识发现过程中模式(或子模式)作为一个整体，参与知识发现的过程。同结构化数据的知识发现相类似，基于模式可以进行关联、分类和聚类以及预测等类型的知识发现。

基于模式的知识发现过程是一个发现新模式或对模式进行某种确证的过程。由于模式是定义在Hilbert空间中，因而基于模式的知识发现同空间变换紧密地联系在一起。可同分类、聚类、相似模式等收敛型的知识发现算法及预测、时序等发散型的知识发现算法相结合，来完成各种类型的知识发现。同样，在结构化数据的知识发现中，运用模式可以发现不同抽象层次的知识。

(3)模式的评价

经过数据挖掘处理后将形成大量假设模式集，它们需要进行相应的评价才能够存放到知识库中，并为模式的使用奠定基础。

评价过程需要构造模式评价函数，同时结合评价的主客观标准，采用定量的方式来评估结果模式集中有效的、新颖的、潜在可用的及最终可理解的模式，并把它存放到知识库中。

对于文本挖掘来说，其评价函数可以采用查全率、查准率及信息估值等客观指标，也可以定义用户感兴趣度等主观指标。

(4)模式的解释与呈现

由于模式本身的可视性不强，不能够让用户快速、准确地从模式集合中获取其所需要的知识。因此，对于知识库中的模式进行解释和呈现就成为用户获取知识的一种有效方式。

在此，结合超图模型来表示相应的模式，用图形的方式直观地反映模式集。超图模型不仅可以用形象化的方式来表示知识结构，简化复杂的知识结构，使得领域专家通过可视化途径进行模式的操作；同时模式的超图模型同面向对象技术有着很好的对应关系，易于采用面向对象技术编程实现模式的可视化。

对于文本挖掘来说，采用可视化信息导航机制给用户提供简明、多视角的知识获取方法；使得用户能够更快的接受信息，并根据自己的兴趣度对所反馈的挖掘结果进行有目的的查询和浏览。

(5)双库协同机制——两个协调器的构建

提出了基于复杂类型数据的知识发现系统的双库协同机制(包括启发型协调器和维护型协调器的构建)，这是双库协同机制的适用性从结构化数据挖掘向非(半)结构化数据挖掘的重要拓展与体现。

启发型协调器的主要目的是为系统的聚焦提供另一个途径。在经典知识发现进程中，系统的聚焦通常是由用户提供感兴趣方向，知识发现系统沿此方向进行挖掘。但如果仅沿此方向行进，大量数据中的潜在的、也许会对用户有用的信息往往会被忽略掉。为尽可能多地搜索到对用户有用的信息，以弥补用户或领域专家自身的局限性，提高机器的认知自主性，而构造了启发型协调器。启发型协调器是通过启发协调算法来实现的，算法的实质是通过寻求知识短缺产生创见意向，使系统产生自动聚焦与定向挖掘。

维护型协调器的主要目的是实时地、尽早地将重复、冗余、矛盾的知识进行处理，从而做到只对那些有可能成为新知识的假设进行评价，最大限度地减少了评价工作量。传统的知识发现系统，对KDD过程产生的假设直接进行评价，被接受的知识归并到知识库时，由知识库管理系统负责对知识库的重复性、冗余性、一致性进行检查与处理，形成新的知识库。此方式的缺点是：形成许多无意义的假设评价和由于问题的大量积累而加重检查的负担。在实际的专家系统中，最终成为新知识的假设占原假设的比例是很小的(发现新知识是困难的)，大量假设会是重复和冗余的，因此维护型协调器的引入将提高知识发现系统的效率，利于知识库的实时维护。

以上具体实施方式仅用于说明本发明，而非用于限定本发明。

Claims

1.大数据挖掘过程模型总体框架的构造方法，其特征在于：包括虚拟协同过滤(筛)层、数据分流分类层、基础架构与设施层、数据集“大化小”层、数据挖掘进程层；

流过滤:布隆过滤技术就是通过哈希操作，可去掉不满足选择准则的大部分元祖；Web网页过滤就是通过迭代计算每个网页的权威度与导航度，以决取舍；

数据场筛：数据场筛就是在数据场中，通过数据集的规模与辐射系数建立函数关系，以达到对数据进行筛选的目的；

信息熵筛：热力学熵适合于研究海量粒子的分布规律,一个系统的熵值是与其无规程度相关的，一个系统无规程度越高则其熵值越大，因此,熵值是一个系统有序度的度量，用熵这个度量无组织程度的参量经转化为知识信息熵后，对数据挖掘中数据向知识的转化情况进行描述，通过它与规则强度的关系，达到预测挖掘效果、找到供挖掘的最小数据量的目标；

因果关系链筛：在各种不同的因果变态之间定义一种偏序关系，从而构成“因果变态链表”，我们视数据元素为“因”，视挖掘目标为“果”；利用执果索因方法，得到n个视角判定各自主因的序列——对挖掘目标影响较大的数据序列，留之弃它；

2)数据分流分类层：依据区分类型论思想，对于类别属性和取值范围不宽的离散型数值属性，可以将每个属性值映射到相应语言变量的语言值；但对于连续型属性、取值范围很宽的离散型属性，必须将其分为若干区间，然后将每个区间映射为一个相应的语言值；

4)数据集“大化小”层：本层主要设计倾向“磁效应法”、“信息熵法”、“交际法”及“聚焦法”四类方法，另外在这三类方法的基础上，还可利用若干可用、有效的数据压缩、空间降维、属性约简、记录约简等技术；

5)数据挖掘进程层：本层主要任务，就是挖掘任务(场景设想)→预处理→多元聚焦→各类过程模型→各类算法→后处理。

2.如权利要求1所述的大数据挖掘过程模型总体框架的构造方法，其特征在于：

数据场筛技术的实现有两个步骤组成：

第一步,在数据场中，根据数据集规模与辐射系数σ之间的关系以及σ与节点间欧式距离，可计算任意结点势函数值，如下公式所示

对于数据流中某个节点位置的势函数值较高者，可形成获准结构；较低者形成剔除结构；

第二步,让所有键值在S中的流元素通过，而阻挡大部分键值不在S中的流元素通过(即对应的位值全部为1，则允许流元素通过；否则拒绝通过)。

3.如权利要求1所述的大数据挖掘过程模型总体框架的构造方法，其特征在于：

信息熵筛技术：

在信息熵筛技术中，利用了在统计力学中的物理学原理：在一定的宏观条件下，一个热力学系统的熵值对应于在满足给定的宏观条件下组成该热力系统的粒子的最可几分布，也就是满足该宏观条件的最无规的分布，热力学理论的研究还证实:一个系统的熵值是与其无规程度相关的，一个系统无规程度越高则其熵值越大，因此，熵值是一个系统有序度的度量，一个系统有序度越高，关于这个系统可获得的知识就越多，一个系统若处于完全无序的状态，则其蕴含的知识量就越小，把这一思想应用到布尔型数据库中，如果一个布尔型数据库中的交易分布是最无规的，那么关于该数据库的各交易之间的关系就找不到什么规律，因此，也就不可能从中挖掘出任何知识，数据库中之所以蕴含有规则(或知识)正是因为数据的分布偏离了无规分布，与最无规分布的偏离越大，则它蕴含的知识就越多，以知识库的信息蕴含量来恒量其知识蕴含量，一个数据库，其信息蕴含量越高则从中可以发现的知识量就越大；

因果关系链筛技术：

在因果关系链筛技术中，由于一个结果的产生是受多个原因制约的，在复杂系统中，当对其中一个原因进行扰动时，其它的原因也可能会受到影响，这样在判定主因的过程中就会遇到一些困难，在用扰动策略来解决因果关系问题上，下面将从另一个方面入手，即给结果一个微弱扰动后，考察各种原因变化的情况，运用执果索因的因果关系主因判定方法进行主因的判定。

4.如权利要求1所述的大数据挖掘过程模型总体框架的构造方法，其特征在于：

信息熵筛技术实现步骤为：

步骤1：在原始数据库中抽取样本；

步骤2：根据抽取的样本计算该数据库的熵值；

步骤4：判断比较值，如果差值大于零，该数据库具有有效信息量；如果差值小于零，该数据库不具有有效信息量；

步骤5：程序终止，输出结果；

其中：

最无规分布下的布尔型数据库的熵值公式为：

I_{0} = - Σ_{n = 1}^{K} C_{K}^{n} P_{n} \log P_{n} = l o g (2^{K} - 1)

公式中的n为数据库中的数据组合，K为数据量，Pn为数据组合出现的概率，

一般认为这一熵值对应的分布为有效信息量为零的分布

计算数据库熵值公式为：

I = - Σ_{k = 1}^{2^{K} - 1} \frac{1}{N_{K}} l o g \frac{1}{N_{K}}

差值的公式为：

I_{e} = I_{0} - I = l o g (2^{K} - 1) + Σ_{k = 1}^{2^{K} - 1} \frac{1}{N_{K}} l o g \frac{1}{N_{K}}

差值反映了数据库中的交易分布与最无规分布的偏离程度即为交易数据库的有效信息量，I_e的最小值为零，只有当交易数据库的I_e值大于零时，才可能从中挖掘出关联规则，并且从统计意义上说，该值越大则数据库中所含规则量就越大。

5.如权利要求1所述的大数据挖掘过程模型总体框架的构造方法，其特征在于：

因果关系链筛技术实现步骤为：

步骤3：当给结果一个扰动后，计算各种原因变化的情况：①针对不同的原因，确定大前提(可得该原因相应的Fuzzy条件语句)；②运用模糊关系方程求解或求最优近似解的方法，求出在上述情况下该原因的因变态变化区间值；

步骤5：根据“因果变态链”判定各个因变态类型在整个链中的位置，其中对应位置在最右边的那个原因就是在给定论域上影响结果变化最大的主因。

6.如权利要求4所述的大数据挖掘过程模型总体框架的构造方法，其特征在于：

磁效应法技术分析：

①若给定挖掘任务T及精度δ，则存在“最小”数据子集K≤D(D为真实数据集)，其势为Ω(Ω<|D|)，使得在K中实施挖掘任务T至少具有精度δ，且Ω是可估的，称K是D的“核集”，K本质上是数据场中重质量数据构成的，Ω极大可能通过优化两个目标函数(二次规划)来获得，即min J(语言场下)、max Iv(信息熵下)；

②K的构造性算法：根据估计值Ω，可通过对若干初始数据样本(称为“核吸引子”)做有限次扩展(利用“语义测度”实施“磁吸引”)，直到其势达到Ω为止；

信息熵法技术分析：

通过知识信息熵与规则强度的关系，找到达到预测挖掘效果、供挖掘的最小数据量的目标(如可至TB级)；然后采用“基于最小包含球的大数据集快速聚类算法”等寻求聚类中心，再用“核吸引子”方法形成挖据数据集；

交集法技术分析：

据“双库协同机制”，在给定挖掘任务的语言值描述下：i)将涉及相应语言值的知识结点所对应的数据子类结构的层(数值集)取交集；ii)依此交集(数值集)所对应的关系数据库中的记录，再造新的挖掘数据集；

聚焦法技术分析：

7.如权利要求5所述的大数据挖掘过程模型总体框架的构造方法，其特征在于：

多元聚焦技术分析：主要利用兴趣度、OLAP、知识短缺等技术；

各类具体算法分析：

①“大化小”处理后，可沿用传统的DM的若干算法；

②大数据背景下的若干创新性算法初探；

后处理分析：利用知识融合技术、可视化技术等。

8.如权利要求5所述的大数据挖掘过程模型总体框架的构造方法，其特征在于：

各类具体结构模型分析：

第一个模型，针对结构化数据挖掘的KDD*模型；

结构化数据挖掘的KDD*模型就是KDD+双库协同机制；

其中，符号“+”表示在KDD技术的基础上融入双库协同机制的机理，即构建数据库与基础知识库的内在联系“通道”，从而用基础知识库去制约与驱动KDD的挖掘过程，改变KDD固有的运行机制，在结构与功能上形成了相对于KDD而言的一个开放的、优化的扩体；

该模型中主要包括如下几方面：

(1)预处理：对原始数据进行包括数据净化、数值化与特定转换等在内的处理，形成挖掘数据库DMDB，以供数据挖掘过程使用；

(2)聚焦：即从挖掘数据库里进行数据的选择，进行聚焦的方法主要是利用聚类分析和判别分析。指导数据聚焦的方式有：①通过人机交互由专家提出感兴趣的内容，让专家来指导数据挖掘的方向；②利用启发式协调器进行定向的数据挖掘；

(3)求取假设规则：这是KDD的核心，它是针对真实数据库(具有大数据量、不完全性、不确定性、结构性、稀疏性等特点)中数据所隐藏的、先前未知的及具有潜在应用价值的信息进行非平凡抽取，在本系统中主要是抽取因果关联规则，从而进一步丰富基础知识库，使用的挖掘方法是统计归纳推理法与因果关系定性推理法；

(4)双库协同机制：即采用维护型协调器、启发型协调器，分别对所获得的假设规则进行处理和利用关联强度激发数据聚焦进行数据挖掘，这是我们的主要创新点，将在下面的几节中加以介绍；

(5)评价：这一环节主要用于对所获得的假设规则进行评价，以决定所得的规则是否存入知识库，使用的方法主要有：1)由规则的关联强度，通过设定一定的阈值，由计算机来实现；2)通过人机交互界面由专家来评价，也可利用可视化工具所提供的各类图形和分析资料进行评价，将经评价认可的规则作为新知识存入衍生知识库中；

第二个模型，针对非(半)结构化数据挖掘的DFSSM模型；

非(半)结构化数据挖掘的DFSSM模型是通过Hilbert子空间构造，将特征抽取、变换与映射过程融为一体，使挖掘对象范围更加广泛，同时简约了特征子空间的选取过程，提高了挖掘效率；

DFSSM主要分为如下几个部分：

(1)复杂类型数据的知识表示及数据预处理过程

为了全面地表征待挖掘对象，需在高维空间中构建其表示方式，由于Hilbert空间可以很好地描述和刻画挖掘对象在状态空间中的性质和结构，所以在此空间进行特征抽取、特征变化及特征子空间的选取等一系列的操作；最终用模式来表征复杂类型数据，使得后续的各种处理过程可以参考结构化知识发现过程；

在数据预处理阶段，首先判断复杂数据的类型(如文本数据、多媒体数据、空间数据及时序数据等)，然后选择合适的特征抽取工具，进行复杂数据对象的特征抽取操作，形成原始的特征表征方式，该数据表征方式是构建在高维数据空间(Hilbert空间)中，由Hilbert空间定义可知Hilbert空间是一个完备的线性赋范空间，所以它必然是一个线性空间，在线性空间中存在线性变换，通过线性变换可以构建子空间，并可以利用子空间来对原始空间进行描述，其中空间变换成为从不同的角度分析和观察原始空间的有益工具，同时从原始空间到子空间，其维数将减少，更加适合于知识发现过程，在此提出了发现特征子空间模型DFSSM方法，相对于传统的向量空间模型VSM方法而言，它将特征表征中的特征抽取、变换及映射过程融合成一个整体；其适用的挖掘对象范围更加广泛；同时简约了特征子集的选取过程，提高了挖掘效率；

DFSSM方法主要通过在高维的Hilbert空间进行特征抽取，形成原始数据集；然后在此基础上进行特征变换(对于文本数据类型、多媒体等数据类型可以采用空间层次分解方法，如小波分析处理)，构造维数适中的特征子空间；在该特征子空间可以利用矩阵的奇异值分解变化和近似计算方法来构造模式；

(2)复杂类型数据的知识发现过程

基于模式的知识发现同形象思维十分相似，它包含着比较、研究、推测、预测并遵从抽象化和具体化的法则，利用不同层次的模式可获得反映事物的共性或本质的规律，通过模式操作来形成分类、聚类、相似等形式以反映事物内在的本质或规律；

在关系数据库R中，对于规范化以后的数据库模式来说，任何一个非主属性的完全函数依赖于每个候选关键字，并且不存在任何非主属性传递函数依赖于R的某个候选关键字；属性与属性之间则是相互独立的，结构化的知识发现就是建立在此基础之上，知识发现过程中是以属性为基本的信息单元参与知识发现的全过程，并以属性与属性之间的关系来表征知识；

但是对于文本、多媒体数据、空间数据、时序数据等复杂类型的数据来说，难以用独立的属性来对其进行表征，而是用属性的集合以及集合之间的关系来进行描述，模式可以很好地表征这种数据的集合及其元素之间的关系，由于模式表示的是一个相对来说独立的概念，模式可以同客观对象的组织结构建立联系，也可以表示十分抽象的概念更具有可理解性，在复杂类型数据的知识发现过程中模式(或子模式)作为一个整体，参与知识发现的过程，同结构化数据的知识发现相类似，基于模式可以进行关联、分类和聚类以及预测等类型的知识发现；

基于模式的知识发现过程是一个发现新模式或对模式进行某种确证的过程，由于模式是定义在Hilbert空间中，因而基于模式的知识发现同空间变换紧密地联系在一起，可同分类、聚类、相似模式等收敛型的知识发现算法及预测、时序等发散型的知识发现算法相结合，来完成各种类型的知识发现，同样，在结构化数据的知识发现中，运用模式可以发现不同抽象层次的知识；

(3)模式的评价

经过数据挖掘处理后将形成大量假设模式集，它们需要进行相应的评价才能够存放到知识库中，并为模式的使用奠定基础；

评价过程需要构造模式评价函数，同时结合评价的主客观标准，采用定量的方式来评估结果模式集中有效的、新颖的、潜在可用的及最终可理解的模式，并把它存放到知识库中；

对于文本挖掘来说，其评价函数可以采用查全率、查准率及信息估值等客观指标，也可以定义用户感兴趣度等主观指标；

(4)模式的解释与呈现

由于模式本身的可视性不强，不能够让用户快速、准确地从模式集合中获取其所需要的知识，因此，对于知识库中的模式进行解释和呈现就成为用户获取知识的一种有效方式；

在此，结合超图模型来表示相应的模式，用图形的方式直观地反映模式集，超图模型不仅可以用形象化的方式来表示知识结构，简化复杂的知识结构，使得领域专家通过可视化途径进行模式的操作；同时模式的超图模型同面向对象技术有着很好的对应关系，易于采用面向对象技术编程实现模式的可视化；

对于文本挖掘来说，采用可视化信息导航机制给用户提供简明、多视角的知识获取方法；使得用户能够更快的接受信息，并根据自己的兴趣度对所反馈的挖掘结果进行有目的的查询和浏览；

(5)双库协同机制——两个协调器的构建

提出了基于复杂类型数据的知识发现系统的双库协同机制(包括启发型协调器和维护型协调器的构建)，这是双库协同机制的适用性从结构化数据挖掘向非(半)结构化数据挖掘的重要拓展与体现；

启发型协调器的主要目的是为系统的聚焦提供另一个途径，在经典知识发现进程中，系统的聚焦通常是由用户提供感兴趣方向，知识发现系统沿此方向进行挖掘，但如果仅沿此方向行进，大量数据中的潜在的、也许会对用户有用的信息往往会被忽略掉。为尽可能多地搜索到对用户有用的信息，以弥补用户或领域专家自身的局限性，提高机器的认知自主性，而构造了启发型协调器，启发型协调器是通过启发协调算法来实现的，算法的实质是通过寻求知识短缺产生创见意向，使系统产生自动聚焦与定向挖掘；

维护型协调器的主要目的是实时地、尽早地将重复、冗余、矛盾的知识进行处理，从而做到只对那些有可能成为新知识的假设进行评价，最大限度地减少了评价工作量，传统的知识发现系统，对KDD过程产生的假设直接进行评价，被接受的知识归并到知识库时，由知识库管理系统负责对知识库的重复性、冗余性、一致性进行检查与处理，形成新的知识库。此方式的缺点是：形成许多无意义的假设评价和由于问题的大量积累而加重检查的负担。在实际的专家系统中，最终成为新知识的假设占原假设的比例是很小的(发现新知识是困难的)，大量假设会是重复和冗余的，因此维护型协调器的引入将提高知识发现系统的效率，利于知识库的实时维护。