CN102004801A

CN102004801A - 一种信息分类的方法

Info

Publication number: CN102004801A
Application number: CN2010106143405A
Authority: CN
Inventors: 熊巍
Original assignee: Focus Technology Co Ltd
Current assignee: Focus Technology Co Ltd
Priority date: 2010-12-30
Filing date: 2010-12-30
Publication date: 2011-04-06

Abstract

本发明公开了一种新的信息分类的方法，在分类技术数据时，是以神经网络为基础，结合相似判断、模糊集筛选和反馈算法分离新目录，再将新目录进行合并后产生衍生节点，将携带该衍生节点信息的数据本体归入新的类别，对与判断节点具有相关性的数据本体产生延伸查询，找出后续判断节点，并归入已有的分类。采用这种分类方法能够结合各种算法的优点，弥补各自的缺点，达到将与判断节点具有相关性的数据本体归入相应的类别，并将携带衍生节点信息的数据本体归入新的分类，该数据分类方法应用方便。

Description

一种信息分类的方法

技术领域

本发明涉及一种实现技术数据分类的方法。

背景技术

目前，信息科学领域的信息分类方法种类主要有，神经网络算法、遗传算法，决策树算法、粗集算法、覆盖正例排斥反例算法、模糊集算法等。

神经网络算法：神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非常适合解决数据分类的问题，因此近年来越来越受到人们的关注。典型的神经网络模型主要分3大类：以感知机、BP反向传播模型、函数型网络为代表的，用于分类、预测和模式识别的前馈式神经网络模型；以Hopfield的离散模型和连续模型为代表的，分别用于联想记忆和优化计算的反馈式神经网络模型；以ART模型、Koholon模型为代表的，用于聚类的自组织映射方法。神经网络方法的缺点是"黑箱"性，人们难以理解网络的学习和决策过程。

遗传算法：遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法，是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据分类挖掘中被加以应用。Sunil已成功地开发了一个基于遗传算法的数据分类挖掘工具，利用该工具对两个飞机失事的真实数据库进行了数据分类挖掘实验，结果表明遗传算法是进行数据分类挖掘的有效方法之一。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。如利用遗传算法优化神经网络结构，在不增加错误率的前提下，删除多余的连接和隐层单元；用遗传算法和BP算法结合训练神经网络，然后从网络提取规则等。但遗传算法的算法较复杂，收敛于局部极小的较早收敛问题尚未解决。

决策树算法：决策树是一种常用于预测模型的算法，它通过将大量数据有目的分类，从中找到一些有价值的，潜在的信息。它的主要优点是描述简单，分类速度快，特别适合大规模的数据处理。最有影响和最早的决策树方法是由Quinlan提出的著名的基于信息熵的ID3算法。它的主要问题是：ID3是非递增学习算法；ID3决策树是单变量决策树，复杂概念的表达困难；同性间的相互关系强调不够；抗噪性差。针对上述问题，出现了许多较好的改进算法，如 Schlimmer和Fisher设计了ID4递增式学习算法;钟鸣，陈文伟等提出了IBLE算法等。

粗集算法：粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点：不需要给出额外信息；简化输入信息的表达空间；算法简单，易于操作。粗集处理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展起来的数据仓库管理系统，为粗集的数据分类挖掘奠定了坚实的基础。但粗集的数学基础是集合论，难以直接处理连续的属性。而现实信息表中连续属性是普遍存在的。因此连续属性的离散化是制约粗集理论实用化的难点。现在国际上已经研制出来了一些基于粗集的工具应用软件，如加拿大Regina大学开发的KDD-R;美国Kansas大学开发的LERS等。

覆盖正例排斥反例算法：它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在正例集合中任选一个种子，到反例集合中逐个比较。与字段取值构成的选择子相容则舍去，相反则保留。按此思想循环所有正例种子，将得到正例的规则(选择子的合取式)。比较典型的算法有Michalski的AQ11方法、洪家荣改进的AQ15方法以及他的AE5方法。

模糊集算法：即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高，模糊性越强，一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。李德毅等人在传统模糊理论和概率统计的基础上，提出了定性定量不确定性转换模型--云模型，并形成了云理论。

以上算法在归属的算法分支中各有所长，实际应用过程中应该是结合的使用才能使得最终的算法具有最强的适应性，应用广泛的是神经网络算法与模糊集算法相结合，在神经网络的算法中，每个层面的选择节点应该使用模糊集思想作为判断下一个支路的方法，但是现有技术中的技术数据分类方法由于结合单一，功能受到限制，难以实现将运算过程中产生的携带衍生节点信息的数据本体归入新类别。

发明内容

本发明要解决的技术问题是提供一种新的技术数据分类的方法，该新的分类方法能够解决已有技术中的算法难以将运算过程中产生的携带衍生节点信息的数据本体归入新类别的弊端。

为解决上述问题，本发明在分类技术数据时，是以神经网络为基础，结合相似判断、模糊集筛选和反馈算法分离新目录，再将新目录进行合并后产生衍生节点，将携带该衍生节点信息的数据本体归入新的类别，对与判断节点具有相关性的数据本体产生延伸查询，找出后续判断节点，并归入已有的分类。

采用这种分类方法能够结合各种算法的优点，弥补各自的缺点，达到将与判断节点具有相关性的数据本体归入相应的类别，并将携带衍生节点信息的数据本体归入新的分类，该数据分类方法应用方便。

附图说明

图1为本发明实施例的神经网络结构示意图。

图2为本发明实施例的输入数据整理示意图。

图3为本发明实施例的判断节点示意图。

图4为本发明实施例的判断节点的流程图。

图5为本发明实施例的判断节点的相似判定示意图之一。

图6为本发明实施例的判断节点的相似判定示意图之二。

图7为本发明实施例的判断节点的相离散相关模糊集示意图。

图8为本发明实施例的延伸特性和衍生节点的示意图。

图9为本发明实施例的新分类示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进一步详细的说明。

图1为本实施例的神经网络结构示意图，本发明采用结合型的算法，以应用神经网络作为算法主体结构，利用神经网络为基础，在利用节点判断信息去向上依相似归类模式化识别方式为主，结合相似判断、模糊集筛选和反馈算法分离新目录，再将新目录进行合并后产生新的网络节点，由此分类数据和自我适应。

图2为本实施例的输入数据整理示意图，步骤1：输入数据整理，外部数据进行算法分析前必须经过初步整理，这个整理过程的意义在于依据本体原理同一化输入数据——依据特性和相互关系划分出诸多本体或者采用本体集合的方式提取共性从而划分。N个输入数据会被划分成少于N个本体（注意这不是分类，而是提取独立的特性和相互关系，流程中后续的分类方式是对提取出来的本体对象分类，显然这同时也意味着对原始的输入对象作了分类），随之将这些本体带入到判断节点。

图3为本实施例的判断节点示意图，步骤2：判断节点，判断节点即分类判断节点，它的作用是对步骤1得到的数据本体进行判定，决定该数据本体是属于一个明确的分类还是需要进入下一个分类判断节点，它是整个方法的最小判断元素，其具体步骤如下。

子步骤2-1：开始取得由步骤1中得出的待判定的数据本体；判断节点由相似判定模型、模糊集和反馈算法和衍生节点四部分组成，按照执行的次序依次是：开始取得数据——判定相似度——离散相关模糊集验证延伸特性指向下一个节点（进入下一个节点或者本体进入分类）——衍生算法判断是否产生新节点——反馈算法效果影响——结束，流程如图4所示。

子步骤2-2：判定数据本体与节点的相似度；这种相似性判定是基于模型的，模型的类型有：①内容匹配模型；②习惯模型；③社会性模型等。具体数据会携带本体信息与当前的节点特征模型进行相似性比对，比对结果在阀值范围之内的本体会携带当前节点的相似度数值（注意：多次比对满足条件的情况是存在的，并非只有一个最符合节点。这种情况同时就意味着该本体携带了多个节点特征，则该本体具有被分类成一个新类别的条件）。

如图5、图6所示，数据本体与节点A比对，比对内容包括内容匹配模型、习惯模型和社会性模型，若本体所携带的信息与节点A的内容相似，则数据本体记载节点A的信息，若不相似，则该数据本体不做处理，并进入下一运行环节。

子步骤2-3：，离散相关(Discrete-related)模糊集也就是可能相关，如图7所示，本体首先访问节点A，由于A节点的离散相关节点是：节点B；节点C；节点F，所以节点A离散相关点是B、C、F，同时这个集合被要求是模糊的，所以相关的相关即是相关，最终的离散相关模糊集是：节点A、B、C、F、H和K的集合，由此本体会依次序的访问上述六个节点。结合上述的相似判断结果如图7所示。

子步骤2-4：延伸特性和衍生节点，如图8所示，延伸特性是基于相关的，由本体和判断节点的的相关性产生延伸查询，找出后续判断节点。衍生节点是产生新判断节点的主要方式，和延伸特性相反，衍生节点是通过不相关大于相关而产生。

步骤3：将数据本体归入不同类别。

归类过程是异常复杂的，这里通过一个本体信息的历程来做解释，归类历程的阶段分类三个步骤——①判断是否直接归属；②模糊归属（近邻归属）；③归类反馈，下面做出详细介绍。

①直接归属：直接归属是指经过某些判断节点后，该信息能够明确的被分配到某个类别，并且这个判断标准是在不断被修正的。原则上，一个本体信息携带的的判断节点信息越少分类就越明确。例如一个本体信息所携带的判断节点（节点A、B、C和F），是被一个分类所包含的判断节点（节点A、B、C、D、E和F）所覆盖，则该本体被归入该分类。

②模糊归属：与直接归属相对应的，模糊归属的意思就是一个本体信息所携带的判断节点（节点A、B、C和F），是被一个分类所包含的判断节点（节点A、B、D、E和F）所覆盖，则该本体被指向该分类，也即意味着模糊的归属于该类别。

③归类反馈：向判断节点输出回馈值，目的是修正归属判断过程中所经历的所有节点适量的指向，是节点之间的关系是越来越相关，趋向于更准确。

步骤4、新分类，图9为本实施例的新分类示意图。

新分类是指不同与原有分类特性而产生的新类别。与其他的类别可能有互相涵盖和互相独立的特性，但必然是独立特性>涵盖特性，当符合该条件时，产生一个新的分类。这些产生的新分类会再经过一个归并的过程，将这些分类按照相似的情况做合并。

需要产生新的分类标准是，①发现不符合当前分类的最低判断阀值；②已经遍历了其它所有的分类；③与当前所有分类相似度太低已无延伸可能；④一定数量的新判断节点产生；⑤产生的新节点无法被纳入已存在所有分类。

在不停的产生新的分类同时需要对这些分类进行相似合并，从而达到将同类的相近分类合成一个大的分类，以免产生太多的类别，这里的阀值数值是根据当前系统中共有多少个分类和多少个数据联合计算得出。

培训向量是指在产生分类之前，需要输入型一些数据（包含明确分类数据和其他数据）让分类网络能够对数据做出评价，让它有一个自我学习的过程，也就是说培训这个系统。

虽然本发明已以较佳实施例公开如上，但具体实施例和附图并不是用来限定本发明，任何熟悉此技艺者，在不脱离本发明之精神和范围内，自当可作各种变化或润饰，同样属于本发明之保护范围。因此本发明的保护范围应当以本申请的权利要求所界定的为准。

Claims

1.一种信息分类的方法，其特征在于：以神经网络为基础结构，结合相似判断、模糊集筛选和反馈算法分离新目录，再将新目录进行合并后产生新的网络节点，由此分类数据和自我适应；其具体步骤如下：

步骤1：输入数据整理

外部数据经过初步整理，依据本体原理同一化输入数据，即依据特性和相互关系划分出诸多本体或者采用本体集合的方式提取共性从而划分；

步骤2：判断节点

对输入数据进行分类判断节点，决定输入数据是属于一个明确的分类还是需要进入下一个分类判断节点；

步骤3：信息归类

经过执行步骤2后，若没有下一个模糊相关节点，则数据本体在网络内跳转结束，并进行衍生算法，符合产生衍生节点条件的，产生新节点，并前往该新节点，归入新分类，若不符合产生衍生节点条件的，则将携带历程节点信息的数据本体归入已有的分类，并做出分类结果反馈。

2.根据权利要求1所述的信息分类的方法，其特征在于：步骤1中，所述本体是对特定领域之中某套概念及其之间关系的形式化表达。

3.根据权利要求1所述的信息分类的方法，其特征在于：步骤2细分为以下子步骤，

子步骤2-1：判断节点的组成，判断节点由相似判定模型、模糊集和反馈算法和衍生节点四部分组成，按照执行的次序依次是：开始取得数据—判定相似度—离散相关模糊集验证延伸特性指向下一个节点（进入下一个节点或者本体进入分类）—衍生算法判断是否产生新节点—反馈算法效果影响—结束；

子步骤2-2：判断节点的相似判定，具体数据携带本体信息与当前的节点模型进行相似性比对，比对内容包括内容匹配模型、习惯模型和社会性模型，比对结果在阀值范围之内的本体会携带当前节点的相似度数值；

子步骤2-3：通过离散相关模糊集判定是否有下一个模糊相关节点，若数据本体与判断节点有相关性，则具有下一个模糊相关节点，令数据本体携带历程节点信息前往该模糊相关节点，重复步骤2；若数据本体与判断节点不具有相关性，则产生衍生节点，并前往该衍生节点。

4.根据权利要求3所述的信息分类的方法，其特征在于：子步骤2-1中，所述反馈算法：被影响者同时也施加影响于影响者本身；所述延伸特性：某个事物是由另一事物发展出来，则这两个事物是互相延伸的，延伸的本质指的是相关。

5.根据权利要求3所述的信息分类的方法，其特征在于：子步骤2-2中，所述社会性模型指人的社会属性中符合人类整体运行发展要求的基本特性模型，包括有利他性、服从性、依赖性、以及更加高级的自觉性，这些特性被模型化，归结为社会性模型。

6.根据权利要求3所述的信息分类的方法，其特征在于：子步骤2-3中，所述离散相关是指数据是分离而非连续的，但是又存在着内部的某种联系。

7.根据权利要求1所述的信息分类的方法，其特征在于：步骤3中，所述归入已有的分类，首先判断是否直接归属，直接归属是指经过某些判断节点后，该信息能够明确的被分配到某个类别，即一个本体信息所携带的判断节点，是被一个分类所包含的判断节点所完全覆盖，则该本体被归入该分类；若无法进行直接归属，则进行模糊归属，即一个本体信息所携带的判断节点，是被一个分类所包含的判断节点所基本覆盖，则该本体被指向该分类，也即意味着模糊的归属于该类别。

8.根据权利要求1所述的信息分类的方法，其特征在于：步骤3中，产生新分类的标准是，发现不符合当前分类的最低判断阀值；已经遍历了其它所有的分类；与当前所有分类相似度太低已无延伸可能；一定数量的新判断节点产生；产生的新节点无法被纳入已存在所有分类。