CN1145901C

CN1145901C - 一种基于信息挖掘的智能决策支持构造方法

Info

Publication number: CN1145901C
Application number: CNB031053300A
Authority: CN
Inventors: 杨炳儒
Original assignee: Individual
Current assignee: University of Science and Technology Beijing USTB
Priority date: 2003-02-24
Filing date: 2003-02-24
Publication date: 2004-04-14
Anticipated expiration: 2023-02-24
Also published as: CN1435781A

Abstract

该发明公开了一种基于信息挖掘的智能决策支持构造方法(IDSSIM)，该方法完善并扩充了现有智能决策支持系统的功能，改变了现有智能决策支持系统固有的运行机制，将决策推理机制，WEB挖掘和KDD*挖掘和领域专家知识获取有效地融入智能决策支持系统中，从而形成了一类具有“双网”、“五库”、综合集成、多层递阶结构模型的新型智能决策支持系统。此系统在结构和功能上相对现有系统而言是一个开放的、优化的扩体，并对智能决策系统的主流发展起着重要的推动作用，有望形成新一代的智能决策支持系统概型。

Description

一种基于信息挖掘的智能决策支持构造方法

技术领域

本发明涉及智能决策支持系统技术，特别涉及基于信息挖掘的新型智能决策支持系统(IDSSIM，Intelligence Decision Supporting System Based onInformation Mining)技术，具体说是一种基于信息挖掘的智能决策支持构造方法。

背景技术

一.KDD*技术：信息挖掘即指从各种各样的信息源(包括结构化的和非结构化的信息源)中，抽取先前未知的、完整的模式，来做关键的业务决策。它融合了人工智能、机器学习、模式识别、统计学、教据库、计算机网络、自然语言处理等众多学科的内容，它是针对生成收集数据的能力迅猛发展，而对信息的处理仍然采用数据统计等传统的方法，这一矛盾而产生的，并迅速发展起来的。

目前信息挖掘主要存在两个研究方向。其一： KDD(Knowledge Discoveryin Database)。它适用以结构化、数值型的数据为特点的领域。其二：Web挖掘(Web Mining)。它主要处理来源于网络上的半结构或非结构、字符型数据、多媒体数据、用户访问日志信息、网页间的超链接信息等等。KDD技术是从大量数据中提取出可信的、新颖的、有效的并能被人理解的模式的高级处理过程。通过这一过程，感兴趣的知识或高层信息可以从数据库相关数据集中抽取出来并从不同角度进行研究。有人也将KDD称为数据挖掘(或数据挖掘、数据开采等)，KDD一般在人工智能和机器学习领域使用较多，在工程应用领域多称之为数据挖掘(data mining)，一般可以不加区分地使用两者。其主要处理步骤如图1所示。但是，目前绝大部分KDD的算法没有将KDD作为认知的复杂系统对其内在的规律性加以研究，且都没有深层次地考虑知识库，挖掘出来的许多假设规则与知识库中的已有知识是重复的和冗佘的，甚至是不相容的，并且仅靠人机交互形成聚焦，而没有体现系统自身的认知自主性，因此对KDD定义中要求的新颖性和有效性就无法体现出来。为此，KDD*系统(基于双库协同机制的KDD系统)从知识发现、认知科学与智能系统交叉结合的角度，提出了双库协同机制，作为对于KDD系列性研究中所提出的新研究方向，即内在机理的研究。构建了将KDD与双库协同机制相结合的KDD*结构，从而改变了KDD固有的运行机制，在结构与功能上形成了相对于KDD而言的一个开放的、优化的扩体。双库协同机制的引入使得KDD在功能上得到了进一步的完善，KDD*的结构图如图2所示，其详细说明参见相关专利申请文件。

二.WEB挖掘技术：近年来，在网络上存在着“信息爆炸”的问题，即信息极大丰富而知识相对匮乏。人们迫切需要有能从这些大量、异质的Web信息资源中，快速、有效地发现资源和知识的工具。Web上的搜索引擎部分地解决了资源发现问题，但由于精度不高、覆盖率有限等原因，其效果远不能使人满意。而数据挖掘的绝大部分工作所涉及的是结构化数据库，很少有处理Web上的异质、非结构化信息的工作。

Web挖掘是针对包括Web页面内容、页面之间的结构、用户访问信息、电子商务信息等在内的各种Web数据源，在一定基础上应用数据挖掘的方法以发现有用的知识来帮助人们从WWW中提取知识，改进站点设计，更好地开展电子商务。即Web挖掘是指从大量非结构化、异构的Web文档的集合C中发现有效的、新颖的、潜在可用的及最终可理解的知识P(包括概念(Concepts)、模式(Patterns)、规则(Rules)、规律(Regularities)、约束(Constraints)及可视化(Visualizations)等形式)的非平凡过程。如果将C看作输入，将P看作输出的话，那么Web挖掘的过程就是从输入到输出的一个映射ξ：C→P。

Web上信息的多样性决定了Web挖掘任务的多样性。按照处理对象的不同，我们可以将Web挖掘分为三大类：Web内容挖掘(Web Mining)、Web访问信息挖掘(Web Usage Mining)和Web结构挖掘(Web Structure Mining)。其分类如图3所示。Web内容挖掘就是从Web页面内容或其描述中进行挖掘，进而抽取知识的过程，也称为Web文本挖掘，可以对Web上大量文档集合的内容进行关联分析、总结、分类、聚类，以及利用Web文档进行趋势预测等。

Web访问信息挖掘对用户访问Web时在服务器留下的访问记录进行挖掘，以发现用户访问站点的浏览模式，页面的访问频率等信息；挖掘的对象是在服务器上的包括Server Log Data等日志。挖掘的方式是：路径分析；关联规则和序列模式的发现；聚类和分类。

Web结构挖掘是从WWW的组织结构和链接关系中推导知识。由于文档之间的互连，WWW能够提供除文档内容之外的有用信息。利用这些信息，可以对页面进行排序，发现重要的页面。这方面的工作的代表有PageRank和CLEVER。此外，在多层次Web数据仓库(MLDB)中也利用了页面的链接结构。

三.智能决策支持技术：智能决策支持系统IDSS最早由Bonczek等人于80年代提出，它的功能是，既能处理定量问题，又能处理定性问题。IDSS的核心思想是将AI与其它相关科学成果相结合，使DSS具有人工智能，能够更充分地应用人类的知识，求解问题的推理性知识，通过逻辑推理来帮助解决复杂的决策问题的辅助决策系统。

其一般定义为以管理科学、运筹学、控制论和行为科学为基础，以计算机技术、仿真技术和信息技术为手段，面对半结构化或非结构化的决策问题，辅助支持中、高层决策者的决策活动的、具有智能作用的人机计算机网络系统。会话系统、控制系统、运行及操作系统、数据库系统、模型库系统、规则库系统和用户共同构成。

智能决策支持系统的结构如图4所示，是一个四库结构，其中有一个规则库也就是知识库。知识库用来存放各种规则、专家的经验、有关的知识及因果关系等。推理机构来模拟决策者的思维过程。

智能决策系统的主要特点有如下几方面：(1)系统的使用面向决策者，在运用的过程中，参与者都是决策者。(2)系统解决的问题是针对半结构化的决策问题，模型和方法的使用是确定的，但是决策者对问题的理解存在差异，系统的使用有特定的环境，问题的条件也不确定和唯一，这使得决策结果具有不确定性。(3)系统强调的是支持的概念，帮助加强决策者作出科学决策的能力。(4)系统的驱动力来自模型和用户，人是系统运行的发起者，模型是系统完成各环节转换的核心。(5)系统运行强调交互式的处理方式，一个问题的决策要经过反复的、大量的、经常的人机对话，人的因素如偏好、主观判断、能力、经验、价值观等对系统的决策结果有重要的影响。

但是决策支持系统只能对决策者起到辅助支持的作用，而不可能代替决策者的全部工作和最终判断。决策者的主观能动作用，经验、智慧和判断力将总是起主导作用的。因此，决策支持系统的设计和建立应当努力创造一个好的决策环境和决策支持工具，以支持决策者的工作，充分发挥决策者的智慧和创造性，努力使决策尽可能地正确。同时，由于种种原因，智能决策在我国企业管理中的应用还很差，宏观上尚未形成统一的行业体制、宏观管理模式；在微观上，没有形成市场化现代企业制度和商业化运作，并且没有结合信息产业最新技术，在日常经营管理的基础上，利用智能决策支持系统来指导和建议管理者进行有效地决策。所涉及的软件大多属于办公自动化一类的，或是简单的数据统计分析，只实现了一部分办公自动化的功能，而没有为决策者提供必要的、同时又是急需的决策信息的帮助。

“基于信息挖掘的新型智能决策支持系统”在附加行业信息特点后，可很好的适用于多种企业，利用各种丰富信息(包括内部信息和外部信息)，提供辅助决策支持信息，从而提高经营管理者的水平和层次，具有非常重要的研究和应用价值。

发明内容

本发明的目的在于，提供一种基于信息挖掘的智能决策支持构造方法，用以扩充现有的智能决策系统，改变现有的智能决策方法中固有的运行机制，从而在结构和功能上形成了相对现有技术的一个开放的、优化的扩体。

本发明的技术方案为：一种基于信息挖掘的智能决策支持系统构造方法，采用包含有中央处理器和存储器的数字计算机作为信息挖掘终端，且将所述的数字计算机与网络联接；

所述的存储器存储有真实数据库、基础知识库、模型库、方法库、文本日志库以及会话模块、问题处理模块；所述的中央处理器对所述的存储器进行控制并执行如下步骤：

步骤1、进行数据预处理，即：对真实数据库中的数据进行处理，形成处理数据库，并与所述的基础知识库在基于属性建库的构造下建立对应关系；

步骤2、接收输入信息，即：接收用户通过所述的会话模块输入的要解决的决策问题信息，且所述的会话模块把输入的问题信息传送给所述的问题处理模块；

步骤3、进行聚焦，即：构造任务集与知识获取，通过人机交互输入的信息来引导问题求解的趋向；其具体过程为：所述的问题处理模块收集数据信息，并根据所述的基础知识库中已有的知识数据判断和识别问题信息；如果出现问题信息，则通过所述的会话模块与用户进行交互对话，直到问题信息得到明确，并与所述的任务集包含的某类任务相匹配；

步骤4、进行信息挖掘和构造模型与推理机制，即：搜寻任务解决的模型，得到辅助决策知识信息，并用特定的模式表达所得到的知识信息；

步骤5、进行实时维护，即：对所获得的每一辅助决策知识信息与所述的基础知识库中原有的知识信息进行比较，并判断其是否重复、冗余或矛盾，根据判断结果进行处理；

步骤6、进行评价，即：对步骤4所述的辅助决策知识信息进行价值评定，将被接受的知识信息存入所述的基础知识库。

所述的进行信息挖掘和构造模型与推理机制是指：采用问题推理的方式进行信息挖掘，即：搜寻任务解决的模型，对所述的基础知识库进行搜索，并在所述的方法库中选定推理方法，决策推理得到辅助决策知识信息，最后用特定的模式表达所得到的知识信息。

所述的进行信息挖掘和构造模型与推理机制是指：采用KDD*挖掘的方式进行信息挖掘，即：搜寻任务解决的模型，在所述的方法库中选定KDD*挖掘算法，并对所述的基础知识库进行搜索以发现知识短缺，以此定向地从数据库里进行数据的选择，挖掘得到辅助决策知识信息，最后用特定的模式表达所得到的知识信息。

所述的进行信息挖掘和构造模型与推理机制是指：采用WEB挖掘的方式进行信息挖掘，即：搜寻任务解决的模型，运用选定的WEB挖掘算法，对所述的文本日志库进行搜索，定向地从数据库里进行数据的选择，挖掘得到辅助决策知识信息，最后用特定的模式表达所得到的知识信息。

所述的进行信息挖掘和构造模型与推理机制是指：采用问题求解的方式进行信息挖掘，即：搜寻任务解决的模型，根据模型所采用的过程，在所述的方法库中选定所采用的推理方法或是KDD*挖掘算法或是WEB挖掘算法，得到辅助决策知识信息，最后用特定的模式表达所得到的这些辅助决策知识信息。

所述的存储器可采用若干大容量存储器组成的超大容量存储装置；所述的数字计算机为若干台计算机组成的数字计算机系统；所述的网络是指互联网和局域网。

根据本发明所述的方法：

步骤1中所述的数据预处理包括：对数据的完整性和一致性进行检查、对噪音数据进行处理、对丢失的数据利用统计方法进行填补；所述的对应关系是指：所述基础知识库中包含的知识子库的知识结点与所述真实数据库中包含的数据子库子类结构层间建立的一一对应关系；

步骤2中所述的接收输入信息是指：在接受和检验用户的请求后，将要解决的决策问题信息转换为系统可识别、可处理的问题信息；其中涉及知识子库的使用和知识的表示方法；

步骤3中所述的聚焦包括以下具体步骤：1)任务集数据采集，其中所涉及的数据及知识信息的来源包括：对管理专家的调查、对行业管理理论的研究、以及对现行数据的分析调用；2)利用模糊综合评判技术，汇集用户的情况，形成不同类型用户的评价标准，从而对用户进行自我诊断和自我定位，同时根据用户的各级决策者的决策内容确定与用户有关的问题，以形成任务集；3)针对将前一步骤所形成的问题，设计管理与控制平台，通过此平台，与用户进行交互对话，直到问题明确；4)根据所述的基础知识库中已有的知识，判断和识别问题信息，并使问题信息和任务集中的某类任务匹配；5)专家知识获取，即：根据专业领域知识，并利用知识表示、知识存储、知识转换、知识推理、知识管理的方式建立专家知识库，以满足求解领域问题的需要的过程，其内容包括知识的提取、中间知识的表示和生成专家知识库；

步骤4中所述的构造模型是指：建立具有自动选择功能的模型库；其内容包括：1)将问题分解为数据和文本描述两个部分，对问题的文本描述部分进行语言识别或理解，并从模型库中选择适合的模型类型；问题的数据部分送入真实数据库保存，同时送到数据识别器进行识别，根据识别结果以及模型类型的选择结果进行模型的结构选择；2)根据保存在真实数据库中的有关数据对模型结构中的特定参数进行估值，完成模型的确定；3)控制模型运行并对结果进行分析；若不满意，通过系统维护功能查看、运行并进行修正；

步骤4中所述的问题推理包括：对专家知识进行分类，构造知识问答决策树，使系统能够响应用户的咨询要求，其包括如下具体步骤：1)对已知问题及其解法进行索引，以方便检索；2)在基础知识库中搜索和需要解决的问题类似的相似问题，如找出相似问题进行问题求解，否则转出；3)对找到的相似问题的解法进行改造，使之适于解新问题；4)用改造好的新解法解决新问题，把成功的新解法用知识库的表示方法进行规范化，并纳入所述的基础知识库，以便日后调用；

步骤6中所述的辅助决策知识评价是指：通过人机交互界面由使用者评价；或者：所述的辅助决策知识评价是指：利用可视化工具所提供的各类图形和分析资料进行评价；或者：所述的辅助决策知识评价是指：采用基于自认知逻辑的因果关联规则的自动评价方法，即：根据规则的关联强度及设定的阈值，由所述数字计算机自动实现。

根据本发明所述的方法：

步骤1中所述的进行数据预处理包括对数据的完整性和一致性进行检查，对噪音数据的处理，对丢失的数据利用统计方法进行填补；所述的对应关系为知识子库的知识结点与数据子库子类结构层间建立的一一对应关系；

步骤2中所述的接收输入信息是指，在接受和检验用户的请求后，将要解决的决策问题信息转换为系统可识别、可处理的问题，其中涉及知识子库的使用和知识的表示方法；

步骤3中所述的构造任务集与知识获取包括以下具体步骤：1)任务集数据采集，其中所涉及的数据及知识来源包括：对管理专家的调查、对行业管理理论的研究、以及对现行数据的分析调用；2)利用模糊综合评判技术，汇集用户的情况，形成不同类型用户的评价标准，从而对用户进行用户自身的诊断和定位，并根据用户的各级决策者的决策内容确定与用户有关的问题，以形成任务集；3)针对将前一步骤所形成的问题，设计管理与控制平台，通过此平台，与用户进行交互对话，直到问题明确；4)根据基础知识库中已有的知识，判断和识别问题，并使问题和任务集中的某类任务匹配；

步骤3中所涉及的专家知识获取是指：根据专业领域知识，并利用知识表示、知识存储、知识转换、知识推理、知识管理的方式，建立专家知识库，以满足求解领域问题的需要的过程；实现知识抽象和转换，其内容包括：知识的提取，中间知识的表示和生成专家知识库；

步骤4中所述的构造模型是指建立具有自动选择功能的模型库，其内容包括：1)将问题分解为数据和文本描述两个部分，对问题的文本描述部分进行语言识别或理解，并从模型库中选择适合的模型类型；问题的数据部分送入真实数据库保存，同时送到数据识别器进行识别，根据识别结果以及模型类型的选择结果进行模型的结构选择；2)根据保存在真实数据库中的有关数据对模型结构中的特定参数进行估值，完成模型事例的确定；3)控制模型运行并对结果进行分析，若不满意，通过系统维护功能查看、运行并进行修正；

步骤4中所述的KDD*挖掘包括以下具体步骤：1)数据预处理，即：对真实数据库中的数据进行再加工，形成挖掘数据库，并与所述的基础知识库建立对应关系；2)聚焦，即：由通过人机交互输入的内容来引导数据挖掘的趋向；3)定向挖掘，即：启发型协调器对基础知识库进行搜索以发现知识短缺，并以此定向地从挖掘数据库里进行数据的选择；4)求取假设规则，即：通过选定的知识挖掘法，从挖掘数据库中提取用户所需要的知识，并用特定的模式表达所提取的知识；5)实时维护，即：中断型协调器对基础知识库进行定向搜索，以判断步骤4)判断所获得的每一辅助决策知识信息与基础知识库中原有知识是否重复、冗余或矛盾，并根据判断结果作相应处理；6)评价，即：对步骤5)处理后并被选取的规则进行价值评定，将被接受的规则存入基础知识库；

步骤6中所述的辅助决策知识评价是通过人机交互界面采集使用者输入的评价信息、或者是利用可视化工具所提供的各类图形和分析资料进行评价、或者是采用基于自认知逻辑的因果关联规则的自动评价方法，即：根据规则的关联强度及设定的阈值，由所述数字计算机自动实现。

根据本发明所述的方法：

步骤1中所述的数据预处理包括对数据的完整性、一致性进行检查，对噪音数据的处理，对丢失的数据利用统计方法进行填补；所述的对应关系为知识子库的知识结点与数据子库子类结构层间建立的一一对应关系；

步骤2中所述的接收输入信息是指，在接受和检验用户的请求后，将要解决的决策问题信息转换为系统可识别、可处理的问题其中涉及知识子库的使用和知识的表示方法；

步骤3中所述的进行聚焦包括以下具体步骤：1)任务集数据采集，即：所涉及的数据及知识来源包括：对管理专家的调查、对行业管理理论的研究、以及对现行数据的分析调用；2)利用模糊综合评判技术，汇集用户的情况，形成不同类型用户的评价标准，从而对用户进行用户自身的诊断和定位，并根据用户的各级决策者的决策内容确定与用户有关的问题，以形成任务集；3)针对将前一步骤所形成的问题，设计管理与控制平台，通过此平台，与用户进行交互对话，直到问题明确；4)根据所述的基础知识库中已有的知识，判断和识别问题，并使问题和任务集中的某类任务匹配；

步骤3中所涉及的专家知识获取是指知识工程师和领域专家共同工作，建立专家知识库，以满足求解领域问题的需要的过程；实现知识抽象和转换，其内容包括知识的提取，中间知识的表示和生成知识库；

步骤4中所述的构造模型是指建立一种具有自动选择功能的模型库，其内容包括：1)将问题分解为数据和文本描述两个部分，对问题的文本描述部分进行语言识别或理解，并从模型库中选择适合的模型类型；问题的数据部分送入真实数据库保存，同时送到数据识别器进行识别，根据识别结果以及模型类型的选择结果进行模型的结构选择；2)根据保存在真实数据库中的有关数据对模型结构中的特定参数进行估值，完成模型事例的确定；3)控制模型运行并对结果进行分析，若不满意，通过系统维护功能查看、运行并进行修正；

步骤4中所述的WEB挖掘过程包括以下步骤：1)特征提取，即：对Web上采集到的挖掘目标样本进行特征提取，生成挖掘目标的特征矢量，并进行特征项集的选取，存放到文本特征库中形成文本中间表示形式；2)WEB挖掘，即：采用适当的挖掘算法，对Web的中间表示形式进行挖掘处理，得到潜在的知识或者模式；3)模型质量评价，即：将挖掘得到知识或者模式进行评价，将符合一定标准的知识或者模式呈现给用户；4)信息表示和信息导航，即：将反馈的结果用可视化的方式进行显示，同时对用户提供信息导航功能，从而方便用户有效的浏览和获取信息；

根据本发明所述的方法：

步骤2中所述的问题输入是指，在接受和检验用户的请求后，将要解决的决策问题信息转换为系统可识别、可处理的问题；其中涉及知识子库的使用和知识的表示方法；

步骤3中所述的问题聚焦包括以下具体步骤：1)任务集数据采集，所涉及的数据及知识来源包括：对管理专家调查、对行业管理理论的研究、以及对现行数据的分析调用；2)利用模糊综合评判技术，汇集用户的情况，形成不同类型用户的评价标准，从而对用户进行用户自身的诊断和定位，并根据用户的各级决策者的决策内容确定与企业经营有关的问题，以形成任务集；3)针对将前一步骤所形成的问题，设计管理与控制平台，通过此平台，与用户进行交互对话，直到问题明确；4)根据知识库中以有的知识，判断和识别问题，并使问题和任务集中的某类任务匹配；

步骤3中所涉及的专家知识获取是指：根据专业领域知识，并利用知识表示、知识存储、知识转换、知识推理、知识管理的方式，建立专家知识库，以满足求解领域问题的需要的过程；实现知识抽象和转换，其内容包括：知识的提取，中间知识的表示和生成知识库；

步骤4中所述的构造模型是指：建立具有自动选择功能的模型库，其内容包括：1)将问题分解为数据和文本描述两个部分，对问题的文本描述部分进行语言识别或理解，并从模型库中选择适合的模型类型；问题的数据部分送入真实数据库保存，同时送到数据识别器进行识别，根据识别结果以及模型类型的选择结果进行模型的结构选择；2)根据保存在真实数据库中的有关数据对模型结构中的特定参数进行估值，完成模型事例的确定；3)控制模型运行并对结果进行分析，若不满意，通过系统维护功能查看、运行并进行修正；

步骤4中所述的问题推理包括：对专家知识进行分类，构造知识问答决策树，使系统能够实时的响应用户的咨询要求，且包括如下具体步骤：1)对已知问题及其解法进行索引，以方便检索；2)在基础知识库中搜索和需要解决的问题类似的相似问题，如找出相似问题进行问题求解，否则转出；3)对找到的相似问题的解法进行改造，使之适于解新问题；4)用改造好的新解法解决新问题，把成功的新解法用知识库的表示方法进行规范化，并纳入基础知识库，以便日后调用；

步骤4中所述的KDD*挖掘包括以下具体步骤：1)数据预处理，即：对真实数据库中的数据进行再加工，形成挖掘数据库，并与所述的基础知识库在基于属性建库的构造下建立对应关系；2)聚焦，即：由通过人机交互输入的内容来指导数据挖掘的方向；3)定向挖掘，即：启发型协调器对基础知识库进行搜索以发现知识短缺，并以此定向地从挖掘数据库里进行数据的选择；4)求取假设规则，即：通过选定的知识挖掘法，从挖掘数据库中提取用户所需要的知识，并用特定的模式表达所提取的知识；5)实时维护，即：中断型协调器对基础知识库进行定向搜索，以判断步骤4)判断所获得的每一辅助决策知识信息与基础知识库中原有知识是否重复、冗余或矛盾，并根据判断结果作相应处理；6)评价，即：对步骤5)处理后并被选取的规则进行价值评定，将被接受的规则存入基础知识库；

步骤4中所述的WEB挖掘过程包括以下具体步骤：1)特征提取，即：对Web上采集到的挖掘目标样本进行特征提取，生成挖掘目标的特征矢量，并进行特征项集的选取，存放到文本特征库中形成文本中间表示形式；2)WEB挖掘，即：采用适当的挖掘算法，对Web的中间表示形式进行挖掘处理，得到潜在的知识或者模式；3)模型质量评价，即：将挖掘得到知识或者模式进行评价，将符合一定标准的知识或者模式呈现给用户；4)信息表示和信息导航，即：将反馈的结果用可视化的方式进行显示，同时对用户提供信息导航功能，从而方便用户有效的浏览和获取信息；

所述的自动评价方法为：取原因A和结果S的数据，构成一个序偶的集合P＝{<tw，sw>}(w＝1，2....N)，tw为原因状(变)态空间中的数据(即因样本值)，sw为与原因数据相对应的结果状(变)态空间中的数据(即果样本值)，N为集合中样本的个数，SUP为规则的支持强度，CR为规则的关联强度，SUP1为每次求得的规则支持强度，其初值为0；执行以下步骤：

1)、取原因的样本值tw(w＝1，2....N)，它属于一般的样本空间，得到因状(变)态输入向量atw；

2)、确定因状(变)态输入向量atw所属因状(变)态类型如Ak(k＝1，2，3，4，5)即由式(2)计算atw与各因状(变)态标准向量Ai的测度dH，取最小者为atw归属的因状(变)态类型，随机抽取一样本集，可以看作序偶的集合P＝{<tw，sw>}；

3)、以规则Ai

Sj作为局部大前提，以因状(变)态输入向量at所属的因状(变)态标准向量Ak为小前提，可以在评价知识库中通过自组织的方式找到与其相匹配的唯一的知识矩阵Mijk，根据自动推理模式(3)得到结果的状(变)态向量Sw1；

4)、聚类：计算Sw1所属的果状(变)态标准向量β，可通过求它与各结

d_{H} (S_{w 1}, S_{j}) = Σ_{i = 1}^{10} | {μS}_{w}^{(i)} - {μS}_{j}^{(i)} |

果状(变)态标准向量的测度(如下式)取最小者而获得聚类；其中，μSw1(i)与μSj(i)分别为其各自对应的坐标；

5)、对于序偶集P＝{<tw，sw>)，取相应的结果的样本值sw，用模糊聚类的方法可得到它所属区间中的果状(变)态标准向量γ，如果β＝γ，则SUP1＝SUP1+1，否则SUP1＝SUP1；

6)、重复上述过程N次，得到SUP；设

SUP＝SUP1/N

取规则的因果关联强度CR与之比较：

若：SUP＞CR则规则被接受；

SUP≤CR则规则被拒绝。

IDSSIM系统采用最新的信息挖掘技术，利用KDD*方面已经取得的技术(技术细节参见专利：基于双库协同机制的KDD*新系统)，和Web文本挖掘成果，应用信息挖掘技术，采用五库(模型库、综合知识库、数据库、方法库、文本日志库)与双网(国际互联网+企业内部网)相结合，形成基于异构数据库的多目标、多层次、多任务的以管理模型驱动的新型复杂决策支持系统的模型。

本发明的意义在于：1)总体上说，建立了一个具有普适性、通用性、可扩展性、可移植性的、基于信息挖掘的新型智能决策支持系统模型；2)开发一套功能强大的、使用简单的、会话迅速的、成本低廉的、基于信息挖掘的新型智能决策支持系统软件；3)在多目标模型驱动的基础上，解决了数据库、知识库、文本日志库的异构数据库的同构化；4)构建智能决策支持系统的体系结构，对该结构中的人机接口、知识库、模型库、方法库、数据库、文本库、日志库等建立控制平台，以协调各部分的协同、交互、匹配等功能；5)将信息挖掘技术有效的融入智能辅助决策系统，改变了现有的智能决策系统固有的运行机制，从而在结构和功能上形成了相对现有系统而言的一个开放的、优化的扩体。6)在附加行业信息特点后，本系统可很好的适用于多种企业，利用各种丰富信息(包括内部信息和外部信息)，提供辅助决策支持信息，从而提高经营管理者的水平和层次，具有非常重要的研究和应用价值。

附图说明

图1为现有技术的KDD系统的流程框图；

图2为本发明所采用的KDD*结构图；

图3为现有技术的WEB挖掘分类示意图；

图4为现有技术的智能决策支持系统结构图；

图5A为本发明的技术方案1的流程框图；

图5B为本发明的技术方案2的流程框图；

图5C为本发明的技术方案3的流程框图；

图5D为本发明的技术方案4的流程框图；

图6为本发明的知识表示示意图；

图7为本发明的知识子库与数据子库的对应结构图；

图8为本发明的专家知识获取方法示意图；

图9为本发明的模型库总体结构图；

图10为本发明的问题推理过程示意图。

图11为本发明中的KDD*挖掘过程示意图；

图12为本发明中WEB挖掘过程示意图；

图13为本发明模型库维护过程流程图；

图14为本发明问题推理过程流程图；

图15为本发明中KDD*挖掘过程流程图；

图16为本发明中WEB挖掘过程流程图。

具体实施方式

1.理论基础：根据图6所列关系，给出如下相关定义：

1.1知识表示方法-语言场与语言值结构(相关内容详见相关专利申请文件)；

定义1：C＝<D，I，N，≤N>，若满足下列条件：

(1)D为基础变量论域R上交叉闭区间的集合，D+为其对应开集；

(2)N≠Φ为语言值的有限集；

(3)≤N为N上的全序关系；

(4)I：N→D为标准值映射，满足保序性，即：n1，n2∈N(n1≠n2∧n1≤N n2→I(n1)≤I(n2))，(≤为偏序关系)；则称C为语言场。

定义2：对于语言场C＝<D，I，N，≤N>，称F＝<D，W，K>为C的语言值结构，如果：(1)C满足定义1；

(2)K为自然数；

(3)W：N→Rk满足：

n1，n2∈N(n1≤N n2→W(n1)≤dicW(n2)>，

n1，n2∈N(n1≠n2→W(n1)≠W(n2))。

其中，≤dic为[0，1]k上的字典序，即(a1，....，ak)≤dic(b1，....，bk)当且仅当存在h，使得当0≤j＜h时aj＝bj，ah≤bh。

1.2挖掘库与知识库之间泛同伦关系的建立：(相关内容详见相关专利申请文件)

1)知识结点：

定义3：在相关于论域X的知识子库中，称按如下形成表达的知识为不确定性规则型知识：

(1)P(X)Q(X)

(2) - - - P (X) &DoubleRightArrow;^_{j = 1}^{n} Q_{j} (X)

(3) - - -^_{i = 1}^{n} P_{i} (X) &DoubleRightArrow; Q_{j} (X)

(4) - - -^_{i = 1}^{n} P_{i} (X) &DoubleRightArrow;^_{j = 1}^{m} Q_{j} (X)

其中P(X)，Pi(x)，Q(X)，Qj(X)分别为“属性词”(或“状态词”)+程度词”的形式。

定义4：在定义3中，P(X)与Pi(x)称为知识始结点，Q(X)与Qj(X)称为知识终结点，并分别称为知识素结点；

^_{i = 1}^{n} P_{i} (X),^_{j = 1}^{m} Q_{j} (X),

分别称为知识合结点；两者统称为知识结点。

2)数据子类(结构)：

定义5：对于论域X，在相应于知识子库的数据子库中，与每个知识素结点相应的结构S＝<U，N，I，W>称为数据子类结构。其中，U≠Φ，U＝{u1，u2，...}，(ui是数据集，由下述的I形成)，它是在特定的语言场与语言值结构下，表征相应于知识素结点“属性词”或“状态词”的数据集的类(称为数据子类)；N≠Φ为语言值的有限集，它是刻划相应于知识素结点“程度词”的语言值的集合；

I：N→U，它是按语言值将数据集的类U进行划分的映射。在数据连续分布时，通常划分为若干交叉区间(即：_i，j(u_i⌒u_j≠Φ))；

W：N→[0，1]K(k为正整数)满足：

n1，n2∈N(n1≤N n2→W(n1)≤dicW(n2))，

n1，n2∈N(n1≠n2→W(n1)≠W(n2))。

3)“知识结点”与“数据子类(结构)”的关系：

定义6：设X与Y是任意的拓扑空间，称连续映射F：X×[0，1]ⁿ→Y为X到Y的映射的泛同伦。(通常意义下同伦概念的扩展)。

定义7：设f，g为从拓扑空间X到Y的连续映射，若存在泛同伦F(x，t)＝ft(x)，使得对于任意点x∈X均有f(x)＝F(x，(0，...，0))，g(x)＝F(x，(1，...，1))，则称g泛同伦于f，并称F为连续映射f与映射g的泛同伦，记作f～g。

定义8：设给定两个拓扑空间，若至少存在一个空间到另一个空间的一个泛同伦等价的映射，则称这两个空间为同一泛同伦型的空间。

由上述分析可知：在把一个空间换成同一个泛同伦型的空间时，泛同伦类集合的结构并无改变，所以在同伦理论里，可以把同一泛同伦型的空间看做是相同的。故定理3给出了知识子库中“知识结点”与相应数据子库中“数据子类结构”中的层之间的一一对应关系，如图7所示。

1.3类比推理

在使用问题推理时，有：若说问题t类似于问题b时，是指有问题t的属性P(t)和问题b的属性P’(b)。

定义9：属性类比推理是指，如果t～b，且P(b)成立，则可类比推出P(t)成立，即t～b，P(b)|～P(t)

定义10：设对象a和b分别有属性集P(a)和P(b)，则对象a和b之间的相似度可定义为交集的大小

其中符号“-”表示差集，α、β、γ为大于0的常数。

1.4广义细胞自动机

定义11：在离散化的欧几里德时空条件下，Ц＝<U，T，E，η>称为细胞自动机。其中，U是状态空间U，其元素u称为状态；T是时间序列，其元素t称为时刻；E是细胞集合，其元素e称为细胞(即空间区域)；η＝{φ1，φ2，...}是映射集合，元素φi：E*T U称为赋态映射。

定义12：Π＝<Ц，＾>称为因果细胞自动机，若因果必然性规律φi(N(e)，t)＾φj(e，t)满足下列三个条件：

(1)有限变化原理—自然界的因果必然性规律是构筑在适于描述任何时空区域的有限集合基础上，每个时空区域都可作为这些性质的描述对象；

(2)因果存在性原理—规律支配某时空区域，则对自动机大部分区域也适用(适于似决定论的细胞自动机)；

(3)因果一致性原理—该规律不仅适于某时空区域，而且适于整个细胞自动机，即整个可达性时空区域(适于决定论的细胞自动机)；

定义13：归纳逻辑因果模型是满足下列条件的语义结构X＝<S，Π>

(1)S＝(S_a，S_l，......S_M)，S_i为受因果必然性规律所支配的可能的因果世界，S_a为现实的世界；S_i＝(V_i1，V_i2，......)，V_ij表示组成S_i的不同的历史，每个历史是不同时空段的世界。

(2)Π是满足定义10的因果细胞自动机；每个可能的因果世界都用相应的因果细胞自动机来描述。

定义14：г^*＝<П^*，→>称为广义细胞自动机，若因果必然性规律^* _i(N(e)，t)→^* _j(e，t′)满足定义10，和下述条件：

(1)因果状(变)态原理—在连续、渐变的因果联系过程中，对于任意样本空间而言，细胞e在时刻t′的所有可能的状(变)态(作为结果)必然是由前一时刻t细胞e的邻域N(e)取“正”(如语言值“小”)与“反”(如语言值“不小”)两类状态作为原因所导致的。

(2)(变态与状态转换原理)当原因与结果所取变态与状态的语言场同构时，对于因果变态联系的规律同样适用于因果状态联系的规律，反之亦然。

2本发明实现机理：

图5A表示了本发明的第一种方案，主要步骤包括：

1)数据预处理：对真实数据库中的数据进行再加工，形成处理数据库，并与所述的基础知识库在基于属性建库的构造下建立对应关系；

2)输入：用户通过会话系统输入要解决的决策问题，会话系统把输入的问题信息传递给问题处理系统；

3)聚焦：就是通过人机交互输入的内容来指导问题求解的方向。具体过程为，问题处理系统收集数据信息，并根据知识库中已有的知识，判断和识别问题，如果出现问题，系统通过会话系统与用户进行交互对话，直到问题得到明确，和任务集中的某类任务匹配；

4)问题推理：系统搜寻任务解决的模型，对知识库进行搜索，并在方法库中选定的推理方法，问题推理得到辅助决策知识，最后用特定的模式表达所得到的知识。

5)实时维护：对所获得的每一假设推理与知识库中原有知识是否重复、冗余或矛盾，并根据判断结果作相应处理；

6)评价：对步骤4)获取的辅助决策知识进行价值评定，将被接受的知识存入综合知识库。

图5B表示了本发明的第二种方案，主要步骤包括：

4)KDD*挖掘：系统搜寻任务解决的模型，在方法库中选定的KDD*挖掘算法，并对知识库进行搜索以发现知识短缺，以此定向地从数据库里进行数据的选择，挖掘得到辅助决策知识，最后用特定的模式表达所得到的知识。KDD*挖掘过程，详见相关专利中请文件；

5)实时维护：对所获得的每一辅助决策知识与基础知识库中原有知识是否重复、冗余或矛盾，并根据判断结果作相应处理；

图5C表示了本发明的第三种方案，主要步骤包括：

4)WEB挖掘：系统搜寻任务解决的模型，运用选定的WEB挖掘算法，对文本知识库进行搜索，定向地从数据库里进行数据的选择，挖掘得到辅助决策知识，最后用特定的模式表达所得到的知识。

图5D表示了本发明的第四种方案，主要步骤包括：

4)问题求解：系统搜寻任务解决的模型，根据模型所采用的过程，在方法库中选定所采用的推理机制或是KDD挖掘算法或是WEB挖掘算法，从而得到辅助决策知识；最后用特定的模式表达所得到的这些辅助决策知识；

其中图5A所对应的技术方案突出采用了推理机制来得到辅助决策知识，图5B所对应的技术方案突出采用了KDD*挖掘方法来得到辅助决策知识，图5C所对应的技术方案突出采用了WEB挖掘方法来得到辅助决策知识，而图5D所对应的技术方案同时采用了推理机、KDD*挖掘方法和WEB挖掘方法来得到辅助决策知识，是前三个技术方案的综合，因此，本实施例主要对图5D所对应的技术方案进行详述，其余两种方案的实现基理相同。

根据所述的理论基础及结构对应定理，在本发明中，知识库中的知识素结点与数据库中的层相对应，也就是和该素结点相应的属性程度词相对应。为此经过预处理把真实数据库分成n个表(table)，即table1，table2，...，tablen，n为属性程度词的个数，而tablek中的k对应了每个属性程度词的ID号。每个表的字段只有一个，用来存放真实数据库中的数据的ID号，该ID所对应的数据处于属性程度词k所描述的状态。挖掘数据库就是由这n个Table组成，这样就无需搜索整个数据库，对于每条短缺的知识只需扫描知识结点所对应几个表。这对于大型数据库就显得尤为重要，这些小的表可以放入内存进行运算，而整个数据库就无法进行。

知识子库以属性为基础，其特点是便于形成知识结点与数据子类的对应关系，从而为定向数据挖掘奠定基础。逻辑结构：在相应的论域内，以属性为基础将规则库类化为若干规则子库，每一规则子库与挖掘数据库相对应。

2.1领域专家的知识获取

如图8所示为本发明所采用的专家知识获取方法示意图。步骤如下：

1)首先要对领域进行的定义，然后引导、记录并分析专家口述知识；

2)搜索知识元素，将检测出来的概念与包含它们的记录段一起加以存储。记录段的语义分析，对记录段中的所有词汇进行检查，看其是否包括顺序关系(如小于、等于)和倾向(如稳定、增加)等。

1)将知识元素及其相互联系的运算符共同构成命题演算，并与现有知识的匹配导致完整命题的最终实现。

2)中间知识表示，记录分析的所有输出都集成到中间知识表示系统。每个命题由一个运算符(表示概念之间的关系)、一个段标记(指向提供该命题的记录段的指针)、及相关的概念组成。

3)检查结构化对象的网络的完整性，对检查到的不完整性，应重复会谈和文本分析过程。

4)将语义网中的结构化对象翻译成框架形式，并修改操作通过调用结构编辑器进行，由知识工程师完成规则集合的组织和控制策略的选择。

5)约束生成，在发现数据之间有全局性依存关系时，由用户用鼠标选择数据和它们的关系，从而形成约束语言。

2.2模型库设计

如图9所示为本发明所设计的具有自动选择功能的模型库设计总体结构图。用户通过人机交互界面输入问题描述，由问题描述模块将问题分解为数据和文本描述两个部分。问题的文本描述部分送去进行语言识别或理解，然后利用识别结构从模型库中选择适合与问题文字描述部分的模型类型，并且将选择结果送去进行模型结构选择。问题的数据部分送入数据库保存，同时送到数据识别器进行识别，模型结构选择器根据识别结果以及模型类型的选择结果进行模型的结构选择。然后，根据保存在数据库中的有关数据对模型结构中的特定参数进行估值，完成模型事例的确定。最后由用户控制模型运行并对结果进行分析。如果用户对运行结果及分析结果不满意，可使用系统维护功能查看模型库的各个模型，从中找出用户自己认为是合适的模型予以运行，如果此时运行结果比上一个结果好，则用户可通过系统维护功能对有关部分进行修正。

2.3推理机制

如图10所示，为推理过程示意图。其输入为根据一个包括用一种或多种知识表示方法描述的已知问题及其解法的描述集合的知识库和需要求解的新问题。输出为解决了的新问题和扩充了的知识库。

1)对已知问题及其解法进行索引，以方便检索；

2)在知识库中搜索和需要解决的问题类似的相似问题，如找出相似问题进行问题求解，否则转去用其他方法求解；

3)对找到的相似问题的解法进行改造，使之适于解新问题；

4)用改造好的新解法解决新问题。

5)把成功的新解法用知识库的表示方法进行“规范化”，并纳入知识库，以便日后调用。

2.4 KDD*挖掘过程(详见专利：基于双库协同机制的KDD*新系统)

如图11所示，为KDD*挖掘过程示意图，包括

1)数据预处理：对真实数据库中的数据进行再加工，形成挖掘数据库，并与所述的基础知识库在基于属性建库的构造下建立对应关系；

2)聚焦：由通过人机交互输入的内容来指导数据挖掘的方向；

3)定向挖掘：启发型协调器搜索知识库中“知识结点”的不关联态，计算有向超图的可达矩阵来实现发现“知识短缺”，产生“创见意象”，从而启发与激活真实数据库中相应的“数据类”，以产生“定向挖掘进程”，进而用规则强度阈值进行剪枝并由计算机自动完成聚焦。

4)求取假设规则：通过选定的知识挖掘法，从挖掘数据库中提取用户所需要的知识，并用特定的模式表达所提取的知识，主要通过可信度阈值来实现(以挖掘关联规则为例)

5)实时维护：当从真实数据库的大量数据中经聚焦而生成规则(知识)后，中断型协调器则用SQL语言或计算有向超图的可达矩阵，去搜索知识库中对应位置有无此生成规则的重复、冗余、矛盾、从属、循环等。若有，则取消该生成规则或相应处理后返回KDD的“始端”；若无，则继续KDD进程，即知识评价。

6)评价：对步骤5)处理后并被选取的规则进行价值评定，将被接受的规则存入衍生知识库。

2.5 WEB挖掘过程

如图12所示，WEB挖掘过程包括特征提取、WEB挖掘、模型质量评价和信息表示与信息导航几个部分，其中：

1)特征提取：是指对Web上采集到的挖掘目标样本进行特征提取，采用潜在语义索引和小波分析方法生成挖掘目标的特征矢量；同时应根据特征项集选取的两个基本原则即完全性和区分性原则进行特征项集的选取，并将提取得到的特征矢量经过特征子集的选取后存放到文本特征库中形成文本中间表示形式。这样可以解决Web文档结构性差，自然语言计算机理解困难的问题。

特征表示：是指以一定的特征项(如词条或描述)来代表文档信息，使用布尔逻辑型或向量空间型作为特征表示模型；

特征提取：特征表示中词条T及其权值的选取称为特征提取，特征提取是挖掘特征共性与规则的提取过程；一个有效的特征项集，必须具备以下两个特征：

①完全性：特征项能够确实表示目标内容；

②区分性：根据特征项集，能将目标同其它文档相区分。

根据以上两条特征可得，词条对文档内容的贡献正比于词条的文档内频率数，反比于样本文档中出现该词条的文档频率数。因此我们可以构造词条权值评价函教：

W_{ik} = \frac{f_{ik} \log (\frac{N}{n_{k}} + 0.01)}{\sqrt{Σ_{k = 1}^{n} {(f_{ik})}^{2} \cdot lo g^{2} (\frac{N}{n_{K}} + 0.01)}}

其中f_ik表示词条T_k在文档D_i中的出现频率数，N表示全部样本文档总数，n_k表示词条T_k的文档频率数。

选取特征子集：构造信息增益评价函数，对特征集中的每一个特征进行独立的评估，这样每个特征都获得一个评估分，然后对所有的特征按照其评估分的大小进行排序，选取预定数目的最佳特征作为结果的特征子集；

其中信息增益评价函数的数学表示为：

InfGain(F)＝P(W)

Σ_{i} p (C_{i} | W) \log \frac{P (C_{i} | W)}{P (C_{i})} + P (\overline{W}) Σ_{i} P (C_{i} | \overline{W}) \log \frac{P (C_{i} | \overline{W})}{P (C_{i})}

F为对应于单字W的特征，P(W)为单字W出现的概率，W意味着单字W并不出现，P(Ci)为第i类值的出现概率，P(Ci|W)为当单字W出现时属于第i类的条件概率。

2)WEB挖掘：主要功能是采用适当的挖掘算法，对Web的中间表示形式进行挖掘处理，得到潜在的知识或者模式。根据挖掘信息对象的不同，可分为WEB文本挖掘、WEB访问信息挖掘和WEB结构挖掘三种类型。以下对其具体处理过程分述。

WEB文本挖掘处理流程：

(1)定义类别集合C＝{c₁，...，c_i，...c_m}，这些类别可以是层次式的，也可以式并列式的；

(2)给出训练文档集合S＝(s₁，...s_i，s_m}，每一个训练文档被标上所属的类别标识c_i；

(3)统计S中所有文档的特征矢量V(s_j)，确定代表C中每一个类别的特征矢量V(c_j)；

(4)对于测试文档集合T＝{d₁，...，d_k，...d}中的每一个待分文档d_k，计算其特征矢量V(d_k)与每一个V(c_j)之间的相似度sim(d_k，c_j)；

(5)选取相似度最大的一个类别

\arg \max_{- c_{I} &Element; c} sim (d_{k}, c_{i})

作为d_k的类别。

有时候也可以为d_k指定多个类别，只要d_k与这些类别之间的相似度超过了某一个预定的阈值。如果d_k与所有的类别的相似度均低于阈值，那么通常将该文档放在一边，由用户来做最终的决定。对于类别与预定义类别不匹配的文档而言，这是合理的，也是必要的。如果这种情况经常发生，则说明需要修改预定义类别，然后再重新进行上述训练与分类过程。

在计算sim(d_k，c_j)时，有多种方法可供选择。最简单的方法是考虑两个特征矢量中所包含的词条的重叠程度，即

sim (d_{k}, c_{j}) = \frac{n_{\cap} (d_{k}, c_{i})}{n_{\cup} (d_{k}, c_{i})},

其中n_⌒(d_k，c_j)是V(d_k)和V(c_j)具有相同词条数目，n_∪(d_k，c_i)是V(d_k)和V(c_j)具有的所有的词条数目；最常用的方法就是考虑两个特征矢量之间的夹角的余弦，即

sim (d_{k}, c_{j}) = \frac{V (d_{k}) \cdot V (c_{i})}{| V (d_{k}) | \times | V (c_{i}) |} .

WEB访问信息挖掘处理流程：

将查询q提交给普通的基于相似度的搜索引擎，搜索引擎返回很多页面，从中取前n个页面作为根集，用S表示。

通过向S中假如被S引用的页面和引用S的页面将S扩展成一个更大的集合T。

以T中hub页为顶点集V1，以authority页为顶点集V2，V1中的页面到V2中的页面的超链接为边集，形成一个二分有向图SG＝(V1，V2，E)。对V1中的任一个顶点v，用h(v)表示页面v的hub值，对V2中的定点u，用a(u)表示页面u的authority值，开始时a(u)＝h(v)＝1，对u执行I操作修改它的a(u)，对v执行0操作修改它的h(v)：

I操作：

a (u) = \underset{v : (v, u) &Element; E}{Σ} h (v) - - - - (1)

O操作：

a (u) = \underset{v : (v, u) &Element; E}{Σ} a (u) - - - - (2)

每次迭代后对a(u)和h(v)进行规范化处理：

a (u) = \frac{a (u)}{\sqrt{\underset{q &Element; V 2}{Σ} [{a (q)]}_{2}}} h = (v) \frac{h (v)}{\sqrt{\underset{q &Element; V 1}{Σ} [h (q)] 2}}

式(1)反映了若一个页面有很多好的hub所指，则其authority权重会相应增加(即权重增加为所有指向它的页面的现有hub权重之和)。式(2)反映了若一个页面指向许多好的权威页面，则hub权重也会相应增加(即权重增加为该页面链接的所有页面的authority权重之和)。

算法输出一组具有较大hub权重的页面和具有较大authority权重的页面。

在实际应用中，由S生成T的代价可能是很昂贵的。为了找出S所引用的页面，需要将S中的所有页面下载，为了找出引用S的页面，对S中的页面需要搜索引擎能给出的URL能找出引用该URL的页面。一般情况下，|S|＝200，而|T|可能达到5000。因此根据T产生有向图SG可能是昂贵的。

WEB结构挖掘处理流程：

使用识别用户浏览行为的序列模式，主要是挖掘频繁遍历路径。遍历路径就是在用户会话中请求页面所组成的序列。由于用户会话中既包含请求页面又包含路径补充时添加的页面，所以挖掘频繁编历路径时，首先在每个用户会话中找出所有的最大向前路径。然后确定其中的公共子路径。最大向前路径的方法是基于最大向前引用的工作。在用户会话中的第一页到回退的前一页组成的路径。

假设{x₁，x₂，...，x_m}代表一个用户会话{y₁，y₂，...，y_m}代表一个含有潜在最大向前路径的字符串，初值为空，用标志位标志当前的编历方向是前进还是后退。算法的主要思想是，每次检查用户会话中的页x，试图将该页扩充到潜在最大向前路径中。

3)模型质量评价：将挖掘得到知过程识或者模式进行评价，将符合一定标准的知识或者模式呈现给用户。

将数据集分成训练集与测试集两部分，学习-测试循环反复执行，最后用一个平均质量来衡量模型质量的好坏。其中，测试集是从数据集中随机抽取预定大小的一个子集，其余的数据作为训练集；

评估参数有分类正确率、查准率、与查全率。

分类正确率：

Accuracy (x) = Σ_{ex} P (ex) Accuracy (m, ex) = P (\hat{C} (ex) = C (ex))

Accuracy (M, ex) = 1; \hat{C} (ex) = C (ex)

或者0；其它

其中C(ex)为样例ex的实际类值，

为通过模型M对样例ex的预测类值，P(ex)为样例ex的概率(通常为1/n，n为样本集的大小)。

查准率为检索到的目标类的样例集中所包含的属于检索正确的样例所占比例的大小。对目标类target C模型M的查准率可用如下公式来估计。

Precision (M, t \arg et C) = P (t \arg et C |^{t \arg e \hat{t}} C)

查全率为在一个检索结果中所包含的检索正确的对象数目占实际存在的满足查询要求的对象数目的比例大小。对目标类target C模型M的查全率可用如下公式来估计。

Recall (M, t \arg et C) = P (^{t \arg e \hat{t}} C | t \arg et C)

在如上的两个公式中，target C代表实际值为目标类值，

代表预测值为目标类值。

4)信息表示和信息导过程过程航：将反馈的结果用可视化的方式进行显示，同时对用户提供信息导航功能，从而在极大的程度上方便用户有效的浏览和获取信息。

图13为模型库维护及创建过程流程图。首先，当用户输入问题后，形成问题实例步骤101，系统自动查找模型操纵知识库，进行知识匹配步骤102，如果知识匹配，进入问题求解过程步骤106；否则如果没有知识匹配，即库中既无模型操纵知识，也无求解经验，系统应该接着搜索模型库，进行模型匹配步骤103，如果找到模型和求解目标匹配，则进入问题求解过程步骤106；否则如果库中没有模型与求解目标匹配，提示用户原始求解目标是否可以分解成几个子问题进行求解，如果可以，则要求用户输入数据步骤104，形成子问题实例，然后转到步骤102，行模型并显示结果；否则，如果原求解问题不能被拆分，则需要用户自己选模或建模步骤105。

每次运行步骤106后，用户应调用评价过程步骤107，如果结果满意，进入学习模型操纵知识步骤108；否则如果结果不满意，应调用修正模型来操纵知识步骤109，从而修改模型步骤105，重新求解步骤106。这样，可以使每次运行得到的经验都被积累到系统中。

图14所示为问题推理过程流程图。

首先，步骤201使指针指向知识库中的第一条知识，步骤202判断知识库是否已经搜索完毕，如还有知识未被检索，则步骤203从知识库中将此规则提取出来，步骤204根据此规则前提和数据库所支持的该规则的可信度等参数，得到该规则结论的可信度，步骤205判断该结论可信度是否大于可信度阈值，如不大于，则步骤206取下一条规则，系统执行202；否则如可信，则步骤207使该结论作为新事实放入数据库中，如果该结论已经在数据库中了，根据可信度计算模型重新计算新的模型，并从知识库中删除知识R，并转向执行步骤202。知识库搜索结束后，步骤208判断数据库内容是否有增加，如有则转向201，否则如没有，步骤209将数据库中的相关结论取出。

如图15所示的KDD*挖掘过程示意图，具体参见相关申请专利：

步骤302对真实数据库进行预处理，形成挖掘数据库；步骤303将计数指针置为1；步骤304从挖掘数据库产生所有大于最小支持度的数据的集合，即大项集L_i；步骤305从知识库中产生候选集C_i+1；步骤306判断候选集是否为空，如果判断是肯定的，则转到步骤314，否则执行步骤307；步骤307计算规则强度intensity(c_m)；步骤308判断规则强度是否小于规则强度阈值MinIntensity，如果判断是肯定的，则执行步骤309以删除c_m，然后转到步骤315，如果判断是否定的，则执行步骤310；步骤310产生知识短缺集K_i+1；步骤311判断知识短缺集K_i+1是否为空，如果判断是肯定的，则转到步骤314，否则执行步骤312；步骤312调用KDD进程进行数据的挖掘；步骤313使计数指针加1后转到步骤305；步骤314显示产生的新观则；步骤315则结束本次运行。

如图16所示的给出WEB挖掘中挖掘过程的流程示意图：

步骤401定义定义类别集合C＝{c₁，...，c_i，...，c_m}，然后步骤402取出训练文档集合S＝{s₁，...s_i，...s_n}中的第一个训练文档S1，步骤403将为选定的训练文档给定类别属性C，步骤404计算此选定训练文档的特征矢量V(S)，步骤405判断此选定训练文档是不是训练文档集合中的最后一个，如果不是，步骤406取出下一个训练文档，并执行步骤403；否则执行步骤407取测试文档集合T＝{d₁，...，d_k，...，d_r}中的第一个待分文档D1，步骤408计算其特征矢量V(d_k)与每一个V(c_j)之间的相似度sim(d_k，c_j)，步骤409选出相似度最大的一个类别

\arg \max_{c_{i} &Element; c} sim (d_{k}, c_{i}),

步骤410判断是否还有未处理的待分文档，如有，步骤411取出下一个待分文档，并执行步骤408；否则程序结束。

以上具体实施方式仅用于说明本发明，而非用于限定本发明。

Claims

1.一种基于信息挖掘的智能决策支持系统构造方法，采用包含有中央处理器和存储器的数字计算机作为信息挖掘终端，且将所述的数字计算机与网络联接；其特征在于：

2.根据权利要求1所述的方法，其特征在于，所述的进行信息挖掘和构造模型与推理机制是指：采用问题推理的方式进行信息挖掘，即：搜寻任务解决的模型，对所述的基础知识库进行搜索，并在所述的方法库中选定推理方法，决策推理得到辅助决策知识信息，最后用特定的模式表达所得到的知识信息。

3.根据权利要求1所述的方法，其特征在于，所述的进行信息挖掘和构造模型与推理机制是指：采用KDD*挖掘的方式进行信息挖掘，即：搜寻任务解决的模型，在所述的方法库中选定KDD*挖掘算法，并对所述的基础知识库进行搜索以发现知识短缺，以此定向地从数据库里进行数据的选择，挖掘得到辅助决策知识信息，最后用特定的模式表达所得到的知识信息。

4.根据权利要求1所述的方法，其特征在于，所述的进行信息挖掘和构造模型与推理机制是指：采用WEB挖掘的方式进行信息挖掘，即：搜寻任务解决的模型，运用选定的WEB挖掘算法，对所述的文本日志库进行搜索，定向地从数据库里进行数据的选择，挖掘得到辅助决策知识信息，最后用特定的模式表达所得到的知识信息。

5.根据权利要求1所述的方法，其特征在于，所述的进行信息挖掘和构造模型与推理机制是指：采用问题求解的方式进行信息挖掘，即：搜寻任务解决的模型，根据模型所采用的过程，在所述的方法库中选定所采用的推理方法或是KDD*挖掘算法或是WEB挖掘算法，得到辅助决策知识信息，最后用特定的模式表达所得到的这些辅助决策知识信息。

6.根据权利要求1所述的方法，其特征在于，所述的存储器可采用若干大容量存储器组成的超大容量存储装置；所述的数字计算机为若干台计算机组成的数字计算机系统；所述的网络是指互联网和局域网。

7.根据权利要求2所述的方法，其特征在于：

步骤4中所述的问题推理包括：对专家知识进行分类，构造知识问答决策树，使系统能够响应用户的咨询要求，其包括如下具体步骤：1)对已知问题及其解法进行索引，以方便检索；2)在基础知识库中搜索和需要解决的问题类似的相似问题，如找出相似问题进行问题求解，否则转出；3)对找到的相似问题的解法进行改造，使之适于解新问题；4)用改造好的新解法解决新问题，把成功的新解法用知识库的表示方法进行规范化，并纳入所述的基础知识厍，以便日后调用；

8.根据权利要求3所述的方法，其特征在于：

9.根据权利要求4所述的方法，其特征在于：

10.根据权利要求5所述的方法，其特征在于：