CN103136337A

CN103136337A - 用于复杂网络的分布式知识数据挖掘装置和挖掘方法

Info

Publication number: CN103136337A
Application number: CN2013100420465A
Authority: CN
Inventors: 贺志强; 牛凯; 梁彬
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2013-02-01
Filing date: 2013-02-01
Publication date: 2013-06-05
Anticipated expiration: 2033-02-01
Also published as: CN103136337B

Abstract

一种用于复杂网络的分布式知识数据挖掘装置和方法，该装置采用分布式计算平台，由控制单元、计算单元和人机交互单元三部件组成，其创新关键是将数据挖掘中繁杂的聚类算法所需的计算量分配在不同的服务器完成，提高数据挖掘的效率。还能针对不同知识数据运用不同准则计算知识数据的关系度及其权值，使得其结果更加可信。且在知识数据挖掘过程中采用二级聚类模式：第一级聚类结果较为粗略，但计算复杂度很低；第二级聚类的计算复杂度较高，但结果更为精准；本发明将二者有效结合，比传统一级聚类模式在时间复杂度和聚类精准度上都得到很大的改善。本发明采用可视化直观展示网络结构及动态演化过程，为学科发展、热点研究领域的预测提供参考。

Description

用于复杂网络的分布式知识数据挖掘装置和挖掘方法

技术领域

本发明涉及一种用于复杂网络的分布式知识数据挖掘装置和挖掘方法，属于数据挖掘的计算机应用技术领域。

背景技术

目前，人类社会在每天产生的新数据都以爆炸形式迅速增长，实时分析处理这些海量数据，并挖掘其内部关系是分析决策者非常关注的问题。例如，我国信息科学的发展速度非常惊人，每年都会申报数千项科研项目，发表的论文和申请的专利都难以计数，分析这些科研项目、论文和专利的知识数据之间的关系网络，并预测未来几年该技术领域的研究热点或焦点，可以帮助科研管理部门更有效地执行项目的管理与审批，同时还可为该领域的研究人员开辟新的研究热点方向。

数据挖掘是在大量数据中挖掘出有用信息，即从海量的、不完全的、有噪声的、模糊的、随机的实际数据中，发现隐含的、有规律性的、人们事先未知但具有潜在意义，并最终可理解的信息和知识的过程。数据挖掘的任务是要发现那些不能靠直觉发现的、有时甚至是违背直觉的知识或信息。其所挖掘的知识类型包括：模型、规律、规则、模式和约束等等。因此，数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据之间关系的过程，使用这些模型和关系可以进行预测或帮助决策者寻找各数据之间的潜在关联，发现被忽略的因素。因此，数据挖掘通常也被称为知识发现KDD（Knowledge Discovery inDatabase）。

数据挖掘也是数据库中发现知识的一个操作步骤，简单地讲，就是从数据集合中抽取隐藏的有用信息的技术，用于帮助决策者分析历史数据与当前数据之间的关系，并从中发现隐藏的关系和模式，进而预测未来可能发生的行为。

近年来，数据挖掘已经引起信息产业界的极大关注，其主要原因是：现存的大量数据都可以被广泛使用，并且迫切需要将这些海量数据转换成有用的信息和知识；再将这些获取的信息和知识用于包括商务管理、生产控制、市场分析、工程设计和科学探索等各种应用。

具有自组织、自相似、吸引子、小世界和无标度中的部分或全部特性的网络被称为复杂网络。复杂网络作为一门新兴学科，在不同领域中有着很强的应用背景，已经成为一个充满生命力的交叉研究领域。目前，复杂网络的研究内容主要包括：网络的几何性质，网络的形成机制，网络演化的统计规律，网络上的模型性质，以及网络的结构稳定性，网络的演化动力学机制等多种课题。

复杂网络的社团探测与数据挖掘中的分类、聚类问题，两者的本质是相同的。数据挖掘中比较常用的一种方法是通过对数据的加工，将其构建为复杂网络架构，从而使用复杂网络中的社团探测方法对数据进行分类、聚类，分析社团及整个网络结构的演化。近年来，基于网络和图挖掘的分析方法受到了越来越多的关注。

研究高效率的实时处理算法是数据挖掘的一个重要研究方向，在数据挖掘中，经常遇到的一个难题是海量数据。由于数据量极大，所以只有低复杂度的算法才有实用价值。另外，采用云计算技术实现算法并行化，也是一种很好的解决方案，云计算是目前极具发展前景的技术，具有虚拟化、并行化和高效性等优点，能够解决海量数据处理速度慢的问题。狭义的云计算是指厂商通过分布式计算和虚拟化技术搭建数据中心或超级计算机，以免费或按需租用方式向技术开发者或企业客户提供数据存储、分析和科学计算等服务。云计算将计算任务分布在由大量计算机构成的资源池上，使各种应用系统能根据各自所需而获取计算能力、存储空间和各种软件服务。例如，Hadoop平台是一个能够对海量数据进行分布式处理的功能模块框架。其中的HDFS和MapReduce是该框架中两个最重要、最基础的组成部件。HDFS是Google GFS的开源版本，也是一个高容错的分布式文件系统，它能够提供高吞吐量的数据访问，适合存储海量的文件。MapReduce是一个分为Map和Reduce两个函数分别并行编程的函数模块，MapReduce计算模型把计算操作分为Map和Reduce两个过程，该功能结构极大地简化了分布式计算的底层复杂性，并向用户提供了一个简单、可靠的应用接口。目前，如何把这种分布式的计算模式应用于数据挖掘，尤其是大规模图结构计算上的研究和应用，已经获得了业内科技人员的普遍关注。

数据挖掘的另一个重要热点方向是面向领域设计，即针对不同的领域开发专用的数据挖掘系统。如今需要挖掘的数据来源极为广泛，数据类型也非常繁杂、多样，例如：包括结构数据和复杂数据对象、超文本和多媒体数据等等。为提升分析能力和效果，应当针对不同领域的应用开发专门的数据挖掘系统。本发明只是用于复杂网络的大规模知识数据的挖掘装置和方法。

以“数据挖掘”为关键词，检索到下述两项中国发明专利申请，介绍如下：

第一个是《数据挖掘方法及数据挖掘系统》（申请号200910077661.3），该方法可提高数据挖掘效率。具体步骤是：设置数据挖掘的工作流，该工作流中包括多个并行的数据处理任务；再启动该工作流，并在多个并行的数据处理任务被触发时，为其中的每个数据处理任务分配执行节点，以使该多个并行的数据处理任务在分配的执行节点上并行执行。执行节点在执行每个数据处理任务时，通过Map/Reduce机制将数据处理任务分配给并行执行的Map任务进行处理，还将该数据处理任务对应的各Map任务的处理结果通过相应的Reduce任务进行合并，得到相应数据处理任务的处理结果。

第二个是《基于数据挖掘的文本搜索方法》（申请号：200710062175.5），该方法采用计算机技术领域中的电子文本文档进行精确表示和搜索技术，利用数据挖掘技术从海量数据中发现重要信息特性，对文本文档进行分析并抽取多层次的特征来表示文档。这些多层次的特征能够形成文档的精确表示，建立了一种新的文本检索系统，达到文本搜索的目的。该方法具有运算速度快、性能稳定、适用面广的特点，可用于任何语言的文本文档的文本搜索、文本聚类、文本摘要等诸多文本智能处理。

然而，现有技术存在下述缺点：（1）海量数据处理无法满足实时性要求，（2）绝大多数算法无法有效分析包括科研项目数据、论文数据和专利数据的知识数据的信息。因此，如何解决上述两个问题，就成为业内科技人员关注的焦点。

发明内容

本发明的目的是提供一种大规模分布式实时数据挖掘装置和方法，本发明基于对知识数据进行的挖掘与分析，提出一种适用于知识数据的数据挖掘装置和方法，并通过可视化将网络结构及动态演化过程直观地展现出来，为学科发展、热点研究领域的预测提供参考。

为了达到上述目的，本发明提供了一种用于复杂网络的分布式知识数据挖掘装置，其特征在于：该装置设有三个部件：控制单元、计算单元和人机交互单元，其中：

人机交互单元，用于实现人机交互功能，向用户提供包括针对知识数据的聚类、关系度计算或权值计算的可选功能，在用户选择后，接收用户指令，并转送给控制单元执行相应操作；且在运算结束后，将控制单元处理完成的数据，结合用户所选择的功能，以适宜方式显示给用户；该单元以.NET开发为主，利用包括WPF（Windows Presentation Foundation）的框架模块实现数据的图形化显示和交互；

控制单元，用于接收人机交互单元输入的指令，并以分布式平台特性和功能，按照包括MapReduce机制的设定方式控制和分配计算任务，并统一汇总计算单元的计算结果，反馈给人机交互单元进行显示；

计算单元，负责完成控制单元分配的计算任务，并将计算结果反馈给控制单元，设有：数据采集，相关度计算，权重计算，聚类和预测共五个模块。

所述计算单元各个模块的功能如下：

数据采集模块，用于使用爬虫工具或开放的应用程序接口API在线采集包括科研项目、专利和论文的知识数据，再采用包括正则表达式分析、过滤和删除无用数据和非法字符的方法对该知识数据进行预处理：建立能够藉由科研项目负责人、专利申请人、发明人或专利权人，以及论文作者的关系寻找到知识数据的索引，然后将其存入分布式数据库中，作为后续计算的数据源；

相关度计算模块，用于计算已有知识数据的相关度：遍历数据库中的知识数据，根据设定的相关度计算规则，量化知识数据属性的相关程度，计算每个知识数据与其他知识数据的相关度，得到每两个知识数据之间的相关度；

权值计算模块，用于计算现有知识数据的权重：遍历数据库中现有的知识数据，根据设定规则和知识数据自身的属性特征，计算每个知识数据的权值；

聚类模块，负责完成对现有知识数据的聚类：利用知识数据的相关度及其自身权值，构建知识数据网络，再利用聚类算法对知识数据进行聚类，把相似或相关的知识数据聚集在一起，发现或得到知识数据网络的社团结构；

预测模块，用于根据知识数据的聚类结果，采用包括时间序列分析和神经网络算法对知识数据的发展趋势和动向进行预测。

为了达到上述目的，本发明还提供了一种用于复杂网络的分布式知识数据挖掘装置的大规模知识数据挖掘方法，其特征在于：所述方法包括下列操作步骤：

（1）人机交互单元接收用户输入指令，确认用户的计算需求并传递给控制单元；

（2）控制单元接收人机交互单元传递的指令，判定指令内容，确认用户需要的计算过程，并对该计算操作进行分工，分配给计算单元；

（3）计算单元完成控制单元分配的数据处理和计算，且在完成处理计算后，将计算结果提交给控制单元；

（4）控制单元进行汇总处理后，将结果交付给人机交互单元；

（5）人机交互单元接收到控制单元的处理结果，判定该处理结果及其显示的类型，以便采用设定方式向用户展示该结果；所述结果及其显示类型包括聚类结果、预测分析结果和知识数据。

本发明的创新关键技术是下述三点：

（1）知识数据的相关度计算算法：根据不同的知识数据设计了不同的相关度计算准则，以便能更准确地呈现出知识数据间的关系。

（2）在聚类操作中采用两级聚类算法：先采用复杂度较低，结果较为粗略的聚类算法对所有的节点进行粗聚类，再对该聚类结果中的每个初始聚类进行复杂度较高，聚类结果较为精细的聚类，以得到更为精准的结果。

（3）运用分布式计算平台来实现海量知识数据的处理和存储。

与现有技术相比较，本发明的优点是：

（1）知识数据的相关度计算方法：针对不同的知识数据运用不同的准则计算权值和关系度，使得其结果更加可信。

（2）聚类过程中降低时间复杂度；本发明采用二级聚类模式：第一级聚类结果较为粗略，但计算复杂度很低；第二级聚类的计算复杂度较高，但结果更为精准；将二者有效结合起来，比传统的一级聚类模式在时间复杂度和聚类精准度上都得到很大的改善。

（3）提高了知识数据挖掘的效率；本发明采用分布式计算平台，将庞大的数据挖掘中聚类算法操作所需的计算量分配在不同的服务器进行计算。

附图说明

图1是本发明用于复杂网络的分布式知识数据挖掘装置结构组成示意图。

图2是本发明用于复杂网络的分布式知识数据挖掘装置的挖掘方法操作步骤方框图。

图3是本发明装置的知识数据挖掘方法中数据聚类操作步骤示意图图。

图4是本发明装置的知识数据挖掘方法中的实施例部分科研人员聚类结果示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图和实施例对本发明作进一步的详细描述。

本发明主要研究在分布式和实时性的要求下，如何采集和分析海量知识数据，并通过挖掘知识数据，分析和判断各个知识数据之间的关系，分析我国科研研究的核心和重点，预测未来数年内新的研究方向。

本发明的知识数据包括科研项目、科研人员、专利和论文的四个维度信息，是由科研项目、专利和论文的数据经过预处理得到的，同时，将科研项目、科研人员、专利和论文相互关联起来。

参见图1，介绍本发明用于复杂网络的分布式知识数据挖掘装置的结构组成中的三个部件：计算单元、控制单元和人机交互单元，控制单元控制和分配计算任务，计算单元完成分配的计算任务后，向控制单元反馈，再由控制单元统一汇总后，由人机交互单元向用户提交，并显示计算结果。其中：

人机交互单元：用于实现该装置人机交互功能，向用户提供包括针对知识数据的聚类、关系度计算或权值计算的可选功能，在用户选择后，接收用户指令，并转给控制单元执行相应操作；且在运算结束后，将控制单元处理完成的数据，结合用户所选择的功能，以图形化或其他适宜方式显示给用户。该单元以.NET开发为主，利用包括WPF等框架模块实现数据图形化显示和交互操作。

控制单元：用于接收人机交互单元输入的指令，并以分布式平台特性和功能，按照包括MapReduce机制的设定方式控制和分配计算任务，并统一汇总计算单元的计算结果，反馈给人机交互单元进行显示。

计算单元：作为该装置的处理核心，负责完成控制单元分配的计算任务，并将计算结果反馈给中心控制单元，设有下述五个模块：数据采集模块，相关度计算模块，权重计算模块，聚类模块和预测模块。各个模块的功能如下：

数据采集模块：使用网络爬虫工具或开放的应用程序接口API在线采集包括科研项目、专利和论文的最初知识数据，再采用包括正则表达式分析、过滤和删除无用数据和非法字符的分词方法对该知识数据进行预处理：建立能够藉由科研项目负责人、专利申请人、发明人或专利权人，以及论文作者的关系寻找到知识数据的索引，然后将其存入分布式数据库中，作为后续计算的数据源。

相关度计算模块：用于计算已有知识数据的相关度：遍历数据库中的知识数据，根据设定的相关度计算规则，量化知识数据属性的相关程度，计算每个知识数据与其他知识数据的相关度，得到每两个知识数据之间的相关度。

权值计算模块：用于计算现有知识数据的权重：遍历数据库中现有的知识数据，根据设定规则和知识数据自身的属性特征，计算每个知识数据的权值。

聚类模块：负责完成对现有知识数据的聚类处理：利用知识数据的相关度及其自身权值，构建知识数据网络，再利用聚类算法对知识数据进行聚类，把相似或相关的知识数据聚集在一起，发现或得到知识数据网络的社团结构。

预测模块：用于根据知识数据的聚类结果，采用包括时间序列分析和神经网络等算法对知识数据的发展趋势和动向进行预测。

本发明装置中的计算单元采用分布式处理功能模块Hadoop平台对知识数据实现分布式计算处理，即利用该Hadoop平台中包括映射（Map）和化简（Reduce）两个处理过程的MapReduce机制，作为该计算单元使用的分布式计算方法，对知识数据进行有效分割和重组，并减少数据处理时间，提高数据处理效率。其中，MapReduce计算机制用于实现聚类过程，即把对知识数据的聚类计算分为Map和Reduce两个过程。

下面详细说明k-means（k-均值）聚类算法的分布式计算过程：

对于Hadoop上的k-means聚类，首先使用Map操作并行地将原始知识数据转换为可聚类的格式，并给不同服务器分配互不重复的知识数据（这个操作步骤是用一个map操作并行执行的）。然后，对这些知识数据同时开始进行初始划分和下述迭代操作：每个服务器根据给定的k值随机选取k个知识数据作为初始聚类中心，并对其按照顺序编号，得到k个聚类（Cluster）作为初始聚类中心，然后根据给定的k值进行初始划分，Reduce过程得到所有聚类并计算新的聚类中心。重复执行该MapReduce操作，直到聚类中心不变或者达到最大迭代次数。迭代结束后，输出每个知识数据的聚类信息。

再在Map阶段分别读出位于本地的知识数据，并计算每个知识数据到各初始聚类中心的距离（关系度），将其归属到最近的初始聚类中心（该步骤操作是并行进行的），再将本次聚类结果在Reduced过程中返回。每个服务器在Map阶段读出位于本地的数据集，并行计算每个知识数据对应的聚类。

Reduce过程是得到所有知识数据的聚类结果，并对各服务器聚类结果进行合并后，在每个新的聚类中选取权值最大的知识数据作为新的聚类中心。重复执行上述Map和Reduce操作，直到聚类中心不再变化或达到最大迭代次数时，结束迭代，并输出每个知识数据归属的聚类信息。

重复执行上述map-reduce操作，直到聚类中心不再变化或达到最大迭代次数，就结束迭代操作，输出每个知识数据的聚类信息。这样，就将原本串行计算过程，分配给不同的服务器进行并行计算，极大地简化了分布式计算的底层复杂性，并向用户提供一个简单、可靠的应用接口。

本发明分布式知识数据挖掘装置挖掘方法是：为了提升处理速度，事先对所采集的海量知识数据进行权值和关系度的预分析，构建知识复杂网络，并存储在数据库中。例如：根据用户需求，统计相关关键词的集合，利用海量知识数据提取训练样本计算关键词的TF-IDF（词频-逆向文件频率）值，再通过奇异值SVD分解得到每两个关键词之间的相关度。然后根据设定规则，计算得到含有一个或多个关键词的知识数据之间的关系度（距离）。最后，利用两层聚类算法进行聚类，分析聚类的结果，通过数据可视化技术，将复杂的知识数据关系网络展现给用户，同时，系统提供了统计和预测算法，便于用户进行分析决策。

参见图2，介绍本发明分布式知识数据挖掘装置挖掘方法的具体操作步骤：

步骤1，本发明分布式知识数据挖掘装置中的人机交互单元接收用户输入指令，确认用户的计算需求并传递给控制单元。

人机交互单元负责向用户提供下述可选功能（包括：针对知识数据的聚类，针对知识数据的关系计算、权重计算等），由用户选择各自所需的计算，接收用户指令，传递给控制单元。而且，在控制单元完成了对计算单元的计算结果的汇总后，人机交互单元接收控制单元的计算结果，结合用户所选择的功能，并通过合适的方式（如柱状图、饼图和知识数据网络结构图等）显示给用户。

步骤2，控制单元接收人机交互单元传递的指令，判定指令内容，确认用户需要的计算过程，并对该计算操作进行分工，并按照设定方式将任务分配给计算单元。

步骤3，计算单元完成控制单元分配的数据处理和计算，且在完成处理计算后，将计算结果提交给控制单元。该步骤中，计算单元完成的数据处理和计算包括下列操作内容：

（31）数据采集模块接收控制单元分配的任务，采用包括网络爬虫和开放的应用接口API采集知识数据，并对其进行预处理，得到包含科研项目、科研人员、专利和论文四个维度信息的知识数据，然后将该知识数据存储于分布式数据库。该步骤包括下列操作内容：

（31a）数据采集模块利用网络爬虫或开放的应用接口API在网络上实时抓取包括科研项目、专利和论文的知识数据，其中，科研项目知识数据包括：项目的名称、编号、起止时间、经费及其负责人和单位的信息；专利知识数据包括：专利申请人和发明人、专利说明书摘要、引用的专利信息、专利申请日及其公开日和公开号的信息；论文知识数据包括：论文名称、作者、内容和引用的文章名信息；然后将抓取到的各种知识数据按照技术领域区分并存储于分布式数据库；其中，科研项目名称、专利名称和论文名称是短文本数据，专利说明书摘要和论文内容是长文本数据。

（31b）预处理模块对知识数据进行预处理：对存储于数据库中的新抓取的每个知识数据执行包括分词、过滤无用词和非法字符的预处理，得到每个知识数据中的项目名称、专利名称或论文名称的分词序列，再将知识数据及上述三个序列作为预处理结果，存储于分布式数据库。

（32）由相关度计算模块对预处理后的知识数据计算其数据相关度，得到每个知识数据之间的关系，构建初始知识数据网络，为后续的聚类处理提供依据。知识数据之间的相关度体现了知识数据之间的关联关系，依据各个知识数据间的关系信息，可以建立起知识数据网络，并在其基础上做进一步分析处理。该步骤计算知识数据相关度的操作是根据不同的计算准则，分别计算知识数据中科研项目数据、论文数据和专利数据之间的相关度，其数值越大，说明该组知识数据的关系越接近。包括下列可选择的操作内容：

（32a）将分布式数据库中的专利说明书摘要和论文内容数据作为文本词语库，对其进行分词操作，使用词频-逆向文件频率TF-IDF方法，得到关键词集合，再对关键词和文本词语库中每个知识数据的TF-IDF关系矩阵进行奇异值分解，得到各个关键词之间的直接关联关系值，并存储在分布式数据库中。或

（32b）对于科研项目名称、专利名称或论文名称构成的短文本数据集合中的任意两个短文本数据A和B，所对应的关键词的分词序列分别是序列word_A和序列word_B；再按照公式：计算该两个短文本数据A和B的关系度值；其中，i,j分别为两个不同关键词在各自的分词序列word_A和分词序列word_B中的序号；n1,n2分别为两个分词序列word_A和word_B的各自长度；R_word(i,j)是分词序列word_A中第i个关键词和分词序列word_B中第j个关键词的关系度值；R_text(A,B)值越大，说明短文本数据A和短文本数据B的相似度越大。或

（32c）每两个科研人员a和b之间的关系度值R_people(a,b)是根据其共同负责过的科研项目、共同完成的发明专利和/或共同发表的论文数量和该两个科研人员各自或共同负责的科研项目、发明专利和发表的论文数量对应的比值按照下述加权计算公式：

计算得到的；其中，a、b为该两个科研人员，N_ab为该两个科研人员a和b共同负责的科研项目数、共同发表的论文数、共同完成的发明专利数的总和，N_a和N_b分别表示每个科研人员a和b各自负责过的项目、发明专利和/或发表的论文总数。或

（32d）采用下述不同公式分别计算知识数据在不同维度上的相关度值：

两个科研项目α＝{α_leader,α_title,α_time,α_level}和β={β_leader,β_title,β_time,β_level}，其中，α_leader和β_leader分别为项目α和β各自的负责人，α_title和β_title、α_time和β_time以及α_level和β_level分别为项目α和β的名称、起止时间及其级别，它们之间的相关度值的计算公式为：

R_project(α,β)＝q₁×R_people(α_leader,β_leader)+q₂×R_text(α_title,β_title);其中，R_people(α_leader,β_leader)为由步骤（32c）计算得到的项目负责人α_leader和β_leader的相关度值，R_text(α_title,β_title)为由步骤（32b）计算得到的项目名称α_title和β_title的相关度值，q₁,q₂分别为项目负责人的相关度值R_people(α_leader,β_leader)和项目名称的相关度值R_text(α_title,β_title)的权值，且q₁+q₂=1。

两个专利χ={χ_owner,χ_title,χ_time}和δ={δ_owner,δ_title,δ_time};其中，χ_owner和δ_owner、χ_title和δ_title、以及χ_time和δ_time分别为两个专利χ和δ各自的发明人、名称及其公开时间，它们之间的相关度值为：

R_patent(χ,δ)＝q₁×R_people(χ_owner,δ_owner)+q₂×R_text(χ_title,δ_title)+q₃×L_patent(χ,δ)；其中，R_people(χ_owner,δ_owner)为两个专利发明人χ_owner和δ_owner之间的相关度值，R_text(χ_title,δ_title)为由步骤（32b）计算得到的两个专利名称χ_title,δ_title之间的相关度值；L_patent(χ,δ)表示两个专利χ和δ之间是否存在引用关系，若有引用关系，其数值为1，否则，其数值为0；q₁,q₂,q₃分别为专利发明人相关度值R_people(χ_owner,δ_owner)、专利名称相关度值R_text(χ_title,δ_title)和专利间引用关系L_patent(χ,δ)的权值，且q₁+q₂+q₃＝1。

两个论文ν={ν_owner,ν_title,ν_time}和μ={μ_owner,μ_title,μ_time}，其中，ν_owner和μ_owner分别为两个论文ν和μ各自的作者，ν_title和μ_title、ν_time和ν_time分别为论文ν和μ的名称和各自的发表时间，它们之间的相关度值计算公式为：R_paper(ν,μ)＝q₁×R_people(ν_author,μ_author)+q₂×R_text(ν_title，μ_title)+q₃×L_paper(ν,μ)，其中，R_people(ν_author,μ_author)为论文作者ν_author和μ_author的相关度值，式中，R_text(ν_title,μ_title)是利用步骤（32b）计算得到的两个论文名称ν_title,μ_title之间的相关度值，L_paper(ν,μ)表示两个论文ν和μ之间是否存在引用关系，若有引用关系，其数值为1，否则，其数值为0；q₁,q₂,q₃分别为论文作者的相关度值R_people(χ_owner,δ_owner)、论文名称的相关度值R_text(χ_title,δ_title)和论文间引用关系L_patent(χ,δ)的权值，且q₁+q₂+q₃＝1。

（33）由权值计算模块计算知识数据的权值，得到每个知识数据在知识数据网络中的权值（知识数据的权值决定了其在知识数据网络中的地位和重要性）。知识数据的权值取决于下述两个因素：①该知识数据本身属性信息，②该知识数据在大量数据中的影响力。该步骤计算知识数据权值的准则如下：

科研人员的权值取决于其负责的科研项目数和科研项目级别或资助经费、授权的发明专利数和发表的论文数及其质量，即科研人员a的权值计算公式为：

W_{people} (a) = N_{paper} (a) \times q_{1} + N_{patent} (a) \times q_{2} Σ_{α}^{C_{project} (a)} W (a) \times q_{3},

式中，N_paper(a)和N_patemt(a)分别为科研人员a发表的论文数和授权的发明专利数，C_project(a)和W(a)分别为科研人员a负责的所有科研项目总数及其科研项目级别或资助经费，q₁,q₂,q₃分别为论文数、专利数和项目级别在科研人员权值计算公式中的权值，且q₁+q₂+q₃=1。

论文或专利的权值是由其被其他论文或专利引用的次数和其发表或公开时间所共同决定；其中，专利χ的权值计算公式为：

W_{patent} (χ) = (1 - d) \times \frac{e}{T} + d \times Σ_{δ}^{γ} (W_{patent} (δ) \times W_{age - patent} (δ, χ)),

其中，

W_{age - patent} (δ, χ) = \frac{\frac{1}{t_{δ, χ} + b}}{Σ_{j}^{s} \frac{1}{t_{δ, j} + b}},

滞留系数d是自身权值和被引用所获的权值所占的比率，这里选取d＝0.85；常数e取决于不同类别的专利更新速度；T为当前年份减去专利申请日所在年的授权专利保护年限，引入e和T是为了提高新专利的权值；W_age-patent(δ,χ)为专利δ将其自身权值传播给它引用的专利χ的传播比重；γ为引用专利χ的所有专利总数；s为专利δ引用的所有专利总数；t_δ，χ为两个专利的年龄差，其计算方法为：专利δ和专利χ两者的公开年份之差+1；平滑因子b用于调整不同年龄的被引用文献获得的权值之间的差异，使的年龄小的被引文献获得的权值不会太大，并根据不同种类专利校正b值而分配得到准确的权值，这里设置b＝5；论文μ的权值计算公式为：

W_{paper} (μ) = (1 - d) \times \frac{e}{T} + d \times Σ_{ν}^{ω} (W_{paper} (ν, μ) \times W_{age - paper} (ν, μ)),

其中，

滞留系数d是自身权值和被引用所获的权值所占的比率，这里选取d＝0.85；常数e取决于不同类别的论文更新速度；T为当前年份减去论文发表年份的论文年龄；W_age-paper(ν,μ)为论文ν将自身的权值传播给它引用的论文μ的传播比重；ω为引用论文μ的所有论文总总数；ψ为论文ν引用的所有论文总数；t_ν，μ为两篇论文的年龄差，其计算方法为：论文ν和论文μ两者的发表年份之差+1；平滑因子b用于根据不同种类论文校正其数值，使得每篇论文分配得到准确的权值，这里设置b＝5。

（34）复杂网络的重要特征是小世界特性，通过聚类的方法，可以对知识网络的小世界特性进行有效分析，并对后续分析也有很大帮助。由聚类模块利用两层聚类算法对所获得的初始知识数据网络进行聚类，再通过数据可视化技术，将得到的聚类结果、即复杂的知识数据关系网络展现给用户。

参见图3，介绍该步骤中采用两层聚类算法的算法结构：

（1）先采用复杂度低的Cure聚类算法或Leader聚类算法对知识数据进行初步的聚类运算，将知识数据分成多个规模较大的初始聚类；

（2）再使用复杂度高的基于MapReduce机制的k均值聚类算法对步骤（1）中的每个初始聚类进行二次聚类，即计算代价函数，调整聚类参数重新聚类，获知代价函数值达到预期要求时，结束算法。这样得出比第一次聚类算法更精准的聚类结果，同时比直接使用k均值聚类算法降低了计算复杂度。

（35）由预测模块利用现有知识数据相关领域动态预测某个领域内的技术发展趋势和方向，这样能够相对准确地预测到某个技术领域的近期发展态势，也是数据挖掘的一个重要结果。

预测模块采用神经网络计算模型进行预测：先人为选定一些知识数据作为训练样本x₁,x₂，...,x_N，并选择合适的结果z₁,z₂，...，z_N作为结果，通过多次迭代计算，得出适宜的中间参数y₁,y₂,...,y_N，且使得(x₁,x₂,...,x_N)·(y₁,y₂,...,y_N)=(z₁,z₂,...,z_N)即为训练出合适的模型。然后，将需要预测的知识数据输入，就可以得到满足已知规律的预测结果。例如，现有10年的知识数据总量的统计信息，先选择全部可能的连续6年的知识数据组合作为训练样本：即将前5年的知识数据作为输入，第6年的知识数据作为输出，通过这样的训练，能得到以5年数据预测第6年知识数据的拟合函数，再输入连续5年知识数据后，即可得到第6年的预测值。

步骤4，控制单元对计算单元的计算结果进行汇总处理后，将汇总结果交付给人机交互单元。

步骤5，人机交互单元接收到控制单元的处理结果，判定该处理结果及其显示的类型，以便采用设定方式向用户展示该处理结果（处理结果及其显示类型包括聚类结果、预测分析结果和知识数据）。

本发明已经进行了实施试验，图4所示就是利用本发明方法中的步骤（34）对部分科研人员进行聚类的结果示意图，其中，不同深浅的颜色或图案分别表示不同的聚类结果，其聚类的依据是不同科研人员之间的合作关系，合作关系较多的，便会被聚类在一起，同时，在图4中还可以看到团队等概念

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种用于复杂网络的分布式知识数据挖掘装置，其特征在于：该装置设有三个部件：控制单元、计算单元和人机交互单元，其中：

人机交互单元，用于实现人机交互功能，向用户提供包括针对知识数据的聚类、关系度计算或权值计算的可选功能，在用户选择后，接收用户指令，并转送给控制单元执行相应操作；且在运算结束后，将控制单元处理完成的数据，结合用户所选择的功能，以适宜方式显示给用户；该单元以.NET开发为主，利用包括WPF的框架模块实现数据的图形化显示和交互；

2.根据权利要求1所述的装置，其特征在于：所述计算单元各个模块的功能如下：

3.根据权利要求1所述的装置，其特征在于：该装置的计算单元采用分布式处理软件架构Hadoop平台对知识数据实现分布式计算处理，即利用该Hadoop平台中包括映射Map和化简Reduce两个处理过程的MapReduce机制，作为该计算单元使用的分布式计算方法，对知识数据进行有效分割和重组，并减少数据处理时间，提高数据处理效率。

4.根据权利要求3所述的装置，其特征在于：所述MapReduce计算机制用于实现聚类过程，即把对知识数据的聚类计算分为Map和Reduce两个过程：先使用Map操作并行地将原始知识数据转换为可聚类的格式，并给不同服务器分配互不重复的知识数据，且每个服务器根据给定的k值随机选取k个知识数据作为初始聚类中心，并对其按照顺序编号，对这些知识数据同时进行初始划分后，开始对每个知识数据执行初始划分和下述迭代操作：每个服务器在Map阶段分别读出位于本地的知识数据，并计算每个知识数据到各初始聚类中心的距离，将其归属到最近的初始聚类中心，再将本次聚类的结果在Reduced过程中返回；Reduce过程是得到所有知识数据的聚类结果，并对各服务器聚类结果进行合并后，在每个新的聚类中选取权值最大的知识数据作为新的聚类中心；重复执行上述Map和Reduce操作，直到聚类中心不再变化或达到最大迭代次数时，结束迭代，并输出每个知识数据归属的聚类信息；以简化分布式计算的底层复杂性，并向用户提供简单、可靠的应用接口。

5.根据权利要求1所述的装置，其特征在于：所述知识数据包括科研项目、科研人员、专利和论文的四个维度信息，是由科研项目、专利和论文的数据经过预处理得到的，同时，将科研项目、科研人员、专利和论文相互关联起来。

6.一种用于复杂网络的分布式知识数据挖掘装置的大规模知识数据挖掘方法，其特征在于：所述方法包括下列操作步骤：

7.根据权利要求6所述的方法，其特征在于：所述步骤（3）中，计算单元完成的数据处理和计算包括下列操作内容：

（31）数据采集模块接收控制单元分配的任务，采用包括网络爬虫和开放的应用接口API采集数据，并对其进行预处理，得到包含科研项目、科研人员、专利和论文四个维度信息的知识数据，然后将该知识数据存储于分布式数据库；

（32）对预处理后的知识数据计算其数据相关度，得到每个知识数据之间的关系，构建初始知识数据网络，为后续的聚类处理操作提供依据；

（33）计算知识数据的权值，得到每个知识数据在知识数据网络中的权值；

（34）对所获得的初始知识数据网络进行聚类：利用两层聚类算法进行聚类，再通过数据可视化技术，将得到的聚类结果、即复杂的知识数据关系网络展现给用户；

（35）利用知识数据预测某个领域内的技术发展趋势和方向。

8.根据权利要求7所述的方法，其特征在于：所述步骤（31）包括下列操作内容：

（31a）数据采集模块利用网络爬虫或开放的应用接口API在网络上实时抓取包括科研项目、专利和论文的知识数据，其中，科研项目知识数据包括：项目的名称、编号、起止时间、经费及其负责人和单位的信息；专利知识数据包括：专利申请人和发明人、专利说明书摘要、引用的专利信息、专利申请日及其公开日和公开号的信息；论文知识数据包括：论文名称、作者、内容和引用的文章名信息；然后将抓取到的各种知识数据按照技术领域区分并存储于分布式数据库；其中，科研项目名称、专利名称和论文名称是短文本数据，专利说明书摘要和论文内容是长文本数据；

9.根据权利要求7所述的方法，其特征在于：所述步骤（32）对预处理后的知识数据计算每个知识数据之间相关度的操作包括下列内容：

（32a）将分布式数据库中的专利说明书摘要和论文内容数据作为文本词语库，对其进行分词操作，使用词频-逆向文件频率TF-IDF方法，得到关键词集合，再对关键词和文本词语库中每个知识数据的TF-IDF关系矩阵进行奇异值分解，得到各个关键词之间的直接关联关系值，并存储在分布式数据库中；或

（32b）对于科研项目名称、专利名称或论文名称构成的短文本数据集合中的任意两个短文本数据A和B，所对应的关键词的分词序列分别是序列word_A和序列word_B；再按照公式：计算该两个短文本数据A和B的关系度值；其中，i,j分别为两个不同关键词在各自的分词序列word_A和分词序列word_B中的序号；n1,n2分别为两个分词序列word_A和word_B的各自长度；R_word(i,j)是分词序列word_A中第i个关键词和分词序列word_B中第j个关键词的关系度值；R_text(A,B)值越大，说明短文本数据A和短文本数据B的相似度越大；或

计算得到的；其中，a、b为该两个科研人员，N_ab为该两个科研人员a和b共同负责的科研项目数、共同发表的论文数、共同完成的发明专利数的总和，N_a和N_b分别表示每个科研人员a和b各自负责过的项目、发明专利和/或发表的论文总数；或

两个科研项目α={α_leader,α_title,α_time,α_level}和β={β_leader,β_title,β_time,β_level}，其中，α_leader和β_leader分别为项目α和β各自的负责人，α_title和β_title、α_time和β_time以及α_level和β_level分别为项目α和β的名称、起止时间及其级别，它们之间的相关度值的计算公式为：

R_project(α,β)＝q₁×R_people(α_leader,β_leader)+q₂×R_text(α_title,β_title);其中，R_people(α_leader,β_leader)为由步骤（32c）计算得到的项目负责人α_leader和β_leader的相关度值，R_text(气_title,β_title)为由步骤（32b）计算得到的项目名称α_title和β_title的相关度值，q₁,q₂分别为项目负责人的相关度值R_people(α_leader,β_leader)和项目名称的相关度值R_text(α_title,β_title)的权值，且q₁+q₂=1；

R_patent(χ,δ)＝q₁×R_people(χ_owner,δ_owner)+q₂×R_text(χ_title,δ_title)+q₃×L_patent(χ,δ)；其中，R_people(χ_owner,δ_owner)为两个专利发明人χ_owner和δ_owner之间的相关度值，R_text(χ_title,δ_title)为由步骤（32b）计算得到的两个专利名称χ_title,δ_title之间的相关度值；L_patent(χ,δ)表示两个专利χ和δ之间是否存在引用关系，若有引用关系，其数值为1，否则，其数值为0；q₁,q₂,q₃分别为专利发明人相关度值R_people(χ_owner,δ_owner)、专利名称相关度值R_text(χ_title,δ_title)和专利间引用关系L_patent(χ,δ)的权值，且q₁+q₂+q₃＝1；

两个论文ν={ν_owner,ν_title,ν_time}和μ={μ_owner,μ_title,μ_time}，其中，ν_owner和μ_owner分别为两个论文ν和μ各自的作者，ν_title和μ_title、ν_time和ν_time分别为论文ν和μ的名称和各自的发表时间，它们之间的相关度值计算公式为：R_paper(ν,μ)＝q₁×R_people(ν_author,μ_author)+q₂×R_text(ν_title,μ_title)+q₃×L_paper(ν,μ)，其中，R_people(ν_author,μ_author)为论文作者ν_author和μ_author的相关度值，式中，R_text(ν_title,μ_title)是利用步骤（32b）计算得到的两个论文名称ν_title,μ_title之间的相关度值，L_paper(ν,μ)表示两个论文ν和μ之间是否存在引用关系，若有引用关系，其数值为1，否则，其数值为0；q₁,q₂,q₃分别为论文作者的相关度值R_people(χ_owner,δ_owner)、论文名称的相关度值R_text(χ_title,δ_title)和论文间引用关系L_patent(χ,δ)的权值，且q₁+q₂+q₃＝1。

10.根据权利要求7所述的方法，其特征在于：所述步骤（33）计算知识数据权值的准则如下：

W_{people} (a) = N_{paper} (a) \times q_{1} + N_{patent} (a) \times q_{2} Σ_{α}^{C_{project} (a)} W (a) \times q_{3},

式中，N_paper(a)和N_patemt(a)分别为科研人员a发表的论文数和授权的发明专利数，C_project(a)和W(a)分别为科研人员a负责的所有科研项目总数及其科研项目级别或资助经费，q₁,q₂,q₃分别为论文数、专利数和项目级别在科研人员权值计算公式中的权值，且q₁+q₂+q₃=1；

W_{patent} (χ) = (1 - d) \times \frac{e}{T} + d \times Σ_{δ}^{γ} (W_{patent} (δ) \times W_{age - patent} (δ, χ)),

式中，滞留系数d是自身权值和被引用所获的权值所占的比率，这里选取d＝0.85；常数e取决于不同类别的专利更新速度；T为当前年份减去专利申请日所在年的授权专利保护年限，引入e和T是为了提高新专利的权值；W_age-patent(δ,χ)为专利δ将其自身权值传播给它引用的专利χ的传播比重；γ为引用专利χ的所有专利总数；s为专利δ引用的所有专利总数；t_δ，χ为两个专利的年龄差，其计算方法为：专利δ和专利χ两者的公开年份之差+1；平滑因子b用于调整不同年龄的被引用文献获得的权值之间的差异，使的年龄小的被引文献获得的权值不会太大，并根据不同种类专利校正b值而分配得到准确的权值，这里设置b=5；论文μ的权值W_paper(μ)计算公式为：

W_{paper} (μ) =

= (1 - d) \times \frac{e}{T} + d \times Σ_{ν}^{ω} (W_{paper} (ν, μ) \times W_{age - paper} (ν, μ)),

其中，

W_{age - patent} (ν, μ) = \frac{\frac{1}{t_{ν, μ} + b}}{Σ_{j}^{ψ} \frac{1}{t_{ν, o} + b}},

11.根据权利要求7所述的方法，其特征在于：所述步骤（34）中，聚类算法采用两层聚类结构：先采用复杂度低的Cure聚类算法或Leader聚类算法对知识数据进行初步的聚类运算，将知识数据分成多个规模较大的初始聚类；再使用复杂度高的基于MapReduce机制的k均值聚类算法对上述每个初始聚类进行二次聚类；这样得出比第一次聚类算法更精准的聚类结果，同时比直接使用k均值聚类算法降低了计算复杂度。