CN103136337A - 用于复杂网络的分布式知识数据挖掘装置和挖掘方法 - Google Patents

用于复杂网络的分布式知识数据挖掘装置和挖掘方法 Download PDF

Info

Publication number
CN103136337A
CN103136337A CN2013100420465A CN201310042046A CN103136337A CN 103136337 A CN103136337 A CN 103136337A CN 2013100420465 A CN2013100420465 A CN 2013100420465A CN 201310042046 A CN201310042046 A CN 201310042046A CN 103136337 A CN103136337 A CN 103136337A
Authority
CN
China
Prior art keywords
knowledge data
data
clustering
title
calculation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013100420465A
Other languages
English (en)
Other versions
CN103136337B (zh
Inventor
贺志强
牛凯
梁彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201310042046.5A priority Critical patent/CN103136337B/zh
Publication of CN103136337A publication Critical patent/CN103136337A/zh
Application granted granted Critical
Publication of CN103136337B publication Critical patent/CN103136337B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种用于复杂网络的分布式知识数据挖掘装置和方法,该装置采用分布式计算平台,由控制单元、计算单元和人机交互单元三部件组成,其创新关键是将数据挖掘中繁杂的聚类算法所需的计算量分配在不同的服务器完成,提高数据挖掘的效率。还能针对不同知识数据运用不同准则计算知识数据的关系度及其权值,使得其结果更加可信。且在知识数据挖掘过程中采用二级聚类模式:第一级聚类结果较为粗略,但计算复杂度很低;第二级聚类的计算复杂度较高,但结果更为精准;本发明将二者有效结合,比传统一级聚类模式在时间复杂度和聚类精准度上都得到很大的改善。本发明采用可视化直观展示网络结构及动态演化过程,为学科发展、热点研究领域的预测提供参考。

Description

用于复杂网络的分布式知识数据挖掘装置和挖掘方法
技术领域
本发明涉及一种用于复杂网络的分布式知识数据挖掘装置和挖掘方法,属于数据挖掘的计算机应用技术领域。
背景技术
目前,人类社会在每天产生的新数据都以爆炸形式迅速增长,实时分析处理这些海量数据,并挖掘其内部关系是分析决策者非常关注的问题。例如,我国信息科学的发展速度非常惊人,每年都会申报数千项科研项目,发表的论文和申请的专利都难以计数,分析这些科研项目、论文和专利的知识数据之间的关系网络,并预测未来几年该技术领域的研究热点或焦点,可以帮助科研管理部门更有效地执行项目的管理与审批,同时还可为该领域的研究人员开辟新的研究热点方向。
数据挖掘是在大量数据中挖掘出有用信息,即从海量的、不完全的、有噪声的、模糊的、随机的实际数据中,发现隐含的、有规律性的、人们事先未知但具有潜在意义,并最终可理解的信息和知识的过程。数据挖掘的任务是要发现那些不能靠直觉发现的、有时甚至是违背直觉的知识或信息。其所挖掘的知识类型包括:模型、规律、规则、模式和约束等等。因此,数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据之间关系的过程,使用这些模型和关系可以进行预测或帮助决策者寻找各数据之间的潜在关联,发现被忽略的因素。因此,数据挖掘通常也被称为知识发现KDD(Knowledge Discovery inDatabase)。
数据挖掘也是数据库中发现知识的一个操作步骤,简单地讲,就是从数据集合中抽取隐藏的有用信息的技术,用于帮助决策者分析历史数据与当前数据之间的关系,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。
近年来,数据挖掘已经引起信息产业界的极大关注,其主要原因是:现存的大量数据都可以被广泛使用,并且迫切需要将这些海量数据转换成有用的信息和知识;再将这些获取的信息和知识用于包括商务管理、生产控制、市场分析、工程设计和科学探索等各种应用。
具有自组织、自相似、吸引子、小世界和无标度中的部分或全部特性的网络被称为复杂网络。复杂网络作为一门新兴学科,在不同领域中有着很强的应用背景,已经成为一个充满生命力的交叉研究领域。目前,复杂网络的研究内容主要包括:网络的几何性质,网络的形成机制,网络演化的统计规律,网络上的模型性质,以及网络的结构稳定性,网络的演化动力学机制等多种课题。
复杂网络的社团探测与数据挖掘中的分类、聚类问题,两者的本质是相同的。数据挖掘中比较常用的一种方法是通过对数据的加工,将其构建为复杂网络架构,从而使用复杂网络中的社团探测方法对数据进行分类、聚类,分析社团及整个网络结构的演化。近年来,基于网络和图挖掘的分析方法受到了越来越多的关注。
研究高效率的实时处理算法是数据挖掘的一个重要研究方向,在数据挖掘中,经常遇到的一个难题是海量数据。由于数据量极大,所以只有低复杂度的算法才有实用价值。另外,采用云计算技术实现算法并行化,也是一种很好的解决方案,云计算是目前极具发展前景的技术,具有虚拟化、并行化和高效性等优点,能够解决海量数据处理速度慢的问题。狭义的云计算是指厂商通过分布式计算和虚拟化技术搭建数据中心或超级计算机,以免费或按需租用方式向技术开发者或企业客户提供数据存储、分析和科学计算等服务。云计算将计算任务分布在由大量计算机构成的资源池上,使各种应用系统能根据各自所需而获取计算能力、存储空间和各种软件服务。例如,Hadoop平台是一个能够对海量数据进行分布式处理的功能模块框架。其中的HDFS和MapReduce是该框架中两个最重要、最基础的组成部件。HDFS是Google GFS的开源版本,也是一个高容错的分布式文件系统,它能够提供高吞吐量的数据访问,适合存储海量的文件。MapReduce是一个分为Map和Reduce两个函数分别并行编程的函数模块,MapReduce计算模型把计算操作分为Map和Reduce两个过程,该功能结构极大地简化了分布式计算的底层复杂性,并向用户提供了一个简单、可靠的应用接口。目前,如何把这种分布式的计算模式应用于数据挖掘,尤其是大规模图结构计算上的研究和应用,已经获得了业内科技人员的普遍关注。
数据挖掘的另一个重要热点方向是面向领域设计,即针对不同的领域开发专用的数据挖掘系统。如今需要挖掘的数据来源极为广泛,数据类型也非常繁杂、多样,例如:包括结构数据和复杂数据对象、超文本和多媒体数据等等。为提升分析能力和效果,应当针对不同领域的应用开发专门的数据挖掘系统。本发明只是用于复杂网络的大规模知识数据的挖掘装置和方法。
以“数据挖掘”为关键词,检索到下述两项中国发明专利申请,介绍如下:
第一个是《数据挖掘方法及数据挖掘系统》(申请号200910077661.3),该方法可提高数据挖掘效率。具体步骤是:设置数据挖掘的工作流,该工作流中包括多个并行的数据处理任务;再启动该工作流,并在多个并行的数据处理任务被触发时,为其中的每个数据处理任务分配执行节点,以使该多个并行的数据处理任务在分配的执行节点上并行执行。执行节点在执行每个数据处理任务时,通过Map/Reduce机制将数据处理任务分配给并行执行的Map任务进行处理,还将该数据处理任务对应的各Map任务的处理结果通过相应的Reduce任务进行合并,得到相应数据处理任务的处理结果。
第二个是《基于数据挖掘的文本搜索方法》(申请号:200710062175.5),该方法采用计算机技术领域中的电子文本文档进行精确表示和搜索技术,利用数据挖掘技术从海量数据中发现重要信息特性,对文本文档进行分析并抽取多层次的特征来表示文档。这些多层次的特征能够形成文档的精确表示,建立了一种新的文本检索系统,达到文本搜索的目的。该方法具有运算速度快、性能稳定、适用面广的特点,可用于任何语言的文本文档的文本搜索、文本聚类、文本摘要等诸多文本智能处理。
然而,现有技术存在下述缺点:(1)海量数据处理无法满足实时性要求,(2)绝大多数算法无法有效分析包括科研项目数据、论文数据和专利数据的知识数据的信息。因此,如何解决上述两个问题,就成为业内科技人员关注的焦点。
发明内容
本发明的目的是提供一种大规模分布式实时数据挖掘装置和方法,本发明基于对知识数据进行的挖掘与分析,提出一种适用于知识数据的数据挖掘装置和方法,并通过可视化将网络结构及动态演化过程直观地展现出来,为学科发展、热点研究领域的预测提供参考。
为了达到上述目的,本发明提供了一种用于复杂网络的分布式知识数据挖掘装置,其特征在于:该装置设有三个部件:控制单元、计算单元和人机交互单元,其中:
人机交互单元,用于实现人机交互功能,向用户提供包括针对知识数据的聚类、关系度计算或权值计算的可选功能,在用户选择后,接收用户指令,并转送给控制单元执行相应操作;且在运算结束后,将控制单元处理完成的数据,结合用户所选择的功能,以适宜方式显示给用户;该单元以.NET开发为主,利用包括WPF(Windows Presentation Foundation)的框架模块实现数据的图形化显示和交互;
控制单元,用于接收人机交互单元输入的指令,并以分布式平台特性和功能,按照包括MapReduce机制的设定方式控制和分配计算任务,并统一汇总计算单元的计算结果,反馈给人机交互单元进行显示;
计算单元,负责完成控制单元分配的计算任务,并将计算结果反馈给控制单元,设有:数据采集,相关度计算,权重计算,聚类和预测共五个模块。
所述计算单元各个模块的功能如下:
数据采集模块,用于使用爬虫工具或开放的应用程序接口API在线采集包括科研项目、专利和论文的知识数据,再采用包括正则表达式分析、过滤和删除无用数据和非法字符的方法对该知识数据进行预处理:建立能够藉由科研项目负责人、专利申请人、发明人或专利权人,以及论文作者的关系寻找到知识数据的索引,然后将其存入分布式数据库中,作为后续计算的数据源;
相关度计算模块,用于计算已有知识数据的相关度:遍历数据库中的知识数据,根据设定的相关度计算规则,量化知识数据属性的相关程度,计算每个知识数据与其他知识数据的相关度,得到每两个知识数据之间的相关度;
权值计算模块,用于计算现有知识数据的权重:遍历数据库中现有的知识数据,根据设定规则和知识数据自身的属性特征,计算每个知识数据的权值;
聚类模块,负责完成对现有知识数据的聚类:利用知识数据的相关度及其自身权值,构建知识数据网络,再利用聚类算法对知识数据进行聚类,把相似或相关的知识数据聚集在一起,发现或得到知识数据网络的社团结构;
预测模块,用于根据知识数据的聚类结果,采用包括时间序列分析和神经网络算法对知识数据的发展趋势和动向进行预测。
为了达到上述目的,本发明还提供了一种用于复杂网络的分布式知识数据挖掘装置的大规模知识数据挖掘方法,其特征在于:所述方法包括下列操作步骤:
(1)人机交互单元接收用户输入指令,确认用户的计算需求并传递给控制单元;
(2)控制单元接收人机交互单元传递的指令,判定指令内容,确认用户需要的计算过程,并对该计算操作进行分工,分配给计算单元;
(3)计算单元完成控制单元分配的数据处理和计算,且在完成处理计算后,将计算结果提交给控制单元;
(4)控制单元进行汇总处理后,将结果交付给人机交互单元;
(5)人机交互单元接收到控制单元的处理结果,判定该处理结果及其显示的类型,以便采用设定方式向用户展示该结果;所述结果及其显示类型包括聚类结果、预测分析结果和知识数据。
本发明的创新关键技术是下述三点:
(1)知识数据的相关度计算算法:根据不同的知识数据设计了不同的相关度计算准则,以便能更准确地呈现出知识数据间的关系。
(2)在聚类操作中采用两级聚类算法:先采用复杂度较低,结果较为粗略的聚类算法对所有的节点进行粗聚类,再对该聚类结果中的每个初始聚类进行复杂度较高,聚类结果较为精细的聚类,以得到更为精准的结果。
(3)运用分布式计算平台来实现海量知识数据的处理和存储。
与现有技术相比较,本发明的优点是:
(1)知识数据的相关度计算方法:针对不同的知识数据运用不同的准则计算权值和关系度,使得其结果更加可信。
(2)聚类过程中降低时间复杂度;本发明采用二级聚类模式:第一级聚类结果较为粗略,但计算复杂度很低;第二级聚类的计算复杂度较高,但结果更为精准;将二者有效结合起来,比传统的一级聚类模式在时间复杂度和聚类精准度上都得到很大的改善。
(3)提高了知识数据挖掘的效率;本发明采用分布式计算平台,将庞大的数据挖掘中聚类算法操作所需的计算量分配在不同的服务器进行计算。
附图说明
图1是本发明用于复杂网络的分布式知识数据挖掘装置结构组成示意图。
图2是本发明用于复杂网络的分布式知识数据挖掘装置的挖掘方法操作步骤方框图。
图3是本发明装置的知识数据挖掘方法中数据聚类操作步骤示意图图。
图4是本发明装置的知识数据挖掘方法中的实施例部分科研人员聚类结果示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图和实施例对本发明作进一步的详细描述。
本发明主要研究在分布式和实时性的要求下,如何采集和分析海量知识数据,并通过挖掘知识数据,分析和判断各个知识数据之间的关系,分析我国科研研究的核心和重点,预测未来数年内新的研究方向。
本发明的知识数据包括科研项目、科研人员、专利和论文的四个维度信息,是由科研项目、专利和论文的数据经过预处理得到的,同时,将科研项目、科研人员、专利和论文相互关联起来。
参见图1,介绍本发明用于复杂网络的分布式知识数据挖掘装置的结构组成中的三个部件:计算单元、控制单元和人机交互单元,控制单元控制和分配计算任务,计算单元完成分配的计算任务后,向控制单元反馈,再由控制单元统一汇总后,由人机交互单元向用户提交,并显示计算结果。其中:
人机交互单元:用于实现该装置人机交互功能,向用户提供包括针对知识数据的聚类、关系度计算或权值计算的可选功能,在用户选择后,接收用户指令,并转给控制单元执行相应操作;且在运算结束后,将控制单元处理完成的数据,结合用户所选择的功能,以图形化或其他适宜方式显示给用户。该单元以.NET开发为主,利用包括WPF等框架模块实现数据图形化显示和交互操作。
控制单元:用于接收人机交互单元输入的指令,并以分布式平台特性和功能,按照包括MapReduce机制的设定方式控制和分配计算任务,并统一汇总计算单元的计算结果,反馈给人机交互单元进行显示。
计算单元:作为该装置的处理核心,负责完成控制单元分配的计算任务,并将计算结果反馈给中心控制单元,设有下述五个模块:数据采集模块,相关度计算模块,权重计算模块,聚类模块和预测模块。各个模块的功能如下:
数据采集模块:使用网络爬虫工具或开放的应用程序接口API在线采集包括科研项目、专利和论文的最初知识数据,再采用包括正则表达式分析、过滤和删除无用数据和非法字符的分词方法对该知识数据进行预处理:建立能够藉由科研项目负责人、专利申请人、发明人或专利权人,以及论文作者的关系寻找到知识数据的索引,然后将其存入分布式数据库中,作为后续计算的数据源。
相关度计算模块:用于计算已有知识数据的相关度:遍历数据库中的知识数据,根据设定的相关度计算规则,量化知识数据属性的相关程度,计算每个知识数据与其他知识数据的相关度,得到每两个知识数据之间的相关度。
权值计算模块:用于计算现有知识数据的权重:遍历数据库中现有的知识数据,根据设定规则和知识数据自身的属性特征,计算每个知识数据的权值。
聚类模块:负责完成对现有知识数据的聚类处理:利用知识数据的相关度及其自身权值,构建知识数据网络,再利用聚类算法对知识数据进行聚类,把相似或相关的知识数据聚集在一起,发现或得到知识数据网络的社团结构。
预测模块:用于根据知识数据的聚类结果,采用包括时间序列分析和神经网络等算法对知识数据的发展趋势和动向进行预测。
本发明装置中的计算单元采用分布式处理功能模块Hadoop平台对知识数据实现分布式计算处理,即利用该Hadoop平台中包括映射(Map)和化简(Reduce)两个处理过程的MapReduce机制,作为该计算单元使用的分布式计算方法,对知识数据进行有效分割和重组,并减少数据处理时间,提高数据处理效率。其中,MapReduce计算机制用于实现聚类过程,即把对知识数据的聚类计算分为Map和Reduce两个过程。
下面详细说明k-means(k-均值)聚类算法的分布式计算过程:
对于Hadoop上的k-means聚类,首先使用Map操作并行地将原始知识数据转换为可聚类的格式,并给不同服务器分配互不重复的知识数据(这个操作步骤是用一个map操作并行执行的)。然后,对这些知识数据同时开始进行初始划分和下述迭代操作:每个服务器根据给定的k值随机选取k个知识数据作为初始聚类中心,并对其按照顺序编号,得到k个聚类(Cluster)作为初始聚类中心,然后根据给定的k值进行初始划分,Reduce过程得到所有聚类并计算新的聚类中心。重复执行该MapReduce操作,直到聚类中心不变或者达到最大迭代次数。迭代结束后,输出每个知识数据的聚类信息。
再在Map阶段分别读出位于本地的知识数据,并计算每个知识数据到各初始聚类中心的距离(关系度),将其归属到最近的初始聚类中心(该步骤操作是并行进行的),再将本次聚类结果在Reduced过程中返回。每个服务器在Map阶段读出位于本地的数据集,并行计算每个知识数据对应的聚类。
Reduce过程是得到所有知识数据的聚类结果,并对各服务器聚类结果进行合并后,在每个新的聚类中选取权值最大的知识数据作为新的聚类中心。重复执行上述Map和Reduce操作,直到聚类中心不再变化或达到最大迭代次数时,结束迭代,并输出每个知识数据归属的聚类信息。
重复执行上述map-reduce操作,直到聚类中心不再变化或达到最大迭代次数,就结束迭代操作,输出每个知识数据的聚类信息。这样,就将原本串行计算过程,分配给不同的服务器进行并行计算,极大地简化了分布式计算的底层复杂性,并向用户提供一个简单、可靠的应用接口。
本发明分布式知识数据挖掘装置挖掘方法是:为了提升处理速度,事先对所采集的海量知识数据进行权值和关系度的预分析,构建知识复杂网络,并存储在数据库中。例如:根据用户需求,统计相关关键词的集合,利用海量知识数据提取训练样本计算关键词的TF-IDF(词频-逆向文件频率)值,再通过奇异值SVD分解得到每两个关键词之间的相关度。然后根据设定规则,计算得到含有一个或多个关键词的知识数据之间的关系度(距离)。最后,利用两层聚类算法进行聚类,分析聚类的结果,通过数据可视化技术,将复杂的知识数据关系网络展现给用户,同时,系统提供了统计和预测算法,便于用户进行分析决策。
参见图2,介绍本发明分布式知识数据挖掘装置挖掘方法的具体操作步骤:
步骤1,本发明分布式知识数据挖掘装置中的人机交互单元接收用户输入指令,确认用户的计算需求并传递给控制单元。
人机交互单元负责向用户提供下述可选功能(包括:针对知识数据的聚类,针对知识数据的关系计算、权重计算等),由用户选择各自所需的计算,接收用户指令,传递给控制单元。而且,在控制单元完成了对计算单元的计算结果的汇总后,人机交互单元接收控制单元的计算结果,结合用户所选择的功能,并通过合适的方式(如柱状图、饼图和知识数据网络结构图等)显示给用户。
步骤2,控制单元接收人机交互单元传递的指令,判定指令内容,确认用户需要的计算过程,并对该计算操作进行分工,并按照设定方式将任务分配给计算单元。
步骤3,计算单元完成控制单元分配的数据处理和计算,且在完成处理计算后,将计算结果提交给控制单元。该步骤中,计算单元完成的数据处理和计算包括下列操作内容:
(31)数据采集模块接收控制单元分配的任务,采用包括网络爬虫和开放的应用接口API采集知识数据,并对其进行预处理,得到包含科研项目、科研人员、专利和论文四个维度信息的知识数据,然后将该知识数据存储于分布式数据库。该步骤包括下列操作内容:
(31a)数据采集模块利用网络爬虫或开放的应用接口API在网络上实时抓取包括科研项目、专利和论文的知识数据,其中,科研项目知识数据包括:项目的名称、编号、起止时间、经费及其负责人和单位的信息;专利知识数据包括:专利申请人和发明人、专利说明书摘要、引用的专利信息、专利申请日及其公开日和公开号的信息;论文知识数据包括:论文名称、作者、内容和引用的文章名信息;然后将抓取到的各种知识数据按照技术领域区分并存储于分布式数据库;其中,科研项目名称、专利名称和论文名称是短文本数据,专利说明书摘要和论文内容是长文本数据。
(31b)预处理模块对知识数据进行预处理:对存储于数据库中的新抓取的每个知识数据执行包括分词、过滤无用词和非法字符的预处理,得到每个知识数据中的项目名称、专利名称或论文名称的分词序列,再将知识数据及上述三个序列作为预处理结果,存储于分布式数据库。
(32)由相关度计算模块对预处理后的知识数据计算其数据相关度,得到每个知识数据之间的关系,构建初始知识数据网络,为后续的聚类处理提供依据。知识数据之间的相关度体现了知识数据之间的关联关系,依据各个知识数据间的关系信息,可以建立起知识数据网络,并在其基础上做进一步分析处理。该步骤计算知识数据相关度的操作是根据不同的计算准则,分别计算知识数据中科研项目数据、论文数据和专利数据之间的相关度,其数值越大,说明该组知识数据的关系越接近。包括下列可选择的操作内容:
(32a)将分布式数据库中的专利说明书摘要和论文内容数据作为文本词语库,对其进行分词操作,使用词频-逆向文件频率TF-IDF方法,得到关键词集合,再对关键词和文本词语库中每个知识数据的TF-IDF关系矩阵进行奇异值分解,得到各个关键词之间的直接关联关系值,并存储在分布式数据库中。或
(32b)对于科研项目名称、专利名称或论文名称构成的短文本数据集合中的任意两个短文本数据A和B,所对应的关键词的分词序列分别是序列wordA和序列wordB;再按照公式:计算该两个短文本数据A和B的关系度值;其中,i,j分别为两个不同关键词在各自的分词序列wordA和分词序列wordB中的序号;n1,n2分别为两个分词序列wordA和wordB的各自长度;Rword(i,j)是分词序列wordA中第i个关键词和分词序列wordB中第j个关键词的关系度值;Rtext(A,B)值越大,说明短文本数据A和短文本数据B的相似度越大。或
(32c)每两个科研人员a和b之间的关系度值Rpeople(a,b)是根据其共同负责过的科研项目、共同完成的发明专利和/或共同发表的论文数量和该两个科研人员各自或共同负责的科研项目、发明专利和发表的论文数量对应的比值按照下述加权计算公式:
Figure BDA00002808079900102
计算得到的;其中,a、b为该两个科研人员,Nab为该两个科研人员a和b共同负责的科研项目数、共同发表的论文数、共同完成的发明专利数的总和,Na和Nb分别表示每个科研人员a和b各自负责过的项目、发明专利和/或发表的论文总数。或
(32d)采用下述不同公式分别计算知识数据在不同维度上的相关度值:
两个科研项目α={αleadertitletimelevel}和β={βleadertitletimelevel},其中,αleader和βleader分别为项目α和β各自的负责人,αtitle和βtitle、αtime和βtime以及αlevel和βlevel分别为项目α和β的名称、起止时间及其级别,它们之间的相关度值的计算公式为:
Rproject(α,β)=q1×Rpeopleleaderleader)+q2×Rtexttitletitle);其中,Rpeopleleaderleader)为由步骤(32c)计算得到的项目负责人αleader和βleader的相关度值,Rtexttitletitle)为由步骤(32b)计算得到的项目名称αtitle和βtitle的相关度值,q1,q2分别为项目负责人的相关度值Rpeopleleaderleader)和项目名称的相关度值Rtexttitletitle)的权值,且q1+q2=1。
两个专利χ={χownertitletime}和δ={δownertitletime};其中,χowner和δowner、χtitle和δtitle、以及χtime和δtime分别为两个专利χ和δ各自的发明人、名称及其公开时间,它们之间的相关度值为:
Rpatent(χ,δ)=q1×Rpeopleownerowner)+q2×Rtexttitletitle)+q3×Lpatent(χ,δ);其中,Rpeopleownerowner)为两个专利发明人χowner和δowner之间的相关度值,Rtexttitletitle)为由步骤(32b)计算得到的两个专利名称χtitletitle之间的相关度值;Lpatent(χ,δ)表示两个专利χ和δ之间是否存在引用关系,若有引用关系,其数值为1,否则,其数值为0;q1,q2,q3分别为专利发明人相关度值Rpeopleownerowner)、专利名称相关度值Rtexttitletitle)和专利间引用关系Lpatent(χ,δ)的权值,且q1+q2+q3=1。
两个论文ν={νownertitletime}和μ={μownertitletime},其中,νowner和μowner分别为两个论文ν和μ各自的作者,νtitle和μtitle、νtime和νtime分别为论文ν和μ的名称和各自的发表时间,它们之间的相关度值计算公式为:Rpaper(ν,μ)=q1×Rpeopleauthorauthor)+q2×Rtexttitle,μtitle)+q3×Lpaper(ν,μ),其中,Rpeopleauthorauthor)为论文作者νauthor和μauthor的相关度值,式中,Rtexttitletitle)是利用步骤(32b)计算得到的两个论文名称νtitletitle之间的相关度值,Lpaper(ν,μ)表示两个论文ν和μ之间是否存在引用关系,若有引用关系,其数值为1,否则,其数值为0;q1,q2,q3分别为论文作者的相关度值Rpeopleownerowner)、论文名称的相关度值Rtexttitletitle)和论文间引用关系Lpatent(χ,δ)的权值,且q1+q2+q3=1。
(33)由权值计算模块计算知识数据的权值,得到每个知识数据在知识数据网络中的权值(知识数据的权值决定了其在知识数据网络中的地位和重要性)。知识数据的权值取决于下述两个因素:①该知识数据本身属性信息,②该知识数据在大量数据中的影响力。该步骤计算知识数据权值的准则如下:
科研人员的权值取决于其负责的科研项目数和科研项目级别或资助经费、授权的发明专利数和发表的论文数及其质量,即科研人员a的权值计算公式为: W people ( a ) = N paper ( a ) × q 1 + N patent ( a ) × q 2 Σ α C project ( a ) W ( a ) × q 3 , 式中,Npaper(a)和Npatemt(a)分别为科研人员a发表的论文数和授权的发明专利数,Cproject(a)和W(a)分别为科研人员a负责的所有科研项目总数及其科研项目级别或资助经费,q1,q2,q3分别为论文数、专利数和项目级别在科研人员权值计算公式中的权值,且q1+q2+q3=1。
论文或专利的权值是由其被其他论文或专利引用的次数和其发表或公开时间所共同决定;其中,专利χ的权值计算公式为:
W patent ( χ ) = ( 1 - d ) × e T + d × Σ δ γ ( W patent ( δ ) × W age - patent ( δ , χ ) ) , 其中, W age - patent ( δ , χ ) = 1 t δ , χ + b Σ j s 1 t δ , j + b , 滞留系数d是自身权值和被引用所获的权值所占的比率,这里选取d=0.85;常数e取决于不同类别的专利更新速度;T为当前年份减去专利申请日所在年的授权专利保护年限,引入e和T是为了提高新专利的权值;Wage-patent(δ,χ)为专利δ将其自身权值传播给它引用的专利χ的传播比重;γ为引用专利χ的所有专利总数;s为专利δ引用的所有专利总数;tδ,χ为两个专利的年龄差,其计算方法为:专利δ和专利χ两者的公开年份之差+1;平滑因子b用于调整不同年龄的被引用文献获得的权值之间的差异,使的年龄小的被引文献获得的权值不会太大,并根据不同种类专利校正b值而分配得到准确的权值,这里设置b=5;论文μ的权值计算公式为: W paper ( μ ) = ( 1 - d ) × e T + d × Σ ν ω ( W paper ( ν , μ ) × W age - paper ( ν , μ ) ) , 其中,
Figure BDA00002808079900132
滞留系数d是自身权值和被引用所获的权值所占的比率,这里选取d=0.85;常数e取决于不同类别的论文更新速度;T为当前年份减去论文发表年份的论文年龄;Wage-paper(ν,μ)为论文ν将自身的权值传播给它引用的论文μ的传播比重;ω为引用论文μ的所有论文总总数;ψ为论文ν引用的所有论文总数;tν,μ为两篇论文的年龄差,其计算方法为:论文ν和论文μ两者的发表年份之差+1;平滑因子b用于根据不同种类论文校正其数值,使得每篇论文分配得到准确的权值,这里设置b=5。
(34)复杂网络的重要特征是小世界特性,通过聚类的方法,可以对知识网络的小世界特性进行有效分析,并对后续分析也有很大帮助。由聚类模块利用两层聚类算法对所获得的初始知识数据网络进行聚类,再通过数据可视化技术,将得到的聚类结果、即复杂的知识数据关系网络展现给用户。
参见图3,介绍该步骤中采用两层聚类算法的算法结构:
(1)先采用复杂度低的Cure聚类算法或Leader聚类算法对知识数据进行初步的聚类运算,将知识数据分成多个规模较大的初始聚类;
(2)再使用复杂度高的基于MapReduce机制的k均值聚类算法对步骤(1)中的每个初始聚类进行二次聚类,即计算代价函数,调整聚类参数重新聚类,获知代价函数值达到预期要求时,结束算法。这样得出比第一次聚类算法更精准的聚类结果,同时比直接使用k均值聚类算法降低了计算复杂度。
(35)由预测模块利用现有知识数据相关领域动态预测某个领域内的技术发展趋势和方向,这样能够相对准确地预测到某个技术领域的近期发展态势,也是数据挖掘的一个重要结果。
预测模块采用神经网络计算模型进行预测:先人为选定一些知识数据作为训练样本x1,x2,...,xN,并选择合适的结果z1,z2,...,zN作为结果,通过多次迭代计算,得出适宜的中间参数y1,y2,...,yN,且使得(x1,x2,...,xN)·(y1,y2,...,yN)=(z1,z2,...,zN)即为训练出合适的模型。然后,将需要预测的知识数据输入,就可以得到满足已知规律的预测结果。例如,现有10年的知识数据总量的统计信息,先选择全部可能的连续6年的知识数据组合作为训练样本:即将前5年的知识数据作为输入,第6年的知识数据作为输出,通过这样的训练,能得到以5年数据预测第6年知识数据的拟合函数,再输入连续5年知识数据后,即可得到第6年的预测值。
步骤4,控制单元对计算单元的计算结果进行汇总处理后,将汇总结果交付给人机交互单元。
步骤5,人机交互单元接收到控制单元的处理结果,判定该处理结果及其显示的类型,以便采用设定方式向用户展示该处理结果(处理结果及其显示类型包括聚类结果、预测分析结果和知识数据)。
本发明已经进行了实施试验,图4所示就是利用本发明方法中的步骤(34)对部分科研人员进行聚类的结果示意图,其中,不同深浅的颜色或图案分别表示不同的聚类结果,其聚类的依据是不同科研人员之间的合作关系,合作关系较多的,便会被聚类在一起,同时,在图4中还可以看到团队等概念
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (11)

1.一种用于复杂网络的分布式知识数据挖掘装置,其特征在于:该装置设有三个部件:控制单元、计算单元和人机交互单元,其中:
人机交互单元,用于实现人机交互功能,向用户提供包括针对知识数据的聚类、关系度计算或权值计算的可选功能,在用户选择后,接收用户指令,并转送给控制单元执行相应操作;且在运算结束后,将控制单元处理完成的数据,结合用户所选择的功能,以适宜方式显示给用户;该单元以.NET开发为主,利用包括WPF的框架模块实现数据的图形化显示和交互;
控制单元,用于接收人机交互单元输入的指令,并以分布式平台特性和功能,按照包括MapReduce机制的设定方式控制和分配计算任务,并统一汇总计算单元的计算结果,反馈给人机交互单元进行显示;
计算单元,负责完成控制单元分配的计算任务,并将计算结果反馈给控制单元,设有:数据采集,相关度计算,权重计算,聚类和预测共五个模块。
2.根据权利要求1所述的装置,其特征在于:所述计算单元各个模块的功能如下:
数据采集模块,用于使用爬虫工具或开放的应用程序接口API在线采集包括科研项目、专利和论文的知识数据,再采用包括正则表达式分析、过滤和删除无用数据和非法字符的方法对该知识数据进行预处理:建立能够藉由科研项目负责人、专利申请人、发明人或专利权人,以及论文作者的关系寻找到知识数据的索引,然后将其存入分布式数据库中,作为后续计算的数据源;
相关度计算模块,用于计算已有知识数据的相关度:遍历数据库中的知识数据,根据设定的相关度计算规则,量化知识数据属性的相关程度,计算每个知识数据与其他知识数据的相关度,得到每两个知识数据之间的相关度;
权值计算模块,用于计算现有知识数据的权重:遍历数据库中现有的知识数据,根据设定规则和知识数据自身的属性特征,计算每个知识数据的权值;
聚类模块,负责完成对现有知识数据的聚类:利用知识数据的相关度及其自身权值,构建知识数据网络,再利用聚类算法对知识数据进行聚类,把相似或相关的知识数据聚集在一起,发现或得到知识数据网络的社团结构;
预测模块,用于根据知识数据的聚类结果,采用包括时间序列分析和神经网络算法对知识数据的发展趋势和动向进行预测。
3.根据权利要求1所述的装置,其特征在于:该装置的计算单元采用分布式处理软件架构Hadoop平台对知识数据实现分布式计算处理,即利用该Hadoop平台中包括映射Map和化简Reduce两个处理过程的MapReduce机制,作为该计算单元使用的分布式计算方法,对知识数据进行有效分割和重组,并减少数据处理时间,提高数据处理效率。
4.根据权利要求3所述的装置,其特征在于:所述MapReduce计算机制用于实现聚类过程,即把对知识数据的聚类计算分为Map和Reduce两个过程:先使用Map操作并行地将原始知识数据转换为可聚类的格式,并给不同服务器分配互不重复的知识数据,且每个服务器根据给定的k值随机选取k个知识数据作为初始聚类中心,并对其按照顺序编号,对这些知识数据同时进行初始划分后,开始对每个知识数据执行初始划分和下述迭代操作:每个服务器在Map阶段分别读出位于本地的知识数据,并计算每个知识数据到各初始聚类中心的距离,将其归属到最近的初始聚类中心,再将本次聚类的结果在Reduced过程中返回;Reduce过程是得到所有知识数据的聚类结果,并对各服务器聚类结果进行合并后,在每个新的聚类中选取权值最大的知识数据作为新的聚类中心;重复执行上述Map和Reduce操作,直到聚类中心不再变化或达到最大迭代次数时,结束迭代,并输出每个知识数据归属的聚类信息;以简化分布式计算的底层复杂性,并向用户提供简单、可靠的应用接口。
5.根据权利要求1所述的装置,其特征在于:所述知识数据包括科研项目、科研人员、专利和论文的四个维度信息,是由科研项目、专利和论文的数据经过预处理得到的,同时,将科研项目、科研人员、专利和论文相互关联起来。
6.一种用于复杂网络的分布式知识数据挖掘装置的大规模知识数据挖掘方法,其特征在于:所述方法包括下列操作步骤:
(1)人机交互单元接收用户输入指令,确认用户的计算需求并传递给控制单元;
(2)控制单元接收人机交互单元传递的指令,判定指令内容,确认用户需要的计算过程,并对该计算操作进行分工,分配给计算单元;
(3)计算单元完成控制单元分配的数据处理和计算,且在完成处理计算后,将计算结果提交给控制单元;
(4)控制单元进行汇总处理后,将结果交付给人机交互单元;
(5)人机交互单元接收到控制单元的处理结果,判定该处理结果及其显示的类型,以便采用设定方式向用户展示该结果;所述结果及其显示类型包括聚类结果、预测分析结果和知识数据。
7.根据权利要求6所述的方法,其特征在于:所述步骤(3)中,计算单元完成的数据处理和计算包括下列操作内容:
(31)数据采集模块接收控制单元分配的任务,采用包括网络爬虫和开放的应用接口API采集数据,并对其进行预处理,得到包含科研项目、科研人员、专利和论文四个维度信息的知识数据,然后将该知识数据存储于分布式数据库;
(32)对预处理后的知识数据计算其数据相关度,得到每个知识数据之间的关系,构建初始知识数据网络,为后续的聚类处理操作提供依据;
(33)计算知识数据的权值,得到每个知识数据在知识数据网络中的权值;
(34)对所获得的初始知识数据网络进行聚类:利用两层聚类算法进行聚类,再通过数据可视化技术,将得到的聚类结果、即复杂的知识数据关系网络展现给用户;
(35)利用知识数据预测某个领域内的技术发展趋势和方向。
8.根据权利要求7所述的方法,其特征在于:所述步骤(31)包括下列操作内容:
(31a)数据采集模块利用网络爬虫或开放的应用接口API在网络上实时抓取包括科研项目、专利和论文的知识数据,其中,科研项目知识数据包括:项目的名称、编号、起止时间、经费及其负责人和单位的信息;专利知识数据包括:专利申请人和发明人、专利说明书摘要、引用的专利信息、专利申请日及其公开日和公开号的信息;论文知识数据包括:论文名称、作者、内容和引用的文章名信息;然后将抓取到的各种知识数据按照技术领域区分并存储于分布式数据库;其中,科研项目名称、专利名称和论文名称是短文本数据,专利说明书摘要和论文内容是长文本数据;
(31b)预处理模块对知识数据进行预处理:对存储于数据库中的新抓取的每个知识数据执行包括分词、过滤无用词和非法字符的预处理,得到每个知识数据中的项目名称、专利名称或论文名称的分词序列,再将知识数据及上述三个序列作为预处理结果,存储于分布式数据库。
9.根据权利要求7所述的方法,其特征在于:所述步骤(32)对预处理后的知识数据计算每个知识数据之间相关度的操作包括下列内容:
(32a)将分布式数据库中的专利说明书摘要和论文内容数据作为文本词语库,对其进行分词操作,使用词频-逆向文件频率TF-IDF方法,得到关键词集合,再对关键词和文本词语库中每个知识数据的TF-IDF关系矩阵进行奇异值分解,得到各个关键词之间的直接关联关系值,并存储在分布式数据库中;或
(32b)对于科研项目名称、专利名称或论文名称构成的短文本数据集合中的任意两个短文本数据A和B,所对应的关键词的分词序列分别是序列wordA和序列wordB;再按照公式:计算该两个短文本数据A和B的关系度值;其中,i,j分别为两个不同关键词在各自的分词序列wordA和分词序列wordB中的序号;n1,n2分别为两个分词序列wordA和wordB的各自长度;Rword(i,j)是分词序列wordA中第i个关键词和分词序列wordB中第j个关键词的关系度值;Rtext(A,B)值越大,说明短文本数据A和短文本数据B的相似度越大;或
(32c)每两个科研人员a和b之间的关系度值Rpeople(a,b)是根据其共同负责过的科研项目、共同完成的发明专利和/或共同发表的论文数量和该两个科研人员各自或共同负责的科研项目、发明专利和发表的论文数量对应的比值按照下述加权计算公式:
Figure FDA00002808079800042
计算得到的;其中,a、b为该两个科研人员,Nab为该两个科研人员a和b共同负责的科研项目数、共同发表的论文数、共同完成的发明专利数的总和,Na和Nb分别表示每个科研人员a和b各自负责过的项目、发明专利和/或发表的论文总数;或
(32d)采用下述不同公式分别计算知识数据在不同维度上的相关度值:
两个科研项目α={αleadertitletimelevel}和β={βleadertitletimelevel},其中,αleader和βleader分别为项目α和β各自的负责人,αtitle和βtitle、αtime和βtime以及αlevel和βlevel分别为项目α和β的名称、起止时间及其级别,它们之间的相关度值的计算公式为:
Rproject(α,β)=q1×Rpeopleleaderleader)+q2×Rtexttitletitle);其中,Rpeopleleaderleader)为由步骤(32c)计算得到的项目负责人αleader和βleader的相关度值,Rtext(气titletitle)为由步骤(32b)计算得到的项目名称αtitle和βtitle的相关度值,q1,q2分别为项目负责人的相关度值Rpeopleleaderleader)和项目名称的相关度值Rtexttitletitle)的权值,且q1+q2=1;
两个专利χ={χownertitletime}和δ={δownertitletime};其中,χowner和δowner、χtitle和δtitle、以及χtime和δtime分别为两个专利χ和δ各自的发明人、名称及其公开时间,它们之间的相关度值为:
Rpatent(χ,δ)=q1×Rpeopleownerowner)+q2×Rtexttitletitle)+q3×Lpatent(χ,δ);其中,Rpeopleownerowner)为两个专利发明人χowner和δowner之间的相关度值,Rtexttitletitle)为由步骤(32b)计算得到的两个专利名称χtitletitle之间的相关度值;Lpatent(χ,δ)表示两个专利χ和δ之间是否存在引用关系,若有引用关系,其数值为1,否则,其数值为0;q1,q2,q3分别为专利发明人相关度值Rpeopleownerowner)、专利名称相关度值Rtexttitletitle)和专利间引用关系Lpatent(χ,δ)的权值,且q1+q2+q3=1;
两个论文ν={νownertitletime}和μ={μownertitletime},其中,νowner和μowner分别为两个论文ν和μ各自的作者,νtitle和μtitle、νtime和νtime分别为论文ν和μ的名称和各自的发表时间,它们之间的相关度值计算公式为:Rpaper(ν,μ)=q1×Rpeopleauthorauthor)+q2×Rtexttitletitle)+q3×Lpaper(ν,μ),其中,Rpeopleauthorauthor)为论文作者νauthor和μauthor的相关度值,式中,Rtexttitletitle)是利用步骤(32b)计算得到的两个论文名称νtitletitle之间的相关度值,Lpaper(ν,μ)表示两个论文ν和μ之间是否存在引用关系,若有引用关系,其数值为1,否则,其数值为0;q1,q2,q3分别为论文作者的相关度值Rpeopleownerowner)、论文名称的相关度值Rtexttitletitle)和论文间引用关系Lpatent(χ,δ)的权值,且q1+q2+q3=1。
10.根据权利要求7所述的方法,其特征在于:所述步骤(33)计算知识数据权值的准则如下:
科研人员的权值取决于其负责的科研项目数和科研项目级别或资助经费、授权的发明专利数和发表的论文数及其质量,即科研人员a的权值计算公式为: W people ( a ) = N paper ( a ) × q 1 + N patent ( a ) × q 2 Σ α C project ( a ) W ( a ) × q 3 , 式中,Npaper(a)和Npatemt(a)分别为科研人员a发表的论文数和授权的发明专利数,Cproject(a)和W(a)分别为科研人员a负责的所有科研项目总数及其科研项目级别或资助经费,q1,q2,q3分别为论文数、专利数和项目级别在科研人员权值计算公式中的权值,且q1+q2+q3=1;
论文或专利的权值是由其被其他论文或专利引用的次数和其发表或公开时间所共同决定;其中,专利χ的权值计算公式为:
W patent ( χ ) = ( 1 - d ) × e T + d × Σ δ γ ( W patent ( δ ) × W age - patent ( δ , χ ) ) , 式中,滞留系数d是自身权值和被引用所获的权值所占的比率,这里选取d=0.85;常数e取决于不同类别的专利更新速度;T为当前年份减去专利申请日所在年的授权专利保护年限,引入e和T是为了提高新专利的权值;Wage-patent(δ,χ)为专利δ将其自身权值传播给它引用的专利χ的传播比重;γ为引用专利χ的所有专利总数;s为专利δ引用的所有专利总数;tδ,χ为两个专利的年龄差,其计算方法为:专利δ和专利χ两者的公开年份之差+1;平滑因子b用于调整不同年龄的被引用文献获得的权值之间的差异,使的年龄小的被引文献获得的权值不会太大,并根据不同种类专利校正b值而分配得到准确的权值,这里设置b=5;论文μ的权值Wpaper(μ)计算公式为: W paper ( μ ) = = ( 1 - d ) × e T + d × Σ ν ω ( W paper ( ν , μ ) × W age - paper ( ν , μ ) ) , 其中, W age - patent ( ν , μ ) = 1 t ν , μ + b Σ j ψ 1 t ν , o + b , 滞留系数d是自身权值和被引用所获的权值所占的比率,这里选取d=0.85;常数e取决于不同类别的论文更新速度;T为当前年份减去论文发表年份的论文年龄;Wage-paper(ν,μ)为论文ν将自身的权值传播给它引用的论文μ的传播比重;ω为引用论文μ的所有论文总总数;ψ为论文ν引用的所有论文总数;tν,μ为两篇论文的年龄差,其计算方法为:论文ν和论文μ两者的发表年份之差+1;平滑因子b用于根据不同种类论文校正其数值,使得每篇论文分配得到准确的权值,这里设置b=5。
11.根据权利要求7所述的方法,其特征在于:所述步骤(34)中,聚类算法采用两层聚类结构:先采用复杂度低的Cure聚类算法或Leader聚类算法对知识数据进行初步的聚类运算,将知识数据分成多个规模较大的初始聚类;再使用复杂度高的基于MapReduce机制的k均值聚类算法对上述每个初始聚类进行二次聚类;这样得出比第一次聚类算法更精准的聚类结果,同时比直接使用k均值聚类算法降低了计算复杂度。
CN201310042046.5A 2013-02-01 2013-02-01 用于复杂网络的分布式知识数据挖掘装置和挖掘方法 Expired - Fee Related CN103136337B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310042046.5A CN103136337B (zh) 2013-02-01 2013-02-01 用于复杂网络的分布式知识数据挖掘装置和挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310042046.5A CN103136337B (zh) 2013-02-01 2013-02-01 用于复杂网络的分布式知识数据挖掘装置和挖掘方法

Publications (2)

Publication Number Publication Date
CN103136337A true CN103136337A (zh) 2013-06-05
CN103136337B CN103136337B (zh) 2016-05-04

Family

ID=48496163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310042046.5A Expired - Fee Related CN103136337B (zh) 2013-02-01 2013-02-01 用于复杂网络的分布式知识数据挖掘装置和挖掘方法

Country Status (1)

Country Link
CN (1) CN103136337B (zh)

Cited By (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336808A (zh) * 2013-06-25 2013-10-02 中国科学院信息工程研究所 一种基于bsp模型的实时图数据处理系统及方法
CN103744935A (zh) * 2013-12-31 2014-04-23 华北电力大学(保定) 一种计算机快速海量数据聚类处理方法
CN104008127A (zh) * 2014-04-21 2014-08-27 中国电子科技集团公司第二十八研究所 一种基于聚类算法的群组识别方法
CN104142918A (zh) * 2014-07-31 2014-11-12 天津大学 基于tf-idf特征的短文本聚类以及热点主题提取方法
CN104166683A (zh) * 2014-07-21 2014-11-26 安徽华贞信息科技有限公司 一种数据挖掘方法
CN104239343A (zh) * 2013-06-20 2014-12-24 腾讯科技(深圳)有限公司 一种用户输入信息的处理方法和装置
CN104484409A (zh) * 2014-12-16 2015-04-01 芜湖乐锐思信息咨询有限公司 用于大数据处理的数据挖掘方法
CN104699697A (zh) * 2013-12-04 2015-06-10 中国移动通信集团天津有限公司 一种数据处理方法及装置
CN104809117A (zh) * 2014-01-24 2015-07-29 深圳市云帆世纪科技有限公司 视频数据聚合处理方法、聚合系统及视频搜索平台
CN104899281A (zh) * 2015-06-01 2015-09-09 百度在线网络技术(北京)有限公司 学术文章处理方法和学术文章的搜索处理方法及装置
CN105447104A (zh) * 2015-11-12 2016-03-30 中国建设银行股份有限公司 一种知识地图生成方法及装置
WO2016049975A1 (zh) * 2014-09-29 2016-04-07 同济大学 一种基于集聚系数的自适应聚类方法及系统
CN105512191A (zh) * 2015-11-25 2016-04-20 南京莱斯信息技术股份有限公司 一种具备人工行为学习能力的行业特征分析器
CN105608329A (zh) * 2016-01-26 2016-05-25 中国人民解放军国防科学技术大学 一种基于社团演化的组织行为异常检测方法
CN105608496A (zh) * 2015-11-09 2016-05-25 国家电网公司 一种基于k-means聚类算法的配抢工单激增原因分析方法
CN105786941A (zh) * 2014-12-26 2016-07-20 中国移动通信集团上海有限公司 一种信息挖掘方法和装置
CN106055580A (zh) * 2016-05-23 2016-10-26 中南大学 一种基于Radviz的模糊聚类结果可视化方法
CN106156107A (zh) * 2015-04-03 2016-11-23 刘岩松 一种新闻热点的发现方法
CN106294822A (zh) * 2016-08-17 2017-01-04 国网上海市电力公司 一种电力数据可视化系统
CN107003976A (zh) * 2014-12-16 2017-08-01 慧与发展有限责任合伙企业 基于可准许活动规则确定可准许活动
CN107103094A (zh) * 2017-05-18 2017-08-29 前海梧桐(深圳)数据有限公司 基于海量数据的企业间数据关联关系捕捉方法及其系统
CN107688870A (zh) * 2017-08-15 2018-02-13 中国科学院软件研究所 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN108182265A (zh) * 2018-01-09 2018-06-19 清华大学 针对关系网络的多层迭代筛选方法及装置
CN108241745A (zh) * 2018-01-08 2018-07-03 阿里巴巴集团控股有限公司 样本集的处理方法及装置、样本的查询方法及装置
CN108846142A (zh) * 2018-07-12 2018-11-20 南方电网调峰调频发电有限公司 一种文本聚类方法、装置、设备及可读存储介质
CN109558464A (zh) * 2018-11-21 2019-04-02 中国人民解放军国防科技大学 网络性能分级表示方法
CN109783526A (zh) * 2018-12-28 2019-05-21 华南理工大学 一种基于专家论文大数据的研究热点分析方法
CN109933643A (zh) * 2019-02-22 2019-06-25 太原蓝知科技有限公司 专利交易大数据采集和处理方法
CN110796561A (zh) * 2019-10-19 2020-02-14 上海大学 基于三跳速度衰减传播模型的影响力最大化方法及装置
CN110990568A (zh) * 2019-11-26 2020-04-10 北京中科汇联科技股份有限公司 一种短文本聚类方法、装置、电子设备及存储介质
CN111090793A (zh) * 2019-12-10 2020-05-01 北京航空航天大学 一种基于平均延误时间序列的机场日延误特征分类方法
CN111209274A (zh) * 2019-12-30 2020-05-29 三盟科技股份有限公司 一种数据质量检核方法、系统、设备及可读存储介质
CN112052411A (zh) * 2020-08-12 2020-12-08 南京航空航天大学 一种基于爬虫的学术搜索结果可视化方案设计方法
CN112307093A (zh) * 2020-12-28 2021-02-02 江西科技学院 一种电数字数据处理分析装置及方法
CN112434086A (zh) * 2020-12-04 2021-03-02 崔秀芬 基于云计算和大数据的信息流挖掘方法及云计算互动中心
CN112597285A (zh) * 2020-12-10 2021-04-02 太极计算机股份有限公司 一种基于知识图谱的人机交互方法及系统
CN113298399A (zh) * 2021-05-31 2021-08-24 西南大学 基于大数据的科研项目分析方法
CN113836307A (zh) * 2021-10-15 2021-12-24 国网北京市电力公司 一种供电服务工单热点发现方法、系统、装置及存储介质
CN114328673A (zh) * 2021-12-31 2022-04-12 杭州师范大学 一种基于复杂网络的科研人员数据处理方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070011135A1 (en) * 2005-07-05 2007-01-11 International Business Machines Corporation System and method for selecting parameters for data mining modeling algorithms in data mining applications
CN1975720A (zh) * 2006-12-27 2007-06-06 章毅 一种基于Web的数据挖掘系统及其控制方法
CN101799808A (zh) * 2009-02-10 2010-08-11 中国移动通信集团公司 一种数据处理方法及其系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070011135A1 (en) * 2005-07-05 2007-01-11 International Business Machines Corporation System and method for selecting parameters for data mining modeling algorithms in data mining applications
CN1975720A (zh) * 2006-12-27 2007-06-06 章毅 一种基于Web的数据挖掘系统及其控制方法
CN101799808A (zh) * 2009-02-10 2010-08-11 中国移动通信集团公司 一种数据处理方法及其系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
江小平等: "k-means聚类算法的MapReduce并行化实现", 《华中科技大学学报(自然科学版)》 *

Cited By (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11275728B2 (en) 2013-06-20 2022-03-15 Tencent Technology (Shenzhen) Company Limited Processing method and device of the user input information
CN104239343A (zh) * 2013-06-20 2014-12-24 腾讯科技(深圳)有限公司 一种用户输入信息的处理方法和装置
US10503729B2 (en) 2013-06-20 2019-12-10 Tencent Technology (Shenzhen) Company Limited Processing method and device of the user input information
CN104239343B (zh) * 2013-06-20 2018-04-27 腾讯科技(深圳)有限公司 一种用户输入信息的处理方法和装置
CN103336808A (zh) * 2013-06-25 2013-10-02 中国科学院信息工程研究所 一种基于bsp模型的实时图数据处理系统及方法
CN103336808B (zh) * 2013-06-25 2017-12-15 中国科学院信息工程研究所 一种基于bsp模型的实时图数据处理系统及方法
CN104699697B (zh) * 2013-12-04 2017-11-21 中国移动通信集团天津有限公司 一种数据处理方法及装置
CN104699697A (zh) * 2013-12-04 2015-06-10 中国移动通信集团天津有限公司 一种数据处理方法及装置
CN103744935B (zh) * 2013-12-31 2017-06-06 华北电力大学(保定) 一种计算机快速海量数据聚类处理方法
CN103744935A (zh) * 2013-12-31 2014-04-23 华北电力大学(保定) 一种计算机快速海量数据聚类处理方法
CN104809117A (zh) * 2014-01-24 2015-07-29 深圳市云帆世纪科技有限公司 视频数据聚合处理方法、聚合系统及视频搜索平台
CN104008127A (zh) * 2014-04-21 2014-08-27 中国电子科技集团公司第二十八研究所 一种基于聚类算法的群组识别方法
CN104166683A (zh) * 2014-07-21 2014-11-26 安徽华贞信息科技有限公司 一种数据挖掘方法
CN104142918B (zh) * 2014-07-31 2017-04-05 天津大学 基于tf‑idf特征的短文本聚类以及热点主题提取方法
CN104142918A (zh) * 2014-07-31 2014-11-12 天津大学 基于tf-idf特征的短文本聚类以及热点主题提取方法
US10037495B2 (en) 2014-09-29 2018-07-31 Tongji University Clustering coefficient-based adaptive clustering method and system
WO2016049975A1 (zh) * 2014-09-29 2016-04-07 同济大学 一种基于集聚系数的自适应聚类方法及系统
CN107003976A (zh) * 2014-12-16 2017-08-01 慧与发展有限责任合伙企业 基于可准许活动规则确定可准许活动
CN107003976B (zh) * 2014-12-16 2021-05-07 微福斯有限责任公司 基于可准许活动规则确定可准许活动
CN104484409A (zh) * 2014-12-16 2015-04-01 芜湖乐锐思信息咨询有限公司 用于大数据处理的数据挖掘方法
CN105786941A (zh) * 2014-12-26 2016-07-20 中国移动通信集团上海有限公司 一种信息挖掘方法和装置
CN105786941B (zh) * 2014-12-26 2020-05-01 中国移动通信集团上海有限公司 一种信息挖掘方法和装置
CN106156107A (zh) * 2015-04-03 2016-11-23 刘岩松 一种新闻热点的发现方法
CN106156107B (zh) * 2015-04-03 2019-12-13 刘岩松 一种新闻热点的发现方法
CN104899281A (zh) * 2015-06-01 2015-09-09 百度在线网络技术(北京)有限公司 学术文章处理方法和学术文章的搜索处理方法及装置
CN104899281B (zh) * 2015-06-01 2018-07-27 百度在线网络技术(北京)有限公司 学术文章处理方法和学术文章的搜索处理方法及装置
CN105608496A (zh) * 2015-11-09 2016-05-25 国家电网公司 一种基于k-means聚类算法的配抢工单激增原因分析方法
CN105608496B (zh) * 2015-11-09 2021-07-27 国家电网公司 一种基于k - means聚类算法的配抢工单激增原因分析方法
CN105447104A (zh) * 2015-11-12 2016-03-30 中国建设银行股份有限公司 一种知识地图生成方法及装置
CN105512191A (zh) * 2015-11-25 2016-04-20 南京莱斯信息技术股份有限公司 一种具备人工行为学习能力的行业特征分析器
CN105608329A (zh) * 2016-01-26 2016-05-25 中国人民解放军国防科学技术大学 一种基于社团演化的组织行为异常检测方法
CN106055580A (zh) * 2016-05-23 2016-10-26 中南大学 一种基于Radviz的模糊聚类结果可视化方法
CN106055580B (zh) * 2016-05-23 2019-02-05 中南大学 一种基于Radviz的模糊聚类结果可视化方法
CN106294822A (zh) * 2016-08-17 2017-01-04 国网上海市电力公司 一种电力数据可视化系统
CN107103094A (zh) * 2017-05-18 2017-08-29 前海梧桐(深圳)数据有限公司 基于海量数据的企业间数据关联关系捕捉方法及其系统
CN107688870A (zh) * 2017-08-15 2018-02-13 中国科学院软件研究所 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN107688870B (zh) * 2017-08-15 2020-07-24 中国科学院软件研究所 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN108241745A (zh) * 2018-01-08 2018-07-03 阿里巴巴集团控股有限公司 样本集的处理方法及装置、样本的查询方法及装置
US10896164B2 (en) 2018-01-08 2021-01-19 Advanced New Technologies Co., Ltd. Sample set processing method and apparatus, and sample querying method and apparatus
CN108241745B (zh) * 2018-01-08 2020-04-28 阿里巴巴集团控股有限公司 样本集的处理方法及装置、样本的查询方法及装置
CN108182265A (zh) * 2018-01-09 2018-06-19 清华大学 针对关系网络的多层迭代筛选方法及装置
CN108846142A (zh) * 2018-07-12 2018-11-20 南方电网调峰调频发电有限公司 一种文本聚类方法、装置、设备及可读存储介质
CN109558464A (zh) * 2018-11-21 2019-04-02 中国人民解放军国防科技大学 网络性能分级表示方法
CN109783526A (zh) * 2018-12-28 2019-05-21 华南理工大学 一种基于专家论文大数据的研究热点分析方法
CN109933643A (zh) * 2019-02-22 2019-06-25 太原蓝知科技有限公司 专利交易大数据采集和处理方法
CN109933643B (zh) * 2019-02-22 2020-10-02 蓝知科技(南京)有限公司 专利交易大数据采集和处理方法
CN110796561A (zh) * 2019-10-19 2020-02-14 上海大学 基于三跳速度衰减传播模型的影响力最大化方法及装置
CN110796561B (zh) * 2019-10-19 2023-04-11 上海大学 基于三跳速度衰减传播模型的影响力最大化方法及装置
CN110990568A (zh) * 2019-11-26 2020-04-10 北京中科汇联科技股份有限公司 一种短文本聚类方法、装置、电子设备及存储介质
CN111090793A (zh) * 2019-12-10 2020-05-01 北京航空航天大学 一种基于平均延误时间序列的机场日延误特征分类方法
CN111090793B (zh) * 2019-12-10 2020-10-30 北京航空航天大学 一种基于平均延误时间序列的机场日延误特征分类方法
CN111209274A (zh) * 2019-12-30 2020-05-29 三盟科技股份有限公司 一种数据质量检核方法、系统、设备及可读存储介质
CN112052411A (zh) * 2020-08-12 2020-12-08 南京航空航天大学 一种基于爬虫的学术搜索结果可视化方案设计方法
CN112434086B (zh) * 2020-12-04 2021-09-21 上海东方财富证券投资咨询有限公司 基于云计算和大数据的信息流挖掘方法及云计算互动中心
CN112434086A (zh) * 2020-12-04 2021-03-02 崔秀芬 基于云计算和大数据的信息流挖掘方法及云计算互动中心
CN112597285A (zh) * 2020-12-10 2021-04-02 太极计算机股份有限公司 一种基于知识图谱的人机交互方法及系统
CN112307093B (zh) * 2020-12-28 2021-05-04 江西科技学院 一种电数字数据处理分析装置及方法
CN112307093A (zh) * 2020-12-28 2021-02-02 江西科技学院 一种电数字数据处理分析装置及方法
CN113298399A (zh) * 2021-05-31 2021-08-24 西南大学 基于大数据的科研项目分析方法
CN113298399B (zh) * 2021-05-31 2023-04-07 西南大学 基于大数据的科研项目分析方法
CN113836307A (zh) * 2021-10-15 2021-12-24 国网北京市电力公司 一种供电服务工单热点发现方法、系统、装置及存储介质
CN113836307B (zh) * 2021-10-15 2024-02-20 国网北京市电力公司 一种供电服务工单热点发现方法、系统、装置及存储介质
CN114328673A (zh) * 2021-12-31 2022-04-12 杭州师范大学 一种基于复杂网络的科研人员数据处理方法
CN114328673B (zh) * 2021-12-31 2024-04-16 杭州师范大学 一种基于复杂网络的科研人员数据处理方法

Also Published As

Publication number Publication date
CN103136337B (zh) 2016-05-04

Similar Documents

Publication Publication Date Title
CN103136337B (zh) 用于复杂网络的分布式知识数据挖掘装置和挖掘方法
US20220066772A1 (en) System and Method for Code and Data Versioning in Computerized Data Modeling and Analysis
US10275502B2 (en) System and method for interactive reporting in computerized data modeling and analysis
Zhang GroRec: a group-centric intelligent recommender system integrating social, mobile and big data technologies
Adeniyi et al. Automated web usage data mining and recommendation system using K-Nearest Neighbor (KNN) classification method
US20170286526A1 (en) System and Method for Optimized Query Execution in Computerized Data Modeling and Analysis
CN106796578B (zh) 知识自动化系统和方法以及存储器
CN108713205A (zh) 用于自动映射与数据流环境一起使用的数据类型的系统和方法
Liang et al. Product marketing prediction based on XGboost and LightGBM algorithm
US20160350294A1 (en) Method and system for peer detection
EP3394744A1 (en) System and method for rapid development and deployment of reusable analytic code for use in computerized data modeling and analysis
Irudeen et al. Big data solution for Sri Lankan development: A case study from travel and tourism
CN103116582A (zh) 一种信息检索方法及相关系统和装置
Li et al. Cross-dimension mining model of public opinion data in online education based on fuzzy association rules
Muniswamaiah et al. Data virtualization for decision making in big data
Glukhov et al. Dynamic recommendation algorithms for a COVID-19 restrictions scenario in the restaurant industry
Alhaj Ali et al. Distributed data mining systems: techniques, approaches and algorithms
Yu et al. Clustering and recommendation for semantic web service in time series
Foote et al. A computational analysis of social media scholarship
CN112506930B (zh) 一种基于机器学习技术的数据洞察系统
Tejasree et al. An improved differential bond energy algorithm with fuzzy merging method to improve the document clustering for information mining
US20220156285A1 (en) Data Tagging And Synchronisation System
Avdeenko et al. Modeling information space for decision-making in the interaction of higher education system with regional labor market
CN118069932B (zh) 配置信息的推荐方法、装置、计算机设备
Dieni et al. Business Intelligence for Unemployment Rate Management System

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160504

Termination date: 20170201