CN109933693A

CN109933693A - 一种基于大数据技术的全球智库数据开发与组织方法

Info

Publication number: CN109933693A
Application number: CN201910188355.0A
Authority: CN
Inventors: 姜开学; 邓代海; 魏姚
Original assignee: Chongqing Shangwei Information Technology Co Ltd
Current assignee: Chongqing Shangwei Information Technology Co Ltd
Priority date: 2019-03-13
Filing date: 2019-03-13
Publication date: 2019-06-25

Abstract

本发明涉及数据开发与组织技术领域，尤其涉及一种基于大数据技术的全球智库数据开发与组织方法；方法包括如下步骤：通过Web信息采集系统对智库的数据进行自动化采集，并形成字段信息；通过对字段的定义和所描述对象的属性，形成一批相同类型的数据，对该类数据进行组织；创建数据体之间的关系；通过大数据处理技术，对这些数据进行预处理，使其成为有用的成品数据；通过关联挖掘技术和聚类挖掘技术寻找成品数据中数据项之间的关联关系，从大量的数据中找出隐藏的信息；通过可视化技术对数据进行展示，把数据隐藏的信息规律直观的展示出来；实现了技术的实质性提升，在先进性、新颖性、智能性、直观性等方面有着独特优势。

Description

一种基于大数据技术的全球智库数据开发与组织方法

技术领域

本发明涉及数据开发与组织技术领域，尤其涉及一种基于大数据技术的全球智库数据开发与组织方法。

背景技术

在数字图书行业的数据库厂商中，目前主流的数据获取主要是通过扫描录入、成品购买等方式，该方式数据获取成本较高；在数据组织方式上大多以文献的方式进行组织，比较单一、不够灵活；在数据处理与挖掘方面主要针对的是结构化数据，非结构化数据在处理与挖掘时比较困难；在可视化展示方面，没有体现大数据的特点，展示方式不直观。

发明内容

本发明的目的在于克服上述现有技术的不足，提供一种基于大数据技术的全球智库数据开发与组织方法。

本发明提供了一种基于大数据技术的全球智库数据开发与组织方法，所述方法包括下述步骤：

根据智库机构、智库动态、研究专家、研究成果，通过Web信息采集系统对智库的数据进行自动化采集，并形成不同的字段信息；

通过对字段的定义和所描述对象的属性，并以关系型数据库建立的表结构为基础，形成一批相同类型的数据，对该类数据进行组织；进而创建数据体之间的关系；

根据数据体之间的关系，将数据主要分为结构化数据、半结构化数据和非结构化数据，通过大数据处理技术，对这些数据进行预处理，所述预处理包括数据清洗、数据集成、数据变换以及数据归约，使其成为有用的成品数据；

通过关联挖掘技术和聚类挖掘技术寻找成品数据中数据项之间的关联关系，让同类型的资源集中展示，深度挖掘出同类型资源的聚集效应，从大量的数据中找出隐藏的信息；

通过可视化技术对数据进行展示，把数据隐藏的信息规律直观的展示出来，能够迅速和有效地简化与提炼数据流，使我们能够交互筛选大量的数据，完成数据分析。

可选的，所述智库机构的字段信息包括智库名称、智库排名、智库简介、所属成果、所属专家、联系方式；

所述智库动态的字段信息包括标题、日期、正文、图片、作者、来源、地址；

所述研究专家的字段信息包括姓名、照片、所属机构、职务、职称、个人简历、研究领域、研究成果；

所述研究成果的字段信息包括标题、日期、作者、所属机构、成果类型、关键词、摘要、全文。

可选的，进而创建数据体之间的关系，包括：研究专家关联到智库机构，智库动态关联到智库机构，研究成果关联到对应专家，形成完整的关系网络。

可选的，所述数据清洗包括：数据分析、定义清洗规则、执行清洗规则以及清洗结果验证；

所述数据分析通过相关知识，应用统计学，数据挖掘的方法，分析出数据源中数据的特点，为定义数据清洗规则奠定基础；

所述定义清洗规则包括空值的检查和处理，非法值的检测和处理，不一致数据的检测和处理，相似重复记录的检测和处理；

所述执行清洗规则通过检查拼写错误，去掉重复的记录，补上不完全的记录，解决不一致的记录；

所述清洗结果验证通过对定义的清洗转换规则的正确性和效率进行验证和评估，当不满足清洗要求时，对清洗规则或系统参数进行调整和改进。

可选的，所述数据集成包括：

收集所述数据清洗后的数据，根据众多不同智库数据的来源，对智库机构、研究专家、成果类型建立统一的数据仓库，每个仓库存储对应数据，从而实现数据的集成；

通过在数据集成前进行调研，确认每个字段的实际意义，避免被不规范的命名误导，从而解决字段意义问题；

通过在数据集成的过程中尽量明确数据字段结构，确定字段的基本属性，在后续进行数据集成时，通过上表对数据格式进行约束，避免因格式不同对集成带来的困扰，从而解决字段结构问题；

通过检测字段的相关性，侦察到数据冗余，从而解决字段冗余问题；

通过调研定义主键，或者对表进行拆分或整合，检查数据记录的重复，主键能够确定唯一记录，其有可能是一个字段，也有可能是几个字段的组合，对表进行优化，过滤重复数据，从而解决数据重复问题。

可选的，所述数据变换通过对数据依次进行光滑处理、聚集处理、数据泛化、数据规范化、数据属性构造，使数据统一化，并将数据转换成html或PDF的格式进行存储；

所述光滑处理通过分箱或回归的方法去掉数据中的噪声；

所述聚集处理通过对数据仓库中的数据进行简单的汇总和聚集来获得统计信息，以便对数据进行更高层次的分析；

所述数据泛化通过高层的概念来替换低层或原始数据；

所述数据规范化通过对属性数据进行缩放，使之可以落入到一个特定区域之间；

所述数据属性构造通过构造新的属性并添加到属性集合中以便帮助挖掘。

可选的，所述数据归约通过属性归约和数量归约在尽可能的前提下最大限度地减少数据量；

所述属性归约通过属性合并来创建新属性维数，或者直接通过删除不相关的属性来减少数据维数；

所述数量归约通过用能替代的较小的数据来减少原始数据。

可选的，所述关联挖掘通过采用Apriori算法寻找数据项之间的关联关系；

所述Apriori算法包括：第一步，扫描整个数据集，得到所有出现过的数据，作为候选频繁1项集，k＝1，频繁0项集为空集；

第二步，挖掘频繁k项集，首先，扫描数据计算候选频繁k项集的支持度，去除候选频繁k项集中支持度低于阈值的数据集,得到频繁k项集；然后，如果得到的频繁k项集为空，则直接返回频繁k-1项集的集合作为算法结果，算法结束，如果得到的频繁k项集只有一项，则直接返回频繁k项集的集合作为算法结果，算法结束，最后，基于频繁k项集，连接生成候选频繁k+1项集；

第三步，令k＝k+1，转入第二步。

可选的，所述聚类挖掘通过k-means算法将研究成果按照国际关系、教育、地区安全、经济、卫生、外交主题进行聚类，将专家进行相应聚类，发现各个领域的领军专家；

所述k-means算法包括：第一步，选取数据空间中的K个对象作为初始中心，每个对象代表一个聚类中心；

第二步，对于样本中的数据对象，根据它们与这些聚类中心的欧氏距离，按距离最近的准则将它们分到距离它们最近的聚类中心所对应的类；

第三步，将每个类别中所有对象所对应的均值作为该类别的聚类中心，计算目标函数的值；

第四步，断聚类中心和目标函数的值是否发生改变，若不变，则输出结果，若改变，则返回第二步。

可选的，通过可视化技术对数据进行展示，把数据隐藏的信息规律直观的展示出来，能够迅速和有效地简化与提炼数据流，使我们能够交互筛选大量的数据，完成数据分析，包括：

将数据转化为可以观察分析的图像，每个图像对应一个维度；

从对应图像上标出对应的数据情况，使每个维度的数据都转换成为图形的形式；

通过折线图、饼图、柱状图、文字云呈现的图谱规律。

实施本发明实施例，具有如下有益效果：

在本发明中，通过提出的技术方案中建设了Web信息采集系统，仅需简单设置配置文件，就能实现自动化数据采集，长久数据更新，节约数据获取成本；

在数据组织方面，智库数据具有多样性，有机构、专家、动态、成果等多种数据，需要把这些数据全部组织在一起，经过设计的关系型数据库表结构，组织方式灵活，能带来更高效的数据组织及运行效率；

在数据处理方面，利用大数据处理技术，实现了结构化、半结构化与非结构化数据的处理，解决原始数据存在大量不完整、不一致、有异常的问题；

在数据挖掘方面，利用大数据技术，从看似毫无规律的大量数据中找出某些相关性，从中提取有价值、有意义的信息并揭示出来；

在可视化展示方面，把数据隐含的信息或规律直观的展示出来，实现了折线图、饼图、柱状图、文字云等多种知识图谱，提高了数据本身蕴涵的价值，从而帮助用户快速识别数据所呈现的图谱规律；

利用大数据技术，在数据获取、处理、挖掘、可视化等一系列全过程都进行了运用，实现了技术的实质性提升，在先进性、新颖性、智能性、直观性等方面有着独特优势，在同行业的技术开发中具有领先地位。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于大数据技术的全球智库数据开发与组织方法的流程示意图；

图2是本发明Web信息采集系统基本原理图；

图3是本发明数据预处理流程示意图；

图4是本发明Apriori算法流程示意图；

图5是本发明可视化技术示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

在数字图书行业的数据库厂商中，目前主流的数据获取主要是通过扫描录入、成品购买等方式，该方式数据获取成本较高；在数据组织方式上大多以文献的方式进行组织，比较单一、不够灵活；在数据处理与挖掘方面主要针对的是结构化数据，非结构化数据在处理与挖掘时比较困难；在可视化展示方面，没有体现大数据的特点，展示方式不直观；为了解决上述问题，所以有必要，研制一种基于大数据技术的全球智库数据开发与组织方法，利用大数据技术，在数据获取、处理、挖掘、可视化等一系列全过程都进行了运用，实现了技术的实质性提升，在先进性、新颖性、智能性、直观性等方面有着独特优势。

本发明具体实施方式提供一种基于大数据技术的全球智库数据开发与组织方法，该方法如图1所示，包括如下步骤：

在步骤S101中，根据智库机构、智库动态、研究专家、研究成果，通过Web信息采集系统对智库的数据进行自动化采集，并形成不同的字段信息。

在本发明实施例中，根据建设的需要，创建了以下数据结构：

智库机构：智库名称(中文名、英文名)、智库排名(综合排名、区域排名、领域排名)、智库简介、所属成果、所属专家、联系方式等字段信息。

智库动态：标题、日期、正文、图片、作者、来源、地址等字段信息。

研究专家：姓名、照片、所属机构、职务、职称、个人简历、研究领域、研究成果等字段信息。

研究成果：标题、日期、作者、所属机构、成果类型、关键词、摘要、全文等字段信息。

在步骤S102中，通过对字段的定义和所描述对象的属性，并以关系型数据库建立的表结构为基础，形成一批相同类型的数据，对该类数据进行组织；进而创建数据体之间的关系。

在本发明实施例中，所描述对象的属性，如机构信息数据、专家信息数据、动态信息数据、研究成果类型数据，每种数据结构存在较大差异，这就需要灵活设计不同的数据结构以适应数据组织的需要；研究成果类型包括研究报告、自媒体文章、期刊论文、时事评论、图书专著、多媒体等多种文档类型，每种类型的数据结构存在差异，在数据组织时需要定义成果标题、关键词、作者、类型、发表时间、所属机构、所属领域等重要字段信息，以实现对不同成果类型的区分；所形成的相同类型的数据有机构数据、专家数据、动态数据等；成果全文在组织时，大多以网页的形式进行存储，这样能保存成果全文的原版原貌，在格式上自成体例，展示也以网页的形式进行展示，有别于传统文本方式的展示；另外有些成果全文是以附件的形式进行提供，在数据组织时需要对全文进行下载并存储在本地。

创建了数据体之间的关系包括：研究专家关联到智库机构，智库动态关联到智库机构，研究成果关联到对应专家，形成了完整的关系网络，便于快速查找到想要的知识。

在步骤S103中，根据数据体之间的关系，将数据主要分为结构化数据、半结构化数据和非结构化数据，通过大数据处理技术，对这些数据进行预处理，预处理包括数据清洗、数据集成、数据变换以及数据归约，使其成为有用的成品数据。

在本发明实施例中，数据清洗即处理缺失值，平滑降噪数据，辨认或去除重复值和解决不规整的数据；如对智库机构中的研究专家和行政人员进行打标区分，对有成果的专家进行保留，无成果的行政人员进行剔除，以达到数据清洗的目的。数据清洗一般包括数据分析，定义和执行清洗规则，清洗结果验证等步骤；所述数据分析通过相关知识，应用统计学，数据挖掘的方法，分析出数据源中数据的特点，为定义数据清洗规则奠定基础；所述定义清洗规则包括空值的检查和处理，非法值的检测和处理，不一致数据的检测和处理，相似重复记录的检测和处理；所述执行清洗规则通过检查拼写错误，去掉重复的记录，补上不完全的记录，解决不一致的记录；所述清洗结果验证通过对定义的清洗转换规则的正确性和效率进行验证和评估，当不满足清洗要求时，对清洗规则或系统参数进行调整和改进。

数据集成本质是整合数据源，对不同来源的数据进行集中聚集，利用数据仓库进行存储；根据众多不同智库数据的来源，对智库机构、研究专家、成果类型等建立统一的数据仓库，每个仓库存储对应数据，从而实现数据的集成；通过在数据集成前进行调研，确认每个字段的实际意义，避免被不规范的命名误导，从而解决字段意义问题；通过在数据集成的过程中尽量明确数据字段结构，确定字段的基本属性，在后续进行数据集成时，通过上表对数据格式进行约束，避免因格式不同对集成带来的困扰，从而解决字段结构问题；通过检测字段的相关性，侦察到数据冗余，从而解决字段冗余问题；通过调研定义主键，或者对表进行拆分或整合，检查数据记录的重复，主键能够确定唯一记录，其有可能是一个字段，也有可能是几个字段的组合，对表进行优化，过滤重复数据，从而解决数据重复问题。

数据变换目的是使数据统一标准化，并将数据转换为适合挖掘的形式；由于研究成果全文的排版格式多样，需要进行规范化处理，数据变换通过对数据依次进行光滑处理、聚集处理、数据泛化、数据规范化、数据属性构造，将数据转换成html或PDF的格式进行存储，实现转换效果的提升。所述光滑处理通过分箱或回归的方法去掉数据中的噪声；所述聚集处理通过对数据仓库中的数据进行简单的汇总和聚集来获得统计信息，以便对数据进行更高层次的分析；所述数据泛化通过高层的概念来替换低层或原始数据；所述数据规范化通过对属性数据进行缩放，使之可以落入到一个特定区域之间；所述数据属性构造通过构造新的属性并添加到属性集合中以便帮助挖掘。

数据归约通过属性归约和数量归约在尽可能的前提下最大限度地减少数据量；目的是从智库机构的特征中删除不重要或不相关的特征，如机构的经费情况、运作方式、审查机制等，以减少特征向量的维度；归约后仍旧大抵保留原数据的完整性，但数据集变小。

所述属性归约通过属性合并来创建新属性维数，或者直接通过删除不相关的属性来减少数据维数；所述数量归约通过用能替代的较小的数据来减少原始数据。

在步骤S104中，通过关联挖掘技术和聚类挖掘技术寻找成品数据中数据项之间的关联关系，让同类型的资源集中展示，深度挖掘出同类型资源的聚集效应，从大量的数据中找出隐藏的信息。

在本发明实施例中，处理后的成品数据，具备数据挖掘的基础；关联挖掘是寻找数据项之间的关联关系；本系统通过关联挖掘技术，对智库专家发布的研究成果数量来评估专家的产出情况，也可以通过分析专家同时署名的成果的分布情况来发现专家之间的合作网络；关联挖掘主要采用Apriori算法；Apriori算法使用了一种分层的完备搜索算法(深度优先搜索)，即：如果一个项集是非频繁的，那么他的所有超集也是非频繁的；该算法会对数据集进行多次遍历：第一次遍历，对所有单项的支持度进行计数并确定频繁项；在后续的每次遍历中，利用上一次遍历所得频繁项集作为种子项集，产生新的潜在频繁项集——候选项集，并且对候选项集的支持度进行计数，在本次遍历结束时统计满足最小支持度的候选项集，本次遍历对应的频繁项集就确定了，这些频繁项集又成为下一趟遍历的种子；重复此遍历过程，直到再不能发现新的频繁项集。

实现步骤：根据向下闭包性，Apriori逐层搜索，由k-1项频繁集构成k项候选集，然后扫描数据库找出k项频繁集，直到没有新的频繁集产生为止。此算法的优点是在频繁项集基础上产生的，进而这可以保证这些规则的支持度达到指定的水平。

Apriori算法包括：第一步，扫描整个数据集，得到所有出现过的数据，作为候选频繁1项集，k＝1，频繁0项集为空集；第二步，挖掘频繁k项集，首先，扫描数据计算候选频繁k项集的支持度，去除候选频繁k项集中支持度低于阈值的数据集,得到频繁k项集；然后，如果得到的频繁k项集为空，则直接返回频繁k-1项集的集合作为算法结果，算法结束，如果得到的频繁k项集只有一项，则直接返回频繁k项集的集合作为算法结果，算法结束，最后，基于频繁k项集，连接生成候选频繁k+1项集；第三步，令k＝k+1，转入第二步。

聚类挖掘是根据最大化簇内的相似性、最小化簇内的相似性的原则将数据对象集合划分为若干个簇的过程；聚类挖掘通过k-means算法将研究成果按照国际关系、教育、地区安全、经济、卫生、外交等主题进行聚类，同样将专家进行相应聚类，发现各个领域的领军专家；k-means算法是一种基于划分的聚类算法，以距离作为数据对象间相似性度量的标准，即数据对象间的距离越小，则它们的相似性越高，则它们越有可能在同一个类簇。

实现步骤：首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度(距离)，分别将它们分配给与其最相似的(聚类中心所代表的)聚类；然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值)；不断重复这一过程直到标准测度函数开始收敛为止。此算法是解决聚类问题的一种经典算法，简单、快速，对处理大数据该算法保持可伸缩性和高效性，时间复杂度近于线性，而且适合挖掘大规模数据集。

k-means算法包括：第一步，选取数据空间中的K个对象作为初始中心，每个对象代表一个聚类中心；第二步，对于样本中的数据对象，根据它们与这些聚类中心的欧氏距离，按距离最近的准则将它们分到距离它们最近的聚类中心所对应的类；第三步，将每个类别中所有对象所对应的均值作为该类别的聚类中心，计算目标函数的值；第四步，断聚类中心和目标函数的值是否发生改变，若不变，则输出结果，若改变，则返回第二步。

在步骤S105中，通过可视化技术对数据进行展示，把数据隐藏的信息规律直观的展示出来，能够迅速和有效地简化与提炼数据流，使我们能够交互筛选大量的数据，完成数据分析。

在本发明实施例中，将数据转化为可以观察分析的图像，每个图像对应一个维度；从对应图像上标出对应的数据情况，使每个维度的数据都转换成为图形的形式；通过折线图、饼图、柱状图、文字云呈现的图谱规律；提高了数据本身蕴涵的价值，从而帮助用户快速识别数据所呈现的图谱规律。

本发明中，通过提出的技术方案中建设了Web信息采集系统，仅需简单设置配置文件，就能实现自动化数据采集，长久数据更新，节约数据获取成本；在数据组织方面，智库数据具有多样性，有机构、专家、动态、成果等多种数据，需要把这些数据全部组织在一起，经过设计的关系型数据库表结构，组织方式灵活，能带来更高效的数据组织及运行效率；在数据处理方面，利用大数据处理技术，实现了结构化、半结构化与非结构化数据的处理，解决原始数据存在大量不完整、不一致、有异常的问题；在数据挖掘方面，利用大数据技术，从看似毫无规律的大量数据中找出某些相关性，从中提取有价值、有意义的信息并揭示出来；在可视化展示方面，把数据隐含的信息或规律直观的展示出来，实现了折线图、饼图、柱状图、文字云等多种知识图谱，提高了数据本身蕴涵的价值，从而帮助用户快速识别数据所呈现的图谱规律；利用大数据技术，在数据获取、处理、挖掘、可视化等一系列全过程都进行了运用，实现了技术的实质性提升，在先进性、新颖性、智能性、直观性等方面有着独特优势，在同行业的技术开发中具有领先地位。

以上对本发明实施例进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于大数据技术的全球智库数据开发与组织方法，其特征在于，所述方法包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，

所述智库机构的字段信息包括智库名称、智库排名、智库简介、所属成果、所属专家、联系方式；

3.根据权利要求1所述的方法，其特征在于，进而创建数据体之间的关系，包括：研究专家关联到智库机构，智库动态关联到智库机构，研究成果关联到对应专家，形成完整的关系网络。

4.根据权利要求1所述的方法，其特征在于，所述数据清洗的步骤包括：数据分析、定义清洗规则、执行清洗规则以及清洗结果验证；

5.根据权利要求1所述的方法，其特征在于，所述数据集成包括：

6.根据权利要求1所述的方法，其特征在于，所述数据变换通过对数据依次进行光滑处理、聚集处理、数据泛化、数据规范化、数据属性构造，使数据统一化，并将数据转换成html或PDF的格式进行存储；

所述光滑处理通过分箱或回归的方法去掉数据中的噪声；

所述数据泛化通过高层的概念来替换低层或原始数据；

7.根据权利要求1所述的方法，其特征在于，所述数据归约通过属性归约和数量归约在尽可能的前提下最大限度地减少数据量；

所述数量归约通过用能替代的较小的数据来减少原始数据。

8.根据权利要求1所述的方法，其特征在于，所述关联挖掘通过采用Apriori算法寻找数据项之间的关联关系；

第三步，令k＝k+1，转入第二步。

9.根据权利要求1所述的方法，其特征在于，所述聚类挖掘通过k-means算法将研究成果按照国际关系、教育、地区安全、经济、卫生、外交主题进行聚类，将专家进行相应聚类，发现各个领域的领军专家；

10.根据权利要求1所述的方法，其特征在于，通过可视化技术对数据进行展示，把数据隐藏的信息规律直观的展示出来，能够迅速和有效地简化与提炼数据流，使我们能够交互筛选大量的数据，完成数据分析，包括：

通过折线图、饼图、柱状图、文字云呈现的图谱规律。