CN113704589A

CN113704589A - 一种用于收集工业链数据的互联网系统

Info

Publication number: CN113704589A
Application number: CN202111031655.1A
Authority: CN
Inventors: 张瑞磊
Original assignee: Haisu Zhilian Qingdao Technology Co ltd
Current assignee: Haisu Zhilian Qingdao Technology Co ltd
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2021-11-26
Anticipated expiration: 2041-09-03
Also published as: CN113704589B

Abstract

本发明公开了一种用于收集工业链数据的互联网系统，该互联网系统旨在解决现有技术下不能从网页上收集需要的数据，且不能对数据收集到的数据进行归纳，无法形成工业链大数据库，不能为工业互联网和工业智能化提供有价值的数据支持的技术问题。该互联网系统包括数据收集系统和数据归纳分析系统，所述数据收集系统用于收集产品的工业链数据，所述新建任务模块根据用户的指令创建新的任务进程，从而去收集商品、服务及关联知识的详细信息。该互联网系统利用数据收集系统从网页上选择性的收集商品、服务及关联知识的详细信息，将收集到的详细信息归纳分析，从而形成工业链大数据库，为工业互联网、工业智能化提供有价值的数据支持。

Description

一种用于收集工业链数据的互联网系统

技术领域

本发明属于计算机网络技术领域、数据处理技术领域，具体涉及一种用于收集工业链数据的互联网系统。

背景技术

互联网已经深入到我们生活的方方面面，由于互联网的渗透，大数据这个概念已经并不陌生，大数据的价值越来越明显，随着互联网技术的发展，出现了很多世界级的互联网公司，它们在各自的领域创造了辉煌的价值，同时也收集了有价值的数据，纵观国内外互联网发展领域，发现它主要是在我们的衣食住行、吃喝玩乐方面的发展，而在工业链方面的发展还比较缓慢，工业互联网发展开始兴起，但是工业互联网发展还很局限，没有一套统一的系统可以尽可能多的链接各种工业设备，主要是缺乏产业链数据。

目前，专利号为CN201010102378.4的发明专利公开了一种主动收集数据的方法，包括：在服务器的数据库中定义待收集数据的指标结构；所述指标结构包括：指标名称、以及相应的指标ID和获取方式；按照用户对监控终端定制的监控指标的名称，在服务器的数据库中查找相应的指标ID和获取方式；服务器依据所述获取方式访问监控终端，收集与所述指标ID对应的数据信息。优选的，所述获取方式包括：SNMNP方式、WMI方式、Web services方式或访问oracle数据库方式。优选的，所述服务器向多个监控终端收集数据；则服务器中记录各个监控终端的终端ID，根据所述终端ID访问指定的监控终端。具体的，当获取方式为WMI方式时，服务器通过调用dll动态库文件收集相应的数据信息。具体的，当获取方式为Web services方式时，服务器依据监控终端对外发布的接口形式，调用相应的接口，收集相应的数据信息。具体的，当获取方式为访问oracle数据库方式时，服务器通过在监控终端的mib库中获取相应的性能表和视图的名称，访问性能表和视图，收集相应的数据信息。此外，本发明还公开了一种主动收集数据的服务器，包括：指标定义单元，用于在服务器的数据库中定义待收集数据的指标结构；所述指标结构包括：指标名称、以及相应的指标ID和获取方式；指标查找单元，用于按照用户对监控终端定制的监控指标，在服务器的数据库中查找相应的指标ID和获取方式；数据收集单元，用于依据所述获取方式访问监控终端，收集与所述指标ID对应的数据信息。其通过终端ID，能向多个监控终端收集数据，但该服务器不能从网页上收集需要的数据，且不能对数据收集到的数据进行归纳，无法形成工业链大数据库，不能为工业互联网和工业智能化提供有价值的数据支持。

因此，针对上述数据无法分析归纳形成工业链大数据库的问题，亟需得到解决，以改善互联网系统的使用场景。

发明内容

(1)要解决的技术问题

针对现有技术的不足，本发明的目的在于提供一种用于收集工业链数据的互联网系统，该互联网系统旨在解决现有技术下不能从网页上收集需要的数据，且不能对数据收集到的数据进行归纳，无法形成工业链大数据库，不能为工业互联网和工业智能化提供有价值的数据支持的技术问题。

(2)技术方案

为了解决上述技术问题，本发明提供了这样一种用于收集工业链数据的互联网系统，该互联网系统包括数据收集系统和数据归纳分析系统，

所述数据收集系统用于收集产品的工业链数据，所述数据收集系统包括控制器、解析器和资源库，所述控制器包括新建任务模块和任务分配模块，所述新建任务模块根据用户的指令创建新的任务进程，从而去收集商品、服务及关联知识的详细信息，其中商品包括工业设备、科学仪器、工业原材料等，服务包括简单的技术支持和全套的解决方案提供等，关联知识包括和产品/服务相关的案例解析、应用方案、国家行业标准等，所述任务分配模块负责给多线程中的各个线程分配工作任务，所述解析器包括相似性判断模块、网页下载模块和网页处理模块，所述相似性判断模块计算网页主题与用户查找主题的相关性，并计算网页适应度值，将种子URL集中网页匹配度复合要求的网页链接存储到URL集中，并根据URL结果生成待爬取任务，所述网页下载模块根据任务将匹配的网页下载至本地，所述网页处理模块负责对下载后的网页中Js脚本标签、css代码内容、空格字符、HTML标签内容处理掉，所述资源库包括构建索引模块和缓存模块，所述构建索引模块允许用户在表中创建索引，用于数据的快速查询，所述缓存模块将数据存储起来；

所述数据归纳分析系统用于把收集到的商品、服务及关联知识的详细信息归纳，然后分析从而形成工业链大数据库，所述数据归纳分析系统包括数据信息输入模块、数据信息归纳分析模块和数据信息存储模块，所述数据信息输入模块用于接收数据收集系统收集到的各种详细信息数据，所述数据信息归纳分析模块对数据进行分析，并将收集到的数据分类，所述数据信息存储模块用于存储数据信息归纳分析模块处理后的数据。

优选地，所述数据收集系统中商品详细信息包括商品的名称规格、应用行业、行业下产品类别、在行业中的作用、适用该行业下的关键指标、上下游商品、配置方案、在产品工业链中的角色以及相关的案例、应用方案、国家行业标准等。

优选地，所述数据收集系统中服务详细内容包括服务标题、服务行业领域、服务详情以及相关的案例、配套方案、国家行业标准等。

优选地，所述构建索引模块内设置有构建索引算法：首先指定数据的reduce个数，map进程对输入文件检测输入格式、对key进行计算，然后输出，指定分区函数，对记录进行分区，即根据各自项目的需求，使这些记录分发到每个reduce进程去，每个reduce进程创建一个搜索引擎的writer，不断执行writer.addDocument操作添加文档，这个过程中会触发commit操作，对应生成很多个索引片段，调用搜索引擎的强制合并把索引合成一整块，得到索引数据。

优选地，所述缓存模块内设置有LRU-K算法：

(a)数据第一次被访问，加入到访问历史队列；

(b)如果数据在访问历史队列里后没有达到K次访问，则按照规则(FIFO，LRU)淘汰；

(c)当访问历史队列中的数据访问次数达到K次后，将数据索引从历史队列删除，将数据移到缓存队列中，并缓存此数据，缓存队列重新按照时间排序；

(d)缓存数据队列中被再次访问后，重新排序；

(e)需要淘汰数据时，淘汰缓存队列中排在末尾的数据，即：淘汰“倒数第K次访问离现在最久”的数据。

优选地，所述相似性判断模块内设置有判断规则：计算网页主题与用户查找主题相关性，计算出网页适应度值S，将网页适应度值S与预设的网页适应度阈值Y进行比较，当S≥Y时，则该网页的网页适应度值S符合要求，将该网页链接存储到URL集中，并根据URL结果生成待爬取任务，当S≤Y时，则该网页的网页适应度值S不符合要求，该网页链接集中不需要存储到URL集中。

优选地，所述网页下载模块包括选择单元、交叉单元和变异单元，所述选择单元根据判断规则从种子URL集中选出符合要求的网页连接，所述交叉单元用于选择未被存储到RUL集中的网页链接，从而扩大搜索的范围，所述变异单元根据交叉单元获得的网页链接重新进行检索。

优选地，所述数据信息归纳分析模块内预设有分类规则：规则用析取范式R＝(r1ⅴr2ⅴ…ⅴrk)表示，R为规则集，ri是分类规则，每一个分类规则ri:(条件i)→yi，规则左边成为规则前件或前提，它是属性测试的合取：条件i＝(A1 op v1)∧(A2 op v2)∧…∧(A3 op v3)，其中(Aj，vj)是属性值对，op是比较运算符，取自集合{＝，≠，﹤，﹥，≦，≧}，每一个属性测试(Aj op vj)称为一个合取项，规则右边称为规则后件，包含预测类yi，如果规则r的前件和记录x的属性匹配，则称r覆盖x，当r覆盖给定的记录时，称r被激发或触发，分类规则的质量能用覆盖率(coverage)和准确率(accuracy)来度量，给定数据集D和分类规则r：A→y，规则的覆盖率定义为D中触发规则r的记录所占的比例，准确率或置信因子定义为触发r的记录中类标号等于y的记录所占的比例，Coverage(r)＝|A|/|D|，Accuracy(r)＝|A∩y|/|A|，其中|A|是满足规则前件的记录数，|A∩y|是同时满足规则前件和后件的记录数，D是记录总数。

(3)有益效果

与现有技术相比，本发明的有益效果在于：本发明的互联网系统利用数据收集系统从网页上选择性的收集商品、服务及关联知识的详细信息，利用相似性判断模块对网页链接进行筛选，将种子URL集中网页匹配度复合要求的网页链接存储到URL集中，并根据URL结果生成待爬取任务，并将网页下载，通过构建索引模块构件数据索引，使查询数据的效率更快，利用数据信息归纳分析模块内的分类规则，将收集到的详细信息归纳分析，从而形成工业链大数据库，为工业互联网、工业智能化提供有价值的数据支持。

附图说明

为了更清楚的说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术中描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一种实施方式，对于本领域普通技术人员来说，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明互联网系统一种具体实施方式的整体框架结构示意图；

图2为本发明互联网系统一种具体实施方式的工作流程图。

具体实施方式

为使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面对本发明具体实施方式中的技术方案进行清楚、完整的描述，以进一步阐述本发明，显然，所描述的具体实施方式仅仅是本发明的一部分实施方式，而不是全部的样式。

实施例1

本具体实施方式是用于收集工业链数据的互联网系统，其整体框架结构示意图如图1所示，该互联网系统包括数据收集系统和数据归纳分析系统，

数据收集系统用于收集产品的工业链数据，数据收集系统包括控制器、解析器和资源库，控制器包括新建任务模块和任务分配模块，新建任务模块根据用户的指令创建新的任务进程，从而去收集商品、服务及关联知识的详细信息，其中商品包括工业设备、科学仪器、工业原材料等，服务包括简单的技术支持和全套的解决方案提供等，关联知识包括和产品/服务相关的案例解析、应用方案、国家行业标准等，任务分配模块负责给多线程中的各个线程分配工作任务，解析器包括相似性判断模块、网页下载模块和网页处理模块，相似性判断模块计算网页主题与用户查找主题的相关性，并计算网页适应度值，将种子URL集中网页匹配度复合要求的网页链接存储到URL集中，并根据URL结果生成待爬取任务，网页下载模块根据任务将匹配的网页下载至本地，网页处理模块负责对下载后的网页中Js脚本标签、css代码内容、空格字符、HTML标签内容处理掉，资源库包括构建索引模块和缓存模块，构建索引模块允许用户在表中创建索引，用于数据的快速查询，缓存模块将数据存储起来；

数据归纳分析系统用于把收集到的商品、服务及关联知识的详细信息归纳，然后分析从而形成工业链大数据库，数据归纳分析系统包括数据信息输入模块、数据信息归纳分析模块和数据信息存储模块，数据信息输入模块用于接收数据收集系统收集到的各种详细信息数据，数据信息归纳分析模块对数据进行分析，并将收集到的数据分类，数据信息存储模块用于存储数据信息归纳分析模块处理后的数据。

其中，数据收集系统中商品详细信息包括商品的名称规格、应用行业、行业下产品类别、在行业中的作用、适用该行业下的关键指标、上下游商品、配置方案、在产品工业链中的角色以及相关的案例、应用方案、国家行业标准等，数据收集系统中服务详细内容包括服务标题、服务行业领域、服务详情以及相关的案例、配套方案、国家行业标准等。

同时，构建索引模块内设置有构建索引算法：首先指定数据的reduce个数，map进程对输入文件检测输入格式、对key进行计算，然后输出，指定分区函数，对记录进行分区，即根据各自项目的需求，使这些记录分发到每个reduce进程去，每个reduce进程创建一个搜索引擎的writer，不断执行writer.addDocument操作添加文档，这个过程中会触发commit操作，对应生成很多个索引片段，调用搜索引擎的强制合并把索引合成一整块，得到索引数据，缓存模块内设置有LRU-K算法：

(a)数据第一次被访问，加入到访问历史队列；

(d)缓存数据队列中被再次访问后，重新排序；

另外，相似性判断模块内设置有判断规则：计算网页主题与用户查找主题相关性，计算出网页适应度值S，将网页适应度值S与预设的网页适应度阈值Y进行比较，当S≥Y时，则该网页的网页适应度值S符合要求，将该网页链接存储到URL集中，并根据URL结果生成待爬取任务，当S≤Y时，则该网页的网页适应度值S不符合要求，该网页链接集中不需要存储到URL集中，网页下载模块包括选择单元、交叉单元和变异单元，选择单元根据判断规则从种子URL集中选出符合要求的网页连接，交叉单元用于选择未被存储到RUL集中的网页链接，从而扩大搜索的范围，变异单元根据交叉单元获得的网页链接重新进行检索。

此外，数据信息归纳分析模块内预设有分类规则：规则用析取范式R＝(r1ⅴr2ⅴ…ⅴrk)表示，R为规则集，ri是分类规则，每一个分类规则ri:(条件i)→yi，规则左边成为规则前件或前提，它是属性测试的合取：条件i＝(A1 op v1)∧(A2 op v2)∧…∧(A3 opv3)，其中(Aj，vj)是属性值对，op是比较运算符，取自集合{＝，≠，﹤，﹥，≦，≧}，每一个属性测试(Aj op vj)称为一个合取项，规则右边称为规则后件，包含预测类yi，如果规则r的前件和记录x的属性匹配，则称r覆盖x，当r覆盖给定的记录时，称r被激发或触发，分类规则的质量能用覆盖率(coverage)和准确率(accuracy)来度量，给定数据集D和分类规则r：A→y，规则的覆盖率定义为D中触发规则r的记录所占的比例，准确率或置信因子定义为触发r的记录中类标号等于y的记录所占的比例，Coverage(r)＝|A|/|D|，Accuracy(r)＝|A∩y|/|A|，其中|A|是满足规则前件的记录数，|A∩y|是同时满足规则前件和后件的记录数，D是记录总数。

该互联网系统的工作流程图如图2所示。

表1

以上描述了本发明的主要技术特征和基本原理及相关优点，对于本领域技术人员而言，显然本发明不限于上述示范性具体实施方式的细节，而且在不背离本发明的构思或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将上述具体实施方式看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照各实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种用于收集工业链数据的互联网系统，该互联网系统包括数据收集系统和数据归纳分析系统，其特征在于：

所述数据收集系统用于收集产品的工业链数据，所述数据收集系统包括控制器、解析器和资源库，所述控制器包括新建任务模块和任务分配模块，所述新建任务模块根据用户的指令创建新的任务进程，从而去收集商品、服务及关联知识的详细信息，其中商品包括工业设备、科学仪器、工业原材料，服务包括简单的技术支持和全套的解决方案提供等，关联知识包括和产品/服务相关的案例解析、应用方案、国家行业标准等，所述任务分配模块负责给多线程中的各个线程分配工作任务，所述解析器包括相似性判断模块、网页下载模块和网页处理模块，所述相似性判断模块计算网页主题与用户查找主题的相关性，并计算网页适应度值，将种子URL集中网页匹配度复合要求的网页链接存储到URL集中，并根据URL结果生成待爬取任务，所述网页下载模块根据任务将匹配的网页下载至本地，所述网页处理模块负责对下载后的网页中Js脚本标签、css代码内容、空格字符、HTML标签内容处理掉，所述资源库包括构建索引模块和缓存模块，所述构建索引模块允许用户在表中创建索引，用于数据的快速查询，所述缓存模块将数据存储起来；

2.根据权利要求1所述的一种用于收集工业链数据的互联网系统，其特征在于，所述数据收集系统中商品详细信息包括商品的名称规格、应用行业、行业下产品类别、在行业中的作用、适用该行业下的关键指标、上下游商品、配置方案、在产品工业链中的角色以及相关的案例、应用方案、国家行业标准等。

3.根据权利要求1所述的一种用于收集工业链数据的互联网系统，其特征在于，所述数据收集系统中服务详细内容包括服务标题、服务行业领域、服务详情以及相关的案例、配套方案、国家行业标准等。

4.根据权利要求1所述的一种用于收集工业链数据的互联网系统，其特征在于，所述构建索引模块内设置有构建索引算法：首先指定数据的reduce个数，map进程对输入文件检测输入格式、对key进行计算，然后输出，指定分区函数，对记录进行分区，即根据各自项目的需求，使这些记录分发到每个reduce进程去，每个reduce进程创建一个搜索引擎的writer，不断执行writer.addDocument操作添加文档，这个过程中会触发commit操作，对应生成很多个索引片段，调用搜索引擎的强制合并把索引合成一整块，得到索引数据。

5.根据权利要求1所述的一种用于收集工业链数据的互联网系统，其特征在于，所述缓存模块内设置有LRU-K算法：

(a)数据第一次被访问，加入到访问历史队列；

(d)缓存数据队列中被再次访问后，重新排序；

6.根据权利要求1所述的一种用于收集工业链数据的互联网系统，其特征在于，所述相似性判断模块内设置有判断规则：计算网页主题与用户查找主题相关性，计算出网页适应度值S，将网页适应度值S与预设的网页适应度阈值Y进行比较，当S≥Y时，则该网页的网页适应度值S符合要求，将该网页链接存储到URL集中，并根据URL结果生成待爬取任务，当S≤Y时，则该网页的网页适应度值S不符合要求，该网页链接集中不需要存储到URL集中。

7.根据权利要求6所述的一种用于收集工业链数据的互联网系统，其特征在于，所述网页下载模块包括选择单元、交叉单元和变异单元，所述选择单元根据判断规则从种子URL集中选出符合要求的网页连接，所述交叉单元用于选择未被存储到RUL集中的网页链接，从而扩大搜索的范围，所述变异单元根据交叉单元获得的网页链接重新进行检索。

8.根据权利要求1所述的一种用于收集工业链数据的互联网系统，其特征在于，所述数据信息归纳分析模块内预设有分类规则：规则用析取范式R＝(r1ⅴr2ⅴ…ⅴrk)表示，R为规则集，ri是分类规则，每一个分类规则ri:(条件i)→yi，规则左边成为规则前件或前提，它是属性测试的合取：条件i＝(A1 op v1)∧(A2 op v2)∧…∧(A3 op v3)，其中(Aj，vj)是属性值对，op是比较运算符，取自集合{＝，≠，﹤，﹥，≦，≧}，每一个属性测试(Aj op vj)称为一个合取项，规则右边称为规则后件，包含预测类yi，如果规则r的前件和记录x的属性匹配，则称r覆盖x，当r覆盖给定的记录时，称r被激发或触发，分类规则的质量能用覆盖率(coverage)和准确率(accuracy)来度量，给定数据集D和分类规则r：A→y，规则的覆盖率定义为D中触发规则r的记录所占的比例，准确率或置信因子定义为触发r的记录中类标号等于y的记录所占的比例，Coverage(r)＝|A|/|D|，Accuracy(r)＝|A∩y|/|A|，其中|A|是满足规则前件的记录数，|A∩y|是同时满足规则前件和后件的记录数，D是记录总数。