CN115982503A

CN115982503A - 一种基于云平台的网站信息采集方法及系统

Info

Publication number: CN115982503A
Application number: CN202310076203.8A
Authority: CN
Inventors: 梁礼津; 柴玉军; 曹伟
Original assignee: Individual
Current assignee: Shenzhen Huiwu Technology Co ltd
Priority date: 2023-02-07
Filing date: 2023-02-07
Publication date: 2023-04-18
Anticipated expiration: 2043-02-07
Also published as: CN115982503B

Abstract

本发明公开了一种基于云平台的网站信息采集方法，搭建信息采集系统，所述信息系统包括信息采集服务器，以及多台信息处理服务器，所述信息采集服务器在接收到信息采集的指令后，对所述指令进行解析，得到待采集数据的对应的标签和此次采集的数据的定制化级别；在得到到按照解析的指令得到的标签对应的经过初级存储的信息数据后，所述数据处理策略进一步包括数据拆分策略，即数据拆分后对应发送的多台信息处理服务器；所述多台信息处理服务器执行其自身对应的数据处理功能，并将处理后的数据进行保存于各自的数据库中，用户能够选择是否屏蔽数据存储的一个或者多个信息处理服务器的数据处理功能，然后进行显示采集到的信息。

Description

一种基于云平台的网站信息采集方法及系统

技术领域

本发明涉及计算机大数据处理技术领域，尤其涉及一种基于云平台的网站信息采集方法及系统。

背景技术

定向采集系统是网络蜘蛛的一种，它是网络数据获取系统的核心部分。它通过对互联网上已知信息源（即网络链接，URL: Universal Resource Locator)的不断抓取海量网页内容，获取其中所有主题相关内容。定向采集系统的优劣集中体现在其抓取网页内容的速度、质量以及抓取内容和采集主题的匹配程度。目前，绝大多数的网络蜘蛛都是单机版的，对于信息源和采集主题的管理相对比较简单，通常是由管理员在服务器端进行简单配置，配置好后所有用户均在此配置的制约下使用网络蜘蛛。这样，当用户需要有针对自己的需求进行个性化配置时，就得不到满足了。尤其当这些个性化的需求日益增长时，目前的网络蜘蛛就显得捉襟见肘了。

同时，数据采集的信息处理由于数据量的问题导致后期处理较为困难，并且聚类的效果也不明显，同时用户采集的数据保存和信息安全都是需要额外注意的地方。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明公开了一种基于云平台的网站信息采集方法，所述网站信息采集方法包括如下步骤：

步骤1，搭建信息采集系统，所述信息系统包括信息采集服务器，以及多台信息处理服务器，所述信息采集服务器在接收到信息采集的指令后，对所述指令进行解析，得到待采集数据的对应的标签和此次采集的数据的定制化级别；

步骤2，所述信息采集服务器获取所述数据的定制化级别，并查询所述定制化级别对应的数据处理策略，所述数据处理策略首先对采集的数据按照标签类型进行分别初级存储，所述初级存储为对采集的数据进行数据清洗后存储于所述信息采集服务器，按照所述标签分类检查标签对应的数据的一致性并处理采集数据的无效值和缺失值，其中，每个标签下的数据进行数据清洗的方向不同，文字类型的数据需要检测文字可读性和完整性而数字类的数据需要进行转换将数字数据转换为文字类型以减少数字类型数据缺失；

步骤3，在得到到按照解析的指令得到的标签对应的经过初级存储的信息数据后，所述数据处理策略进一步包括数据拆分策略，根据数据拆分策略对需要进行拆分的标签下的数据进行数据拆分，所述数据拆分策略包括数据拆分后的数据去处，即数据拆分后对应发送的多台信息处理服务器；

步骤4，所述多台信息处理服务器执行其自身对应的数据处理功能，并将处理后的数据进行保存于各自的数据库中，所述数据库构建数据索引表并发送回所述信息采集服务器，所述信息采集服务器再发送预设格式的采集数据对应的数据索引集合；

步骤5，用户的客户端在接收到预设格式数据索引集合后，能够选择是否屏蔽数据存储的一个或者多个信息处理服务器的数据处理功能，然后进行显示采集到的信息，即用户直接按照数据索引集合显示处理后的数据内容或者屏蔽部分的信息处理服务器的数据处理按照数据索引集合显示在部分处理后的数据和部分未处理的数据。

更进一步地，所述数据拆分策略，首先根据最小拆分单元对标签对应的初级存储的数据进行编号，每个编号对应于一个最小拆分单元，根据标签对应的预设关键词进行关键词的定位，在定位到关键词所在的数据信息的位置之后，再以所述数据拆分策略规定的最小拆分单元拆分出关键词对应的编号区域。

更进一步地，所述最小拆分单元为词、句或者段落中的一种或多种的组合。

更进一步地，所述数据拆分策略在进行拆分时，所述信息采集服务器保留数据拆分的编号，所述保留数据拆分的编号为根据最小拆分单元对标签对应的初级存储的数据进行编号或者将多个最小拆分单元的编号根据数据关联性集合为一个大的编号。

更进一步地，所述多台信息处理服务器执行其自身对应的数据处理功能，并将处理后的数据进行保存于各自的数据库中进一步包括：任意一个信息处理服务器都具有标签对应的预设的关键词的部分，所述信息处理服务器仅执行拆分后该服务器对应的关键词部分的数据处理，例如脱敏或者加密，然后按照数据前的数据、处理后的数据和该数据对用的拆分编号进行对应存储，其中，每个信息处理服务器执行的数据处理的输出是有区别的，用户可以根据数据处理后的输出识别出该数据处理对应的信息处理服务器。

本发明还公开了一种基于云平台的网站信息采集系统，搭建信息采集系统，所述信息系统包括信息采集服务器，以及多台信息处理服务器，所述信息采集服务器在接收到信息采集的指令后，对所述指令进行解析，得到待采集数据的对应的标签和此次采集的数据的定制化级别；所述信息采集服务器获取所述数据的定制化级别，并查询所述定制化级别对应的数据处理策略，所述数据处理策略首先对采集的数据按照标签类型进行分别初级存储，所述初级存储为对采集的数据进行数据清洗后存储于所述信息采集服务器，按照所述标签分类检查标签对应的数据的一致性并处理采集数据的无效值和缺失值，其中，每个标签下的数据进行数据清洗的方向不同，文字类型的数据需要检测文字可读性和完整性而数字类的数据需要进行转换将数字数据转换为文字类型以减少数字类型数据缺失；在得到到按照解析的指令得到的标签对应的经过初级存储的信息数据后，所述数据处理策略进一步包括数据拆分策略，根据数据拆分策略对需要进行拆分的标签下的数据进行数据拆分，所述数据拆分策略包括数据拆分后的数据去处，即数据拆分后对应发送的多台信息处理服务器；所述多台信息处理服务器执行其自身对应的数据处理功能，并将处理后的数据进行保存于各自的数据库中，所述数据库构建数据索引表并发送回所述信息采集服务器，所述信息采集服务器再发送预设格式的采集数据对应的数据索引集合；用户的客户端在接收到预设格式数据索引集合后，能够选择是否屏蔽数据存储的一个或者多个信息处理服务器的数据处理功能，然后进行显示采集到的信息，即用户直接按照数据索引集合显示处理后的数据内容或者屏蔽部分的信息处理服务器的数据处理按照数据索引集合显示在部分处理后的数据和部分未处理的数据。

针对现有技术，本发明的有益效果非常显著，本发明的有益效果为：通过设置多个数据处理服务器可以分布式的处理数据，不同的用户有不同的数据处理需求和数据呈现的需求，本发明定制化的对数据进行处理并允许用户自定义显示采集的数据内容，可以更有效的保护数据隐私的同时让用户知道隐藏的数据内容具体是何种相关数据，更进一步地，本发明针对数字和文字的特点对数字进行了初步的转换采集，以减少数据的丢失同时简化采集系统服务器的工作量，更进一步的解决采集图像上的文字信息较难的问题。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在图中，在不同的视图中，相同的附图标记指定对应的部分。

图1是本发明的基于云平台的网站信息采集方法的工作流程图。

实施方式

实施例

如图1所示，本实施例提供了一种基于云平台的网站信息采集方法，所述网站信息采集方法包括如下步骤：

在本实施例中，以一个数据处理服务器举例，例如该数据处理服务器A是对关键词“负载率”进行加密或者脱敏，并且该服务器A具有特殊的加密或者脱敏方法，比如原始信息“该应用的CPU的负载率为20%-80%”，则首先对文字部分进行提取和转换，提取的第一部分为文字部分即“该应用的CPU的负载率为（数字部分）”，第二部分为数字部分“百分之二十至百分之八十”，然后该服务器A需要进行处理的内容是“该应用的CPU的负载率为百分之二十至百分之八十”，以脱敏为例，本发明的一个特点在于，每个处理服务器的算法都可以表征该服务器的身份，例如需要将“负载率”部分进行脱敏，该服务器A的特点在于脱敏后的数据是以%%%进行表示的，即脱敏后的数据为“该应用的CPU的%%%为百分之二十至百分之八十”，而其他的服务器例如数据处理服务器B则处理不同的关键词，而假使其可以处理服务器A的数据内容，则可能是输出脱敏信息“该应用的CPU的***为百分之二十至百分之八十”。

本实施例从硬件角度出发阐述本发明的发明构思，即公开了一种基于云平台的网站信息采集系统，搭建信息采集系统，所述信息系统包括信息采集服务器，以及多台信息处理服务器，所述信息采集服务器在接收到信息采集的指令后，对所述指令进行解析，得到待采集数据的对应的标签和此次采集的数据的定制化级别；所述信息采集服务器获取所述数据的定制化级别，并查询所述定制化级别对应的数据处理策略，所述数据处理策略首先对采集的数据按照标签类型进行分别初级存储，所述初级存储为对采集的数据进行数据清洗后存储于所述信息采集服务器，按照所述标签分类检查标签对应的数据的一致性并处理采集数据的无效值和缺失值，其中，每个标签下的数据进行数据清洗的方向不同，文字类型的数据需要检测文字可读性和完整性而数字类的数据需要进行转换将数字数据转换为文字类型以减少数字类型数据缺失；在得到到按照解析的指令得到的标签对应的经过初级存储的信息数据后，所述数据处理策略进一步包括数据拆分策略，根据数据拆分策略对需要进行拆分的标签下的数据进行数据拆分，所述数据拆分策略包括数据拆分后的数据去处，即数据拆分后对应发送的多台信息处理服务器；所述多台信息处理服务器执行其自身对应的数据处理功能，并将处理后的数据进行保存于各自的数据库中，所述数据库构建数据索引表并发送回所述信息采集服务器，所述信息采集服务器再发送预设格式的采集数据对应的数据索引集合；用户的客户端在接收到预设格式数据索引集合后，能够选择是否屏蔽数据存储的一个或者多个信息处理服务器的数据处理功能，然后进行显示采集到的信息，即用户直接按照数据索引集合显示处理后的数据内容或者屏蔽部分的信息处理服务器的数据处理按照数据索引集合显示在部分处理后的数据和部分未处理的数据。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。因此，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于云平台的网站信息采集方法，其特征在于，所述网站信息采集方法包括如下步骤：

2.如权利要求1所述的一种基于云平台的网站信息采集方法，其特征在于，所述数据拆分策略，首先根据最小拆分单元对标签对应的初级存储的数据进行编号，每个编号对应于一个最小拆分单元，根据标签对应的预设关键词进行关键词的定位，在定位到关键词所在的数据信息的位置之后，再以所述数据拆分策略规定的最小拆分单元拆分出关键词对应的编号区域。

3.如权利要求2所述的一种基于云平台的网站信息采集方法，其特征在于，所述最小拆分单元为词、句或者段落中的一种或多种的组合。

4.如权利要求3所述的一种基于云平台的网站信息采集方法，其特征在于，所述数据拆分策略在进行拆分时，所述信息采集服务器保留数据拆分的编号，所述保留数据拆分的编号为根据最小拆分单元对标签对应的初级存储的数据进行编号或者将多个最小拆分单元的编号根据数据关联性集合为一个大的编号。

5.如权利要求4所述的一种基于云平台的网站信息采集方法，其特征在于，所述多台信息处理服务器执行其自身对应的数据处理功能，并将处理后的数据进行保存于各自的数据库中进一步包括：任意一个信息处理服务器都具有标签对应的预设的关键词的部分，所述信息处理服务器仅执行拆分后该服务器对应的关键词部分的数据处理，例如脱敏或者加密，然后按照数据前的数据、处理后的数据和该数据对用的拆分编号进行对应存储，其中，每个信息处理服务器执行的数据处理的输出是有区别的，用户可以根据数据处理后的输出识别出该数据处理对应的信息处理服务器。

6.一种基于云平台的网站信息采集系统，其特征在于，搭建信息采集系统，所述信息系统包括信息采集服务器，以及多台信息处理服务器，所述信息采集服务器在接收到信息采集的指令后，对所述指令进行解析，得到待采集数据的对应的标签和此次采集的数据的定制化级别；所述信息采集服务器获取所述数据的定制化级别，并查询所述定制化级别对应的数据处理策略，所述数据处理策略首先对采集的数据按照标签类型进行分别初级存储，所述初级存储为对采集的数据进行数据清洗后存储于所述信息采集服务器，按照所述标签分类检查标签对应的数据的一致性并处理采集数据的无效值和缺失值，其中，每个标签下的数据进行数据清洗的方向不同，文字类型的数据需要检测文字可读性和完整性而数字类的数据需要进行转换将数字数据转换为文字类型以减少数字类型数据缺失；在得到到按照解析的指令得到的标签对应的经过初级存储的信息数据后，所述数据处理策略进一步包括数据拆分策略，根据数据拆分策略对需要进行拆分的标签下的数据进行数据拆分，所述数据拆分策略包括数据拆分后的数据去处，即数据拆分后对应发送的多台信息处理服务器；所述多台信息处理服务器执行其自身对应的数据处理功能，并将处理后的数据进行保存于各自的数据库中，所述数据库构建数据索引表并发送回所述信息采集服务器，所述信息采集服务器再发送预设格式的采集数据对应的数据索引集合；用户的客户端在接收到预设格式数据索引集合后，能够选择是否屏蔽数据存储的一个或者多个信息处理服务器的数据处理功能，然后进行显示采集到的信息，即用户直接按照数据索引集合显示处理后的数据内容或者屏蔽部分的信息处理服务器的数据处理按照数据索引集合显示在部分处理后的数据和部分未处理的数据。

7.如权利要求6所述的一种基于云平台的网站信息采集系统，其特征在于，所述数据拆分策略，首先根据最小拆分单元对标签对应的初级存储的数据进行编号，每个编号对应于一个最小拆分单元，根据标签对应的预设关键词进行关键词的定位，在定位到关键词所在的数据信息的位置之后，再以所述数据拆分策略规定的最小拆分单元拆分出关键词对应的编号区域。

8.如权利要求7所述的一种基于云平台的网站信息采集系统，其特征在于，所述最小拆分单元为词、句或者段落中的一种或多种的组合。

9.如权利要求8所述的一种基于云平台的网站信息采集系统，其特征在于，所述数据拆分策略在进行拆分时，所述信息采集服务器保留数据拆分的编号，所述保留数据拆分的编号为根据最小拆分单元对标签对应的初级存储的数据进行编号或者将多个最小拆分单元的编号根据数据关联性集合为一个大的编号。

10.如权利要求9所述的一种基于云平台的网站信息采集系统，其特征在于，所述多台信息处理服务器执行其自身对应的数据处理功能，并将处理后的数据进行保存于各自的数据库中进一步包括：任意一个信息处理服务器都具有标签对应的预设的关键词的部分，所述信息处理服务器仅执行拆分后该服务器对应的关键词部分的数据处理，例如脱敏或者加密，然后按照数据前的数据、处理后的数据和该数据对用的拆分编号进行对应存储，其中，每个信息处理服务器执行的数据处理的输出是有区别的，用户可以根据数据处理后的输出识别出该数据处理对应的信息处理服务器。