CN115982503A - 一种基于云平台的网站信息采集方法及系统 - Google Patents

一种基于云平台的网站信息采集方法及系统 Download PDF

Info

Publication number
CN115982503A
CN115982503A CN202310076203.8A CN202310076203A CN115982503A CN 115982503 A CN115982503 A CN 115982503A CN 202310076203 A CN202310076203 A CN 202310076203A CN 115982503 A CN115982503 A CN 115982503A
Authority
CN
China
Prior art keywords
data
splitting
information
information acquisition
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310076203.8A
Other languages
English (en)
Other versions
CN115982503B (zh
Inventor
梁礼津
柴玉军
曹伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Huiwu Technology Co ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202310076203.8A priority Critical patent/CN115982503B/zh
Publication of CN115982503A publication Critical patent/CN115982503A/zh
Application granted granted Critical
Publication of CN115982503B publication Critical patent/CN115982503B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Storage Device Security (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种基于云平台的网站信息采集方法,搭建信息采集系统,所述信息系统包括信息采集服务器,以及多台信息处理服务器,所述信息采集服务器在接收到信息采集的指令后,对所述指令进行解析,得到待采集数据的对应的标签和此次采集的数据的定制化级别;在得到到按照解析的指令得到的标签对应的经过初级存储的信息数据后,所述数据处理策略进一步包括数据拆分策略,即数据拆分后对应发送的多台信息处理服务器;所述多台信息处理服务器执行其自身对应的数据处理功能,并将处理后的数据进行保存于各自的数据库中,用户能够选择是否屏蔽数据存储的一个或者多个信息处理服务器的数据处理功能,然后进行显示采集到的信息。

Description

一种基于云平台的网站信息采集方法及系统
技术领域
本发明涉及计算机大数据处理技术领域,尤其涉及一种基于云平台的网站信息采集方法及系统。
背景技术
定向采集系统是网络蜘蛛的一种,它是网络数据获取系统的核心部分。它通过对互联网上已知信息源(即网络链接,URL: Universal Resource Locator)的不断抓取海量网页内容,获取其中所有主题相关内容。定向采集系统的优劣集中体现在其抓取网页内容的速度、质量以及抓取内容和采集主题的匹配程度。目前,绝大多数的网络蜘蛛都是单机版的,对于信息源和采集主题的管理相对比较简单,通常是由管理员在服务器端进行简单配置,配置好后所有用户均在此配置的制约下使用网络蜘蛛。这样,当用户需要有针对自己的需求进行个性化配置时,就得不到满足了。尤其当这些个性化的需求日益增长时,目前的网络蜘蛛就显得捉襟见肘了。
同时,数据采集的信息处理由于数据量的问题导致后期处理较为困难,并且聚类的效果也不明显,同时用户采集的数据保存和信息安全都是需要额外注意的地方。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明公开了一种基于云平台的网站信息采集方法,所述网站信息采集方法包括如下步骤:
步骤1,搭建信息采集系统,所述信息系统包括信息采集服务器,以及多台信息处理服务器,所述信息采集服务器在接收到信息采集的指令后,对所述指令进行解析,得到待采集数据的对应的标签和此次采集的数据的定制化级别;
步骤2,所述信息采集服务器获取所述数据的定制化级别,并查询所述定制化级别对应的数据处理策略,所述数据处理策略首先对采集的数据按照标签类型进行分别初级存储,所述初级存储为对采集的数据进行数据清洗后存储于所述信息采集服务器,按照所述标签分类检查标签对应的数据的一致性并处理采集数据的无效值和缺失值,其中,每个标签下的数据进行数据清洗的方向不同,文字类型的数据需要检测文字可读性和完整性而数字类的数据需要进行转换将数字数据转换为文字类型以减少数字类型数据缺失;
步骤3,在得到到按照解析的指令得到的标签对应的经过初级存储的信息数据后,所述数据处理策略进一步包括数据拆分策略,根据数据拆分策略对需要进行拆分的标签下的数据进行数据拆分,所述数据拆分策略包括数据拆分后的数据去处,即数据拆分后对应发送的多台信息处理服务器;
步骤4,所述多台信息处理服务器执行其自身对应的数据处理功能,并将处理后的数据进行保存于各自的数据库中,所述数据库构建数据索引表并发送回所述信息采集服务器,所述信息采集服务器再发送预设格式的采集数据对应的数据索引集合;
步骤5,用户的客户端在接收到预设格式数据索引集合后,能够选择是否屏蔽数据存储的一个或者多个信息处理服务器的数据处理功能,然后进行显示采集到的信息,即用户直接按照数据索引集合显示处理后的数据内容或者屏蔽部分的信息处理服务器的数据处理按照数据索引集合显示在部分处理后的数据和部分未处理的数据。
更进一步地,所述数据拆分策略,首先根据最小拆分单元对标签对应的初级存储的数据进行编号,每个编号对应于一个最小拆分单元,根据标签对应的预设关键词进行关键词的定位,在定位到关键词所在的数据信息的位置之后,再以所述数据拆分策略规定的最小拆分单元拆分出关键词对应的编号区域。
更进一步地,所述最小拆分单元为词、句或者段落中的一种或多种的组合。
更进一步地,所述数据拆分策略在进行拆分时,所述信息采集服务器保留数据拆分的编号,所述保留数据拆分的编号为根据最小拆分单元对标签对应的初级存储的数据进行编号或者将多个最小拆分单元的编号根据数据关联性集合为一个大的编号。
更进一步地,所述多台信息处理服务器执行其自身对应的数据处理功能,并将处理后的数据进行保存于各自的数据库中进一步包括:任意一个信息处理服务器都具有标签对应的预设的关键词的部分,所述信息处理服务器仅执行拆分后该服务器对应的关键词部分的数据处理,例如脱敏或者加密,然后按照数据前的数据、处理后的数据和该数据对用的拆分编号进行对应存储,其中,每个信息处理服务器执行的数据处理的输出是有区别的,用户可以根据数据处理后的输出识别出该数据处理对应的信息处理服务器。
本发明还公开了一种基于云平台的网站信息采集系统,搭建信息采集系统,所述信息系统包括信息采集服务器,以及多台信息处理服务器,所述信息采集服务器在接收到信息采集的指令后,对所述指令进行解析,得到待采集数据的对应的标签和此次采集的数据的定制化级别;所述信息采集服务器获取所述数据的定制化级别,并查询所述定制化级别对应的数据处理策略,所述数据处理策略首先对采集的数据按照标签类型进行分别初级存储,所述初级存储为对采集的数据进行数据清洗后存储于所述信息采集服务器,按照所述标签分类检查标签对应的数据的一致性并处理采集数据的无效值和缺失值,其中,每个标签下的数据进行数据清洗的方向不同,文字类型的数据需要检测文字可读性和完整性而数字类的数据需要进行转换将数字数据转换为文字类型以减少数字类型数据缺失;在得到到按照解析的指令得到的标签对应的经过初级存储的信息数据后,所述数据处理策略进一步包括数据拆分策略,根据数据拆分策略对需要进行拆分的标签下的数据进行数据拆分,所述数据拆分策略包括数据拆分后的数据去处,即数据拆分后对应发送的多台信息处理服务器;所述多台信息处理服务器执行其自身对应的数据处理功能,并将处理后的数据进行保存于各自的数据库中,所述数据库构建数据索引表并发送回所述信息采集服务器,所述信息采集服务器再发送预设格式的采集数据对应的数据索引集合;用户的客户端在接收到预设格式数据索引集合后,能够选择是否屏蔽数据存储的一个或者多个信息处理服务器的数据处理功能,然后进行显示采集到的信息,即用户直接按照数据索引集合显示处理后的数据内容或者屏蔽部分的信息处理服务器的数据处理按照数据索引集合显示在部分处理后的数据和部分未处理的数据。
更进一步地,所述数据拆分策略,首先根据最小拆分单元对标签对应的初级存储的数据进行编号,每个编号对应于一个最小拆分单元,根据标签对应的预设关键词进行关键词的定位,在定位到关键词所在的数据信息的位置之后,再以所述数据拆分策略规定的最小拆分单元拆分出关键词对应的编号区域。
更进一步地,所述最小拆分单元为词、句或者段落中的一种或多种的组合。
更进一步地,所述数据拆分策略在进行拆分时,所述信息采集服务器保留数据拆分的编号,所述保留数据拆分的编号为根据最小拆分单元对标签对应的初级存储的数据进行编号或者将多个最小拆分单元的编号根据数据关联性集合为一个大的编号。
更进一步地,所述多台信息处理服务器执行其自身对应的数据处理功能,并将处理后的数据进行保存于各自的数据库中进一步包括:任意一个信息处理服务器都具有标签对应的预设的关键词的部分,所述信息处理服务器仅执行拆分后该服务器对应的关键词部分的数据处理,例如脱敏或者加密,然后按照数据前的数据、处理后的数据和该数据对用的拆分编号进行对应存储,其中,每个信息处理服务器执行的数据处理的输出是有区别的,用户可以根据数据处理后的输出识别出该数据处理对应的信息处理服务器。
针对现有技术,本发明的有益效果非常显著,本发明的有益效果为:通过设置多个数据处理服务器可以分布式的处理数据,不同的用户有不同的数据处理需求和数据呈现的需求,本发明定制化的对数据进行处理并允许用户自定义显示采集的数据内容,可以更有效的保护数据隐私的同时让用户知道隐藏的数据内容具体是何种相关数据,更进一步地,本发明针对数字和文字的特点对数字进行了初步的转换采集,以减少数据的丢失同时简化采集系统服务器的工作量,更进一步的解决采集图像上的文字信息较难的问题。
附图说明
从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制,而是将重点放在示出实施例的原理上。在图中,在不同的视图中,相同的附图标记指定对应的部分。
图1是本发明的基于云平台的网站信息采集方法的工作流程图。
实施方式
实施例
如图1所示,本实施例提供了一种基于云平台的网站信息采集方法,所述网站信息采集方法包括如下步骤:
步骤1,搭建信息采集系统,所述信息系统包括信息采集服务器,以及多台信息处理服务器,所述信息采集服务器在接收到信息采集的指令后,对所述指令进行解析,得到待采集数据的对应的标签和此次采集的数据的定制化级别;
步骤2,所述信息采集服务器获取所述数据的定制化级别,并查询所述定制化级别对应的数据处理策略,所述数据处理策略首先对采集的数据按照标签类型进行分别初级存储,所述初级存储为对采集的数据进行数据清洗后存储于所述信息采集服务器,按照所述标签分类检查标签对应的数据的一致性并处理采集数据的无效值和缺失值,其中,每个标签下的数据进行数据清洗的方向不同,文字类型的数据需要检测文字可读性和完整性而数字类的数据需要进行转换将数字数据转换为文字类型以减少数字类型数据缺失;
步骤3,在得到到按照解析的指令得到的标签对应的经过初级存储的信息数据后,所述数据处理策略进一步包括数据拆分策略,根据数据拆分策略对需要进行拆分的标签下的数据进行数据拆分,所述数据拆分策略包括数据拆分后的数据去处,即数据拆分后对应发送的多台信息处理服务器;
步骤4,所述多台信息处理服务器执行其自身对应的数据处理功能,并将处理后的数据进行保存于各自的数据库中,所述数据库构建数据索引表并发送回所述信息采集服务器,所述信息采集服务器再发送预设格式的采集数据对应的数据索引集合;
步骤5,用户的客户端在接收到预设格式数据索引集合后,能够选择是否屏蔽数据存储的一个或者多个信息处理服务器的数据处理功能,然后进行显示采集到的信息,即用户直接按照数据索引集合显示处理后的数据内容或者屏蔽部分的信息处理服务器的数据处理按照数据索引集合显示在部分处理后的数据和部分未处理的数据。
更进一步地,所述数据拆分策略,首先根据最小拆分单元对标签对应的初级存储的数据进行编号,每个编号对应于一个最小拆分单元,根据标签对应的预设关键词进行关键词的定位,在定位到关键词所在的数据信息的位置之后,再以所述数据拆分策略规定的最小拆分单元拆分出关键词对应的编号区域。
更进一步地,所述最小拆分单元为词、句或者段落中的一种或多种的组合。
更进一步地,所述数据拆分策略在进行拆分时,所述信息采集服务器保留数据拆分的编号,所述保留数据拆分的编号为根据最小拆分单元对标签对应的初级存储的数据进行编号或者将多个最小拆分单元的编号根据数据关联性集合为一个大的编号。
更进一步地,所述多台信息处理服务器执行其自身对应的数据处理功能,并将处理后的数据进行保存于各自的数据库中进一步包括:任意一个信息处理服务器都具有标签对应的预设的关键词的部分,所述信息处理服务器仅执行拆分后该服务器对应的关键词部分的数据处理,例如脱敏或者加密,然后按照数据前的数据、处理后的数据和该数据对用的拆分编号进行对应存储,其中,每个信息处理服务器执行的数据处理的输出是有区别的,用户可以根据数据处理后的输出识别出该数据处理对应的信息处理服务器。
在本实施例中,以一个数据处理服务器举例,例如该数据处理服务器A是对关键词“负载率”进行加密或者脱敏,并且该服务器A具有特殊的加密或者脱敏方法,比如原始信息“该应用的CPU的负载率为20%-80%”,则首先对文字部分进行提取和转换,提取的第一部分为文字部分即“该应用的CPU的负载率为(数字部分)”,第二部分为数字部分“百分之二十至百分之八十”,然后该服务器A需要进行处理的内容是“该应用的CPU的负载率为百分之二十至百分之八十”,以脱敏为例,本发明的一个特点在于,每个处理服务器的算法都可以表征该服务器的身份,例如需要将“负载率”部分进行脱敏,该服务器A的特点在于脱敏后的数据是以%%%进行表示的,即脱敏后的数据为“该应用的CPU的%%%为百分之二十至百分之八十”,而其他的服务器例如数据处理服务器B则处理不同的关键词,而假使其可以处理服务器A的数据内容,则可能是输出脱敏信息“该应用的CPU的***为百分之二十至百分之八十”。
本实施例从硬件角度出发阐述本发明的发明构思,即公开了一种基于云平台的网站信息采集系统,搭建信息采集系统,所述信息系统包括信息采集服务器,以及多台信息处理服务器,所述信息采集服务器在接收到信息采集的指令后,对所述指令进行解析,得到待采集数据的对应的标签和此次采集的数据的定制化级别;所述信息采集服务器获取所述数据的定制化级别,并查询所述定制化级别对应的数据处理策略,所述数据处理策略首先对采集的数据按照标签类型进行分别初级存储,所述初级存储为对采集的数据进行数据清洗后存储于所述信息采集服务器,按照所述标签分类检查标签对应的数据的一致性并处理采集数据的无效值和缺失值,其中,每个标签下的数据进行数据清洗的方向不同,文字类型的数据需要检测文字可读性和完整性而数字类的数据需要进行转换将数字数据转换为文字类型以减少数字类型数据缺失;在得到到按照解析的指令得到的标签对应的经过初级存储的信息数据后,所述数据处理策略进一步包括数据拆分策略,根据数据拆分策略对需要进行拆分的标签下的数据进行数据拆分,所述数据拆分策略包括数据拆分后的数据去处,即数据拆分后对应发送的多台信息处理服务器;所述多台信息处理服务器执行其自身对应的数据处理功能,并将处理后的数据进行保存于各自的数据库中,所述数据库构建数据索引表并发送回所述信息采集服务器,所述信息采集服务器再发送预设格式的采集数据对应的数据索引集合;用户的客户端在接收到预设格式数据索引集合后,能够选择是否屏蔽数据存储的一个或者多个信息处理服务器的数据处理功能,然后进行显示采集到的信息,即用户直接按照数据索引集合显示处理后的数据内容或者屏蔽部分的信息处理服务器的数据处理按照数据索引集合显示在部分处理后的数据和部分未处理的数据。
更进一步地,所述数据拆分策略,首先根据最小拆分单元对标签对应的初级存储的数据进行编号,每个编号对应于一个最小拆分单元,根据标签对应的预设关键词进行关键词的定位,在定位到关键词所在的数据信息的位置之后,再以所述数据拆分策略规定的最小拆分单元拆分出关键词对应的编号区域。
更进一步地,所述最小拆分单元为词、句或者段落中的一种或多种的组合。
更进一步地,所述数据拆分策略在进行拆分时,所述信息采集服务器保留数据拆分的编号,所述保留数据拆分的编号为根据最小拆分单元对标签对应的初级存储的数据进行编号或者将多个最小拆分单元的编号根据数据关联性集合为一个大的编号。
更进一步地,所述多台信息处理服务器执行其自身对应的数据处理功能,并将处理后的数据进行保存于各自的数据库中进一步包括:任意一个信息处理服务器都具有标签对应的预设的关键词的部分,所述信息处理服务器仅执行拆分后该服务器对应的关键词部分的数据处理,例如脱敏或者加密,然后按照数据前的数据、处理后的数据和该数据对用的拆分编号进行对应存储,其中,每个信息处理服务器执行的数据处理的输出是有区别的,用户可以根据数据处理后的输出识别出该数据处理对应的信息处理服务器。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
虽然上面已经参考各种实施例描述了本发明,但是应当理解,在不脱离本发明的范围的情况下,可以进行许多改变和修改。因此,其旨在上述详细描述被认为是例示性的而非限制性的,并且应当理解,以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (10)

1.一种基于云平台的网站信息采集方法,其特征在于,所述网站信息采集方法包括如下步骤:
步骤1,搭建信息采集系统,所述信息系统包括信息采集服务器,以及多台信息处理服务器,所述信息采集服务器在接收到信息采集的指令后,对所述指令进行解析,得到待采集数据的对应的标签和此次采集的数据的定制化级别;
步骤2,所述信息采集服务器获取所述数据的定制化级别,并查询所述定制化级别对应的数据处理策略,所述数据处理策略首先对采集的数据按照标签类型进行分别初级存储,所述初级存储为对采集的数据进行数据清洗后存储于所述信息采集服务器,按照所述标签分类检查标签对应的数据的一致性并处理采集数据的无效值和缺失值,其中,每个标签下的数据进行数据清洗的方向不同,文字类型的数据需要检测文字可读性和完整性而数字类的数据需要进行转换将数字数据转换为文字类型以减少数字类型数据缺失;
步骤3,在得到到按照解析的指令得到的标签对应的经过初级存储的信息数据后,所述数据处理策略进一步包括数据拆分策略,根据数据拆分策略对需要进行拆分的标签下的数据进行数据拆分,所述数据拆分策略包括数据拆分后的数据去处,即数据拆分后对应发送的多台信息处理服务器;
步骤4,所述多台信息处理服务器执行其自身对应的数据处理功能,并将处理后的数据进行保存于各自的数据库中,所述数据库构建数据索引表并发送回所述信息采集服务器,所述信息采集服务器再发送预设格式的采集数据对应的数据索引集合;
步骤5,用户的客户端在接收到预设格式数据索引集合后,能够选择是否屏蔽数据存储的一个或者多个信息处理服务器的数据处理功能,然后进行显示采集到的信息,即用户直接按照数据索引集合显示处理后的数据内容或者屏蔽部分的信息处理服务器的数据处理按照数据索引集合显示在部分处理后的数据和部分未处理的数据。
2.如权利要求1所述的一种基于云平台的网站信息采集方法,其特征在于,所述数据拆分策略,首先根据最小拆分单元对标签对应的初级存储的数据进行编号,每个编号对应于一个最小拆分单元,根据标签对应的预设关键词进行关键词的定位,在定位到关键词所在的数据信息的位置之后,再以所述数据拆分策略规定的最小拆分单元拆分出关键词对应的编号区域。
3.如权利要求2所述的一种基于云平台的网站信息采集方法,其特征在于,所述最小拆分单元为词、句或者段落中的一种或多种的组合。
4.如权利要求3所述的一种基于云平台的网站信息采集方法,其特征在于,所述数据拆分策略在进行拆分时,所述信息采集服务器保留数据拆分的编号,所述保留数据拆分的编号为根据最小拆分单元对标签对应的初级存储的数据进行编号或者将多个最小拆分单元的编号根据数据关联性集合为一个大的编号。
5.如权利要求4所述的一种基于云平台的网站信息采集方法,其特征在于,所述多台信息处理服务器执行其自身对应的数据处理功能,并将处理后的数据进行保存于各自的数据库中进一步包括:任意一个信息处理服务器都具有标签对应的预设的关键词的部分,所述信息处理服务器仅执行拆分后该服务器对应的关键词部分的数据处理,例如脱敏或者加密,然后按照数据前的数据、处理后的数据和该数据对用的拆分编号进行对应存储,其中,每个信息处理服务器执行的数据处理的输出是有区别的,用户可以根据数据处理后的输出识别出该数据处理对应的信息处理服务器。
6.一种基于云平台的网站信息采集系统,其特征在于,搭建信息采集系统,所述信息系统包括信息采集服务器,以及多台信息处理服务器,所述信息采集服务器在接收到信息采集的指令后,对所述指令进行解析,得到待采集数据的对应的标签和此次采集的数据的定制化级别;所述信息采集服务器获取所述数据的定制化级别,并查询所述定制化级别对应的数据处理策略,所述数据处理策略首先对采集的数据按照标签类型进行分别初级存储,所述初级存储为对采集的数据进行数据清洗后存储于所述信息采集服务器,按照所述标签分类检查标签对应的数据的一致性并处理采集数据的无效值和缺失值,其中,每个标签下的数据进行数据清洗的方向不同,文字类型的数据需要检测文字可读性和完整性而数字类的数据需要进行转换将数字数据转换为文字类型以减少数字类型数据缺失;在得到到按照解析的指令得到的标签对应的经过初级存储的信息数据后,所述数据处理策略进一步包括数据拆分策略,根据数据拆分策略对需要进行拆分的标签下的数据进行数据拆分,所述数据拆分策略包括数据拆分后的数据去处,即数据拆分后对应发送的多台信息处理服务器;所述多台信息处理服务器执行其自身对应的数据处理功能,并将处理后的数据进行保存于各自的数据库中,所述数据库构建数据索引表并发送回所述信息采集服务器,所述信息采集服务器再发送预设格式的采集数据对应的数据索引集合;用户的客户端在接收到预设格式数据索引集合后,能够选择是否屏蔽数据存储的一个或者多个信息处理服务器的数据处理功能,然后进行显示采集到的信息,即用户直接按照数据索引集合显示处理后的数据内容或者屏蔽部分的信息处理服务器的数据处理按照数据索引集合显示在部分处理后的数据和部分未处理的数据。
7.如权利要求6所述的一种基于云平台的网站信息采集系统,其特征在于,所述数据拆分策略,首先根据最小拆分单元对标签对应的初级存储的数据进行编号,每个编号对应于一个最小拆分单元,根据标签对应的预设关键词进行关键词的定位,在定位到关键词所在的数据信息的位置之后,再以所述数据拆分策略规定的最小拆分单元拆分出关键词对应的编号区域。
8.如权利要求7所述的一种基于云平台的网站信息采集系统,其特征在于,所述最小拆分单元为词、句或者段落中的一种或多种的组合。
9.如权利要求8所述的一种基于云平台的网站信息采集系统,其特征在于,所述数据拆分策略在进行拆分时,所述信息采集服务器保留数据拆分的编号,所述保留数据拆分的编号为根据最小拆分单元对标签对应的初级存储的数据进行编号或者将多个最小拆分单元的编号根据数据关联性集合为一个大的编号。
10.如权利要求9所述的一种基于云平台的网站信息采集系统,其特征在于,所述多台信息处理服务器执行其自身对应的数据处理功能,并将处理后的数据进行保存于各自的数据库中进一步包括:任意一个信息处理服务器都具有标签对应的预设的关键词的部分,所述信息处理服务器仅执行拆分后该服务器对应的关键词部分的数据处理,例如脱敏或者加密,然后按照数据前的数据、处理后的数据和该数据对用的拆分编号进行对应存储,其中,每个信息处理服务器执行的数据处理的输出是有区别的,用户可以根据数据处理后的输出识别出该数据处理对应的信息处理服务器。
CN202310076203.8A 2023-02-07 2023-02-07 一种基于云平台的网站信息采集方法及系统 Active CN115982503B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310076203.8A CN115982503B (zh) 2023-02-07 2023-02-07 一种基于云平台的网站信息采集方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310076203.8A CN115982503B (zh) 2023-02-07 2023-02-07 一种基于云平台的网站信息采集方法及系统

Publications (2)

Publication Number Publication Date
CN115982503A true CN115982503A (zh) 2023-04-18
CN115982503B CN115982503B (zh) 2023-10-13

Family

ID=85960993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310076203.8A Active CN115982503B (zh) 2023-02-07 2023-02-07 一种基于云平台的网站信息采集方法及系统

Country Status (1)

Country Link
CN (1) CN115982503B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117009609A (zh) * 2023-08-08 2023-11-07 北京三维天地科技股份有限公司 一种样本库可视化管理方法

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170048021A1 (en) * 2014-05-13 2017-02-16 Cloud Crowding Corp. Distributed secure data storage and transmission of streaming media content
CN106484855A (zh) * 2016-09-30 2017-03-08 广州特道信息科技有限公司 一种大数据涉税情报分析系统
CN107040540A (zh) * 2017-04-20 2017-08-11 北京奇虎科技有限公司 一种云隐私数据显示方法和装置、服务器及移动终端
CN108256076A (zh) * 2018-01-18 2018-07-06 广州大学 分布式海量数据处理方法及装置
CN108563706A (zh) * 2018-03-27 2018-09-21 昆山和君纵达数据科技有限公司 一种催收大数据智能服务系统及其运行方法
CN109583224A (zh) * 2018-10-16 2019-04-05 阿里巴巴集团控股有限公司 一种用户隐私数据处理方法、装置、设备及系统
CN110659276A (zh) * 2019-09-25 2020-01-07 江苏医健大数据保护与开发有限公司 一种计算机数据统计系统及其统计分类方法
CN111026948A (zh) * 2018-12-29 2020-04-17 苏州凌旭信息科技有限公司 服务于监察机关的数据查询系统
CN111597174A (zh) * 2020-04-24 2020-08-28 重庆科技学院 一种分布式数据统计处理系统、方法、存储介质、终端
CN111967048A (zh) * 2020-08-19 2020-11-20 西安电子科技大学 面向基因组数据相似度的高效匹配及隐私保护方法、系统
WO2021073201A1 (zh) * 2019-10-15 2021-04-22 深圳壹账通智能科技有限公司 基于分布式分发的数据处理方法、装置及相关设备
CN114297223A (zh) * 2021-12-20 2022-04-08 深圳时空科技集团有限公司 一种基于大数据的中小企业信息化服务平台
CN115277593A (zh) * 2022-07-13 2022-11-01 葛莺燕 一种基于区块链的链下数据安全存储的方法及系统
CN115309729A (zh) * 2022-07-26 2022-11-08 国家能源集团江苏电力有限公司 基于etl技术的火电厂多类型数据调配方法及系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170048021A1 (en) * 2014-05-13 2017-02-16 Cloud Crowding Corp. Distributed secure data storage and transmission of streaming media content
CN106484855A (zh) * 2016-09-30 2017-03-08 广州特道信息科技有限公司 一种大数据涉税情报分析系统
CN107040540A (zh) * 2017-04-20 2017-08-11 北京奇虎科技有限公司 一种云隐私数据显示方法和装置、服务器及移动终端
CN108256076A (zh) * 2018-01-18 2018-07-06 广州大学 分布式海量数据处理方法及装置
CN108563706A (zh) * 2018-03-27 2018-09-21 昆山和君纵达数据科技有限公司 一种催收大数据智能服务系统及其运行方法
CN109583224A (zh) * 2018-10-16 2019-04-05 阿里巴巴集团控股有限公司 一种用户隐私数据处理方法、装置、设备及系统
CN111026948A (zh) * 2018-12-29 2020-04-17 苏州凌旭信息科技有限公司 服务于监察机关的数据查询系统
CN110659276A (zh) * 2019-09-25 2020-01-07 江苏医健大数据保护与开发有限公司 一种计算机数据统计系统及其统计分类方法
WO2021073201A1 (zh) * 2019-10-15 2021-04-22 深圳壹账通智能科技有限公司 基于分布式分发的数据处理方法、装置及相关设备
CN111597174A (zh) * 2020-04-24 2020-08-28 重庆科技学院 一种分布式数据统计处理系统、方法、存储介质、终端
CN111967048A (zh) * 2020-08-19 2020-11-20 西安电子科技大学 面向基因组数据相似度的高效匹配及隐私保护方法、系统
CN114297223A (zh) * 2021-12-20 2022-04-08 深圳时空科技集团有限公司 一种基于大数据的中小企业信息化服务平台
CN115277593A (zh) * 2022-07-13 2022-11-01 葛莺燕 一种基于区块链的链下数据安全存储的方法及系统
CN115309729A (zh) * 2022-07-26 2022-11-08 国家能源集团江苏电力有限公司 基于etl技术的火电厂多类型数据调配方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AHMED MATEEN; KASHIF ALI: "Optimization strategies through big-data migration in distributed cloud databases", IEEE, pages 96 - 99 *
何伟: "某网络信息监测采集与分析系统的设计与实现", 中国优秀硕士学问论文全文数据库, pages 138 - 300 *
孙雨生;于凡;郝丽静;朱礼军;: "国内基于大数据的个性化服务研究进展:核心内容", 情报杂志, vol. 36, no. 10, pages 166 - 187 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117009609A (zh) * 2023-08-08 2023-11-07 北京三维天地科技股份有限公司 一种样本库可视化管理方法
CN117009609B (zh) * 2023-08-08 2024-05-07 北京三维天地科技股份有限公司 一种样本库可视化管理方法

Also Published As

Publication number Publication date
CN115982503B (zh) 2023-10-13

Similar Documents

Publication Publication Date Title
CN108334533B (zh) 关键词提取方法和装置、存储介质及电子装置
US10303689B2 (en) Answering natural language table queries through semantic table representation
US9348811B2 (en) Obtaining data from electronic documents
US9785704B2 (en) Extracting query dimensions from search results
CN108595583A (zh) 动态图表类页面数据爬取方法、装置、终端及存储介质
US8768920B1 (en) Posting questions from search queries
JP2003330948A (ja) ウェブページを評価する装置および方法
CN110147425B (zh) 一种关键词提取方法、装置、计算机设备及存储介质
US8631097B1 (en) Methods and systems for finding a mobile and non-mobile page pair
US8793120B1 (en) Behavior-driven multilingual stemming
JP3220886B2 (ja) 文書検索方法および装置
US20170277672A1 (en) Information processing device, information processing method, and computer program product
CN105205080A (zh) 冗余文件清理方法、装置和系统
CN110941959A (zh) 文本违规检测、文本还原方法、数据处理方法及设备
US10671686B2 (en) Processing webpage data
CN115982503A (zh) 一种基于云平台的网站信息采集方法及系统
CN117473512B (zh) 基于网络测绘的漏洞风险评估方法
CN112380337A (zh) 基于富文本的高亮方法及装置
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
WO2014049310A2 (en) Method and apparatuses for interactive searching of electronic documents
CN112597760A (zh) 文档中的领域词提取方法和装置
CN112765340A (zh) 一种确定云服务资源的方法、装置、电子设备及存储介质
JP6763433B2 (ja) 情報収集システム、情報収集方法、及び、プログラム
CN110413875B (zh) 一种文本信息推送的方法以及相关装置
Samah et al. TF-IDF and Data Visualization For Syafie Madhhab Hadith Scriptures Authenticity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230911

Address after: 1407 Yuemeite Building, No. 1, Gaoxin South 7th Road, High tech Zone Community, Yuehai Street, Nanshan District, Shenzhen, Guangdong 518000

Applicant after: Shenzhen Huiwu Technology Co.,Ltd.

Address before: Room 1101, 11th Floor, Huidong Chuangye Building, No. 7 Nanshan East Road, Chengdong District, Xining City, Qinghai Province, 810007

Applicant before: Liang Lijin

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant