CN116894057B - 基于Python的云服务数据收集处理方法、装置、设备及介质 - Google Patents
基于Python的云服务数据收集处理方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116894057B CN116894057B CN202310878019.5A CN202310878019A CN116894057B CN 116894057 B CN116894057 B CN 116894057B CN 202310878019 A CN202310878019 A CN 202310878019A CN 116894057 B CN116894057 B CN 116894057B
- Authority
- CN
- China
- Prior art keywords
- cloud service
- service data
- data
- crawling
- interval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013480 data collection Methods 0.000 title claims abstract description 36
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 230000009193 crawling Effects 0.000 claims abstract description 154
- 238000012545 processing Methods 0.000 claims abstract description 56
- 208000025174 PANDAS Diseases 0.000 claims abstract description 21
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 claims abstract description 21
- 235000016496 Panda oleosa Nutrition 0.000 claims abstract description 21
- 238000007405 data analysis Methods 0.000 claims abstract description 21
- 238000007781 pre-processing Methods 0.000 claims abstract description 18
- 238000013515 script Methods 0.000 claims abstract description 18
- 230000015654 memory Effects 0.000 claims description 36
- 238000000034 method Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 21
- 240000004718 Panda Species 0.000 claims description 20
- 238000005192 partition Methods 0.000 claims description 20
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000002372 labelling Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 12
- 238000005070 sampling Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 9
- 238000000342 Monte Carlo simulation Methods 0.000 claims description 8
- 238000013473 artificial intelligence Methods 0.000 claims description 4
- 230000005012 migration Effects 0.000 claims description 4
- 238000013508 migration Methods 0.000 claims description 4
- 240000000220 Panda oleosa Species 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2308—Concurrency control
- G06F16/2315—Optimistic concurrency control
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于Python的云服务数据收集处理方法,包括:利用针对不同爬取对象设置的Python网络爬虫,从对应的爬取对象中实时或定时抓取云服务数据,得到初始的云服务数据集并存入暂存数据库的第一区间;当爬取对象的可靠度小于可靠阈值时,根据预先制定的数据处理策略所加载的Python处理脚本,对存入所述第一区间的云服务数据集中的数据进行预处理,并将预处理后的云服务数据集存入所述暂存数据库的第二区间;利用Python的数据分析模块Pandas对第一区间和第二区间所对应的云服务数据集的相似度进行比对得到第一比较值,基于第一比较值得到所述爬取对象的当前可靠度以对爬取对象的可靠度进行更新。
Description
技术领域
本发明涉及数据采集技术领域,尤其涉及一种基于Python的云服务数据收集处理方法、装置、电子设备及存储介质。
背景技术
随着互联网的飞速发展,其已经渗透到人们生活的方方面面,从精神层次的信息获取到物质需求都能通过互联网实现。
随着信息大爆炸式的发展,数以亿计的网站不断涌现,搜索引擎收录的网页数量也在急剧增长。
互联网上丰富的信息给人们带来极大的便利,通过互联网,人们可以高效快捷的获取各式各样的信息。但是,信息的大爆炸,同时也给用户带来了信息过载的问题,如何能够快速的从海量信息中选择自己所需要的,是一个越来越迫切的问题。
Python是一种跨平台的计算机程序设计语言。是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。最初被设计用于编写自动化脚本(shell),随着版本的不断更新和语言新功能的添加,越多被用于独立的、大型项目的开发,如今,已被逐渐广泛应用于系统管理任务的处理和Web编程。
发明内容
本发明的目的在于提供一种基于Python的云服务数据收集处理方法、装置、电子设备及存储介质,其能够有效解决现有技术中所存在的上述技术问题。
一方面,本申请实施例公开了一种基于Python的云服务数据收集处理方法,包括步骤:
S1、利用针对不同爬取对象设置的Python网络爬虫,从对应的爬取对象中实时或定时抓取云服务数据,得到初始的云服务数据集并存入暂存数据库的第一区间;其中,所述爬取对象包括能够提供所述云服务数据的网页;
S2、当所述爬取对象的可靠度小于可靠阈值时,根据预先制定的数据处理策略所加载的Python处理脚本,对存入所述第一区间的云服务数据集中的数据进行预处理,并将预处理后的云服务数据集存入所述暂存数据库的第二区间;其中,所述预处理包括对所述第一区间的云服务数据集中的数据进行数据去重及缺失数据填充;
S3、利用Python的数据分析模块Pandas对所述第一区间和第二区间所对应的云服务数据集的相似度进行比对得到第一比较值,基于所述第一比较值得到所述爬取对象的当前可靠度以对所述爬取对象的可靠度进行更新;
S4、当所述爬取对象的信任度小于信任阈值时,对存入所述第一区间或第二区间的云服务数据集的数据进行虚假数据识别剔除处理,从而剔除云服务数据集中的虚假云服务数据,并将剔除虚假云服务数据后的云服务数据集存入所述暂存数据库的第三区间;
S5、利用Python的数据分析模块Pandas对所述第一区间/第二区间和第三区间所对应的云服务数据集的相似度进行比对得到第二比较值,基于所述第二比较值得到所述爬取对象的当前信任度以对所述爬取对象的信任度进行更新;
S6、基于所述第一比较值和第二比较值并通过以下公式(1)计算得到所述爬取对象的总体评分:
Y=λ*X1+β*X2 公式(1)
其中,Y为所述爬取对象的总体评分,X1为所述第一比较值,X2为所述第二比较值,λ、β分别为所述第一比较值、第二比较值的占比系数,且λ<β;在所述步骤S1中,根据预先设置的爬取策略,优先从总体评分高的爬取对象中抓取云服务数据;
S7、通过Python脚本根据预设的提取策略对所述第三区间中的云服务数据集中的数据进行特征提取,基于提取的特征进行分类和标注,并根据标注结果将所述第三区间中的云服务数据集中的数据存储到对应的目标数据库中。
较佳地,在所述步骤S1中,根据预先设置的爬取策略,在网络爬取的过程中优先获取总体评分高且聚焦网络爬行主题关键字的权重大的URL,将聚焦网络爬行主题关键字的权重表示为TF·IDF,TF指的是网络爬取过程中词汇出现的频率,将TF进行定义得到公式(2):
其中,dj为爬取文件,ti为主题词汇,ni,j为爬取文件中主题词汇出现的次数,为爬取文件中所有主题词汇的总数,IDF指的是反向爬取文件频率,主要用于降低公共词汇的主题权重,IDF定义为公式(3):
其中,|D|为数据库中的文件总数,|{j:ti∈dj}|为含有主题词汇的文件个数。
较佳地,在所述步骤S2中,利用距离公式计算存入所述第一区间的云服务数据集中数据的距离值,根据所述距离值对所述第一区间的云服务数据集中的数据进行去重,得到去重数据集;
利用预设的缺失值检测函数对所述去重数据集中的数据进行缺失值检测,并基于预设的填充算法对缺失值进行填充,得到所述预处理后的云服务数据集。
所述距离公式如下公式(4):
其中,d表示原始数据集合中任意两个数据的距离值,w1j和w2j表示原始数据集合中任意两个数据;其中,当所述距离值小于预设的距离值时,则删除其中任意一个数据,若所述距离值不小于预设的距离值时,则同时保留两个数据;
所述缺失值检测函数为missmap function缺失函数,若检测没有数据缺失值,则不作处理,若检测出现数据缺失值,通过预设的填充算法对所述缺失值进行填充,所述预设的填充算法如下公式(5):
其中,L(θ)表示填充的数据缺失值,xi表示第i个数据缺失值,θ表示填充的数据缺失值对应的概率参数,n表示去异常数据集合中数据的数量,p(xi|θ)表示填充的数据缺失值概率。
较佳地,20%≤λ≤40%,60%≤β≤80%,且λ+β=100%。
较佳地,所述虚假数据识别剔除处理包括:根据预先建立的云服务有效性判别指标体系,通过预先建立的基于蒙特卡洛模拟估计的超体积计算模型计算所述云服务数据集中的每个云服务有效性判别指标的超体积值,并将计算得到的超体积值小于阈值的云服务数据作为虚假云服务数据以从所述云服务数据集中剔除;
所述基于蒙特卡洛模拟估计的超体积计算模型通过如下方式建立:
将所述云服务数据集设为Z,云服务的指标为:
其中,n为云服务数据维数,zi为指标值,li和ui分别为指标的上下限;得到所有指标所形成的多维空间体积V:
对于M个样本点表示为S1,S2,…,SM;
记Hi(a,P,R)为第i个分区的体积,a为空间中的一个点,P为点集合,R为参考点;超体积算法预先定义参考点R,通过检查每一个S是否在区域Hi(a,P,R)中的两个判断依据如下,其中,1≤i≤k,a∈P:k为空间分区的数量;
(1)在多维空间中,Sj是在参考点R的下方,即存在一个r,使得Sj被参考点R所支配;
(2)支配Sj集合A不是空的集合;
如果两个条件满足,则采样点Sj在分区Hi(a,P,R)中,有i=|A|,且a∈A,说明a在第i部分区域;如果上面两个条件有一个不满足,则采样点Sj不在分区Hi(a,P,R)中;
记为一个离散的变量,如果采样点Sj在分区Hi(a,P,R)中,且a在第i部分区域,则/>为1,否则,/>为0;
则对应的部分估计值为:
记基于共享权重σ的系数为:
则a对应的超体积估计值为:
较佳地,在所述步骤S1中,当完成了一个爬取对象中的数据收集后,通过人工智能Python核心对该爬取对象的数据信息进行标识,以防在后续数据采集中收集到重复信息。
较佳地,在所述步骤S4中,当所述爬取对象的可靠度小于可靠阈值且信任度小于信任阈值时,对存入所述第二区间的云服务数据集的数据进行虚假数据识别剔除处理;当所述爬取对象的可靠度不小于可靠阈值且信任度小于信任阈值时,对存入所述第一区间的云服务数据集的数据进行虚假数据识别剔除处理。
另一方面,本申请实施例公开了一种基于Python的云服务数据收集处理装置,其特征在于,包括:
数据收集模块,利用针对不同爬取对象设置的Python网络爬虫,从对应的爬取对象中实时或定时抓取云服务数据,得到初始的云服务数据集并存入暂存数据库的第一区间;其中,所述爬取对象包括能够提供所述云服务数据的网页;
数据预处理模块,用于当所述爬取对象的可靠度小于可靠阈值时,根据预先制定的数据处理策略所加载的Python处理脚本,对存入所述第一区间的云服务数据集中的数据进行预处理,并将预处理后的云服务数据集存入所述暂存数据库的第二区间;其中,所述预处理包括对所述第一区间的云服务数据集中的数据进行数据去重及缺失数据填充;
第一比较值计算模块,利用Python的数据分析模块Pandas对所述第一区间和第二区间所对应的云服务数据集的相似度进行比对得到第一比较值,基于所述第一比较值得到所述爬取对象的当前可靠度以对所述爬取对象的可靠度进行更新;
数据剔除处理模块,用于当所述爬取对象的信任度小于信任阈值时,对存入所述第一区间或第二区间的云服务数据集的数据进行虚假数据识别剔除处理,从而剔除云服务数据集中的虚假云服务数据,并将剔除虚假云服务数据后的云服务数据集存入所述暂存数据库的第三区间;
第二比较值计算模块,利用Python的数据分析模块Pandas对所述第一区间/第二区间和第三区间所对应的云服务数据集的相似度进行比对得到第二比较值,基于所述第二比较值得到所述爬取对象的当前信任度以对所述爬取对象的信任度进行更新;
总体评分计算模块,基于所述第一比较值和第二比较值并通过以下公式(1)计算得到所述爬取对象的总体评分:
Y=λ*X1+β*X2 公式(1)
其中,Y为所述爬取对象的总体评分,X1为所述第一比较值,X2为所述第二比较值,λ、β分别为所述第一比较值、第二比较值的占比系数,且λ<β;在所述步骤S1中,根据预先设置的爬取策略,优先从总体评分高的爬取对象中抓取云服务数据;
数据迁移模块,通过Python脚本根据预设的提取策略对所述第三区间中的云服务数据集中的数据进行特征提取,基于提取的特征进行分类和标注,并根据标注结果将所述第三区间中的云服务数据集中的数据存储到对应的目标数据库中。
又一方面,本申请实施例公开了一种电子设备,电子设备包括处理器、存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于执行上述基于Python的云服务数据收集处理方法。
又一方面,本申请实施例公开了一种计算机程序产品或计算机程序,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令,处理器执行所述计算机指令,使得所述计算机设备执行上述基于Python的云服务数据收集处理方法。
与现有技术相比,本发明实施例提供的一种基于Python的云服务数据收集处理方法、装置、电子设备及计算机可读存储介质,具有如下技术效果:利用针对不同爬取对象设置的Python网络爬虫,从对应的爬取对象中实时或定时抓取云服务数据,得到初始的云服务数据集并存入暂存数据库的第一区间;当所述爬取对象的可靠度小于可靠阈值时,根据预先制定的数据处理策略所加载的Python处理脚本,对存入所述第一区间的云服务数据集中的数据进行预处理,并将预处理后的云服务数据集存入所述暂存数据库的第二区间;利用Python的数据分析模块Pandas对所述第一区间和第二区间所对应的云服务数据集的相似度进行比对得到第一比较值,基于所述第一比较值得到所述爬取对象的当前可靠度以对所述爬取对象的可靠度进行更新;当所述爬取对象的信任度小于信任阈值时,对存入所述第一区间或第二区间的云服务数据集的数据进行虚假数据识别剔除处理,从而剔除云服务数据集中的虚假云服务数据,并将剔除虚假云服务数据后的云服务数据集存入所述暂存数据库的第三区间;利用Python的数据分析模块Pandas对所述第一区间/第二区间和第三区间所对应的云服务数据集的相似度进行比对得到第二比较值,基于所述第二比较值得到所述爬取对象的当前信任度以对所述爬取对象的信任度进行更新;基于所述第一比较值和第二比较值并通过以下公式:Y=λ*X1+β*X2计算得到所述爬取对象的总体评分,根据预先设置的爬取策略,优先从总体评分高的爬取对象中抓取云服务数据;以及,通过Python脚本根据预设的提取策略对所述第三区间中的云服务数据集中的数据进行特征提取,基于提取的特征进行分类和标注,并根据标注结果将所述第三区间中的云服务数据集中的数据存储到对应的目标数据库中。因此,能够有效地提高云服务数据收集及处理的工作效率,实现节能和高效。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于Python的云服务数据收集处理方法的流程图。
图2为本发明实施例提供的基于Python的云服务数据收集处理装置的结构框图。
图3为本发明实施例的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,图1是本申请实施例提供的一种基于Python的云服务数据收集处理方法的流程示意图。该方法可以包括以下步骤S1~S7:
S1、利用针对不同爬取对象设置的Python网络爬虫,从对应的爬取对象中实时或定时抓取云服务数据,得到初始的云服务数据集并存入暂存数据库的第一区间;其中,所述爬取对象包括能够提供所述云服务数据的网页;
S2、当所述爬取对象的可靠度小于可靠阈值时,根据预先制定的数据处理策略所加载的Python处理脚本,对存入所述第一区间的云服务数据集中的数据进行预处理,并将预处理后的云服务数据集存入所述暂存数据库的第二区间;其中,所述预处理包括对所述第一区间的云服务数据集中的数据进行数据去重及缺失数据填充;
S3、利用Python的数据分析模块Pandas对所述第一区间和第二区间所对应的云服务数据集的相似度进行比对得到第一比较值,基于所述第一比较值得到所述爬取对象的当前可靠度以对所述爬取对象的可靠度进行更新。
可以理解的,在本实施例中,第一比较值反映的是第一区间和第二区间所对应的云服务数据集的相似度的大小,可以用百分比来表示,例如第一比较值为100%,表示第一区间和第二区间所对应的云服务数据集完全一致,也就是说,存入所述第一区间中的云服务数据集不存在数据重复或数据缺失的问题,即从对应的爬取对象中实时或定时抓取的云服务数据质量较高,表示爬取对象的可靠度较高,因此,可以基于所述第一比较值得到所述爬取对象的当前可靠度(第一比较值越大,可靠度越大,具体对应关系可以通过用于预先设置,在此不做具体限制),从而对所述爬取对象的可靠度进行更新。
S4、当所述爬取对象的信任度小于信任阈值时,对存入所述第一区间或第二区间的云服务数据集的数据进行虚假数据识别剔除处理,从而剔除云服务数据集中的虚假云服务数据,并将剔除虚假云服务数据后的云服务数据集存入所述暂存数据库的第三区间;
S5、利用Python的数据分析模块Pandas对所述第一区间/第二区间和第三区间所对应的云服务数据集的相似度进行比对得到第二比较值,基于所述第二比较值得到所述爬取对象的当前信任度以对所述爬取对象的信任度进行更新。
可以理解的,在本实施例中,第二比较值反映的是第一区间/第二区间和第三区间所对应的云服务数据集的相似度的大小,可以用百分比来表示,例如第一比较值为100%,表示第一区间/第二区间和第三区间所对应的云服务数据集完全一致,也就是说,存入所述第一区间/第二区间中的云服务数据集不存在虚假数据的问题,即从对应的爬取对象中实时或定时抓取的云服务数据真实性较高,表示爬取对象的信任度度较高,因此,可以基于所述第二比较值得到所述爬取对象的当前信任度(第二比较值越大,信任度越大,具体对应关系可以通过用于预先设置,在此不做具体限制),从而对所述爬取对象的信任度进行更新。
可以理解的,在上述步骤S4中,当所述爬取对象的可靠度小于可靠阈值且信任度小于信任阈值时,对存入所述第二区间的云服务数据集的数据进行虚假数据识别剔除处理;相应的,在上述步骤S5中,利用Python的数据分析模块Pandas对所述第二区间和第三区间所对应的云服务数据集的相似度进行比对得到第二比较值。
同样的,在上述步骤S4中,当所述爬取对象的可靠度不小于可靠阈值且信任度小于信任阈值时,对存入所述第一区间的云服务数据集的数据进行虚假数据识别剔除处理。相应的,在上述步骤S5中,利用Python的数据分析模块Pandas对所述第一区间和第三区间所对应的云服务数据集的相似度进行比对得到第二比较值。S6、基于所述第一比较值和第二比较值并通过以下公式(1)计算得到所述爬取对象的总体评分:
Y=λ*X1+β*X2 公式(1)
其中,Y为所述爬取对象的总体评分,X1为所述第一比较值,X2为所述第二比较值,λ、β分别为所述第一比较值、第二比较值的占比系数,且λ<β;在所述步骤S1中,根据预先设置的爬取策略,优先从总体评分高的爬取对象中抓取云服务数据;可以理解的,在本实施例中,20%≤λ≤40%,60%≤β≤80%,且λ+β=100%。优选的,例如λ=30%,β=70%。
S7、通过Python脚本根据预设的提取策略对所述第三区间中的云服务数据集中的数据进行特征提取,基于提取的特征进行分类和标注,并根据标注结果将所述第三区间中的云服务数据集中的数据存储到对应的目标数据库中。
进一步的,在所述步骤S1中,根据预先设置的爬取策略,在网络爬取的过程中优先获取总体评分高且聚焦网络爬行主题关键字的权重大的URL,将聚焦网络爬行主题关键字的权重表示为TF·IDF,TF指的是网络爬取过程中词汇出现的频率,将TF进行定义得到公式(2):
其中,dj为爬取文件,ti为主题词汇,ni,j为爬取文件中主题词汇出现的次数,为爬取文件中所有主题词汇的总数,IDF指的是反向爬取文件频率,主要用于降低公共词汇的主题权重,IDF定义为公式(3):
其中,|D|为数据库中的文件总数,|{j:ti∈dj}|为含有主题词汇的文件个数。
具体的,在所述步骤S2中,利用距离公式计算存入所述第一区间的云服务数据集中数据的距离值,根据所述距离值对所述第一区间的云服务数据集中的数据进行去重,得到去重数据集;
利用预设的缺失值检测函数对所述去重数据集中的数据进行缺失值检测,并基于预设的填充算法对缺失值进行填充,得到所述预处理后的云服务数据集。
所述距离公式如下公式(4):
其中,d表示原始数据集合中任意两个数据的距离值,w1j和w2j表示原始数据集合中任意两个数据;其中,当所述距离值小于预设的距离值时,则删除其中任意一个数据,若所述距离值不小于预设的距离值时,则同时保留两个数据;
所述缺失值检测函数为missmap function缺失函数,若检测没有数据缺失值,则不作处理,若检测出现数据缺失值,通过预设的填充算法对所述缺失值进行填充,所述预设的填充算法如下公式(5):
其中,L(θ)表示填充的数据缺失值,xi表示第i个数据缺失值,θ表示填充的数据缺失值对应的概率参数,n表示去异常数据集合中数据的数量,p(xi|θ)表示填充的数据缺失值概率。
较佳地,所述虚假数据识别剔除处理包括:根据预先建立的云服务有效性判别指标体系,通过预先建立的基于蒙特卡洛模拟估计的超体积计算模型计算所述云服务数据集中的每个云服务有效性判别指标的超体积值,并将计算得到的超体积值小于阈值的云服务数据作为虚假云服务数据以从所述云服务数据集中剔除;
所述基于蒙特卡洛模拟估计的超体积计算模型通过如下方式建立:
将所述云服务数据集设为Z,云服务的指标为:
其中,n为云服务数据维数,zi为指标值,li和ui分别为指标的上下限;得到所有指标所形成的多维空间体积V:
对于M个样本点表示为S1,S2,…,SM;
记Hi(a,P,R)为第i个分区的体积,a为空间中的一个点,P为点集合,R为参考点;超体积算法预先定义参考点R,通过检查每一个S是否在区域Hi(a,P,R)中的两个判断依据如下,其中,1≤i≤k,a∈P:k为空间分区的数量;
(1)在多维空间中,Sj是在参考点R的下方,即存在一个r,使得Sj被参考点R所支配;
(2)支配Sj集合A不是空的集合;
如果两个条件满足,则采样点Sj在分区Hi(a,P,R)中,有i=|A|,且a∈A,说明a在第i部分区域;如果上面两个条件有一个不满足,则采样点Sj不在分区Hi(a,P,R)中;
记为一个离散的变量,如果采样点Sj在分区Hi(a,P,R)中,且a在第i部分区域,则/>为1,否则,/>为0;
则对应的部分估计值为:
记基于共享权重σ的系数为:
则a对应的超体积估计值为:
可以理解的,在所述步骤S1中,当完成了一个爬取对象中的数据收集后,通过人工智能Python核心对该爬取对象的数据信息进行标识,以防在后续数据采集中收集到重复信息。
参考图2,图2是本申请实施例提供的一种基于Python的云服务数据收集处理装置的结构框图。该装置包括数据收集模块21、数据预处理模块22、第一比较值计算模块23、数据剔除处理模块24、第二比较值计算模块25、总体评分计算模块26及数据迁移模块27,其中:
数据收集模块21,利用针对不同爬取对象设置的Python网络爬虫,从对应的爬取对象中实时或定时抓取云服务数据,得到初始的云服务数据集并存入暂存数据库的第一区间;其中,所述爬取对象包括能够提供所述云服务数据的网页。
数据预处理模块22,用于当所述爬取对象的可靠度小于可靠阈值时,根据预先制定的数据处理策略所加载的Python处理脚本,对存入所述第一区间的云服务数据集中的数据进行预处理,并将预处理后的云服务数据集存入所述暂存数据库的第二区间;其中,所述预处理包括对所述第一区间的云服务数据集中的数据进行数据去重及缺失数据填充。
第一比较值计算模块23,利用Python的数据分析模块Pandas对所述第一区间和第二区间所对应的云服务数据集的相似度进行比对得到第一比较值,基于所述第一比较值得到所述爬取对象的当前可靠度以对所述爬取对象的可靠度进行更新。
可以理解的,在本实施例中,第一比较值反映的是第一区间和第二区间所对应的云服务数据集的相似度的大小,可以用百分比来表示,例如第一比较值为100%,表示第一区间和第二区间所对应的云服务数据集完全一致,也就是说,存入所述第一区间中的云服务数据集不存在数据重复或数据缺失的问题,即从对应的爬取对象中实时或定时抓取的云服务数据质量较高,表示爬取对象的可靠度较高,因此,可以基于所述第一比较值得到所述爬取对象的当前可靠度(第一比较值越大,可靠度越大,具体对应关系可以通过用于预先设置,在此不做具体限制),从而对所述爬取对象的可靠度进行更新。
数据剔除处理模块24,用于当所述爬取对象的信任度小于信任阈值时,对存入所述第一区间或第二区间的云服务数据集的数据进行虚假数据识别剔除处理,从而剔除云服务数据集中的虚假云服务数据,并将剔除虚假云服务数据后的云服务数据集存入所述暂存数据库的第三区间。
第二比较值计算模块25,利用Python的数据分析模块Pandas对所述第一区间/第二区间和第三区间所对应的云服务数据集的相似度进行比对得到第二比较值,基于所述第二比较值得到所述爬取对象的当前信任度以对所述爬取对象的信任度进行更新。
可以理解的,在本实施例中,第二比较值反映的是第一区间/第二区间和第三区间所对应的云服务数据集的相似度的大小,可以用百分比来表示,例如第一比较值为100%,表示第一区间/第二区间和第三区间所对应的云服务数据集完全一致,也就是说,存入所述第一区间/第二区间中的云服务数据集不存在虚假数据的问题,即从对应的爬取对象中实时或定时抓取的云服务数据真实性较高,表示爬取对象的信任度度较高,因此,可以基于所述第二比较值得到所述爬取对象的当前信任度(第二比较值越大,信任度越大,具体对应关系可以通过用于预先设置,在此不做具体限制),从而对所述爬取对象的信任度进行更新。
可以理解的,在数据剔除处理模块24中,当所述爬取对象的可靠度小于可靠阈值且信任度小于信任阈值时,对存入所述第二区间的云服务数据集的数据进行虚假数据识别剔除处理;相应的,在第二比较值计算模块25中,利用Python的数据分析模块Pandas对所述第二区间和第三区间所对应的云服务数据集的相似度进行比对得到第二比较值。
同样的,在数据剔除处理模块24中,当所述爬取对象的可靠度不小于可靠阈值且信任度小于信任阈值时,对存入所述第一区间的云服务数据集的数据进行虚假数据识别剔除处理。相应的,在第二比较值计算模块25中,利用Python的数据分析模块Pandas对所述第一区间和第三区间所对应的云服务数据集的相似度进行比对得到第二比较值。
总体评分计算模块26,基于所述第一比较值和第二比较值并通过以下公式(1)计算得到所述爬取对象的总体评分:
Y=λ*X1+β*X2 公式(1)
其中,Y为所述爬取对象的总体评分,X1为所述第一比较值,X2为所述第二比较值,λ、β分别为所述第一比较值、第二比较值的占比系数,且λ<β;在所述数据收集模块21中,根据预先设置的爬取策略,优先从总体评分高的爬取对象中抓取云服务数据;可以理解的,在本实施例中,20%≤λ≤40%,60%≤β≤80%,且λ+β=100%。
数据迁移模块27,通过Python脚本根据预设的提取策略对所述第三区间中的云服务数据集中的数据进行特征提取,基于提取的特征进行分类和标注,并根据标注结果将所述第三区间中的云服务数据集中的数据存储到对应的目标数据库中。
进一步的,在所述数据收集模块21中,根据预先设置的爬取策略,在网络爬取的过程中优先获取总体评分高且聚焦网络爬行主题关键字的权重大的URL,将聚焦网络爬行主题关键字的权重表示为TF·IDF,TF指的是网络爬取过程中词汇出现的频率,将TF进行定义得到公式(2):
其中,dj为爬取文件,ti为主题词汇,ni,j为爬取文件中主题词汇出现的次数,为爬取文件中所有主题词汇的总数,IDF指的是反向爬取文件频率,主要用于降低公共词汇的主题权重,IDF定义为公式(3):
其中,|D|为数据库中的文件总数,|{j:ti∈dj}|为含有主题词汇的文件个数。
具体的,在所述数据预处理模块22中,利用距离公式计算存入所述第一区间的云服务数据集中数据的距离值,根据所述距离值对所述第一区间的云服务数据集中的数据进行去重,得到去重数据集;
利用预设的缺失值检测函数对所述去重数据集中的数据进行缺失值检测,并基于预设的填充算法对缺失值进行填充,得到所述预处理后的云服务数据集。
所述距离公式如下公式(4):
其中,d表示原始数据集合中任意两个数据的距离值,w1j和w2j表示原始数据集合中任意两个数据;其中,当所述距离值小于预设的距离值时,则删除其中任意一个数据,若所述距离值不小于预设的距离值时,则同时保留两个数据;
所述缺失值检测函数为missmap function缺失函数,若检测没有数据缺失值,则不作处理,若检测出现数据缺失值,通过预设的填充算法对所述缺失值进行填充,所述预设的填充算法如下公式(5):
其中,L(θ)表示填充的数据缺失值,Xi表示第i个数据缺失值,θ表示填充的数据缺失值对应的概率参数,n表示去异常数据集合中数据的数量,p(xi|θ)表示填充的数据缺失值概率。
较佳地,在所述数据剔除处理模块24中,所述虚假数据识别剔除处理包括:根据预先建立的云服务有效性判别指标体系,通过预先建立的基于蒙特卡洛模拟估计的超体积计算模型计算所述云服务数据集中的每个云服务有效性判别指标的超体积值,并将计算得到的超体积值小于阈值的云服务数据作为虚假云服务数据以从所述云服务数据集中剔除;
所述基于蒙特卡洛模拟估计的超体积计算模型通过如下方式建立:
将所述云服务数据集设为Z,云服务的指标为:
其中,n为云服务数据维数,zi为指标值,li和ui分别为指标的上下限;得到所有指标所形成的多维空间体积V:
对于M个样本点表示为S1,S2,…,SM;
记Hi(a,P,R)为第i个分区的体积,a为空间中的一个点,P为点集合,R为参考点;超体积算法预先定义参考点R,通过检查每一个S是否在区域Hi(a,P,R)中的两个判断依据如下,其中,1≤i≤k,a∈P:k为空间分区的数量;
(1)在多维空间中,Sj是在参考点R的下方,即存在一个r,使得Sj被参考点R所支配;
(2)支配Sj集合A不是空的集合;
如果两个条件满足,则采样点Sj在分区Hi(a,P,R)中,有i=|A|,且a∈A,说明a在第i部分区域;如果上面两个条件有一个不满足,则采样点Sj不在分区Hi(a,P,R)中;
记为一个离散的变量,如果采样点Sj在分区Hi(a,P,R)中,且a在第i部分区域,则/>为1,否则,/>为0;
则对应的部分估计值为:
记基于共享权重σ的系数为:
则a对应的超体积估计值为:
可以理解的,在所述数据收集模块21中,当完成了一个爬取对象中的数据收集后,通过人工智能Python核心对该爬取对象的数据信息进行标识,以防在后续数据采集中收集到重复信息。
本实施例中的基于Python的云服务数据收集处理装置的具体实施方式可参照上述实施例的基于Python的云服务数据收集处理方法的描述,在此不再赘述。
如图3所示,本发明实施例提供了一种电子设备300,包括存储器310和处理器320,所述存储器310用于存储一条或多条计算机指令,所述处理器320用于调用并执行所述一条或多条计算机指令,从而实现上述任一所述的基于Python的云服务数据收集处理方法。
也就是说,电子设备300包括:处理器320和存储器310,在所述存储器310中存储有计算机程序指令,其中,在所述计算机程序指令被所述处理器运行时,使得所述处理器320执行上述任一所述的基于Python的云服务数据收集处理方法。
进一步地,如图3所示,电子设备300还包括网络接口330、输入设备340、硬盘350、和显示设备360。
上述各个接口和设备之间可以通过总线架构互连。总线架构可以是可以包括任意数量的互联的总线和桥。具体由处理器320代表的一个或者多个中央处理器(CPU),以及由存储器310代表的一个或者多个存储器的各种电路连接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其它电路连接在一起。可以理解,总线架构用于实现这些组件之间的连接通信。总线架构除包括数据总线之外,还包括电源总线、控制总线和状态信号总线,这些都是本领域所公知的,因此本文不再对其进行详细描述。
所述网络接口330,可以连接至网络(如因特网、局域网等),从网络中获取相关数据,并可以保存在硬盘350中。
所述输入设备340,可以接收操作人员输入的各种指令,并发送给处理器320以供执行。所述输入设备340可以包括键盘或者点击设备(例如,鼠标,轨迹球(trackball)、触感板或者触摸屏等。
所述显示设备360,可以将处理器320执行指令获得的结果进行显示。
所述存储器310,用于存储操作系统运行所必须的程序和数据,以及处理器320计算过程中的中间结果等数据。
可以理解,本发明实施例中的存储器310可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM),其用作外部高速缓存。本文描述的装置和方法的存储器310旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器310存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统311和应用程序312。
其中,操作系统311,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序312,包含各种应用程序,例如浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序312中。
上述处理器320,当调用并执行所述存储器310中所存储的应用程序和数据,具体的,可以是应用程序312中存储的程序或指令时,用针对不同爬取对象设置的Python网络爬虫,从对应的爬取对象中实时或定时抓取云服务数据,得到初始的云服务数据集并存入暂存数据库的第一区间;当所述爬取对象的可靠度小于可靠阈值时,根据预先制定的数据处理策略所加载的Python处理脚本,对存入所述第一区间的云服务数据集中的数据进行预处理,并将预处理后的云服务数据集存入所述暂存数据库的第二区间;利用Python的数据分析模块Pandas对所述第一区间和第二区间所对应的云服务数据集的相似度进行比对得到第一比较值,基于所述第一比较值得到所述爬取对象的当前可靠度以对所述爬取对象的可靠度进行更新;当所述爬取对象的信任度小于信任阈值时,对存入所述第一区间或第二区间的云服务数据集的数据进行虚假数据识别剔除处理,从而剔除云服务数据集中的虚假云服务数据,并将剔除虚假云服务数据后的云服务数据集存入所述暂存数据库的第三区间;利用Python的数据分析模块Pandas对所述第一区间/第二区间和第三区间所对应的云服务数据集的相似度进行比对得到第二比较值,基于所述第二比较值得到所述爬取对象的当前信任度以对所述爬取对象的信任度进行更新;基于所述第一比较值和第二比较值并通过以下公式:Y=λ*X1+β*X2计算得到所述爬取对象的总体评分,根据预先设置的爬取策略,优先从总体评分高的爬取对象中抓取云服务数据;以及,通过Python脚本根据预设的提取策略对所述第三区间中的云服务数据集中的数据进行特征提取,基于提取的特征进行分类和标注,并根据标注结果将所述第三区间中的云服务数据集中的数据存储到对应的目标数据库中。
本发明上述实施例揭示的基于Python的云服务数据收集处理方法可以应用于处理器320中,或者由处理器320实现。处理器320可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器320中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器320可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件,可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器310,处理器320读取存储器310中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ASIC)、数字信号处理器DSP)、数字信号处理设备(DSPD)、可编程逻辑设备(PLD)、现场可编程门阵列(FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的模块(例如过程、函数等)来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
具体地,处理器320还用于读取所述计算机程序,执行上述任一所述的基于Python的云服务数据收集处理方法。
本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行上述方法,比如执行上述电子设备执行的方法,此处不赘述。
可选的,本申请涉及的存储介质如计算机可读存储介质可以是非易失性的,也可以是易失性的。
可选的,该计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在本申请所提供的几个实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所揭露的仅为本发明一些较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。
Claims (10)
1.一种基于Python的云服务数据收集处理方法,其特征在于,包括步骤:
S1、利用针对不同爬取对象设置的Python网络爬虫,从对应的爬取对象中实时或定时抓取云服务数据,得到初始的云服务数据集并存入暂存数据库的第一区间;其中,所述爬取对象包括能够提供所述云服务数据的网页;
S2、当所述爬取对象的可靠度小于可靠阈值时,根据预先制定的数据处理策略所加载的Python处理脚本,对存入所述第一区间的云服务数据集中的数据进行预处理,并将预处理后的云服务数据集存入所述暂存数据库的第二区间;其中,所述预处理包括对所述第一区间的云服务数据集中的数据进行数据去重及缺失数据填充;
S3、利用Python的数据分析模块Pandas对所述第一区间和第二区间所对应的云服务数据集的相似度进行比对得到第一比较值,基于所述第一比较值得到所述爬取对象的当前可靠度以对所述爬取对象的可靠度进行更新;
S4、当所述爬取对象的信任度小于信任阈值时,对存入所述第一区间或第二区间的云服务数据集的数据进行虚假数据识别剔除处理,从而剔除云服务数据集中的虚假云服务数据,并将剔除虚假云服务数据后的云服务数据集存入所述暂存数据库的第三区间;
S5、利用Python的数据分析模块Pandas对所述第一区间/第二区间和第三区间所对应的云服务数据集的相似度进行比对得到第二比较值,基于所述第二比较值得到所述爬取对象的当前信任度以对所述爬取对象的信任度进行更新;
S6、基于所述第一比较值和第二比较值并通过以下公式(1)计算得到所述爬取对象的总体评分:
Y=λ*X1+β*X2 公式(1)
其中,Y为所述爬取对象的总体评分,X1为所述第一比较值,X2为所述第二比较值,λ、β分别为所述第一比较值、第二比较值的占比系数,且λ<β;在所述步骤S1中,根据预先设置的爬取策略,优先从总体评分高的爬取对象中抓取云服务数据;
S7、通过Python脚本根据预设的提取策略对所述第三区间中的云服务数据集中的数据进行特征提取,基于提取的特征进行分类和标注,并根据标注结果将所述第三区间中的云服务数据集中的数据存储到对应的目标数据库中。
2.根据权利要求1所述方法,其特征在于,在所述步骤S1中,根据预先设置的爬取策略,在网络爬取的过程中优先获取总体评分高且聚焦网络爬行主题关键字的权重大的URL,将聚焦网络爬行主题关键字的权重表示为TF·IDF,TF指的是网络爬取过程中词汇出现的频率,将TF进行定义得到公式(2):
其中,dj为爬取文件,ti为主题词汇,ni,j为爬取文件中主题词汇出现的次数,为爬取文件中所有主题词汇的总数,IDF指的是反向爬取文件频率,主要用于降低公共词汇的主题权重,IDF定义为公式(3):
其中,|D|为数据库中的文件总数,|{j:ti∈dj}|为含有主题词汇的文件个数。
3.根据权利要求1所述方法,其特征在于,在所述步骤S2中,利用距离公式计算存入所述第一区间的云服务数据集中数据的距离值,根据所述距离值对所述第一区间的云服务数据集中的数据进行去重,得到去重数据集;
利用预设的缺失值检测函数对所述去重数据集中的数据进行缺失值检测,并基于预设的填充算法对缺失值进行填充,得到所述预处理后的云服务数据集;
所述距离公式如下公式(4):
其中,d表示原始数据集合中任意两个数据的距离值,w1j和w2j表示原始数据集合中任意两个数据;其中,当所述距离值小于预设的距离值时,则删除其中任意一个数据,若所述距离值不小于预设的距离值时,则同时保留两个数据;
所述缺失值检测函数为missmap function缺失函数,若检测没有数据缺失值,则不作处理,若检测出现数据缺失值,通过预设的填充算法对所述缺失值进行填充,所述预设的填充算法如下公式(5):
其中,L(θ)表示填充的数据缺失值,xi表示第i个数据缺失值,θ表示填充的数据缺失值对应的概率参数,n表示去异常数据集合中数据的数量,p(xi|θ)表示填充的数据缺失值概率。
4.根据权利要求1所述方法,其特征在于,20%≤λ≤40%,60%≤β≤80%,且λ+β=100%。
5.根据权利要求1所述方法,其特征在于,所述虚假数据识别剔除处理包括:
根据预先建立的云服务有效性判别指标体系,通过预先建立的基于蒙特卡洛模拟估计的超体积计算模型计算所述云服务数据集中的每个云服务有效性判别指标的超体积值,并将计算得到的超体积值小于阈值的云服务数据作为虚假云服务数据以从所述云服务数据集中剔除;
所述基于蒙特卡洛模拟估计的超体积计算模型通过如下方式建立:
将所述云服务数据集设为Z,云服务的指标为:
其中,n为云服务数据维数,zi为指标值,li和ui分别为指标的上下限;得到所有指标所形成的多维空间体积V:
对于M个样本点表示为S1,S2,…,SM;
记Hi(a,P,R)为第i个分区的体积,a为空间中的一个点,P为点集合,R为参考点;超体积算法预先定义参考点R,通过检查每一个S是否在区域Hi(a,P,R)中的两个判断依据如下,其中,1≤i≤k,a∈P:k为空间分区的数量;
(1)在多维空间中,Sj是在参考点R的下方,即存在一个r,使得Sj被参考点R所支配;
(2)支配Sj集合A不是空的集合;
如果两个条件满足,则采样点Sj在分区Hi(a,P,R)中,有i=|A|,且a∈A,说明a在第i部分区域;如果上面两个条件有一个不满足,则采样点Sj不在分区Hi(a,P,R)中;
记为一个离散的变量,如果采样点Sj在分区Hi(a,P,R)中,且a在第i部分区域,则为1,否则,/>为0;
则对应的部分估计值为:
记基于共享权重σ的系数为:
则a对应的超体积估计值为:
6.根据权利要求1所述方法,其特征在于,在所述步骤S1中,当完成了一个爬取对象中的数据收集后,通过人工智能Python核心对该爬取对象的数据信息进行标识,以防在后续数据采集中收集到重复信息。
7.根据权利要求1所述方法,其特征在于,在所述步骤S4中,当所述爬取对象的可靠度小于可靠阈值且信任度小于信任阈值时,对存入所述第二区间的云服务数据集的数据进行虚假数据识别剔除处理;当所述爬取对象的可靠度不小于可靠阈值且信任度小于信任阈值时,对存入所述第一区间的云服务数据集的数据进行虚假数据识别剔除处理。
8.一种基于Python的云服务数据收集处理装置,其特征在于,包括:
数据收集模块,利用针对不同爬取对象设置的Python网络爬虫,从对应的爬取对象中实时或定时抓取云服务数据,得到初始的云服务数据集并存入暂存数据库的第一区间;其中,所述爬取对象包括能够提供所述云服务数据的网页;
数据预处理模块,用于当所述爬取对象的可靠度小于可靠阈值时,根据预先制定的数据处理策略所加载的Python处理脚本,对存入所述第一区间的云服务数据集中的数据进行预处理,并将预处理后的云服务数据集存入所述暂存数据库的第二区间;其中,所述预处理包括对所述第一区间的云服务数据集中的数据进行数据去重及缺失数据填充;
第一比较值计算模块,利用Python的数据分析模块Pandas对所述第一区间和第二区间所对应的云服务数据集的相似度进行比对得到第一比较值,基于所述第一比较值得到所述爬取对象的当前可靠度以对所述爬取对象的可靠度进行更新;
数据剔除处理模块,用于当所述爬取对象的信任度小于信任阈值时,对存入所述第一区间或第二区间的云服务数据集的数据进行虚假数据识别剔除处理,从而剔除云服务数据集中的虚假云服务数据,并将剔除虚假云服务数据后的云服务数据集存入所述暂存数据库的第三区间;
第二比较值计算模块,利用Python的数据分析模块Pandas对所述第一区间/第二区间和第三区间所对应的云服务数据集的相似度进行比对得到第二比较值,基于所述第二比较值得到所述爬取对象的当前信任度以对所述爬取对象的信任度进行更新;
总体评分计算模块,基于所述第一比较值和第二比较值并通过以下公式(1)计算得到所述爬取对象的总体评分:
Y=λ*X1+β*X2 公式(1)
其中,Y为所述爬取对象的总体评分,X1为所述第一比较值,X2为所述第二比较值,λ、β分别为所述第一比较值、第二比较值的占比系数,且λ<β;在所述数据收集模块中,根据预先设置的爬取策略,优先从总体评分高的爬取对象中抓取云服务数据;
数据迁移模块,通过Python脚本根据预设的提取策略对所述第三区间中的云服务数据集中的数据进行特征提取,基于提取的特征进行分类和标注,并根据标注结果将所述第三区间中的云服务数据集中的数据存储到对应的目标数据库中。
9.一种电子设备,其特征在于,包括处理器、存储器,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310878019.5A CN116894057B (zh) | 2023-07-17 | 2023-07-17 | 基于Python的云服务数据收集处理方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310878019.5A CN116894057B (zh) | 2023-07-17 | 2023-07-17 | 基于Python的云服务数据收集处理方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116894057A CN116894057A (zh) | 2023-10-17 |
CN116894057B true CN116894057B (zh) | 2023-12-22 |
Family
ID=88311847
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310878019.5A Active CN116894057B (zh) | 2023-07-17 | 2023-07-17 | 基于Python的云服务数据收集处理方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116894057B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960862A (zh) * | 2018-06-29 | 2018-12-07 | 福州大学 | 虚假制造云服务识别方法 |
CN109918554A (zh) * | 2019-02-13 | 2019-06-21 | 平安科技(深圳)有限公司 | 网页数据爬取方法、装置、系统及计算机可读存储介质 |
CN112463773A (zh) * | 2019-09-06 | 2021-03-09 | 佛山市顺德区美的电热电器制造有限公司 | 数据质量确定方法及装置 |
CN112948380A (zh) * | 2021-02-24 | 2021-06-11 | 深圳壹账通智能科技有限公司 | 基于大数据的数据存储方法、装置、电子设备及存储介质 |
CN114385606A (zh) * | 2021-12-09 | 2022-04-22 | 湖北省信产通信服务有限公司数字科技分公司 | 一种大数据清洗方法、系统、存储介质和电子设备 |
CN114880539A (zh) * | 2022-03-03 | 2022-08-09 | 南京小龟网络科技有限公司 | 一种大数据采集系统及方法 |
CN115391082A (zh) * | 2022-09-20 | 2022-11-25 | 杭州致成电子科技有限公司 | 一种异常数据诊断方法、系统及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IES20020647A2 (en) * | 2001-08-03 | 2003-03-19 | Tristlam Ltd | A data quality system |
-
2023
- 2023-07-17 CN CN202310878019.5A patent/CN116894057B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960862A (zh) * | 2018-06-29 | 2018-12-07 | 福州大学 | 虚假制造云服务识别方法 |
CN109918554A (zh) * | 2019-02-13 | 2019-06-21 | 平安科技(深圳)有限公司 | 网页数据爬取方法、装置、系统及计算机可读存储介质 |
CN112463773A (zh) * | 2019-09-06 | 2021-03-09 | 佛山市顺德区美的电热电器制造有限公司 | 数据质量确定方法及装置 |
CN112948380A (zh) * | 2021-02-24 | 2021-06-11 | 深圳壹账通智能科技有限公司 | 基于大数据的数据存储方法、装置、电子设备及存储介质 |
CN114385606A (zh) * | 2021-12-09 | 2022-04-22 | 湖北省信产通信服务有限公司数字科技分公司 | 一种大数据清洗方法、系统、存储介质和电子设备 |
CN114880539A (zh) * | 2022-03-03 | 2022-08-09 | 南京小龟网络科技有限公司 | 一种大数据采集系统及方法 |
CN115391082A (zh) * | 2022-09-20 | 2022-11-25 | 杭州致成电子科技有限公司 | 一种异常数据诊断方法、系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116894057A (zh) | 2023-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8489589B2 (en) | Visual search reranking | |
Adhao et al. | Feature selection using principal component analysis and genetic algorithm | |
Oard et al. | Jointly minimizing the expected costs of review for responsiveness and privilege in e-discovery | |
US11797617B2 (en) | Method and apparatus for collecting information regarding dark web | |
Zhang et al. | Research on phishing webpage detection technology based on CNN-BiLSTM algorithm | |
Zhu et al. | CCBLA: a lightweight phishing detection model based on CNN, BiLSTM, and attention mechanism | |
Wang et al. | Multi-modal transformer using two-level visual features for fake news detection | |
Zhu et al. | PDHF: Effective phishing detection model combining optimal artificial and automatic deep features | |
CN103853701A (zh) | 一种基于神经网络的自学习语义检测方法及系统 | |
Qalaja et al. | Inclusive study of fake news detection for COVID-19 with new dataset using supervised learning algorithms | |
JP4703487B2 (ja) | 画像分類方法及び装置及びプログラム | |
CN116894057B (zh) | 基于Python的云服务数据收集处理方法、装置、设备及介质 | |
CN116016365B (zh) | 一种加密流量下基于数据包长度信息的网页识别方法 | |
CN112766407B (zh) | 一种图像识别方法、装置及存储介质 | |
CN107239704A (zh) | 恶意网页发现方法及装置 | |
CN114238735A (zh) | 一种互联网数据智能采集方法 | |
Ksibi et al. | Flickr-based semantic context to refine automatic photo annotation | |
Chiwariro et al. | Malware detection and classification using machine learning algorithms | |
Tsikrika et al. | Focussed crawling of environmental web resources: A pilot study on the combination of multimedia evidence. | |
Chen et al. | Automatically Identifying Sentences with Attack Behavior from Cyber Threat Intelligence Reports | |
CN114610982B (zh) | 一种计算机网络数据采集分析管理方法、设备及存储介质 | |
Xiong | Recognition of Illegal Websites Based on Similarity of Sensitive Features of Mixed Elements | |
CN116150541B (zh) | 后台系统的识别方法、装置、设备及存储介质 | |
Al-Saleh et al. | Towards Classifying File Segments in Memory Using Machine-Learning | |
Chamoso | Internet Data Extraction and Analysis for Profile Generation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |