CN116910335A - 一种基于网页标签分析的数据采集方法及系统 - Google Patents

一种基于网页标签分析的数据采集方法及系统 Download PDF

Info

Publication number
CN116910335A
CN116910335A CN202310827978.4A CN202310827978A CN116910335A CN 116910335 A CN116910335 A CN 116910335A CN 202310827978 A CN202310827978 A CN 202310827978A CN 116910335 A CN116910335 A CN 116910335A
Authority
CN
China
Prior art keywords
data
webpage
advertisement
generate
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202310827978.4A
Other languages
English (en)
Inventor
唐若哲
李言开
陈奕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Fanti Technology Co ltd
Original Assignee
Beijing Fanti Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Fanti Technology Co ltd filed Critical Beijing Fanti Technology Co ltd
Priority to CN202310827978.4A priority Critical patent/CN116910335A/zh
Publication of CN116910335A publication Critical patent/CN116910335A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements
    • G06Q30/0245Surveys
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0277Online advertisement
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Mining & Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及大数据技术领域,尤其涉及一种基于网页标签分析的数据采集方法及系统。所述方法包括以下步骤:获取历史网页源代码集并进行标签解析处理,生成网页标签集;根据网页标签集进行动静态划分,生成动态网页数据和静态网页数据;将动态网页数据与静态网页数据合并,生成完整网页数据;利用XPath规则从完整网页数据中提取标准网页数据;通过文字特征分析处理提取网页广告数据;构建网页广告分析模型;获取资源调度数据集,基于标准网页数据和资源调度数据构建资源调度策略;获取目标采集网站数据,并利用资源调度策略和网页广告分析模型进行自动化的无广告数据采集;本发明通过对历史网页源代码集进行多样化数据处理,实现智能化、自动化的基于网页标签分析的数据采集方法。

Description

一种基于网页标签分析的数据采集方法及系统
技术领域
本发明涉及大数据技术领域,尤其是涉及一种基于网页标签分析的数据采集方法及系统。
背景技术
随着互联网的迅速发展,各种网页中包含了大量有价值的数据,因此数据采集技术变得至关重要,传统的数据采集方法通常通过分析网页的结构和内容进行数据抓取,但在复杂的网页环境下,这种方法往往存在一些困难和限制,一些网页中充斥着大量的广告,在无法获取网站中广告API权限的情况下,传统方法可能需要编写复杂的规则和脚本来解析和提取数据,且容易受到网页结构的变化影响,因此如何开发一种智能化、自动化的基于网页标签分析的数据采集方法及系统成为亟待解决的问题。
发明内容
有鉴于此,有必要提供一种基于网页标签分析的数据采集方法及系统,以解决至少一个上述技术问题。
为实现上述目的,本发明提供一种基于网页标签分析的数据采集方法,所述方法包括以下步骤:
步骤S1:获取历史网页源代码集,基于历史网页源代码集进行标签解析处理,生成网页标签集,基于网页标签集进行动静态划分处理,生成动态网页数据与静态网页数据,基于动态网页数据与静态网页数据进行网页合并操作,生成完整网页数据;
步骤S2:基于完整网页数据利用XPath规则进行数据提取,生成标准网页数据,基于标准网页数据进行文字特征分析处理,生成网页广告数据,基于网页广告数据进行网页广告分析模型构建,生成网页广告分析模型;
步骤S3:获取资源调度数据集,基于标准网页数据以及资源调度数据集进行资源调度策略构建,生成资源调度策略;
步骤S4:获取目标采集网站数据,基于资源调度策略、目标采集网站数据以及网页广告分析模型进行自动化数据采集,实现基于网页标签分析的无广告数据采集。
本发明提供了一种基于网页标签分析的数据采集方法,该方法能够实现在没有获取网站API所有权限的情况下自动化无广告数据抓取。传统的数据采集方法可能需要获取网站的API权限才能进行数据抓取,但该方法通过基于网页标签分析的技术,可以在无需API权限的情况下,通过解析和抓取网页的标签信息,实现对目标数据的准确定位和抓取。这为数据采集提供了更灵活、快捷的方式,并且可以规避API权限的限制和依赖,使得数据采集过程更加自主和自动化,具体地,该方法还通过获取历史网页源代码集,包括HTML源代码集和JavaScript代码集,并对动态网页数据进行处理,实现了对动态生成的网页内容的采集和解析,通过对动态标签进行特征标记,并利用预设的正则表达式进行功能数据提取,实现了对动态网页中的目标数据的精确提取,通过模拟浏览器环境进行网页加载,获取网页加载数据,并基于加载数据进行静态网页数据提取,实现了对网页中静态部分的数据采集,通过对标准网页数据进行文字特征分析和广告分析模型构建,实现了对网页广告数据的提取和分析,从而可以更好地过滤广告数据,通过基于历史资源占用情况、加载时间和类型权重进行资源优先级计算和调度策略建立,实现了对采集频率、并发度和访问间隔的控制,从而提高数据采集的效率和精确度,实现智能化、自动化的基于网页标签分析的无广告数据采集方法。
优选地,步骤S1包括以下步骤:
步骤S101:获取历史网页源代码集,其中历史网页源代码集包括HTML源代码集和JavaScript代码集;
步骤S102:基于历史网页源代码集进行标签解析处理,生成网页标签集;
步骤S103:基于网页标签集进行HTML标签划分处理,生成HTML代码集;
步骤S104:基于HTML代码集进行Javascript标签划分处理,生产Javascript代码集;
步骤S105:基于JavaScript代码集进行动态标签特征标记处理,生成动态标签特征集;
步骤S106:基于动态标签特征集利用预设的正则表达式进行功能数据提取,生成动态功能数据;
步骤S107:基于动态动能数据利用匹配算法进行网页匹配,生成匹配动态网页数据;
步骤S108:基于匹配动态网页数据进行原动态网页数据获取处理,生成动态网页数据;
步骤S109:获取模拟浏览器环境,基于动态网页数据以及模拟浏览器环境进行网页加载,生成网页加载数据;
步骤S110:基于网页加载数据进行静态网页数据提取,生成静态网页数据;
步骤S111:基于动态网页数据与静态网页数据进行数据融合操作,生成完整网页数据。
本发明首先通过对历史网页源代码集的解析和处理,生成了具有丰富标签信息和动态特征的网页标签集、HTML代码集和JavaScript代码集,这种方法使得对网页内容的分析更加准确和全面,提高了对网页结构和功能的理解程度,为后续处理步骤提供了更精确的基础数据,利用预设的正则表达式进行功能数据提取,能够高效地从动态标签特征集中提取具有特定功能的数据。通过这种方法,可以快速捕获和提取网页中的关键功能信息,实现了对功能数据的精确识别和提取,提高了数据处理的效率和准确性,通过匹配算法进行网页匹配和数据获取,实现了针对特定功能的动态网页数据的筛选和提取,通过匹配算法的应用,能够精确匹配和获取符合预期功能的动态网页数据,从而提供了更准确、有针对性的数据集,为后续步骤的处理和分析提供了更可靠的基础,通过获取模拟浏览器环境,并基于动态网页数据以及模拟浏览器环境进行网页加载,生成网页加载数据。这种方法模拟了真实浏览器的行为,能够准确地加载动态网页,并获取网页加载后的状态和内容。通过这一步骤,获得了动态网页加载的完整数据,为后续步骤的处理和分析提供了更全面的数据基础,对网页加载数据和静态网页数据的提取和融合操作,生成了完整的网页数据。这种方法结合了动态和静态数据,充分展现了网页的完整性和功能特性。通过融合操作,使得生成的网页数据具备了动态交互和静态内容的综合特性,为后续应用和分析提供了更全面、准确的数据支持。
优选地,步骤S2包括以下步骤:
步骤S21:基于完整网页数据进行序列化操作,生成网页列表数据;
步骤S22:基于网页列表数据进行元素定位操作,生成网页元素定位数据;
步骤S23:基于网页元素定位数据进行元素提取处理,生成网页元素列表数据;
步骤S24:基于网页元素列表数据利用XPath规则进行网页数据提取操作,生成标准网页数据;
步骤S25:基于标准网页数据进行文字特征分析处理,生成网页广告数据;
步骤S26:基于网页广告数据进行广告分析模型构建,形成网页广告分析模型。
本发明通过对完整网页数据进行序列化处理,将网页中的各个元素按照一定的顺序组织成网页列表数据,使网页数据具备有序性,方便后续的数据处理和分析,通过对网页列表数据进行分析和处理,准确定位并提取出网页中的各个元素的位置信息。生成的网页元素定位数据能够准确描述网页中各个元素的位置和布局,根据网页元素定位数据中的位置信息,从完整网页数据中提取对应位置的元素数据,形成网页元素列表数据,这些网页元素列表数据包括文本、图像、链接等各种类型的网页元素,通过定义和应用XPath规则,从网页元素列表数据中提取出特定的网页数据,如特定标签的内容、属性值等,生成的标准网页数据具备统一的数据格式和结构,对标准网页数据中的文字内容进行特征分析和处理,识别出可能与广告相关的文字特征,通过这样的分析处理,生成网页广告数据,其中包括被识别为广告的文字内容,通过对网页广告数据进行分析和处理,提取出有关网页广告的各种信息,如广告类型、广告主题、广告链接等,利用这些信息构建网页广告分析模型,可以用于广告相关的研究和应用领域。
优选地,步骤S25包括以下步骤:
步骤S251:基于标准网页数据进行文本提取处理,生成网页文本数据;
步骤S252:基于网页文本数据进行文字预处理,生成预处理文本数据;
步骤S253:基于预处理文本数据进行广告文本特征提取,生成广告文本特征数据;
步骤S254:基于广告文本特征数据利用卡方检验方法进行关联文本择取,生成关联特征数据;
步骤S255:基于关联特征数据以及标准网页数据利用聚类算法进行网页广告数据提取,生成网页广告数据。
本发明通过文本提取操作,首先从标准网页数据中提取出所有的文本内容,包括标题、正文、标签,对网页文本数据进行预处理,包括去除标点符号、停用词、数字等,进行词干化或词形还原等操作,从而规范化和简化文本数据,减少了噪音和冗余信息,为后续广告文本特征提取提供了干净的文本数据,提取预处理后的文本数据中与广告相关的特征信息,如关键词、文本长度、文本情感等,这些特征将用于后续的广告数据提取和关联特征数据的生成,利用卡方检验方法,从广告文本特征数据中选取与广告相关性较高的特征,过滤掉与广告无关的特征,从而提高了广告数据的准确性和相关性,通过聚类算法,将关联特征数据与标准网页数据进行综合分析,识别并提取出网页中的广告数据,包括广告类型、位置、样式等信息,从而形成了最终的网页广告数据集,自动化地识别网页中的广告内容,为广告分析和展示提供了高质量的数据基础,高效准确地从标准网页数据中提取出广告数据,为后续的广告分析和展示提供了可靠的数据支持。
优选地,步骤S26包括以下步骤:
步骤S261:基于网页广告数据进行预处理操作,生成模型预处理数据集;
步骤S262:基于模型预处理数据集进行数据划分处理,生成广告分析训练集以及广告分析测试集;
步骤S263:获取梯度提升树模型参数,其中梯度提升树模型参数包括梯度提升树数量数据、梯度提升树深度数据以及梯度提升树学习率数据;
步骤S264:获取计算器预期处理效率数据,基于计算器预期处理效率数据、梯度提升树数量数据、梯度提升树学习率数据利用最优迭代次数计算公式进行最优迭代次数计算,生成最优迭代次数数据;
步骤S265:基于梯度提升树模型参数进行初级分析模型构建,生成初级分析模型;
步骤S266:基于最优迭代次数数据、初级分析模型以及梯度提升树模型参数进行模型训练,生成初级训练模型;
步骤S267:基于初级训练模型以及广告分析测试集利用交叉验证方法进行模型调优,生成网页广告分析模型。
本发明通过对网页广告数据进行预处理操作,能够清理、去噪和转换数据格式,从而生成模型预处理数据集,这种高效预处理能够提高数据的质量和准确性,为后续的分析和模型训练奠定基础,基于模型预处理数据集进行数据划分处理,生成广告分析训练集和广告分析测试集。该划分能够确保训练集和测试集的数据具有代表性和均衡性,提高了后续模型评估和性能预测的准确性,可以获取梯度提升树模型的关键参数,包括梯度提升树数量数据、梯度提升树深度数据和梯度提升树学习率数据。这些参数的获取能够帮助优化模型结构和学习过程,提高模型的预测准确性和泛化能力,通过获取计算器预期处理效率数据并利用最优迭代次数计算公式,计算得到最优迭代次数数据,这有助于确定模型训练的最佳迭代次数,避免过拟合或欠拟合的问题,提高初级训练模型的性能,将梯度提升树模型的优势发挥到极致。这种构建过程能够利用数据分析、特征提取和模型预测等操作,增强了初级分析模型的能力和精度,利用最优迭代次数数据、初级分析模型和梯度提升树模型参数,进行模型训练。步骤S267进一步利用广告分析测试集和交叉验证方法对初级训练模型进行调优,这样的训练和调优过程能够进一步提高模型的性能和可靠性,生成高质量的网页广告分析模型。
优选地,步骤S264中的最优迭代次数计算公式具体为:
其中,T为最优迭代次数数据,argmin为argmin函数,t为迭代次数数据,E为计算器预期处理效率数据,N为梯度提升树数量数据,μ为梯度提升树学习效率数据,exp为自然指数函数,D为梯度提升树深度数据。
本发明利用一种最优迭代次数计算公式,该公式根据梯度提升树模型参数和计算器预期处理效率数据,确定了一组参数值和变量,包括梯度提升树数量数据N、梯度提升树深度数据D以及梯度提升树学习率数据μ,根据这些参数值和变量,通过最优迭代次数计算公式来计算最优的迭代次数T,公式中使用了求和符号,将迭代次数从1到最大迭代次数进行求和,通过对每个迭代次数t进行计算,结合计算器预期处理效率数据E、梯度提升树数量数据N、梯度提升树学习效率数据μ以及梯度提升树深度数据D,计算出每个迭代次数下的目标函数,并选择使目标函数值最小的最优迭代次数T,其中,利用函数关系获取梯度提升树模型中每棵树的权重数据,该项综合考虑了学习效率μ、梯度提升树深度数据D以及梯度提升树数量数据N,选择使目标函数值最小的最优迭代次数T,即通过比较每个迭代次数下目标函数值的大小,找到使目标函数值最小化的迭代次数。
优选地,步骤S3包括以下步骤:
步骤S31:获取资源调度数据集,其中资源调度数据集包括历史网页加载时间数据、历史资源占用情况数据以及历史资源类型数据;
步骤S32:基于历史资源占用情况数据、历史资源类型数据以及历史网页加载时间数据利用资源优先级计算公式进行资源优先级计算,生成资源优先级数据;
步骤S33:基于资源优先级数据以及资源调度数据集利用调度算法进行资源调度策略建立,生成资源调度策略。
本发明通过获取资源调度数据集,包括历史网页加载时间数据、历史资源占用情况数据以及历史资源类型数据,能够提供有关资源分配和使用情况的详细信息,这样的数据集将为优化资源调度策略提供宝贵的参考依据,从而提高系统的效率和性能,通过基于历史资源占用情况数据、历史资源类型数据以及历史网页加载时间数据利用资源优先级计算公式进行资源优先级计算,能够精确评估和量化各资源在系统中的重要性。这种资源优先级计算方法能够根据资源的负载情况、类型和网页加载时间等因素,为资源调度策略提供更准确的依据,从而提高资源的分配和利用效率,通过基于资源优先级数据以及资源调度数据集利用调度算法进行资源调度策略建立,能够实现有效的资源管理和调度。该方法能够针对资源优先级进行动态调度和分配,在系统负载平衡、资源冲突和满足网页加载要求之间取得合理的平衡。它能够优化资源的利用率,提高系统的响应速度和网页加载性能,从而增强用户体验并提高系统的可靠性和稳定性,本发明的资源调度方法和系统具有优化资源分配、提高资源利用效率、提升系统性能和用户体验等有益效果,这些效果将对相关技术领域的资源调度领域产生积极的影响,从而具有实际应用和商业价值。
优选地,步骤S32中的资源优先级计算公式具体为:
其中,P为资源优先级数据,M为历史资源数量,wz为第z个资源的历史占用情况数据,bz为第z个资源的加载时间数据中的最长加载时间,L(t)为历史网页加载时间数据函数,t为资源加载时间,yz为第z个资源的历史类型对应权重数据。
本发明利用一种资源优先级计算公式,该公式综合考虑历史资源的占用情况、类型和网页加载时间,并通过积分、导数和加权求和等数学运算,计算每个资源的优先级,其形成原因是为了实现更准确、灵活的资源调度策略,使得资源的分配更加高效和合理,首先,该公式对于每个资源标记为z,将其历史占用情况wz、加载时间数据中的最长加载时间bz以及历史类型对应权重数据yz作为参数,在公式中,通过积分的方式计算了历史网页加载时间数据函数L(t)与资源类型对应权重数据yz的乘积在时间范围内的积分值,通过对时间t的导数进行计算引入了资源占用情况wz与最长加载时间数据bz之间的比值/>最后将每个资源的计算结果进行加权求和,其中权重因子为/>表示资源占用情况数据的倒数,公式中引入了历史资源的占用情况数据、加载时间数据和类型对应权重数据,综合考虑了资源的使用情况、加载时间和类型的重要性,通过积分和导数的运算,使得公式具备更高的灵活性和适应性,可以对不同资源的特征进行更精确的建模和优先级计算,根据不同资源的占用情况进行加权处理,确保资源的调度优先级与其重要性和使用情况相匹配,从而实现获取资源优先级数据P。
优选地,步骤S4包括以下步骤:
步骤S41:获取目标采集网站数据;
步骤S42:基于资源调度策略进行调度数据抽取,生成采集频率数据、并发度数据以及访问间隔数据;
步骤S43:基于采集频率数据、并发度数据、访问间隔数据以及目标采集网站数据进行并发网站数据采集,生成并发采集数据集;
步骤S44:基于并发采集数据集利用网页广告分析模型进行广告过滤,生成过滤采集数据集,从而实现基于网页标签分析的无广告数据采集。
本发明通过并发采集数据集,可以同时从多个目标采集网站中抓取数据,提高数据采集的效率和速度,通过资源调度策略的调度数据抽取,可以根据采集频率、并发度和访问间隔数据,合理安排数据采集的时间和资源分配,实现资源的优化调度,利用网页广告分析模型对并发采集数据集进行广告过滤,可以去除采集数据中的广告内容,从而实现基于网页标签分析的无广告数据采集,提高数据的准确性和纯净性,通过过滤采集数据集中的广告,可以减少干扰和噪声,提升采集数据的质量和可用性,使得后续的数据分析和处理更加准确和可靠,提高数据采集效率,优化资源调度,提升数据质量,并实现无广告的数据采集。
在本说明书中,还提供了一种基于网页标签分析的数据采集系统,包括:
网页动静态划分处理模块,用于获取历史网页源代码集,基于历史网页源代码集进行动静态划分处理,生成动态网页数据与静态网页数据,基于动态网页数据与静态网页数据进行网页合并操作,生成完整网页数据;
网页广告分析模型构建模块,用于利用完整网页数据通过使用XPath规则、文字特征分析处理进行网页广告分析模型构建,生成网页广告分析模型;
资源调度策略构建模块,用于通过获取资源调度数据集,利用资源调度数据集进行资源调度策略构建,生成资源调度策略;
自动化数据采集模块,用于通过获取目标采集网站数据,利用资源调度策略、目标采集网站数据以及网页广告分析模型进行自动化数据采集,实现基于网页标签分析的无广告数据采集。
本发明提供一种基于网页标签分析的数据采集系统,该系统能够实现本发明所述任意一种基于网页标签分析的数据采集方法,实现数据的获取、运算、生成,通过获取历史网页源代码集,并对其中的图文信息按照已设计的指令顺序进行操作,生成预处理图文信息,再通过预处理图文信息进行动静态划分处理,生成动态网页数据与静态网页数据,根据动态网页数据与静态网页数据进行自动化数据采集,实现基于网页标签分析的无广告数据采集,系统内部遵循设定的指令集完成方法运行步骤,推动完成数据采集。
本发明提出了一种基于网页标签分析的数据采集方法,通过综合应用多学科多类型模型,解决了传统数据采集方法在通过分析网页的结构和内容进行数据抓取,需要编写复杂的规则和脚本来解析和提取数据,且容易受到网页结构的变化影响的问题。
附图说明
图1为本发明一种基于网页标签分析的数据采集方法的步骤流程示意图;
图2为步骤S1的详细实施步骤流程示意图;
图3为步骤S2的详细实施步骤流程示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种基于网页标签分析的数据采集方法。所述基于网页标签分析的数据采集方法的执行主体包括但不限于搭载该系统的:机械设备、数据处理平台、云服务器节点、网络传输设备等可看作本申请的通用计算节点。所述数据处理平台包括但不限于:音频管理系统、图像管理系统、信息管理系统至少一种。
请参阅图1至图3,本发明提供了一种基于网页标签分析的数据采集方法,所述方法包括以下步骤:
步骤S1:获取历史网页源代码集,基于历史网页源代码集进行标签解析处理,生成网页标签集,基于网页标签集进行动静态划分处理,生成动态网页数据与静态网页数据,基于动态网页数据与静态网页数据进行网页合并操作,生成完整网页数据;
步骤S2:基于完整网页数据利用XPath规则进行数据提取,生成标准网页数据,基于标准网页数据进行文字特征分析处理,生成网页广告数据,基于网页广告数据进行网页广告分析模型构建,生成网页广告分析模型;
步骤S3:获取资源调度数据集,基于标准网页数据以及资源调度数据集进行资源调度策略构建,生成资源调度策略;
步骤S4:获取目标采集网站数据,基于资源调度策略、目标采集网站数据以及网页广告分析模型进行自动化数据采集,实现基于网页标签分析的无广告数据采集。
本发明提供了一种基于网页标签分析的数据采集方法,该方法能够实现在没有获取网站API所有权限的情况下自动化无广告数据抓取。传统的数据采集方法可能需要获取网站的API权限才能进行数据抓取,但该方法通过基于网页标签分析的技术,可以在无需API权限的情况下,通过解析和抓取网页的标签信息,实现对目标数据的准确定位和抓取。这为数据采集提供了更灵活、快捷的方式,并且可以规避API权限的限制和依赖,使得数据采集过程更加自主和自动化,具体地,该方法还通过获取历史网页源代码集,包括HTML源代码集和JavaScript代码集,并对动态网页数据进行处理,实现了对动态生成的网页内容的采集和解析,通过对动态标签进行特征标记,并利用预设的正则表达式进行功能数据提取,实现了对动态网页中的目标数据的精确提取,通过模拟浏览器环境进行网页加载,获取网页加载数据,并基于加载数据进行静态网页数据提取,实现了对网页中静态部分的数据采集,通过对标准网页数据进行文字特征分析和广告分析模型构建,实现了对网页广告数据的提取和分析,从而可以更好地过滤广告数据,通过基于历史资源占用情况、加载时间和类型权重进行资源优先级计算和调度策略建立,实现了对采集频率、并发度和访问间隔的控制,从而提高数据采集的效率和精确度,实现智能化、自动化的基于网页标签分析的无广告数据采集方法。
本发明实施例中,请参考图1,所述基于网页标签分析的数据采集方法包括以下步骤:
步骤S1:获取历史网页源代码集,基于历史网页源代码集进行标签解析处理,生成网页标签集,基于网页标签集进行动静态划分处理,生成动态网页数据与静态网页数据,基于动态网页数据与静态网页数据进行网页合并操作,生成完整网页数据;
本发明实施例中,例如通过使用网络爬虫技术,从目标网页中获取完整的历史网页源代码集,该集合包括HTML源代码集和JavaScript代码集,通过识别和解析HTML源代码集中的各个标签元素,包括但不限于div、p、img等,生成网页标签集,该过程涉及对标签的识别、属性的提取和解析等复杂操作,确保准确解析出网页的结构和元素,利用先进的HTML标签划分算法,对网页标签集进行处理。通过分析标签之间的嵌套关系、属性和内容等信息,将网页标签集划分为不同的HTML代码集,每个HTML代码集代表一个独立的HTML片段,利用先进的JavaScript标签划分算法,对HTML代码集进行处理,通过分析HTML代码集中嵌入的JavaScript代码部分,将其划分为独立的JavaScript代码集,每个JavaScript代码集包含一个或多个JavaScript函数、变量等元素,以便后续处理和分析JavaScript代码的特征和功能,利用先进的动态标签特征标记算法,对JavaScript代码集进行处理,通过分析JavaScript代码集中的动态标签,例如DOM操作、事件绑定等,提取并标记出这些动态特征,生成动态标签特征集,用于后续的数据反查询和网页分析,通过使用预设的正则表达式,对动态标签特征集中的内容进行匹配和提取,获取具有特定功能的数据,这些功能数据可以包括用户输入、页面操作结果等与网页功能相关的信息,利用匹配算法,将动态功能数据与预定义的匹配模式进行比较和匹配,找出与特定条件相符合的网页数据,形成匹配动态标准网页数据,通过从匹配动态标准网页数据中提取所需的原始数据,形成动态标准网页数据,这些数据可以包括动态生成的内容、动态交互的结果等与网页动态特性相关的信息,获取模拟浏览器环境,包括模拟浏览器的运行环境和行为,以模拟真实的网页加载过程,通过加载动态网页数据,并在模拟浏览器环境中执行相应的操作,生成网页加载数据,其中包括加载后的网页状态、渲染结果,过对网页加载数据进行处理和分析,提取其中的静态内容,如静态HTML标签、静态文本等,形成静态标准网页数据,通过将动态网页数据和静态网页数据进行合并和整合,形成完整的标准网页数据,这种数据融合操作可以综合展现网页的动态交互特性和静态内容,提供更全面和完整的网页数据。
步骤S2:基于完整网页数据利用XPath规则进行数据提取,生成标准网页数据,基于标准网页数据进行文字特征分析处理,生成网页广告数据,基于网页广告数据进行网页广告分析模型构建,生成网页广告分析模型;
本发明实施例中,例如对于给定的完整网页数据,通过解析网页的HTML结构,可以使用DOM解析器或者HTML解析库对网页进行遍历,在遍历过程中,识别和提取网页中的各个元素,如标题、段落、图像、链接等,并按照一定的顺序进行记录,将提取到的网页元素按照预定的序列化格式进行编码,将序列化后的网页元素数据组织成一个列表结构,每个元素包含元素的类型、属性、内容等信息,对网页列表数据进行分析,了解每个元素在列表中的位置和关系,例如通过索引或层级信息,根据元素在网页列表中的位置信息,确定元素在网页中的实际位置。可以通过计算元素在网页中的偏移量、使用XPath表达式定位等方式来实现,将每个元素的定位信息记录下来,将记录的元素定位信息组织成一个数据集合,每个元素包含其在网页中的位置和其他相关属性,根据网页元素定位数据,遍历网页元素定位数据,根据每个元素的定位信息,在完整网页数据中定位相应元素的位置,根据定位的位置,从完整网页数据中提取相应元素的内容、属性等信息,将提取的元素数据按照预定的格式进行组织,形成网页元素列表数据,根据网页元素列表数据的结构和属性,设计XPath规则,用于定位和提取目标数据,利用XPath规则对网页元素列表数据进行查询和筛选,定位目标数据所在的元素,根据XPath规则定位到的元素,提取其中的内容、属性等相关数据,将提取到的数据按照预定的格式进行组织,形成标准化的网页数据,基于后续步骤S25的具体步骤解释,实现标准网页数据进行文字特征分析处理,生成网页广告数据,基于后续步骤S26的具体步骤解释,实现基于网页广告数据进行广告分析模型构建,形成网页广告分析模型。
步骤S3:获取资源调度数据集,基于标准网页数据以及资源调度数据集进行资源调度策略构建,生成资源调度策略;
本发明实施例中,例如首先收集并获取历史网页加载时间数据、历史资源占用情况数据以及历史资源类型数据。这些数据可以通过监测系统中的网页加载时间、资源占用情况和资源类型,并将这些信息存储在一种合适的数据结构中,如数据库或日志文件,基于历史资源占用情况数据、历史资源类型数据以及历史网页加载时间数据,利用资源优先级计算公式进行资源优先级计算。资源优先级计算公式可以基于多种因素,如资源占用情况、资源类型和网页加载时间等进行权衡和计算,通过计算得到的资源优先级数据,基于资源优先级数据以及资源调度数据集,利用调度算法进行资源调度策略建立,调度算法可以根据资源优先级数据和资源调度数据集的内容,确定如何分配和调度系统中的资源,调度算法可以包括各种优化方法和策略,如最优化调度算法、负载均衡算法、队列调度算法等,通过应用这些调度算法,可以根据资源的优先级和系统的需求,制定合适的资源调度策略,实现资源的高效利用和系统性能的优化。
步骤S4:获取目标采集网站数据,基于资源调度策略、目标采集网站数据以及网页广告分析模型进行自动化数据采集,实现基于网页标签分析的无广告数据采集。
本发明实施例中,例如通过网络爬虫技术,根据预先设定的目标采集网站列表,自动获取网站的源代码数据,并将其保存为网页源代码集,根据设定的资源调度策略,进行调度数据抽取和计算,生成相应的采集频率数据、并发度数据和访问间隔数据,根据采集频率数据、并发度数据和访问间隔数据,针对目标采集网站数据,采用并发的方式进行数据采集,根据设定的并发度,控制并发请求的数量,并根据访问间隔数据控制请求之间的时间间隔,以确保采集过程的效率和稳定性,通过并发网站数据采集,获取多个网页的数据,并保存为并发采集数据集,基于预先构建的网页广告分析模型,对并发采集数据集中的网页数据进行广告过滤,通过模型的预测和分类,判断网页中是否存在广告内容,并将无广告的数据保存为过滤采集数据集。
本发明实施例中,请参阅图2,所述步骤S1的详细实施步骤包括:
步骤S101:获取历史网页源代码集,其中历史网页源代码集包括HTML源代码集和JavaScript代码集;
步骤S102:基于历史网页源代码集进行标签解析处理,生成网页标签集;
步骤S103:基于网页标签集进行HTML标签划分处理,生成HTML代码集;
步骤S104:基于HTML代码集进行Javascript标签划分处理,生产Javascript代码集;
步骤S105:基于JavaScript代码集进行动态标签特征标记处理,生成动态标签特征集;
步骤S106:基于动态标签特征集利用预设的正则表达式进行功能数据提取,生成动态功能数据;
步骤S107:基于动态动能数据利用匹配算法进行网页匹配,生成匹配动态网页数据;
步骤S108:基于匹配动态网页数据进行原动态网页数据获取处理,生成动态网页数据;
步骤S109:获取模拟浏览器环境,基于动态网页数据以及模拟浏览器环境进行网页加载,生成网页加载数据;
步骤S110:基于网页加载数据进行静态网页数据提取,生成静态网页数据;
步骤S111:基于动态网页数据与静态网页数据进行数据融合操作,生成完整网页数据。
本发明首先通过对历史网页源代码集的解析和处理,生成了具有丰富标签信息和动态特征的网页标签集、HTML代码集和JavaScript代码集,这种方法使得对网页内容的分析更加准确和全面,提高了对网页结构和功能的理解程度,为后续处理步骤提供了更精确的基础数据,利用预设的正则表达式进行功能数据提取,能够高效地从动态标签特征集中提取具有特定功能的数据。通过这种方法,可以快速捕获和提取网页中的关键功能信息,实现了对功能数据的精确识别和提取,提高了数据处理的效率和准确性,通过匹配算法进行网页匹配和数据获取,实现了针对特定功能的动态网页数据的筛选和提取,通过匹配算法的应用,能够精确匹配和获取符合预期功能的动态网页数据,从而提供了更准确、有针对性的数据集,为后续步骤的处理和分析提供了更可靠的基础,通过获取模拟浏览器环境,并基于动态网页数据以及模拟浏览器环境进行网页加载,生成网页加载数据。这种方法模拟了真实浏览器的行为,能够准确地加载动态网页,并获取网页加载后的状态和内容。通过这一步骤,获得了动态网页加载的完整数据,为后续步骤的处理和分析提供了更全面的数据基础,对网页加载数据和静态网页数据的提取和融合操作,生成了完整的网页数据。这种方法结合了动态和静态数据,充分展现了网页的完整性和功能特性。通过融合操作,使得生成的网页数据具备了动态交互和静态内容的综合特性,为后续应用和分析提供了更全面、准确的数据支持。
本发明实施例中,例如通过使用网络爬虫技术,利用最先进的网络通信和数据获取方法,从目标网页中获取完整的历史网页源代码集,该集合包括HTML源代码集和JavaScript代码集,爬虫程序能够模拟浏览器行为,与目标网页进行交互,获取页面的所有代码内容,利用先进的解析算法和标签解析技术,对历史网页源代码集进行处理。通过识别和解析HTML源代码集中的各个标签元素,包括但不限于div、p、img等,生成网页标签集,该过程涉及对标签的识别、属性的提取和解析等复杂操作,确保准确解析出网页的结构和元素,利用先进的HTML标签划分算法,对网页标签集进行处理。通过分析标签之间的嵌套关系、属性和内容等信息,将网页标签集划分为不同的HTML代码集,每个HTML代码集代表一个独立的HTML片段,具备完整的标签结构和内容,以方便后续处理和重建网页,利用先进的JavaScript标签划分算法,对HTML代码集进行处理,通过分析HTML代码集中嵌入的JavaScript代码部分,将其划分为独立的JavaScript代码集,每个JavaScript代码集包含一个或多个JavaScript函数、变量等元素,以便后续处理和分析JavaScript代码的特征和功能,利用先进的动态标签特征标记算法,对JavaScript代码集进行处理,通过分析JavaScript代码集中的动态标签,例如DOM操作、事件绑定等,提取并标记出这些动态特征,生成动态标签特征集,用于后续的数据反查询和网页分析,通过使用预设的正则表达式,对动态标签特征集中的内容进行匹配和提取,获取具有特定功能的数据,这些功能数据可以包括用户输入、页面操作结果等与网页功能相关的信息,利用匹配算法,将动态功能数据与预定义的匹配模式进行比较和匹配,找出与特定条件相符合的网页数据,形成匹配动态标准网页数据,通过从匹配动态标准网页数据中提取所需的原始数据,形成动态标准网页数据,这些数据可以包括动态生成的内容、动态交互的结果等与网页动态特性相关的信息,获取模拟浏览器环境,包括模拟浏览器的运行环境和行为,以模拟真实的网页加载过程,通过加载动态网页数据,并在模拟浏览器环境中执行相应的操作,生成网页加载数据,其中包括加载后的网页状态、渲染结果,过对网页加载数据进行处理和分析,提取其中的静态内容,如静态HTML标签、静态文本等,形成静态标准网页数据,通过将动态网页数据和静态网页数据进行合并和整合,形成完整的标准网页数据,这种数据融合操作可以综合展现网页的动态交互特性和静态内容,提供更全面和完整的网页数据。
本发明实施例中,请参阅图3,所述步骤S2的详细实施步骤包括:
步骤S21:基于完整网页数据进行序列化操作,生成网页列表数据;
步骤S22:基于网页列表数据进行元素定位操作,生成网页元素定位数据;
步骤S23:基于网页元素定位数据进行元素提取处理,生成网页元素列表数据;
步骤S24:基于网页元素列表数据利用XPath规则进行网页数据提取操作,生成标准网页数据;
步骤S25:基于标准网页数据进行文字特征分析处理,生成网页广告数据;
步骤S26:基于网页广告数据进行广告分析模型构建,形成网页广告分析模型。
本发明通过对完整网页数据进行序列化处理,将网页中的各个元素按照一定的顺序组织成网页列表数据,使网页数据具备有序性,方便后续的数据处理和分析,通过对网页列表数据进行分析和处理,准确定位并提取出网页中的各个元素的位置信息。生成的网页元素定位数据能够准确描述网页中各个元素的位置和布局,根据网页元素定位数据中的位置信息,从完整网页数据中提取对应位置的元素数据,形成网页元素列表数据,这些网页元素列表数据包括文本、图像、链接等各种类型的网页元素,通过定义和应用XPath规则,从网页元素列表数据中提取出特定的网页数据,如特定标签的内容、属性值等,生成的标准网页数据具备统一的数据格式和结构,对标准网页数据中的文字内容进行特征分析和处理,识别出可能与广告相关的文字特征,通过这样的分析处理,生成网页广告数据,其中包括被识别为广告的文字内容,通过对网页广告数据进行分析和处理,提取出有关网页广告的各种信息,如广告类型、广告主题、广告链接等,利用这些信息构建网页广告分析模型,可以用于广告相关的研究和应用领域。
本发明实施例中,例如对于给定的完整网页数据,通过解析网页的HTML结构,可以使用DOM解析器或者HTML解析库对网页进行遍历,在遍历过程中,识别和提取网页中的各个元素,如标题、段落、图像、链接等,并按照一定的顺序进行记录,将提取到的网页元素按照预定的序列化格式进行编码,例如可以使用JSON或XML格式来表示网页元素的结构和属性信息,将序列化后的网页元素数据组织成一个列表结构,每个元素包含元素的类型、属性、内容等信息,对网页列表数据进行分析,了解每个元素在列表中的位置和关系,例如通过索引或层级信息,根据元素在网页列表中的位置信息,确定元素在网页中的实际位置。可以通过计算元素在网页中的偏移量、使用XPath表达式定位等方式来实现,将每个元素的定位信息记录下来,包括元素的类型、位置坐标、宽高等属性,将记录的元素定位信息组织成一个数据集合,每个元素包含其在网页中的位置和其他相关属性,根据网页元素定位数据,确定要提取的元素的位置和属性信息,遍历网页元素定位数据,根据每个元素的定位信息,在完整网页数据中定位相应元素的位置,根据定位的位置,从完整网页数据中提取相应元素的内容、属性等信息,将提取的元素数据按照预定的格式进行组织,形成网页元素列表数据,根据网页元素列表数据的结构和属性,设计XPath规则,用于定位和提取目标数据,利用XPath规则对网页元素列表数据进行查询和筛选,定位目标数据所在的元素,根据XPath规则定位到的元素,提取其中的内容、属性等相关数据,将提取到的数据按照预定的格式进行组织,形成标准化的网页数据,基于后续步骤S25的具体步骤解释,实现标准网页数据进行文字特征分析处理,生成网页广告数据,基于后续步骤S26的具体步骤解释,实现基于网页广告数据进行广告分析模型构建,形成网页广告分析模型。
本发明实施例中,步骤S25的具体步骤为:
步骤S251:基于标准网页数据进行文本提取处理,生成网页文本数据;
步骤S252:基于网页文本数据进行文字预处理,生成预处理文本数据;
步骤S253:基于预处理文本数据进行广告文本特征提取,生成广告文本特征数据;
步骤S254:基于广告文本特征数据利用卡方检验方法进行关联文本择取,生成关联特征数据;
步骤S255:基于关联特征数据以及标准网页数据利用聚类算法进行网页广告数据提取,生成网页广告数据。
本发明通过文本提取操作,首先从标准网页数据中提取出所有的文本内容,包括标题、正文、标签,对网页文本数据进行预处理,包括去除标点符号、停用词、数字等,进行词干化或词形还原等操作,从而规范化和简化文本数据,减少了噪音和冗余信息,为后续广告文本特征提取提供了干净的文本数据,提取预处理后的文本数据中与广告相关的特征信息,如关键词、文本长度、文本情感等,这些特征将用于后续的广告数据提取和关联特征数据的生成,利用卡方检验方法,从广告文本特征数据中选取与广告相关性较高的特征,过滤掉与广告无关的特征,从而提高了广告数据的准确性和相关性,通过聚类算法,将关联特征数据与标准网页数据进行综合分析,识别并提取出网页中的广告数据,包括广告类型、位置、样式等信息,从而形成了最终的网页广告数据集,自动化地识别网页中的广告内容,为广告分析和展示提供了高质量的数据基础,高效准确地从标准网页数据中提取出广告数据,为后续的广告分析和展示提供了可靠的数据支持。
本发明实施例中,例如首先解析标准网页数据,具体地,将标准网页数据作为输入,通过解析HTML标签和文本内容,提取网页中的文本数据,其次,从提取的网页数据中去除HTML标签,只保留文本内容,对去除HTML标签后的文本数据进行整理和清理,去除多余的空格、换行符等,确保文本的一致性和准确性,将处理后的网页文本数据组织成数据集的形式,以便后续处理和分析,基于网页文本数据进行文字预处理,生成预处理文本数据,将网页文本数据进行分词处理,将文本拆分成单个词语或短语的序列,去除常见的停用词,如“这”,“是”等,这些词对文本分析和特征提取没有实质性意义,对分词后的词语进行词干化或词形还原处理,将词语归纳为其基本形式,减少词语的变体带来的干扰,去除文本中的特殊字符和数字,保留纯文本信息,将经过预处理的文本数据组织成数据集的形式,以便后续特征提取和分析,使用关键词提取算法,从预处理文本数据中提取与广告相关的关键词,这些关键词可以是广告主要内容或相关领域的关键词,统计预处理文本数据的长度,包括字符数、词语数等,作为文本特征之一,利用情感分析算法,分析预处理文本数据中的情感倾向,如积极、消极或中性情感,作为广告文本特征之一,将提取的广告文本特征数据组织成数据集的形式,以便后续关联分析和特征选择,对广告文本特征数据中的每个特征进行卡方检验,计算其与广告之间的相关性,根据需求设定显著性水平,选择合适的阈值,根据卡方统计量和显著性水平,选择与广告相关性较高的特征作为关联特征,将选择的关联特征数据组织成数据集的形式,以便后续的广告数据提取和分析,将关联特征数据和标准网页数据进行整合,以每个网页作为一个样本,特征为其关联特征,根据数据特点和需求选择合适的聚类算法,如K-means、层次聚类,对合并后的数据进行聚类算法的执行,将网页数据划分为不同的簇群,从每个簇群中提取代表性的网页数据作为网页广告数据,包括广告类型、位置、样式,将提取的网页广告数据组织成数据集的形式,以便后续的广告分析和展示。
本发明实施例中,步骤S26的具体步骤为:
步骤S261:基于网页广告数据进行预处理操作,生成模型预处理数据集;
步骤S262:基于模型预处理数据集进行数据划分处理,生成广告分析训练集以及广告分析测试集;
步骤S263:获取梯度提升树模型参数,其中梯度提升树模型参数包括梯度提升树数量数据、梯度提升树深度数据以及梯度提升树学习率数据;
步骤S264:获取计算器预期处理效率数据,基于计算器预期处理效率数据、梯度提升树数量数据、梯度提升树学习率数据利用最优迭代次数计算公式进行最优迭代次数计算,生成最优迭代次数数据;
步骤S265:基于梯度提升树模型参数进行初级分析模型构建,生成初级分析模型;
步骤S266:基于最优迭代次数数据、初级分析模型以及梯度提升树模型参数进行模型训练,生成初级训练模型;
步骤S267:基于初级训练模型以及广告分析测试集利用交叉验证方法进行模型调优,生成网页广告分析模型。
本发明通过对网页广告数据进行预处理操作,能够清理、去噪和转换数据格式,从而生成模型预处理数据集,这种高效预处理能够提高数据的质量和准确性,为后续的分析和模型训练奠定基础,基于模型预处理数据集进行数据划分处理,生成广告分析训练集和广告分析测试集。该划分能够确保训练集和测试集的数据具有代表性和均衡性,提高了后续模型评估和性能预测的准确性,可以获取梯度提升树模型的关键参数,包括梯度提升树数量数据、梯度提升树深度数据和梯度提升树学习率数据。这些参数的获取能够帮助优化模型结构和学习过程,提高模型的预测准确性和泛化能力,通过获取计算器预期处理效率数据并利用最优迭代次数计算公式,计算得到最优迭代次数数据,这有助于确定模型训练的最佳迭代次数,避免过拟合或欠拟合的问题,提高初级训练模型的性能,将梯度提升树模型的优势发挥到极致。这种构建过程能够利用数据分析、特征提取和模型预测等操作,增强了初级分析模型的能力和精度,利用最优迭代次数数据、初级分析模型和梯度提升树模型参数,进行模型训练。步骤S267进一步利用广告分析测试集和交叉验证方法对初级训练模型进行调优,这样的训练和调优过程能够进一步提高模型的性能和可靠性,生成高质量的网页广告分析模型。
本发明实施例中,例如将广告数据集进行预处理,包括数据清洗、特征选择、特征编码等步骤,确保数据格式符合梯度提升树模型的要求,将预处理后的广告数据集划分为训练集和测试集,通常采用交叉验证的方法进行划分,以评估模型的性能和泛化能力,设置梯度提升树模型的参数,包括树的数量、树的深度、学习率等,这些参数的选择需要考虑模型的复杂度和计算效率,并进行合理的调优,获取计算器预期处理效率数据,基于计算器预期处理效率数据、梯度提升树数量数据、梯度提升树学习率数据利用最优迭代次数计算公式进行最优迭代次数计算,生成最优迭代次数数据,利用训练集对梯度提升树模型进行训练。通过迭代的方式,每次迭代都在前一棵树的残差上构建一棵新的树,以逐步减小残差,提高模型的预测能力,利用初级训练模型和广告分析测试集,执行交叉验证方法,通过评估模型性能和优化模型参数的方式,进行模型调优,生成网页广告分析模型。
本发明实施例中,步骤S264中的最优迭代次数计算公式具体为:
其中,T为最优迭代次数数据,argmin为argmin函数,t为迭代次数数据,E为计算器预期处理效率数据,N为梯度提升树数量数据,μ为梯度提升树学习效率数据,exp为自然指数函数,D为梯度提升树深度数据。
本发明利用一种最优迭代次数计算公式,该公式根据梯度提升树模型参数和计算器预期处理效率数据,确定了一组参数值和变量,包括梯度提升树数量数据N、梯度提升树深度数据D以及梯度提升树学习率数据μ,根据这些参数值和变量,通过最优迭代次数计算公式来计算最优的迭代次数T,公式中使用了求和符号,将迭代次数从1到最大迭代次数进行求和,通过对每个迭代次数t进行计算,结合计算器预期处理效率数据E、梯度提升树数量数据N、梯度提升树学习效率数据μ以及梯度提升树深度数据D,计算出每个迭代次数下的目标函数,并选择使目标函数值最小的最优迭代次数T,其中,利用函数关系获取梯度提升树模型中每棵树的权重数据,该项综合考虑了学习效率μ、梯度提升树深度数据D以及梯度提升树数量数据N,选择使目标函数值最小的最优迭代次数T,即通过比较每个迭代次数下目标函数值的大小,找到使目标函数值最小化的迭代次数。
本发明实施例中,步骤S3的具体步骤为:
步骤S31:获取资源调度数据集,其中资源调度数据集包括历史网页加载时间数据、历史资源占用情况数据以及历史资源类型数据;
步骤S32:基于历史资源占用情况数据、历史资源类型数据以及历史网页加载时间数据利用资源优先级计算公式进行资源优先级计算,生成资源优先级数据;
步骤S33:基于资源优先级数据以及资源调度数据集利用调度算法进行资源调度策略建立,生成资源调度策略。
本发明通过获取资源调度数据集,包括历史网页加载时间数据、历史资源占用情况数据以及历史资源类型数据,能够提供有关资源分配和使用情况的详细信息,这样的数据集将为优化资源调度策略提供宝贵的参考依据,从而提高系统的效率和性能,通过基于历史资源占用情况数据、历史资源类型数据以及历史网页加载时间数据利用资源优先级计算公式进行资源优先级计算,能够精确评估和量化各资源在系统中的重要性。这种资源优先级计算方法能够根据资源的负载情况、类型和网页加载时间等因素,为资源调度策略提供更准确的依据,从而提高资源的分配和利用效率,通过基于资源优先级数据以及资源调度数据集利用调度算法进行资源调度策略建立,能够实现有效的资源管理和调度。该方法能够针对资源优先级进行动态调度和分配,在系统负载平衡、资源冲突和满足网页加载要求之间取得合理的平衡。它能够优化资源的利用率,提高系统的响应速度和网页加载性能,从而增强用户体验并提高系统的可靠性和稳定性,本发明的资源调度方法和系统具有优化资源分配、提高资源利用效率、提升系统性能和用户体验等有益效果,这些效果将对相关技术领域的资源调度领域产生积极的影响,从而具有实际应用和商业价值。
本发明实施例中,例如获取资源调度数据集,首先收集并获取历史网页加载时间数据、历史资源占用情况数据以及历史资源类型数据。这些数据可以通过监测系统中的网页加载时间、资源占用情况和资源类型,并将这些信息存储在一种合适的数据结构中,如数据库或日志文件,基于历史资源占用情况数据、历史资源类型数据以及历史网页加载时间数据,利用资源优先级计算公式进行资源优先级计算。资源优先级计算公式可以基于多种因素,如资源占用情况、资源类型和网页加载时间等进行权衡和计算。具体而言,可以根据资源占用情况的统计数据、资源类型的特征以及历史网页加载时间的相关信息来确定资源的优先级。通过计算得到的资源优先级数据,可以用于后续的资源调度策略建立,基于资源优先级数据以及资源调度数据集,利用调度算法进行资源调度策略建立。调度算法可以根据资源优先级数据和资源调度数据集的内容,确定如何分配和调度系统中的资源。调度算法可以包括各种优化方法和策略,如最优化调度算法、负载均衡算法、队列调度算法等,通过应用这些调度算法,可以根据资源的优先级和系统的需求,制定合适的资源调度策略,实现资源的高效利用和系统性能的优化。
本发明实施例中,步骤S32中的资源优先级计算公式具体为:
其中,P为资源优先级数据,M为历史资源数量,wz为第z个资源的历史占用情况数据,bz为第z个资源的加载时间数据中的最长加载时间,L(t)为历史网页加载时间数据函数,t为资源加载时间,yz为第z个资源的历史类型对应权重数据。
本发明利用一种资源优先级计算公式,该公式综合考虑历史资源的占用情况、类型和网页加载时间,并通过积分、导数和加权求和等数学运算,计算每个资源的优先级,其形成原因是为了实现更准确、灵活的资源调度策略,使得资源的分配更加高效和合理,首先,该公式对于每个资源标记为z,将其历史占用情况wz、加载时间数据中的最长加载时间bz以及历史类型对应权重数据yz作为参数,在公式中,通过积分的方式计算了历史网页加载时间数据函数L(t)与资源类型对应权重数据yz的乘积在时间范围内的积分值,通过对时间t的导数进行计算引入了资源占用情况wz与最长加载时间数据bz之间的比值/>最后将每个资源的计算结果进行加权求和,其中权重因子为/>表示资源占用情况数据的倒数,公式中引入了历史资源的占用情况数据、加载时间数据和类型对应权重数据,综合考虑了资源的使用情况、加载时间和类型的重要性,通过积分和导数的运算,使得公式具备更高的灵活性和适应性,可以对不同资源的特征进行更精确的建模和优先级计算,根据不同资源的占用情况进行加权处理,确保资源的调度优先级与其重要性和使用情况相匹配,从而实现获取资源优先级数据P。
本发明实施例中,步骤S4的具体步骤为:
步骤S41:获取目标采集网站数据;
步骤S42:基于资源调度策略进行调度数据抽取,生成采集频率数据、并发度数据以及访问间隔数据;
步骤S43:基于采集频率数据、并发度数据、访问间隔数据以及目标采集网站数据进行并发网站数据采集,生成并发采集数据集;
步骤S44:基于并发采集数据集利用网页广告分析模型进行广告过滤,生成过滤采集数据集,从而实现基于网页标签分析的无广告数据采集。
本发明通过并发采集数据集,可以同时从多个目标采集网站中抓取数据,提高数据采集的效率和速度,通过资源调度策略的调度数据抽取,可以根据采集频率、并发度和访问间隔数据,合理安排数据采集的时间和资源分配,实现资源的优化调度,利用网页广告分析模型对并发采集数据集进行广告过滤,可以去除采集数据中的广告内容,从而实现基于网页标签分析的无广告数据采集,提高数据的准确性和纯净性,通过过滤采集数据集中的广告,可以减少干扰和噪声,提升采集数据的质量和可用性,使得后续的数据分析和处理更加准确和可靠,提高数据采集效率,优化资源调度,提升数据质量,并实现无广告的数据采集。
本发明实施例中,例如通过网络爬虫技术,根据预先设定的目标采集网站列表,自动获取网站的源代码数据,并将其保存为网页源代码集,根据设定的资源调度策略,包括采集频率、并发度和访问间隔等参数,结合历史数据和实时数据,进行调度数据抽取和计算,生成相应的采集频率数据、并发度数据和访问间隔数据,根据采集频率数据、并发度数据和访问间隔数据,针对目标采集网站数据,采用并发的方式进行数据采集。同时,根据设定的并发度,控制并发请求的数量,并根据访问间隔数据控制请求之间的时间间隔,以确保采集过程的效率和稳定性,通过并发网站数据采集,获取多个网页的数据,并保存为并发采集数据集,基于预先构建的网页广告分析模型,对并发采集数据集中的网页数据进行广告过滤。通过模型的预测和分类,判断网页中是否存在广告内容,并将无广告的数据保存为过滤采集数据集。
在本说明书中,还提供了一种基于网页标签分析的数据采集系统,包括:
网页动静态划分处理模块,用于获取历史网页源代码集,基于历史网页源代码集进行动静态划分处理,生成动态网页数据与静态网页数据,基于动态网页数据与静态网页数据进行网页合并操作,生成完整网页数据;
网页广告分析模型构建模块,用于利用完整网页数据通过使用XPath规则、文字特征分析处理进行网页广告分析模型构建,生成网页广告分析模型;
资源调度策略构建模块,用于通过获取资源调度数据集,利用资源调度数据集进行资源调度策略构建,生成资源调度策略;
自动化数据采集模块,用于通过获取目标采集网站数据,利用资源调度策略、目标采集网站数据以及网页广告分析模型进行自动化数据采集,实现基于网页标签分析的无广告数据采集。
本发明提供一种基于网页标签分析的数据采集系统,该系统能够实现本发明所述任意一种基于网页标签分析的数据采集方法,实现数据的获取、运算、生成,通过获取历史网页源代码集,并对其中的图文信息按照已设计的指令顺序进行操作,生成预处理图文信息,再通过预处理图文信息进行动静态划分处理,生成动态网页数据与静态网页数据,根据动态网页数据与静态网页数据进行自动化数据采集,实现基于网页标签分析的无广告数据采集,系统内部遵循设定的指令集完成方法运行步骤,推动完成数据采集。
本发明提出了一种基于网页标签分析的数据采集方法,通过综合应用多学科多类型模型,解决了传统数据采集方法在通过分析网页的结构和内容进行数据抓取,需要编写复杂的规则和脚本来解析和提取数据,且容易受到网页结构的变化影响的问题。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于网页标签分析的数据采集方法,其特征在于,包括以下步骤:
步骤S1:获取历史网页源代码集,基于历史网页源代码集进行标签解析处理,生成网页标签集,基于网页标签集进行动静态划分处理,生成动态网页数据与静态网页数据,基于动态网页数据与静态网页数据进行网页合并操作,生成完整网页数据;
步骤S2:基于完整网页数据利用XPath规则进行数据提取,生成标准网页数据,基于标准网页数据进行文字特征分析处理,生成网页广告数据,基于网页广告数据进行网页广告分析模型构建,生成网页广告分析模型;
步骤S3:获取资源调度数据集,基于标准网页数据以及资源调度数据集进行资源调度策略构建,生成资源调度策略;
步骤S4:获取目标采集网站数据,基于资源调度策略、目标采集网站数据以及网页广告分析模型进行自动化数据采集,实现基于网页标签分析的无广告数据采集。
2.根据权利要求1所述的方法,其特征在于,步骤S1的具体步骤为:
步骤S101:获取历史网页源代码集,其中历史网页源代码集包括HTML源代码集和JavaScript代码集;
步骤S102:基于历史网页源代码集进行标签解析处理,生成网页标签集;
步骤S103:基于网页标签集进行HTML标签划分处理,生成HTML代码集;
步骤S104:基于HTML代码集进行Javascript标签划分处理,生产Javascript代码集;
步骤S105:基于JavaScript代码集进行动态标签特征标记处理,生成动态标签特征集;
步骤S106:基于动态标签特征集利用预设的正则表达式进行功能数据提取,生成动态功能数据;
步骤S107:基于动态动能数据利用匹配算法进行网页匹配,生成匹配动态网页数据;
步骤S108:基于匹配动态网页数据进行原动态网页数据获取处理,生成动态网页数据;
步骤S109:获取模拟浏览器环境,基于动态网页数据以及模拟浏览器环境进行网页加载,生成网页加载数据;
步骤S110:基于网页加载数据进行静态网页数据提取,生成静态网页数据;
步骤S111:基于动态网页数据与静态网页数据进行数据融合操作,生成完整网页数据。
3.根据权利要求1所述的方法,其特征在于,步骤S2的具体步骤为:
步骤S21:基于完整网页数据进行序列化操作,生成网页列表数据;
步骤S22:基于网页列表数据进行元素定位操作,生成网页元素定位数据;
步骤S23:基于网页元素定位数据进行元素提取处理,生成网页元素列表数据;
步骤S24:基于网页元素列表数据利用XPath规则进行网页数据提取操作,生成标准网页数据;
步骤S25:基于标准网页数据进行文字特征分析处理,生成网页广告数据;
步骤S26:基于网页广告数据进行广告分析模型构建,形成网页广告分析模型。
4.根据权利要求3所述的方法,其特征在于,步骤S25的具体步骤为:
步骤S251:基于标准网页数据进行文本提取处理,生成网页文本数据;
步骤S252:基于网页文本数据进行文字预处理,生成预处理文本数据;
步骤S253:基于预处理文本数据进行广告文本特征提取,生成广告文本特征数据;
步骤S254:基于广告文本特征数据利用卡方检验方法进行关联文本择取,生成关联特征数据;
步骤S255:基于关联特征数据以及标准网页数据利用聚类算法进行网页广告数据提取,生成网页广告数据。
5.根据权利要求3所述的方法,其特征在于,步骤S26的具体步骤为:
步骤S261:基于网页广告数据进行预处理操作,生成模型预处理数据集;
步骤S262:基于模型预处理数据集进行数据划分处理,生成广告分析训练集以及广告分析测试集;
步骤S263:获取梯度提升树模型参数,其中梯度提升树模型参数包括梯度提升树数量数据、梯度提升树深度数据以及梯度提升树学习率数据;
步骤S264:获取计算器预期处理效率数据,基于计算器预期处理效率数据、梯度提升树数量数据、梯度提升树学习率数据利用最优迭代次数计算公式进行最优迭代次数计算,生成最优迭代次数数据;
步骤S265:基于梯度提升树模型参数进行初级分析模型构建,生成初级分析模型;
步骤S266:基于最优迭代次数数据、初级分析模型以及梯度提升树模型参数进行模型训练,生成初级训练模型;
步骤S267:基于初级训练模型以及广告分析测试集利用交叉验证方法进行模型调优,生成网页广告分析模型。
6.根据权利要求5所述的方法,其特征在于,步骤S264中的最优迭代次数计算公式具体为:
其中,T为最优迭代次数数据,argmin为argmin函数,t为迭代次数数据,E为计算器预期处理效率数据,N为梯度提升树数量数据,μ为梯度提升树学习效率数据,exp为自然指数函数,D为梯度提升树深度数据。
7.根据权利要求1所述的方法,其特征在于,步骤S3的具体步骤为:
步骤S31:获取资源调度数据集,其中资源调度数据集包括历史网页加载时间数据、历史资源占用情况数据以及历史资源类型数据;
步骤S32:基于历史资源占用情况数据、历史资源类型数据以及历史网页加载时间数据利用资源优先级计算公式进行资源优先级计算,生成资源优先级数据;
步骤S33:基于资源优先级数据以及资源调度数据集利用调度算法进行资源调度策略建立,生成资源调度策略。
8.根据权利要求7所述的方法,其特征在于,步骤S32中的资源优先级计算公式具体为:
其中,P为资源优先级数据,M为历史资源数量,wz为第z个资源的历史占用情况数据,bz为第z个资源的加载时间数据中的最长加载时间,L(t)为历史网页加载时间数据函数,t为资源加载时间,yz为第z个资源的历史类型对应权重数据。
9.根据权利要求1所述的方法,其特征在于,步骤S4的具体步骤为:
步骤S41:获取目标采集网站数据;
步骤S42:基于资源调度策略进行调度数据抽取,生成采集频率数据、并发度数据以及访问间隔数据;
步骤S43:基于采集频率数据、并发度数据、访问间隔数据以及目标采集网站数据进行并发网站数据采集,生成并发采集数据集;
步骤S44:基于并发采集数据集利用网页广告分析模型进行广告过滤,生成过滤采集数据集,从而实现基于网页标签分析的无广告数据采集。
10.一种基于网页标签分析的数据采集系统,其特征在于,包括:
网页动静态划分处理模块,用于获取历史网页源代码集,基于历史网页源代码集进行动静态划分处理,生成动态网页数据与静态网页数据,基于动态网页数据与静态网页数据进行网页合并操作,生成完整网页数据;
网页广告分析模型构建模块,用于利用完整网页数据通过使用XPath规则、文字特征分析处理进行网页广告分析模型构建,生成网页广告分析模型;
资源调度策略构建模块,用于通过获取资源调度数据集,利用资源调度数据集进行资源调度策略构建,生成资源调度策略;
自动化数据采集模块,用于通过获取目标采集网站数据,利用资源调度策略、目标采集网站数据以及网页广告分析模型进行自动化数据采集,实现基于网页标签分析的无广告数据采集。
CN202310827978.4A 2023-07-06 2023-07-06 一种基于网页标签分析的数据采集方法及系统 Withdrawn CN116910335A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310827978.4A CN116910335A (zh) 2023-07-06 2023-07-06 一种基于网页标签分析的数据采集方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310827978.4A CN116910335A (zh) 2023-07-06 2023-07-06 一种基于网页标签分析的数据采集方法及系统

Publications (1)

Publication Number Publication Date
CN116910335A true CN116910335A (zh) 2023-10-20

Family

ID=88361069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310827978.4A Withdrawn CN116910335A (zh) 2023-07-06 2023-07-06 一种基于网页标签分析的数据采集方法及系统

Country Status (1)

Country Link
CN (1) CN116910335A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117493113A (zh) * 2023-11-08 2024-02-02 上海一谈网络科技有限公司 数据上报方法、装置、计算机设备和存储介质
CN117608866A (zh) * 2024-01-24 2024-02-27 山东博商缘信息科技发展有限公司 一种基于大模型的数据协同处理方法及系统
CN117763216A (zh) * 2024-02-04 2024-03-26 广州敏行数字科技有限公司 基于人工智能的不规则数据提取方法及系统
CN117973392A (zh) * 2024-03-20 2024-05-03 兴宁市云诺网络科技有限公司 一种基于网页标签分析的数据自动采集方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117493113A (zh) * 2023-11-08 2024-02-02 上海一谈网络科技有限公司 数据上报方法、装置、计算机设备和存储介质
CN117608866A (zh) * 2024-01-24 2024-02-27 山东博商缘信息科技发展有限公司 一种基于大模型的数据协同处理方法及系统
CN117608866B (zh) * 2024-01-24 2024-05-03 山东博商缘信息科技发展有限公司 一种基于大模型的数据协同处理方法及系统
CN117763216A (zh) * 2024-02-04 2024-03-26 广州敏行数字科技有限公司 基于人工智能的不规则数据提取方法及系统
CN117763216B (zh) * 2024-02-04 2024-09-24 广州敏行数字科技有限公司 基于人工智能的不规则数据提取方法及系统
CN117973392A (zh) * 2024-03-20 2024-05-03 兴宁市云诺网络科技有限公司 一种基于网页标签分析的数据自动采集方法

Similar Documents

Publication Publication Date Title
CN116910335A (zh) 一种基于网页标签分析的数据采集方法及系统
Bilal et al. Big Data in the construction industry: A review of present status, opportunities, and future trends
CN111026671B (zh) 测试用例集构建方法和基于测试用例集的测试方法
Bauer et al. Quantitive evaluation of Web site content and structure
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
US11550856B2 (en) Artificial intelligence for product data extraction
Jiang et al. HPC AI500: a benchmark suite for HPC AI systems
CN111708774B (zh) 一种基于大数据的产业分析系统
CN103443786A (zh) 识别网络浏览器中的并行布局的独立任务的机器学习方法
CN107766309A (zh) 数据表格生成方法、装置以及存储介质、电子装置
KR101801257B1 (ko) 효율적 건설문서 관리를 위한 텍스트마이닝 적용 기술
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN110427483A (zh) 文本摘要评测方法、装置、系统及评测服务器
CN111192176A (zh) 一种支持教育信息化评估的在线数据采集方法及装置
CN113779540A (zh) 一种基于rpa的企业公示信息数据采集方法
CN111858962A (zh) 数据处理方法、装置及计算机可读存储介质
CN106484913A (zh) 一种目标图片确定的方法以及服务器
Nelli An introduction to data analysis
Kozlova et al. Development of the toolkit to process the internet memes meant for the modeling, analysis, monitoring and management of social processes
Zhao et al. State and tendency: an empirical study of deep learning question&answer topics on Stack Overflow
Park et al. A new forecasting system using the latent dirichlet allocation (LDA) topic modeling technique
CN113254428A (zh) 一种基于决策树的缺失数据填充方法及系统
Hunter et al. Grounded theory: Its diversification and application through two examples from research studies on knowledge and value management
JP7543339B2 (ja) 文献マッピング表示装置、文献マッピング表示方法、及び文献マッピング表示プログラム
El Mhouti et al. A Web Scraping Framework for Descriptive Analysis of Meteorological Big Data for Decision-Making Purposes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20231020

WW01 Invention patent application withdrawn after publication