CN114297465A - 一种网页信息处理方法、系统、电子设备及存储介质 - Google Patents
一种网页信息处理方法、系统、电子设备及存储介质 Download PDFInfo
- Publication number
- CN114297465A CN114297465A CN202111641679.9A CN202111641679A CN114297465A CN 114297465 A CN114297465 A CN 114297465A CN 202111641679 A CN202111641679 A CN 202111641679A CN 114297465 A CN114297465 A CN 114297465A
- Authority
- CN
- China
- Prior art keywords
- weight data
- webpage
- web page
- web
- root
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本申请实施例提供一种网页信息处理方法、系统、电子设备及存储介质,信息处理技术领域。该网页信息处理方法包括:获取多个网页中每个网页的权重数据和根页面的权重数据;遍历多个网页中的每个网页,并对遍历到的每个网页的权重数据执行以下处理:以当前遍历到的网页作为目标网页,获取目标网页的链出数据,链出数据包括目标网页链出的外链接网页;根据链出数据将目标网页的权重数据分配至外链接网页或根网页;将目标网页的权重数据清零;将根页面的权重数据分配至多个网页中的每个网页;将根页面的权重数据清零;根据分配后的网页的权重数据进行网络爬虫爬取。该网页信息处理方法可以实现提高网页系统的评分稳定性的技术效果。
Description
技术领域
本申请涉及信息处理技术领域,具体而言,涉及一种网页信息处理方法、系统、电子设备及存储介质。
背景技术
目前,随着互联网的快速发展以及个人计算机的普及,如何快速、准确的从海量的信息库中检索到自己需要的信息,是广大网民面临的重要问题,搜索引擎随之成为人们广泛使用的信息检索工具。随着信息量的增长,各种重复、无效、虚假的网页充斥于互联网中。因此,筛选垃圾网页,判断页面的重要性至关重要,尤其对于搜索引擎所依赖的网络爬虫来说尤为关键。
现有技术中,一般通过PageRank算法或在线页面重要性计算(OPIC,Online PageImportance Computation)算法进行网络爬虫爬取网页。但是,PageRank算法是对已下载的所有网页来进行迭代计算的,每次计算需要耗费大量资源,需要离线计算。不适于在线使用,且新网页导入链接相比较少,对新网页不公平。OPIC算法是根据网页链接拥有现金(cash)的多少来决定网页的重要程度,即网页分数;通过OPIC算法经过多次抓取后,由cash计算的分数也会减少,导致网页分数的质量远低于初始系统的分数质量,造成评分系统的不稳定性。
发明内容
本申请实施例的目的在于提供一种网页信息处理方法、系统、电子设备及存储介质,可以实现提高网页系统的评分稳定性的技术效果。
第一方面,本申请实施例提供了一种网页信息处理方法,应用于网页系统,所述网页系统包括多个网页和一个根网页,所述方法包括:
获取所述多个网页中每个网页的权重数据和所述根页面的权重数据;
遍历所述多个网页中的每个网页,并对遍历到的每个网页的权重数据执行以下处理:
以当前遍历到的网页作为目标网页,获取所述目标网页的链出数据,所述链出数据包括所述目标网页链出的外链接网页;
根据所述链出数据将所述目标网页的权重数据分配至所述外链接网页或所述根网页;
将所述目标网页的权重数据清零;
将所述根页面的权重数据分配至所述多个网页中的每个网页;
将所述根页面的权重数据清零;
根据分配后的所述网页的权重数据进行网络爬虫爬取。
在上述实现过程中,该网页信息处理方法通过增加在网页系统中增加一个与所有网页相连通的根页面,从而在遇到叶子节点(网页没有外链于其他网页链接)时,可以将本该消失的权重数据流入到根网页中,使整个网页系统拥有的权重数据保持恒定,保证后续对网页评分的比重与初始的网页评分方式相同(不会因权重数据的减少导致网页系统整体分数的降低);从而,该网页信息处理方法可以实现提高网页系统的评分稳定性的技术效果。
进一步地,所述根据所述链出数据将所述目标网页的权重数据分配至所述外链接网页或所述根网页的步骤,包括:
判断所述外链接网页的个数是否为零;
若所述外链接网页的个数为零,将所述目标网页的权重数据分配至所述根页面;
若所述外链接网页的个数不为零,根据所述链出数据将所述目标网页的权重数据分配至所述外链接网页。
在上述实现过程中,若目标网页的外链接网页的个数为零,则说明该目标网页为叶子节点,需要将其权重数据回收至根网页中;若目标网页的外链接网页的个数不为零,则将其权重数据分配至外链接网页,完成本轮此的分配过程。
进一步地,所述根据所述链出数据将所述目标网页的权重数据分配至所述外链接网页的步骤,包括:
根据所述链出数据将所述目标网页的权重数据平均分配至所述外链接网页。
进一步地,所述将所述根页面的权重数据分配至所述多个网页中的每个网页的步骤,包括:
将所述根页面的权重数据平均分配至所述多个网页中的每个网页。
在上述实现过程中,将根网页的权重数据平均分配给当前网页系统中的所有网页。
进一步地,所述将所述根页面的权重数据分配至所述多个网页中的每个网页的步骤,包括:
获取所述多个网页的历史总权重数据;
获取所述多个网页中每个网页的历史权重数据和所述历史总权重数据之间的比值参数;
根据所述比值参数和预设分配公式将所述根页面的权重数据分配至所述多个网页中的每个网页。
进一步地,所述预设分配公式:
其中,current_cash为分配给所述网页的权重数据,R_cash为所述根页面的权重数据,current_score为所述网页的历史权重数据,total_score为所述历史总权重数据,current_score和total_score的比值为所述比值参数。
进一步地,所述预设分配公式:
其中,current_cash为分配给所述网页的权重数据,R_cash为所述根页面的权重数据,count为所述多个网页的网页总数,current_score为所述网页的历史权重数据,total_score为所述历史总权重数据,为所述比值参数。
第二方面,本申请实施例提供了一种网页信息处理系统,应用于网页系统,所述网页系统包括多个网页和一个根网页,所述网页信息处理系统包括:
获取模块,用于获取所述多个网页中每个网页的权重数据和所述根页面的权重数据;
遍历模块,用于遍历所述多个网页中的每个网页,并对遍历到的每个网页的权重数据执行以下处理:以当前遍历到的网页作为目标网页,获取所述目标网页的链出数据,所述链出数据包括所述目标网页链出的外链接网页;根据所述链出数据将所述目标网页的权重数据分配至所述外链接网页或所述根网页;将所述目标网页的权重数据清零;将所述根页面的权重数据分配至所述多个网页中的每个网页;将所述根页面的权重数据清零;
网络爬虫模块,用于根据分配后的所述网页的权重数据进行网络爬虫爬取。
进一步地,所述遍历模块包括:
判断单元,判断所述外链接网页的个数是否为零;
第一分配单元,用于若所述外链接网页的个数为零,将所述目标网页的权重数据分配至所述根页面;
第二分配单元,用于若所述外链接网页的个数不为零,根据所述链出数据将所述目标网页的权重数据分配至所述外链接网页。
进一步地,所述第一分配单元具体用于根据所述链出数据将所述目标网页的权重数据平均分配至所述外链接网页。
进一步地,所述遍历模块还包括:
第一根页面分配单元,用于将所述根页面的权重数据平均分配至所述多个网页中的每个网页。
进一步地,所述遍历模块还包括:
总权重获取单元,用于获取所述多个网页的历史总权重数据;
比值获取单元,用于获取所述多个网页中每个网页的历史权重数据和所述历史总权重数据之间的比值参数;
第二根页面分配单元,用于根据所述比值参数和预设分配公式将所述根页面的权重数据分配至所述多个网页中的每个网页。
第三方面,本申请实施例提供的一种电子设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面任一项所述的方法的步骤。
第四方面,本申请实施例提供的一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如第一方面任一项所述的方法。
第五方面,本申请实施例提供的一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行如第一方面任一项所述的方法。
本申请公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本申请公开的上述技术即可得知。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的网页系统的结构示意图;
图2为本申请实施例提供的一种网页信息处理方法的流程示意图;
图3为本申请实施例提供的分配目标网页的权重数据的流程示意图;
图4为本申请实施例提供的分配根页面的权重数据的流程示意图;
图5为本申请实施例提供的网页信息处理系统的结构框图;
图6为本申请实施例提供的一种电子设备的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
本申请实施例提供了一种网页信息处理方法、系统、电子设备及存储介质,可以应用于网络的信息检索过程中,例如网络爬虫爬取网页页面的过程;该网页信息处理方法通过增加在网页系统中增加一个与所有网页相连通的根页面,从而在遇到叶子节点(网页没有外链于其他网页链接)时,可以将本该消失的权重数据流入到根网页中,使整个网页系统拥有的权重数据保持恒定,保证后续对网页评分的比重与初始的网页评分方式相同(不会因权重数据的减少导致网页系统整体分数的降低);从而,该网页信息处理方法可以实现提高网页系统的评分稳定性的技术效果。
请参见图1,图1为本申请实施例提供的网页系统的结构示意图,该网页系统包括多个网页和一个根网页;作为示例,网页系统包括网页A、网页B、网页C、网页D,根网页为网页R;网页D除了根网页之外没有外链接网页,即为叶子节点。
示例性地,网页系统的网页数量仅作为示例而非限定,具体数量可以根据实际需要进行修改。
示例性地,如图1所示,传统OPIC算法中不包括根网页R,传统OPIC算法的分配原理具体说明如下:网页A、网页B、网页C、网页D代表4个网页,实向箭头的指向代表该网页存在一条网址,链接到其他网页上,即外链接(链出数据)。如:网页A的外链接是网页B,即网页B为网页A链出的外链接网页;同理,网页B的外链接有2个,分别是网页A和网页C,即网页A、网页C为网页B链出的外链接网页;网页C的外链接有3个,分别是网页A、网页B、网页D等等。
在传统OPIC算法的分配方案中,设置每个网页初始的cash值(权重数据)为1,则当前网页系统的总cash值为4。每轮分配过程中,当前网页会将所拥有的cash值平分给自己的外链接网页;分配结束后,当前网页的cash值清零,各个网页会将本轮分配到自己页面的cash值相加,得到新的cash值。从而,根据cash值进而计算出分数值,从而跟据分数来决定本批次网页的重要性,决定爬取的先后顺序。换言之,OPIC算法会将拥有的cash转化为网页分数,分数较大的网页链接优先将被下载。
在一些实施方式中,按上述传统OPIC算法的分配方案,图1示例的具体分配过程如下:网页C的外链接有3条,即将网页C的cash=1,平分为三份,分给每个外链接网页1/3cash;网页A从网页C处获取的cash为1/3;从网页B处获取1/2,则一轮过去后,网页A拥有的cash值为5/6;
从而,当一轮分配过后,网页A的cash值为5/6,网页B的cash值为4/3,网页C的cash值为1/2,网页D的cash值为1/3。网页D由于没有外链接,在分配过程结束后,会将自己的cash值清零,这样整个网页系统中的cash值总量便减少了1,当前网页系统的cash总量为3。所以整个系统中的cash总量在多轮循环后将越趋减少,导致网页分数的质量远低于初始系统的分数质量,造成评分系统的不稳定性。
请参见图2,图2为本申请实施例提供的一种网页信息处理方法的流程示意图,该网页信息处理方法应用于如图1所示的网页系统,网页系统包括多个网页和一个根网页,该网页信息处理方法包括:
S100:获取多个网页中每个网页的权重数据和根页面的权重数据。
示例性地,在初始化整个网页系统时,将给每个网页配置初始的权重数据(即cash值,下文不再赘述);在每个轮次的权重数据分配过程中,需要获取上一轮分配好的各个网页的权重数据(或初始的权重数据),再进行本轮次的权重数据再分配。
在一些实施方式中,初始化网页系统时,配置给根网页的cash值为零。
S200:遍历多个网页中的每个网页,并对遍历到的每个网页的权重数据执行以下处理:
S210:以当前遍历到的网页作为目标网页,获取目标网页的链出数据,链出数据包括目标网页链出的外链接网页;
S220:根据链出数据将目标网页的权重数据分配至外链接网页或根网页;
S230:将目标网页的权重数据清零。
示例性地,在一个轮次的分配过程中,会遍历每个网页,实现每个网页的权重数据再分配;遍历时,若目标网页有外链接网页(除了根网页之外),则将目标网页的权重数据分配至外链接网页;若目标网页没有外链接网页(除了根网页之外),则将目标网页的权重数据分配至根网页;然后将目标网页的权重数据清零。
需要注意的是,在每个轮次的分配过程中,通过分配获得的权重数据在本轮次中不再参与分配,避免出现重复分配的情况。
S240:将根页面的权重数据分配至多个网页中的每个网页;
S250:将根页面的权重数据清零。
示例性地,在每轮分配过程中,根页面的权重数据会分配至每个网页,然后将根页面的权重数据清零,从而保证整个网页系统的总权重数据保持恒定。
S300:根据分配后的网页的权重数据进行网络爬虫爬取。
在一些实施场景中,该网页信息处理方法通过增加在网页系统中增加一个与所有网页相连通的根页面,从而在遇到叶子节点(网页没有外链于其他网页链接)时,可以将本该消失的权重数据流入到根网页中,使整个网页系统拥有的权重数据保持恒定,保证后续对网页评分的比重与初始的网页评分方式相同(不会因权重数据的减少导致网页系统整体分数的降低);从而,该网页信息处理方法可以实现提高网页系统的评分稳定性的技术效果。
请参见图3,图3为本申请实施例提供的分配目标网页的权重数据的流程示意图。
示例性地,S220:根据链出数据将目标网页的权重数据分配至外链接网页或根网页的步骤,包括:
S221:判断外链接网页的个数是否为零;
S222:若外链接网页的个数为零,将目标网页的权重数据分配至根页面;
S223:若外链接网页的个数不为零,根据链出数据将目标网页的权重数据分配至外链接网页。
示例性地,若目标网页的外链接网页的个数为零,则说明该目标网页为叶子节点,需要将其权重数据回收至根网页中;若目标网页的外链接网页的个数不为零,则将其权重数据分配至外链接网页,完成本轮此的分配过程。
可选地,S223:根据链出数据将目标网页的权重数据分配至外链接网页的步骤,包括:
根据链出数据将目标网页的权重数据平均分配至外链接网页。
可选地,S240:将根页面的权重数据分配至多个网页中的每个网页的步骤,包括:
将根页面的权重数据平均分配至多个网页中的每个网页。
示例性地,将根网页的权重数据平均分配给当前网页系统中的所有网页。
请参见图4,图4为本申请实施例提供的分配根页面的权重数据的流程示意图。
示例性地,S240:将根页面的权重数据分配至多个网页中的每个网页的步骤,包括:
S241:获取多个网页的历史总权重数据;
S242:获取多个网页中每个网页的历史权重数据和历史总权重数据之间的比值参数;
S243:根据比值参数和预设分配公式将根页面的权重数据分配至多个网页中的每个网页。
可选地,预设分配公式:
其中,current_cash为分配给网页的权重数据,R_cash为根页面的权重数据,current_score为网页的历史权重数据,total_score为历史总权重数据,current_score和total_score的比值为比值参数。
示例性地,该预设分配公式的策略是考虑优先更新那些权重数据更高的网页,而忽略权重数据较低的网页;即将根网页的权重数据主要分配给当前网页系统中的分数较高的网页,当前网页分数与总分数的占比越高,从根网页分配获得的权重数据也就越高。
可选地,预设分配公式:
其中,current_cash为分配给网页的权重数据,R_cash为根页面的权重数据,count为多个网页的网页总数,current_score为网页的历史权重数据,total_score为历史总权重数据,为比值参数。
示例性地,该预设分配公式的策略为提高低分数(包括新网页)获取权重数据的比例,保持各个网页的权重数据的均衡;此时,为保证总的分配权重数据总量等于R_cash的量,应将每次获取的权重数据等分为count-1份。
在一些实施场景中,本申请实施例提供的网页信息处理方法是基于自适应在线网页重要性计算的通用爬虫改进算法,是在上述的传统OPIC算法的基础上进行改进的;具体的改进方案为增加一个与所有页面(网页)相连通的根页面(根网页),当遇到叶子节点时,将本该消失的cash值流入到根页面中,使整个网页系统拥有的cash量恒定,保证后续评分的比重与初始的评分方式相同,不会因cash的减少导致网页系统整体分数的降低。
示例性地,根网页获取的cash值会根据指定的爬取策略,在下一轮选取待爬取网页时重新分配,避免现金量的流失;作为示例,结合图1至图4,当传递cash值时,由于网页D不含有外链接网页,这时将开启与根网页R的链接,网页D将当前所拥有的cash值全部传递给根网页R,这时可以确保当前的网页系统中的cash总量相同,恒定为4;从而,解决了传统OPIC算法中因为cash值的流失,造成整体网页的评分下降的影响。
示例性地,根网页R持有的cash值将在下一轮爬取过程中根据具体的业务需求选择不同的分配策略,如下公式所示:
current_cash-R_cash*N;
其中,current_cash为分配给当前网页的cash值;R_cash为上一轮根网页持有的cash值;N为目标分配比例,根据业务需求可选择不同策略,具体方案如下公式所示:
其中,count为当前网页系统中存储的网页总数;current_score为当前网页的cash值;total_score为当前网页系统中所有网页的cash值之和。
示例性地,第一种分配策略仅保持网页系统中cash值的恒定,且所有网页爬取优先权平等;做法是将根网页的cash值平均分配给当前系统中的所有网页:此时N取值为1/count。
示例性地,第二种分配策略为提高分数(score)较高网页的抓取概率;该策略是考虑优先更新那些重要的网页,而忽略分数较低的网页,做法是将节点R的cash主要分配给当前系统中的分数较高的网页,此时N取值为当前网页分数与总分数的占比,即N=current_score/total_score。
示例性地,第三种分配策略为扩大抓取范围,提高新网页或分数较低网页的抓取概率;与第二种分配策略相反,使用(1-current_score/total_score),来提高低分数(包括新网页)获取cash值的比例,此时为保证总的分配cash总量等于R_cash的量,应将每次获取的cash等分为count-1份,即N=(1/(count-1))*(1-current_score/total_score)。
示例性地,通过增加根网页来存储在传统OPIC算法中遗失的cash值,保证系统评分的一致性,不会因时间推移,整体的网页分数都将降低,保障了网页评分系统的稳定可靠。同时提出根网页持有的cash分配策略,根据业务场景可选择不同的策略,提高了爬虫系统的灵活性。
请参见图5,图5为本申请实施例提供的网页信息处理系统的结构框图,应用于网页系统,网页系统包括多个网页和一个根网页,该网页信息处理系统包括:
获取模块100,用于获取多个网页中每个网页的权重数据和根页面的权重数据;
遍历模块200,用于遍历多个网页中的每个网页,并对遍历到的每个网页的权重数据执行以下处理:以当前遍历到的网页作为目标网页,获取目标网页的链出数据,链出数据包括目标网页链出的外链接网页;根据链出数据将目标网页的权重数据分配至外链接网页或根网页;将目标网页的权重数据清零;将根页面的权重数据分配至多个网页中的每个网页;将根页面的权重数据清零;
网络爬虫模块300,用于根据分配后的网页的权重数据进行网络爬虫爬取。
示例性地,遍历模块200包括:
判断单元,判断外链接网页的个数是否为零;
第一分配单元,用于若外链接网页的个数为零,将目标网页的权重数据分配至根页面;
第二分配单元,用于若外链接网页的个数不为零,根据链出数据将目标网页的权重数据分配至外链接网页。
示例性地,第一分配单元具体用于根据链出数据将目标网页的权重数据平均分配至外链接网页。
示例性地,遍历模块200还包括:
第一根页面分配单元,用于将根页面的权重数据平均分配至多个网页中的每个网页。
示例性地,遍历模块200还包括:
总权重获取单元,用于获取多个网页的历史总权重数据;
比值获取单元,用于获取多个网页中每个网页的历史权重数据和历史总权重数据之间的比值参数;
第二根页面分配单元,用于根据比值参数和预设分配公式将根页面的权重数据分配至多个网页中的每个网页。
应理解,图5所示的网页信息处理系统与图1至图4所示的方法实施例相对应,为避免重复,此处不再赘述。
本申请还提供一种电子设备,请参见图6,图6为本申请实施例提供的一种电子设备的结构框图。电子设备可以包括处理器510、通信接口520、存储器530和至少一个通信总线540。其中,通信总线540用于实现这些组件直接的连接通信。其中,本申请实施例中电子设备的通信接口520用于与其他节点设备进行信令或数据的通信。处理器510可以是一种集成电路芯片,具有信号的处理能力。
上述的处理器510可以是通用处理器,包括中央处理器(CPU,Central ProcessingUnit)、网络处理器(NP,Network Processor)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器510也可以是任何常规的处理器等。
存储器530可以是,但不限于,随机存取存储器(RAM,Random Access Memory),只读存储器(ROM,Read Only Memory),可编程只读存储器(PROM,Programmable Read-OnlyMemory),可擦除只读存储器(EPROM,Erasable Programmable Read-Only Memory),电可擦除只读存储器(EEPROM,Electric Erasable Programmable Read-Only Memory)等。存储器530中存储有计算机可读取指令,当所述计算机可读取指令由所述处理器510执行时,电子设备可以执行上述图1至图4方法实施例涉及的各个步骤。
可选地,电子设备还可以包括存储控制器、输入输出单元。
所述存储器530、存储控制器、处理器510、外设接口、输入输出单元各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通信总线540实现电性连接。所述处理器510用于执行存储器530中存储的可执行模块,例如电子设备包括的软件功能模块或计算机程序。
输入输出单元用于提供给用户创建任务以及为该任务创建启动可选时段或预设执行时间以实现用户与服务器的交互。所述输入输出单元可以是,但不限于,鼠标和键盘等。
可以理解,图6所示的结构仅为示意,所述电子设备还可包括比图6中所示更多或者更少的组件,或者具有与图6所示不同的配置。图6中所示的各组件可以采用硬件、软件或其组合实现。
本申请实施例还提供一种存储介质,所述存储介质上存储有指令,当所述指令在计算机上运行时,所述计算机程序被处理器执行时实现方法实施例所述的方法,为避免重复,此处不再赘述。
本申请还提供一种计算机程序产品,所述计算机程序产品在计算机上运行时,使得计算机执行方法实施例所述的方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
Claims (10)
1.一种网页信息处理方法,其特征在于,应用于网页系统,所述网页系统包括多个网页和一个根网页,所述方法包括:
获取所述多个网页中每个网页的权重数据和所述根页面的权重数据;
遍历所述多个网页中的每个网页,并对遍历到的每个网页的权重数据执行以下处理:
以当前遍历到的网页作为目标网页,获取所述目标网页的链出数据,所述链出数据包括所述目标网页链出的外链接网页;
根据所述链出数据将所述目标网页的权重数据分配至所述外链接网页或所述根网页;
将所述目标网页的权重数据清零;
将所述根页面的权重数据分配至所述多个网页中的每个网页;
将所述根页面的权重数据清零;
根据分配后的所述网页的权重数据进行网络爬虫爬取。
2.根据权利要求1所述的网页信息处理方法,其特征在于,所述根据所述链出数据将所述目标网页的权重数据分配至所述外链接网页或所述根网页的步骤,包括:
判断所述外链接网页的个数是否为零;
若所述外链接网页的个数为零,将所述目标网页的权重数据分配至所述根页面;
若所述外链接网页的个数不为零,根据所述链出数据将所述目标网页的权重数据分配至所述外链接网页。
3.根据权利要求2所述的网页信息处理方法,其特征在于,所述根据所述链出数据将所述目标网页的权重数据分配至所述外链接网页的步骤,包括:
根据所述链出数据将所述目标网页的权重数据平均分配至所述外链接网页。
4.根据权利要求1所述的网页信息处理方法,其特征在于,所述将所述根页面的权重数据分配至所述多个网页中的每个网页的步骤,包括:
将所述根页面的权重数据平均分配至所述多个网页中的每个网页。
5.根据权利要求1所述的网页信息处理方法,其特征在于,所述将所述根页面的权重数据分配至所述多个网页中的每个网页的步骤,包括:
获取所述多个网页的历史总权重数据;
获取所述多个网页中每个网页的历史权重数据和所述历史总权重数据之间的比值参数;
根据所述比值参数和预设分配公式将所述根页面的权重数据分配至所述多个网页中的每个网页。
8.一种网页信息处理系统,其特征在于,应用于网页系统,所述网页系统包括多个网页和一个根网页,所述网页信息处理系统包括:
获取模块,用于获取所述多个网页中每个网页的权重数据和所述根页面的权重数据;
遍历模块,用于遍历所述多个网页中的每个网页,并对遍历到的每个网页的权重数据执行以下处理:以当前遍历到的网页作为目标网页,获取所述目标网页的链出数据,所述链出数据包括所述目标网页链出的外链接网页;根据所述链出数据将所述目标网页的权重数据分配至所述外链接网页或所述根网页;将所述目标网页的权重数据清零;将所述根页面的权重数据分配至所述多个网页中的每个网页;将所述根页面的权重数据清零;
网络爬虫模块,用于根据分配后的所述网页的权重数据进行网络爬虫爬取。
9.一种电子设备,其特征在于,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的网页信息处理方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行如权利要求1至7任一项所述的网页信息处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111641679.9A CN114297465A (zh) | 2021-12-29 | 2021-12-29 | 一种网页信息处理方法、系统、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111641679.9A CN114297465A (zh) | 2021-12-29 | 2021-12-29 | 一种网页信息处理方法、系统、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114297465A true CN114297465A (zh) | 2022-04-08 |
Family
ID=80971940
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111641679.9A Pending CN114297465A (zh) | 2021-12-29 | 2021-12-29 | 一种网页信息处理方法、系统、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114297465A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023206988A1 (zh) * | 2022-04-29 | 2023-11-02 | 北京百度网讯科技有限公司 | 网站的网页处理方法、装置、电子设备和存储介质 |
-
2021
- 2021-12-29 CN CN202111641679.9A patent/CN114297465A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023206988A1 (zh) * | 2022-04-29 | 2023-11-02 | 北京百度网讯科技有限公司 | 网站的网页处理方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11386435B2 (en) | System and method for global third party intermediary identification system with anti-bribery and anti-corruption risk assessment | |
Krapivsky et al. | Network growth by copying | |
US20240005030A1 (en) | Differentially Private Query Budget Refunding | |
JP2018538587A (ja) | リスク評価方法およびシステム | |
CN112783616B (zh) | 一种并发冲突处理方法、装置及计算机存储介质 | |
CN117063170A (zh) | 防御数据治理系统中的对抗性查询 | |
Pan et al. | Twitter homophily: Network based prediction of user’s occupation | |
CN110263233B (zh) | 企业舆情库构建方法、装置、计算机设备及存储介质 | |
Leusin et al. | Patenting patterns in Artificial Intelligence: Identifying national and international breeding grounds | |
CN114297465A (zh) | 一种网页信息处理方法、系统、电子设备及存储介质 | |
CN110569271A (zh) | 用于抽取特征的数据处理方法和系统 | |
Marszałek et al. | Fully flexible parallel merge sort for multicore architectures | |
CN109409990B (zh) | 交易撮合方法及装置 | |
US20080300981A1 (en) | Campaign optimization | |
CN111930350B (zh) | 一种基于计算模板的精算模型建立方法 | |
Geng et al. | Complex hybrid weighted pruning method for accelerating convolutional neural networks | |
CN113515517B (zh) | 一种基于树形结构数据查询数据集的方法和计算机设备 | |
Benadit et al. | Improving the performance of a proxy cache using tree augmented Naive Bayes classifier | |
Varis et al. | Modeling for water quality decisions: uncertainty and subjectivity in information, in objectives, and in model structure | |
WO2022152103A1 (en) | Information matching using subgraphs | |
Thulasiram et al. | Performance evaluation of parallel algorithms for pricing multidimensional financial derivatives | |
CN116127178A (zh) | 基于属性多重异构信息网络的网络文章影响力评估方法 | |
Christodoulaki et al. | Enhanced Strongly typed Genetic Programming for Algorithmic Trading | |
Ali et al. | Intelligent dynamic aging approaches in web proxy cache replacement | |
Alrahwan et al. | ASCF: Optimization of the Apriori Algorithm Using Spark‐Based Cuckoo Filter Structure |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |