CN113792232B - 页面特征计算方法、装置、电子设备、介质及程序产品 - Google Patents

页面特征计算方法、装置、电子设备、介质及程序产品 Download PDF

Info

Publication number
CN113792232B
CN113792232B CN202111070489.6A CN202111070489A CN113792232B CN 113792232 B CN113792232 B CN 113792232B CN 202111070489 A CN202111070489 A CN 202111070489A CN 113792232 B CN113792232 B CN 113792232B
Authority
CN
China
Prior art keywords
page
target
target page
pages
jump
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111070489.6A
Other languages
English (en)
Other versions
CN113792232A (zh
Inventor
刘伟
林赛群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111070489.6A priority Critical patent/CN113792232B/zh
Publication of CN113792232A publication Critical patent/CN113792232A/zh
Application granted granted Critical
Publication of CN113792232B publication Critical patent/CN113792232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种页面特征计算方法、装置、电子设备、介质及程序产品,涉及数据挖掘技术领域,尤其涉及大数据技术领域。具体实现方案为:获取目标页面的统一资源定位符URL,目标页面为待计算页面集中的任一页面,待计算页面集中包括需要进行特征计算的页面;基于目标页面的URL,从待计算页面集中获取与目标页面内容匹配的页面,将目标页面和与目标页面内容匹配的页面组成一个页面组;计算页面组中的一个页面的页面特征,将页面特征作为页面组中每个页面的页面特征。可以降低计算量。

Description

页面特征计算方法、装置、电子设备、介质及程序产品
技术领域
本公开涉及数据挖掘技术领域,尤其涉及大数据技术领域。
背景技术
在互联网数据挖掘工作中,需要对网络页面进行特征计算,这些页面的特征计算可以指对数据价值的衡量、对数据信息的提取,也可以是对各种维度的数据信息加工。
发明内容
本公开提供了一种页面特征计算方法、装置、电子设备、介质及程序产品。
根据本公开的第一方面,提供了一种页面特征计算方法,包括:
获取目标页面的统一资源定位符URL,所述目标页面为待计算页面集中的任一页面,所述待计算页面集中包括需要进行特征计算的页面;
基于所述目标页面的URL,从所述待计算页面集中获取与所述目标页面内容匹配的页面,将所述目标页面和与所述目标页面内容匹配的页面组成一个页面组;
计算所述页面组中的一个页面的页面特征,将所述页面特征作为所述页面组中每个页面的页面特征。
根据本公开的第二方面,提供了一种页面特征计算装置,包括:
获取模块,用于获取目标页面的统一资源定位符URL,所述目标页面为待计算页面集中的任一页面,所述待计算页面集中包括需要进行特征计算的页面;
分组模块,用于基于所述目标页面的URL,从所述待计算页面集中获取与所述目标页面内容匹配的页面,将所述目标页面和与所述目标页面内容匹配的页面组成一个页面组;
计算模块,用于计算所述页面组中的一个页面的页面特征,将所述页面特征作为所述页面组中每个页面的页面特征。
根据本公开的第三方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面所述的方法。
根据本公开的第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行上述第一方面所述的方法。
根据本公开的第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时执行上述第一方面所述的方法。
采用本公开实施例,可以将待计算页面集中的目标页面,以及与该目标页面内容匹配的页面组成一个页面组。针对一个页面组,可以只计算其中一个页面的页面特征,将该页面特征作为页面组中每个页面的页面特征,如此就无需分别对该页面组中的每个页面进行特征计算,可以减小计算量,降低计算资源的消耗。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的一种页面计算方法的流程图;
图2是本公开实施例提供的镜像站点之间的映射关系的示例性示意图;
图3是本公开实施例提供的不同类型的页面之间的匹配关系的示例性示意图;
图4是本公开实施例提供的页面之间的跳转关系的示例性示意图;
图5是本公开实施例提供的一种页面分组方法的流程图;
图6是本公开实施例提供的一种页面分组装置的结构示意图;
图7是用来实现本公开实施例的页面特征计算方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开实施例可以应用于对各种类型的页面进行特征计算的场景中,例如该页面可以为各种类型的网页,比如浏览器中的网页、各种APP中的超文本标记语言5(HyperTextMarkup Language5,H5)页面、小程序页面等。
需要说明的是,本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
本公开实施例提供的页面特征计算方法可以由电子设备执行,该电子设备可以为台式电脑、平板电脑、服务器、智能手机等具有页面特征计算能力的设备。
以下对本公开实施例提供的页面特征计算方法进行详细介绍。
如图1所示,本公开实施例提供一种页面特征计算方法,该方法包括:
S101、获取目标页面的统一资源定位符(Uniform Resource Locator,URL),目标页面为待计算页面集中的任一页面,待计算页面集中包括需要进行特征计算的页面。
待计算页面集中的页面可以根据实际需求选择,比如待计算页面集中可以包括从预设时间段产生的网页中随机抽取的预设数量的网页,或者为从指定平台中选择的预设数量的网页。本公开实施例对此不作限制。
S102、基于目标页面的URL,从待计算页面集中获取与目标页面内容匹配的页面,将目标页面和与目标页面内容匹配的页面组成一个页面组。
例如,与目标页面内容匹配的页面可以是与目标页面的实质内容相同的页面,或者也可以是与目标页面的页面结构相同的页面。一个页面组中包括至少两个页面。
S103、计算页面组中的一个页面的页面特征,将该页面特征作为页面组中每个页面的页面特征。
由于同一页面组包括的多个页面之间的内容匹配,所以同一页面组包括的多个页面具相同的页面特征,如此,本公开实施例可以计算同一页面组中其中一个页面的页面特征,并将该页面特征赋予同一页面组中的其他页面。
采用本公开实施例,可以将待计算页面集中的目标页面,以及与该目标页面内容匹配的页面组成一个页面组。针对一个页面组,可以只计算其中一个页面的页面特征,将该页面特征作为页面组中每个页面的页面特征,如此就无需分别对该页面组中的每个页面进行特征计算,可以减小计算量,降低计算资源的消耗。
需要说明的是,对于待计算页面集中的每个页面都可按照图1对应的流程进行特征计算,对于待计算页面集中已被赋予页面特征的页面,则无需作为目标页面执行图1对应的流程。
在本公开的一个实施例中,与目标页面内容匹配的页面可以为以下任意一种:
第一种、目标页面所属站点(site)的镜像站点中,与该目标页面对应的页面。
若将一个网站的多个副本放置于不同的服务器,则位于不同服务器上的该网站的站点互为镜像站点。通俗而言,镜像是指为相同的网页内容提供不同的源,一个网站的镜像站点可以看作是对该网站内容的拷贝,该网站中的页面与该网站的镜像站点中的页面具有一一映射关系。
示例性的,如图2所示,图2中示出了三组镜像站点,即site2为site1的镜像站点,site4为site3的镜像站点,site6为site5的镜像站点。
参见图2右侧部分,假设site3包括的三个页面的URL分别为URL1、URL3、URL5,site4包括的三个页面分别为URL2、URL4、URL6,因site4为site3的镜像站点,所以site4与site3的站点内容相同,因此可以认为URL1与URL2具有映射关系,这两个页面的页面内容相同。同理,URL3与URL4也具有映射关系,URL5与URL6也具有映射关系。
以图2为例,若目标页面为site3中URL1对应页面,则site4中与目标页面对应的页面为URL2对应页面。
第二种、与目标页面所包含的实质内容相同,但页面类型与目标页面不同的页面。
其中,页面类型包括个人计算机(Personal Computer,PC)页面、H5页面、小程序页面和移动网页加速器(Mobile Instant Pages,MIP)加速页。
例如,一个网页在小程序中打开后对应的页面为页面A,在浏览器中打开后对应的页面为页面B,则页面A与页面B属于内容匹配的页面。
示例性地,如图3所示,图3中示出了四组页面组,图3中的页面组也可以称为适配页面组。
如果一个PC页面能够以H5页面的形式打开,则该PC页面和该H5页面可以作为一个页面组,也可称之为一个适配页面组。
如果一个PC页面具有MIP加速页,则该PC页面与该MIP加速页可作为一个适配页面组。
如果一个PC页面可以在小程序中打开,则该PC页面与小程序页面可作为一个适配页面组。
如果一个H5页面可以在小程序中打开,则该H5页面与小程序页面可作为一个适配页面组。
另外,如果一个PC页面既存在对应的H5页面,又存在对应的小程序页面,则该PC页面、H5页面和小程序页面可组成一个适配页面组。
第三种、与目标页面之间具有跳转关系且页面内容相同的页面。
其中,该跳转关系可以为301跳转、302跳转或其他的自动跳转方式。
301跳转也可称为301重定向,是指页面永久性跳转,用于旧网址在废弃前转向新网址以保证用户的访问。比如,当用户点击旧URL地址时,会自动跳转到该旧URL地址对应的一个新URL地址。
302跳转也可称为302重定向,是指页面暂时性跳转。当一个网页经过短期的URL变化时可以使用302重定向实现,比如,如果一个网页的网页地址由URL1变更为URL2,那么当URL1被访问时,会自动跳转到URL2对应的页面。
也就是说,如果目标页面被打开时会发生自动跳转,且跳转后的页面与目标页面中的页面内容相同,则目标页面和跳转后的页面可以组成一个页面组。
如图4所示,上述跳转关系可以为站内跳转、站外跳转或异常跳转。站内跳转是指跳转前的页面与跳转后的页面属于同一站点。站外跳转是指跳转前的页面与跳转后的页面属于不同站点。上述301跳转和302跳转可以为站内跳转,也可以为站外跳转。
异常跳转是指一个页面的连续跳转次数大于等于预设次数阈值。可选地,该预设次数阈值可以为2。例如,若从URL1跳转到URL2,又跳转到URL3,最终跳转到URL4,出现了不间断多次跳转行为,跳转次数为3,该跳转次数大于预设次数阈值,可以确定URL1到URL4之间的跳转关系为异常跳转。在这种情况下,如果URL1、URL2、URL3、URL4的页面标题相同,则可确定URL1、URL2、URL3、URL4为一个页面组。
第四种、与目标页面之间具有泛化关系的页面。
其中,泛化关系是指多个页面具有相同的页面结构或者多个页面具有同类数据。例如,如果多个页面通过相同的页面模板生成,则可确定这多个页面之间具有泛化关系,这种情况下,这多个采用相同模板生成的页面可以组成一个页面组。
或者,泛化关系是指多个页面之间具有一部分相同的内容,比如每个页面中其中一个模块的内容相同,
第五种、包括目标页面中的主体内容的页面。
其中,页面中的主体内容可以为作者(内容发布者)在网络中发布的内容。
如果同一作者在不同平台发布相同的内容,此种情况下,该作者在不同平台中发布相同内容的页面可作为一个页面组。
另外,在作者发布内容后,该作者发布的内容可能会被转载、采集、再加工等,转载、采集、或者再加工后生成的页面与该作者发布内容的页面也属于一个页面组。
采用本公开实施例,可以通过多种页面内容匹配方式获取与目标页面内容匹配的页面,能够全面地获取到可与目标页面归为一个页面组的页面,进而无需一一计算该页面组中每个页面的全部页面特征,可以减小计算量。
在本公开另一实施例中,在上述实施例的基础上,可以按照匹配方式的预设优先级顺序,判断是否有与目标页面内容匹配的页面,直至从待计算页面集中获取到与目标页面内容匹配的页面。基于此,如图5所示,上述S102,基于目标页面的URL,从待计算页面集中获取与目标页面内容匹配的页面,将目标页面和与目标页面内容匹配的页面组成一个页面组,可以实现为:
S1021、基于目标页面的URL,判断目标页面所属站点是否具有镜像站点。
本步骤中,电子设备可以根据目标页面的URL确定目标页面所属站点,然后通过站点指纹技术,挖掘待计算页面集包括的页面对应的站点中,是否存在目标页面所属站点的镜像站点。
若是,执行S1022;若否,则执行S1023。
S1022、将目标页面与镜像站点中对应于目标页面的页面组成一个镜像页面组。
在执行S1022后,即完成了对目标页面的分组,无需继续执行图5中的后续步骤。
可选地,如果目标页面所属站点具有镜像站点,还可以将目标页面所属站点中,除目标页面之外,与镜像站点中每对具有对应关系的页面分别组成一个镜像页面组。也就是说,在确定目标页面所属站点的镜像站点后,可以使得目标页面所属站点与镜像站点中每对具有对应关系的页面分别组成一个页面组。
并且,还可以计算目标页面所属站点的站点特征,将目标页面所属站点的站点特征作为镜像站点的站点特征。
以图2为例,可以将URL1与URL2组成一个镜像页面组,将URL3与URL4组成一个镜像页面组,将URL5与URL6组成一个镜像页面组。并且,可以计算site1、site3、site5的站点特征,将site1、site3、site5的站点特征分别作为site2、site4、site6的站点特征,就省去了计算site2、site4、site6的站点特征的过程,可以节省计算资源。
采用这种方式,可以基于镜像站点生成多个镜像页面组,节省了生成页面组的计算资源。且对于每个镜像页面组,只需计算其中一个页面的页面特征,其余页面可共用该特征,节省了大量的计算资源。并且,无需分别为每个页面计算一次站点特征,进一步降低了计算资源的消耗。
S1023、基于目标页面的URL,判断待计算页面集中是否存在与目标页面属于同一网页但页面类型不同的页面。
若是,则执行S1024;若否,则执行S1025。
S1023具体可以实现为:根据目标页面的URL确定目标页面的目标页面类型,判断待计算页面集中是否有与目标页面适配的,除目标页面类型之外其他类型的页面。若是,则确定待计算页面集中存在与目标页面属于同一网页但页面类型不同的页面,若否,确定待计算页面集中不存在与目标页面属于同一网页但页面类型不同的页面。
若目标页面的目标页面类型为PC页面,则可通过用户代理(User Agent,UA)在H5中打开该目标页面,如果成功打开,则该目标页面的URL在H5中将变更为H5页面的URL,若该H5页面存在于待计算页面集中,则可将该H5页面和该PC页面组成一个适配页面组。
可选地,若同一网页具有不同的页面类型,本公开实施例中可以预先存储同一页面不同页面类型的URL之间的对应关系,进而在获取目标页面的URL后,可查找是否存在与目标页面的URL具有对应关系的其他类型的页面。
因同一网页对应的不同页面类型的页面中的内容相同,所以本公开实施例中可以查找出与目标页面适配的,除目标页面类型之外其他类型的页面,进而可以针对一个网页只计算一次页面特征,避免了重复对相同的页面内容进行特征计算,可以节省计算资源。
S1024、将目标页面以及与目标页面属于同一网页但页面类型不同的页面组成一个适配页面组。
在执行S1024后,即完成了对目标页面的分组,无需继续执行图5中的后续步骤。
以图3为例,图3中示出的四组页面组均为适配页面组。
S1025、判断待计算页面集中是否存在与目标页面具有跳转关系且内容相同的页面。
若是,则执行S1026;若否,则执行S1027。
S1025可以实现为:
模拟访问目标页面的URL,若自动跳转到同一站点的第一跳转页面,且第一跳转页面属于待计算页面集,则确定第一跳转页面为与目标页面具有跳转关系且内容相同的页面。
或者,若自动跳转到不同站点的第二跳转页面,且第二跳转页面属于待计算页面集,则在第二跳转页面的页面标题与目标页面的页面标题一致的情况下,确定第二跳转页面为与目标页面具有跳转关系且内容相同的页面。
也就是说,如果目标页面与第一跳转页面之间的跳转关系为站内跳转,则可确定目标页面与第一跳转页面内容相同,可以组成一个跳转页面组。如果目标页面与第二跳转页面之间的跳转关系为站外跳转,则需进一步判断目标页面与第二跳转页面的标题是否一致,在一致的情况下,才认为目标页面与第二跳转页面的内容相同。可以提高页面分组的准确性,避免将页面内容不同的页面归为一个页面组。可以保证同一跳转页面组中的各页面的页面特征的准确性,实现了在保证同一页面组中的页面的页面特征准确性的前提下,降低计算资源的消耗。
另外,如果从目标页面跳转至上述第一跳转页面的跳转次数大于等于预设次数阈值,则可以为目标页面和第一跳转页面标注异常标识。
如果从目标页面跳转至上述第二跳转页面的跳转次数大于等于预设次数阈值,则可以为目标页面和第二跳转页面标注异常标识。
如此,在需要使用各目标页面的页面特征时,可以快速发现存在异常跳转的异常页面,无需逐个判断各页面是否异常,可以提高处理效率。
S1026、将目标页面以及与目标页面具有跳转关系且内容相同的页面组成一个跳转页面组。
在执行S1026后,即完成了对目标页面的分组,无需继续执行图5中的后续步骤。
S1027、判断待计算页面集中是否存在与目标页面具有泛化关系的页面。
若是,则执行S1028;若否,则执行S1029。
S1028、将目标页面及与目标页面具有泛化关系的页面组成一个泛化页面组。
在执行S1028后,即完成了对目标页面的分组,无需继续执行图5中的后续步骤。
对于泛化页面组,如果泛化页面组中包括的各页面具有相同的页面结构,则可以计算其中一个页面的页面结构特征,将该页面结构特征作为泛化页面组中每个页面的页面结构特征,仍需分别计算每个页面除页面结构特征之外的其他特征。即,泛化页面组中各页面之间存在区别之处,需分别对每个页面的区别之处进行特征计算。
S1029、通过页面内容识别方式,判断待计算页面集中是否存在包括目标页面中的主体内容的页面。
若是,则执行S1030;若否,则确定待计算页面集中不存在与该目标页面内容匹配的页面,可单独对目标页面进行特征计算。
S1030、将目标页面以及包括目标页面中的主体内容的页面组成一个内容页面组。
采用上述方法,可以先判断目标页面所属站点是否具有镜像站点,若有镜像站点,则可进行镜像分组,能够高效地得到多个镜像页面组,提高了分组效率。若多个页面之间的内容匹配,按照经验,这多个页面之间属于上述实施例中的第二种至第五种匹配形式的概率依次降低,所以按照上述顺序对目标页面进行匹配分组,可以提高分组效率,且可节省对页面分组过程所消耗的计算资源。
在本公开的另一实施例中,如果为目标页面生成的页面组为适配页面组,则上述S103、计算页面组中的一个页面的页面特征,将该页面特征作为页面组中每个页面的页面特征,可以实现为:
若生成的页面组为所述适配页面组,则按照类型优先级顺序选择适配页面组中类型优先级最高的页面计算页面特征,将该页面特征作为所述适配页面组中每个页面的页面特征。
其中,类型优先级顺序为:MIP页面、PC页面、H5页面、小程序页面。
本公开实施例中,因MIP页面属于加速页面,一般会被优先分发展现,所以如果适配页面组中包括MIP页面,可以优先计算MIP页面的页面特征,以提高特征计算效率。另外,因PC页面的内容相比于H5页面和小程序页面更加丰富详尽,所以在适配页面组中不包括MIP页面的情况下,优先计算PC页面的页面特征,以提高页面特征的准确性。又因小程序页面的加载渲染异常概率较大,所以通过小程序页面计算出的页面特征的误差概率大,所以在适配页面组中既包括小程序页面又包括其他类型页面的情况下,优先计算其他类型页面的页面特征,可以提高页面特征的准确率。
在本公开另一实施例中,上述S1029、通过页面内容识别方式,判断待计算页面集中是否存在包括目标页面中的主体内容的页面,具体可以实现为:
提取目标页面包括的标题信息和作者信息;若待计算页面集中存在与目标页面包括的标题信息和作者信息均相同的页面,则确定待计算页面集中存在包括目标页面中主体内容的页面。
例如,如果一位作者将一篇文章分别发表在三个社交平台,则这三个社交平台中展示该文章的页面为主体内容相同的页面。
采用该方法,可以避免重复对具有相同主体内容的页面进行特征计算,可以节省计算资源。
在本公开另一实施例中,在将目标页面以及包括目标页面中的主体内容的页面组成一个内容页面组之后,该方法还包括:
提取内容页面组包括的各页面中的后验类特征,后验类特征用于表示页面包括的主体内容对应的用户反馈信息,将内容页面组包括的各页面的后验类特征进行互补,得到综合后验类特征。将综合后验类特征作为目标页面组包括的每个页面的后验类特征。
其中,用户反馈信息可以为阅读数(点击数、播放数)、评论数、点赞数、点灭数、点踩数、收藏数、分享数(转发数)、回答数、赞赏数等。
在获取内容页面组包括的各页面的后验类特征后,可对齐所获取的特征字段,进而对每个特征字段进行互补操作,该互补操作可以包括累加、拼接等。比如,对于从多个页面中提取的点赞数,可以进行累加操作,将累加结果作为综合点赞数。
需要说明的是,本公开实施例中的后验类特征不限于上述列举的用户反馈信息,根据实际的应用场景,页面中其他具有互补需求的特征也可作为后验类特征。
采用该方法,基于生成的内容页面组,可以进一步获取综合后验类特征,使得提取出的页面特征更加丰富,能够满足更多的页面特征计算需求。
在本公开另一实施例中,内容页面组中还可能包括作者发布的原创内容页,以及对该原创内容页进行转载、采集、再加工等得到的页面。如果待计算页面集中存在与目标页面包括的标题信息相同但作者信息不同的页面,则可判断这部分页面是否为对目标页面转载、采集或再加工得到的页面。
为了对标题信息相同但作者信息不同的页面进行匹配,可以预先训练一个页面匹配模型,该页面匹配模型可以基于各页面的标题语义值、页面中包括的最长句子签名汉明距离、作者信息、页面之间的正排摘要语义相似值、正排高频术语权重余弦值、正排长句子个数、正排关键字余弦值、正排长句子长度余弦值、正排前N个长句子的哈希值等信息来识别多个页面是否具有相同的主体内容。
在本公开实施例中,可以将标题信息相同但作者信息不同的页面输入该页面匹配模型,进而根据模型输出结果确定这些标题信息相同但作者信息不同的页面是否具有相同的主体内容,若具有相同的主体内容,则可将这些标题信息相同但作者信息不同的页面组成一个内容页面组。
对原创页面进行转载、采集或再加工后得到的页面与原创页面的页面结构、所属的站点可能不同,所以对于这种类型的内容页面组中的页面,可以只传递数据类特征,不传递价值类特征。数据类特征是指针对页面主体内容提取的特征,价值类特征是指页面结构特征、页面质量特征等与页面主体内容无关的特征。
对应于上述方法实施例,本公开实施例还提供一种页面特征计算装置,如图6所示,该装置包括:
获取模块601,用于获取目标页面的统一资源定位符URL,目标页面为待计算页面集中的任一页面,待计算页面集中包括需要进行特征计算的页面;
分组模块602,用于基于目标页面的URL,从待计算页面集中获取与目标页面内容匹配的页面,将目标页面和与目标页面内容匹配的页面组成一个页面组;
计算模块603,用于计算页面组中的一个页面的页面特征,将页面特征作为页面组中每个页面的页面特征。
采用本公开实施例,可以将待计算页面集中的目标页面,以及与该目标页面内容匹配的页面组成一个页面组。针对一个页面组,可以只计算其中一个页面的页面特征,将该页面特征作为页面组中每个页面的页面特征,如此就无需分别对该页面组中的每个页面进行特征计算,可以减小计算量,降低计算资源的消耗。
在本公开另一实施例中,与目标页面内容匹配的页面包括以下任意一种:
目标页面所属站点的镜像站点中,与目标页面对应的页面;
与目标页面所包括的实质内容相同,但页面类型与目标页面不同的页面,页面类型包括PC页面、H5页面、小程序页面和MIP加速页;
与目标页面之间具有跳转关系且页面内容相同的页面;
与目标页面之间具有泛化关系的页面;
包括目标页面中的主体内容的页面。
在本公开另一实施例中,分组模块602具体用于:
基于目标页面的URL,判断目标页面所属站点是否具有镜像站点;若是,则将目标页面与镜像站点中对应于目标页面的页面组成一个镜像页面组;若否,则基于目标页面的URL,判断待计算页面集中是否存在与目标页面属于同一网页但页面类型不同的页面;
若是,则将目标页面以及与目标页面属于同一网页但页面类型不同的页面组成一个适配页面组;若否,则判断待计算页面集中是否存在与目标页面具有跳转关系且内容相同的页面;
若是,则将目标页面以及与目标页面具有跳转关系且内容相同的页面组成一个跳转页面组;若否,则判断待计算页面集中是否存在与目标页面具有泛化关系的页面;
若是,则将目标页面及与目标页面具有泛化关系的页面组成一个泛化页面组;若否,则通过页面内容识别方式,判断待计算页面集中是否存在包括目标页面中的主体内容的页面;
若是,则将目标页面以及包括目标页面中的主体内容的页面组成一个内容页面组。
在本公开另一实施例中,
分组模块602,还用于如果目标页面所属站点具有镜像站点,则将目标页面所属站点与镜像站点中,除目标页面之外每对具有对应关系的页面分别组成一个镜像页面组;
计算模块,还用于计算目标页面所属站点的站点特征,将目标页面所属站点的站点特征作为镜像站点的站点特征。
在本公开另一实施例中,分组模块602具体用于:
根据目标页面的URL确定目标页面的目标页面类型;
判断待计算页面集中是否有与目标页面适配的,除目标页面类型之外其他类型的页面;
若是,则确定待计算页面集中存在与目标页面属于同一网页但页面类型不同的页面;
若否,则确定待计算页面集中不存在与目标页面属于同一网页但页面类型不同的页面。
在本公开另一实施例中,计算模块603具体用于:
若生成的页面组为适配页面组,则按照类型优先级顺序选择适配页面组中类型优先级最高的页面计算页面特征,将页面特征作为适配页面组中每个页面的页面特征;
其中,类型优先级顺序为:MIP页面、PC页面、H5页面、小程序页面。
在本公开另一实施例中,分组模块602具体用于:
模拟访问目标页面的URL;
若自动跳转到同一站点的第一跳转页面,且第一跳转页面属于待计算页面集,则确定第一跳转页面为与目标页面具有跳转关系且内容相同的页面;或者,
若自动跳转到不同站点的第二跳转页面,且第二跳转页面属于待计算页面集,则在第二跳转页面的页面标题与目标页面的页面标题一致的情况下,确定第二跳转页面为与目标页面具有跳转关系且内容相同的页面。
在本公开另一实施例中,该装置还包括:
第一标注模块,用于在确定第一跳转页面为与目标页面具有跳转关系且内容相同的页面之后,若从目标页面跳转至第一跳转页面的跳转次数大于等于预设次数阈值,则为目标页面和第一跳转页面标注异常标识;
第二标注模块,用于在确定第二跳转页面为与目标页面具有跳转关系且内容相同的页面之后,若从目标页面跳转至第二跳转页面的跳转次数大于等于预设次数阈值,则为目标页面和第二跳转页面标注异常标识。
在本公开另一实施例中,分组模块602还用于:
提取目标页面包括的标题信息和作者信息;
若待计算页面集中存在与目标页面包括的标题信息和作者信息均相同的页面,则确定待计算页面集中存在包括目标页面中主体内容的页面。
在本公开另一实施例中,分组模块602还用于:
提取内容页面组包括的各页面中的后验类特征,后验类特征用于表示页面包括的主体内容对应的用户反馈信息;
将内容页面组包括的各页面的后验类特征进行互补,得到综合后验类特征;
将综合后验类特征作为目标页面组包括的每个页面的后验类特征。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
设备700中的多个部件连接至I/O接口705,包括:输入单元706,例如键盘、鼠标等;输出单元707,例如各种类型的显示器、扬声器等;存储单元708,例如磁盘、光盘等;以及通信单元709,例如网卡、调制解调器、无线通信收发机等。通信单元709允许设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理,例如上述页面特征计算方法。例如,在一些实施例中,上述页面特征计算方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM 702和/或通信单元709而被载入和/或安装到设备700上。当计算机程序加载到RAM 703并由计算单元701执行时,可以执行上文描述的上述页面特征计算方法的一个或多个步骤。备选地,在其他实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述页面特征计算方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (15)

1.一种页面特征计算方法,包括:
获取目标页面的统一资源定位符URL,所述目标页面为待计算页面集中的任一页面,所述待计算页面集中包括需要进行特征计算的页面;
基于所述目标页面的URL,从所述待计算页面集中获取与所述目标页面内容匹配的页面,将所述目标页面和与所述目标页面内容匹配的页面组成一个页面组;
计算所述页面组中的一个页面的页面特征,将所述页面特征作为所述页面组中每个页面的页面特征;
其中,所述基于所述目标页面的URL,从所述待计算页面集中获取与所述目标页面内容匹配的页面,将所述目标页面和与所述目标页面内容匹配的页面组成一个页面组,包括:
基于所述目标页面的URL,判断所述目标页面所属站点是否具有镜像站点;若是,则将所述目标页面与所述镜像站点中对应于所述目标页面的页面组成一个镜像页面组;若否,则基于所述目标页面的URL,判断所述待计算页面集中是否存在与所述目标页面属于同一网页但页面类型不同的页面,所述页面类型包括PC页面、H5页面、小程序页面和MIP加速页;
若是,则将所述目标页面以及与所述目标页面属于同一网页但页面类型不同的页面组成一个适配页面组;若否,则判断所述待计算页面集中是否存在与所述目标页面具有跳转关系且内容相同的页面;
若是,则将所述目标页面以及与所述目标页面具有跳转关系且内容相同的页面组成一个跳转页面组;若否,则判断所述待计算页面集中是否存在与所述目标页面具有泛化关系的页面;
若是,则将所述目标页面及与所述目标页面具有泛化关系的页面组成一个泛化页面组;若否,则通过页面内容识别方式,判断所述待计算页面集中是否存在包括所述目标页面中的主体内容的页面;
若是,则将所述目标页面以及包括所述目标页面中的主体内容的页面组成一个内容页面组。
2.根据权利要求1所述的方法,在所述基于所述目标页面的URL,判断所述目标页面所属站点是否具有镜像站点之后,所述方法还包括:
如果所述目标页面所属站点具有镜像站点,则将所述目标页面所属站点中,除所述目标页面之外,与所述镜像站点中每对具有对应关系的页面分别组成一个镜像页面组;
计算所述目标页面所属站点的站点特征,将所述目标页面所属站点的站点特征作为所述镜像站点的站点特征。
3.根据权利要求1所述的方法,其中,判断所述待计算页面集中是否存在与所述目标页面属于同一网页但页面类型不同的页面,包括:
根据所述目标页面的URL确定所述目标页面的目标页面类型;
判断所述待计算页面集中是否有与所述目标页面适配的,除所述目标页面类型之外其他类型的页面;
若是,则确定所述待计算页面集中存在与所述目标页面属于同一网页但页面类型不同的页面;
若否,则确定所述待计算页面集中不存在与所述目标页面属于同一网页但页面类型不同的页面。
4.根据权利要求3所述的方法,其中,所述计算所述页面组中的一个页面的页面特征,将所述页面特征作为所述页面组中每个页面的页面特征,包括:
若生成的页面组为所述适配页面组,则按照类型优先级顺序选择所述适配页面组中类型优先级最高的页面计算页面特征,将所述页面特征作为所述适配页面组中每个页面的页面特征;
其中,所述类型优先级顺序为:MIP页面、PC页面、H5页面、小程序页面。
5.根据权利要求1所述的方法,其中,判断所述待计算页面集中是否存在与所述目标页面具有跳转关系且内容相同的页面,包括:
模拟访问所述目标页面的URL;
若自动跳转到同一站点的第一跳转页面,且所述第一跳转页面属于所述待计算页面集,则确定所述第一跳转页面为与所述目标页面具有跳转关系且内容相同的页面;或者,
若自动跳转到不同站点的第二跳转页面,且所述第二跳转页面属于所述待计算页面集,则在所述第二跳转页面的页面标题与所述目标页面的页面标题一致的情况下,确定所述第二跳转页面为与所述目标页面具有跳转关系且内容相同的页面。
6.根据权利要求5所述的方法,
在确定所述第一跳转页面为与所述目标页面具有跳转关系且内容相同的页面之后,所述方法还包括:
若从所述目标页面跳转至所述第一跳转页面的跳转次数大于等于预设次数阈值,则为所述目标页面和所述第一跳转页面标注异常标识;
在确定所述第二跳转页面为与所述目标页面具有跳转关系且内容相同的页面之后,所述方法还包括:
若从所述目标页面跳转至所述第二跳转页面的跳转次数大于等于预设次数阈值,则为所述目标页面和所述第二跳转页面标注异常标识。
7.根据权利要求1所述的方法,其中,所述通过页面内容识别的方式,判断所述待计算页面集中是否存在包括所述目标页面中主体内容的页面,包括:
提取所述目标页面包括的标题信息和作者信息;
若所述待计算页面集中存在与所述目标页面包括的标题信息和作者信息均相同的页面,则确定所述待计算页面集中存在包括所述目标页面中主体内容的页面。
8.根据权利要求7所述的方法,在将所述目标页面以及包括所述目标页面中的主体内容的页面组成一个内容页面组之后,所述方法还包括:
提取所述内容页面组包括的各页面中的后验类特征,所述后验类特征用于表示所述页面包括的主体内容对应的用户反馈信息;
将所述内容页面组包括的各页面的后验类特征进行互补,得到综合后验类特征;
将所述综合后验类特征作为所述目标页面组包括的每个页面的后验类特征。
9.一种页面特征计算装置,包括:
获取模块,用于获取目标页面的统一资源定位符URL,所述目标页面为待计算页面集中的任一页面,所述待计算页面集中包括需要进行特征计算的页面;
分组模块,用于基于所述目标页面的URL,从所述待计算页面集中获取与所述目标页面内容匹配的页面,将所述目标页面和与所述目标页面内容匹配的页面组成一个页面组;
计算模块,用于计算所述页面组中的一个页面的页面特征,将所述页面特征作为所述页面组中每个页面的页面特征;
所述分组模块,具体用于:
基于所述目标页面的URL,判断所述目标页面所属站点是否具有镜像站点;若是,则将所述目标页面与所述镜像站点中对应于所述目标页面的页面组成一个镜像页面组;若否,则基于所述目标页面的URL,判断所述待计算页面集中是否存在与所述目标页面属于同一网页但页面类型不同的页面,所述页面类型包括PC页面、H5页面、小程序页面和MIP加速页;
若是,则将所述目标页面以及与所述目标页面属于同一网页但页面类型不同的页面组成一个适配页面组;若否,则判断所述待计算页面集中是否存在与所述目标页面具有跳转关系且内容相同的页面;
若是,则将所述目标页面以及与所述目标页面具有跳转关系且内容相同的页面组成一个跳转页面组;若否,则判断所述待计算页面集中是否存在与所述目标页面具有泛化关系的页面;
若是,则将所述目标页面及与所述目标页面具有泛化关系的页面组成一个泛化页面组;若否,则通过页面内容识别方式,判断所述待计算页面集中是否存在包括所述目标页面中的主体内容的页面;
若是,则将所述目标页面以及包括所述目标页面中的主体内容的页面组成一个内容页面组。
10.根据权利要求9所述的装置,
所述分组模块,还用于如果所述目标页面所属站点具有镜像站点,则将所述目标页面所属站点中,除所述目标页面之外,与所述镜像站点中每对具有对应关系的页面分别组成一个镜像页面组;
所述计算模块,还用于计算所述目标页面所属站点的站点特征,将所述目标页面所属站点的站点特征作为所述镜像站点的站点特征。
11.根据权利要求9所述的装置,其中,所述分组模块,具体用于:
根据所述目标页面的URL确定所述目标页面的目标页面类型;
判断所述待计算页面集中是否有与所述目标页面适配的,除所述目标页面类型之外其他类型的页面;
若是,则确定所述待计算页面集中存在与所述目标页面属于同一网页但页面类型不同的页面;
若否,则确定所述待计算页面集中不存在与所述目标页面属于同一网页但页面类型不同的页面。
12.根据权利要求9所述的装置,其中,所述分组模块,具体用于:
模拟访问所述目标页面的URL;
若自动跳转到同一站点的第一跳转页面,且所述第一跳转页面属于所述待计算页面集,则确定所述第一跳转页面为与所述目标页面具有跳转关系且内容相同的页面;或者,
若自动跳转到不同站点的第二跳转页面,且所述第二跳转页面属于所述待计算页面集,则在所述第二跳转页面的页面标题与所述目标页面的页面标题一致的情况下,确定所述第二跳转页面为与所述目标页面具有跳转关系且内容相同的页面。
13.根据权利要求12所述的装置,所述装置还包括:
第一标注模块,用于在确定所述第一跳转页面为与所述目标页面具有跳转关系且内容相同的页面之后,若从所述目标页面跳转至所述第一跳转页面的跳转次数大于等于预设次数阈值,则为所述目标页面和所述第一跳转页面标注异常标识;
第二标注模块,用于在确定所述第二跳转页面为与所述目标页面具有跳转关系且内容相同的页面之后,若从所述目标页面跳转至所述第二跳转页面的跳转次数大于等于预设次数阈值,则为所述目标页面和所述第二跳转页面标注异常标识。
14.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
15.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-8中任一项所述的方法。
CN202111070489.6A 2021-09-13 2021-09-13 页面特征计算方法、装置、电子设备、介质及程序产品 Active CN113792232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111070489.6A CN113792232B (zh) 2021-09-13 2021-09-13 页面特征计算方法、装置、电子设备、介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111070489.6A CN113792232B (zh) 2021-09-13 2021-09-13 页面特征计算方法、装置、电子设备、介质及程序产品

Publications (2)

Publication Number Publication Date
CN113792232A CN113792232A (zh) 2021-12-14
CN113792232B true CN113792232B (zh) 2024-02-27

Family

ID=79183117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111070489.6A Active CN113792232B (zh) 2021-09-13 2021-09-13 页面特征计算方法、装置、电子设备、介质及程序产品

Country Status (1)

Country Link
CN (1) CN113792232B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114257841A (zh) * 2021-12-20 2022-03-29 恒安嘉新(北京)科技股份公司 网页视频的隔离重放方法、装置、系统、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017124692A1 (zh) * 2016-01-20 2017-07-27 百度在线网络技术(北京)有限公司 查找表单页面和目标页面转化关系的方法和装置
CN108121568A (zh) * 2017-11-30 2018-06-05 五八有限公司 唤起app的方法及装置、电子设备和可读存储介质
CN111767444A (zh) * 2020-06-22 2020-10-13 北京百度网讯科技有限公司 页面特征构建方法、装置、设备和存储介质
CN113239256A (zh) * 2021-05-14 2021-08-10 北京百度网讯科技有限公司 生成网站签名的方法、识别网站的方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110208822A1 (en) * 2010-02-22 2011-08-25 Yogesh Chunilal Rathod Method and system for customized, contextual, dynamic and unified communication, zero click advertisement and prospective customers search engine
US8645288B2 (en) * 2010-12-02 2014-02-04 Microsoft Corporation Page selection for indexing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017124692A1 (zh) * 2016-01-20 2017-07-27 百度在线网络技术(北京)有限公司 查找表单页面和目标页面转化关系的方法和装置
CN108121568A (zh) * 2017-11-30 2018-06-05 五八有限公司 唤起app的方法及装置、电子设备和可读存储介质
CN111767444A (zh) * 2020-06-22 2020-10-13 北京百度网讯科技有限公司 页面特征构建方法、装置、设备和存储介质
CN113239256A (zh) * 2021-05-14 2021-08-10 北京百度网讯科技有限公司 生成网站签名的方法、识别网站的方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Web使用挖掘下的Web页面层次分类技术研究;汤亚玲;秦锋;;情报学报(第03期);全文 *
基于网站结构分析页面信息提取的方法研究;段爱华;;电脑知识与技术(23);全文 *

Also Published As

Publication number Publication date
CN113792232A (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
US8468145B2 (en) Indexing of URLs with fragments
CN109871311B (zh) 一种推荐测试用例的方法和装置
US9514113B1 (en) Methods for automatic footnote generation
US20210042470A1 (en) Method and device for separating words
CN108121814B (zh) 搜索结果排序模型生成方法和装置
CN113326420B (zh) 问题检索方法、装置、电子设备和介质
CN114363019B (zh) 钓鱼网站检测模型的训练方法、装置、设备及存储介质
CN110245357B (zh) 主实体识别方法和装置
CN113792232B (zh) 页面特征计算方法、装置、电子设备、介质及程序产品
CN113568626B (zh) 动态打包、应用程序包开启方法、装置和电子设备
CN112905753A (zh) 一种判别文本信息的方法和装置
CN113656737A (zh) 网页内容展示方法、装置、电子设备以及存储介质
CN113239256A (zh) 生成网站签名的方法、识别网站的方法及装置
CN110852057A (zh) 一种计算文本相似度的方法和装置
CN115687717A (zh) Grok表达式获取方法、装置、设备及计算机可读存储介质
JP2024507029A (ja) ウェブページ識別方法、装置、電子機器、媒体およびコンピュータプログラム
CN114048315A (zh) 确定文档标签的方法、装置、电子设备和存储介质
CN113221035A (zh) 用于确定异常网页的方法、装置、设备、介质和程序产品
CN114218431A (zh) 视频搜索方法、装置、电子设备以及存储介质
CN109597873B (zh) 语料数据的处理方法、装置、计算机可读介质及电子设备
CN112784600A (zh) 信息排序方法、装置、电子设备和存储介质
CN112016017A (zh) 确定特征数据的方法和装置
CN113010812B (zh) 信息采集方法、装置、电子设备和存储介质
CN109522211A (zh) 接口参数传递方法、装置、电子设备及存储介质
CN113377922B (zh) 用于匹配信息的方法、装置、电子设备以及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant