CN113656671A - 模型训练方法、链接评分方法、装置、设备、介质和产品 - Google Patents

模型训练方法、链接评分方法、装置、设备、介质和产品 Download PDF

Info

Publication number
CN113656671A
CN113656671A CN202110666665.6A CN202110666665A CN113656671A CN 113656671 A CN113656671 A CN 113656671A CN 202110666665 A CN202110666665 A CN 202110666665A CN 113656671 A CN113656671 A CN 113656671A
Authority
CN
China
Prior art keywords
link
links
score
stored
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110666665.6A
Other languages
English (en)
Other versions
CN113656671B (zh
Inventor
余文利
刘伟
杨国强
陈由之
王鹏
张博
华轶名
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110666665.6A priority Critical patent/CN113656671B/zh
Publication of CN113656671A publication Critical patent/CN113656671A/zh
Application granted granted Critical
Publication of CN113656671B publication Critical patent/CN113656671B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种模型训练方法、链接评分方法、装置、设备、介质和产品,涉及人工智能领域,尤其涉及机器学习领域和内容推荐领域,可应用于链接抓取和链接库维护场景。该方法包括:获取与被存储在链接库中的链接集合相关联的链接质量信息和链接统计信息,链接集合与所选择的链接相关联;以及训练链接评分模型,使得使用经训练的链接评分模型,基于链接质量信息和链接统计信息所确定的、针对所选择的链接的评分和针对所选择的链接预先标注的标注评分的差别小于阈值差别。利用上述方法,可以基于主域、站点和目录粒度中的链接质量信息和链接统计信息来训练链接评分模型,以用于对抓取的链接进行准确和高效的评分,因此能够提高链接抓取和链接库维护的质量和效率。

Description

模型训练方法、链接评分方法、装置、设备、介质和产品
技术领域
本公开涉及人工智能领域,尤其涉及机器学习领域和内容推荐领域, 可应用于链接抓取和链接库维护场景,并且更具体地,涉及模型训练方法、 链接评分方法、模型训练装置、链接评分装置、电子设备、计算机可读存 储介质和计算机程序产品。
背景技术
例如spider的网络爬虫每天可以从因特网上抓取千亿甚至更高数量 级的链接。然而,所抓取的绝大部分的链接都是垃圾链接或者无价值的链 接。此外,链接库的发现链接模块会根据目前已经抓取的链接去发现新的 链接。因此,如果链接库中存储的都是垃圾链接或者无价值的链接,则会 导致新发现并且抓取的链接同样是垃圾链接或者无价值的链接,从而会严 重浪费链接库的存储资源。同时,搜索引擎前端展现模块也会使用链接库来筛选出满足用户查询的链接资源,因此链接库内过多的垃圾链接或者无 价值的链接也会严重影响用户的查询体验。
然而,传统的用于链接库维护的技术无法解决上述问题。
发明内容
根据本公开的实施例,提供了一种模型训练方法、链接评分方法、模 型训练装置、链接评分装置、电子设备、计算机可读存储介质和计算机程 序产品。
在本公开的第一方面中,提供了一种模型训练方法,包括:获取与被 存储在链接库中的链接集合相关联的链接质量信息和链接统计信息,链接 集合与所选择的链接相关联;以及训练链接评分模型,使得使用经训练的 链接评分模型,基于链接质量信息和链接统计信息所确定的、针对所选择 的链接的评分和针对所选择的链接预先标注的标注评分的差别小于阈值 差别。
在本公开的第二方面中,提供了一种链接评分方法,包括使用根据本 公开的第一方面而被训练的链接评分模型,确定针对输入链接的评分。
在本公开的第三方面中,提供了一种模型训练装置,包括:信息获取 模块,被配置为获取与被存储在链接库中的链接集合相关联的链接质量信 息和链接统计信息,链接集合与所选择的链接相关联;以及模型训练模块, 被配置为训练链接评分模型,使得使用经训练的链接评分模型,基于链接 质量信息和链接统计信息所确定的、针对所选择的链接的评分和针对所选 择的链接预先标注的标注评分的差别小于阈值差别。
在本公开的第四方面中,提供了一种链接评分装置,被配置为使用由 根据本公开的第三方面的模型训练装置训练的链接评分模型,确定针对输 入链接的评分。
在本公开的第五方面中,提供了一种电子设备,包括至少一个处理器; 以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一 个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理 器能够实现根据本公开的第一方面的方法。
在本公开的第六方面中,提供了一种电子设备,包括至少一个处理器; 以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一 个处理器执行的指令,该指令被至少一个处理器执行,以使至少一个处理 器能够实现根据本公开的第二方面的方法。
在本公开的第七方面中,提供了一种存储有计算机指令的非瞬时计算 机可读存储介质,计算机指令用于使计算机实现根据本公开的第一方面的 方法。
在本公开的第八方面中,提供了一种存储有计算机指令的非瞬时计算 机可读存储介质,计算机指令用于使计算机实现根据本公开的第二方面的 方法。
在本公开的第九方面中,提供了一种计算机程序产品,包括计算机程 序,计算机程序在被处理器执行时,执行根据本公开的第一方面的方法。
在本公开的第十方面中,提供了一种计算机程序产品,包括计算机程 序,计算机程序在被处理器执行时,执行根据本公开的第二方面的方法。
利用根据本申请的技术,提供了一种链接评分方法,利用该方法的技 术方案,可以基于与链接相关联的、在主域、站点和目录粒度中的链接质 量信息和链接统计信息来训练链接评分模型,以用于对抓取的链接进行准 确和高效的评分,以及进一步地丢弃低评分的链接、针对高评分的链接抓 取相关联的页面内容和相关联的链接,因此能够提高链接抓取和链接库维 护的质量和效率,不仅能够节省链接库的存储资源,也能够提升使用链接库的用户的用户体验。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施 例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将 通过以下的描述变得容易理解。
附图说明
通过结合附图对本公开示例性实施例进行更详细的描述,本公开的上 述以及其它目的、特征和优势将变得更加明显,其中在本公开示例性实施 例中,相同的参考标号通常代表相同部件。应当理解,附图用于更好地理 解本方案,不构成对本公开的限定。其中:
图1示出了可以在其中实现本公开的某些实施例中的模型训练方法 的模型训练环境100的示意性框图;
图2示出了根据本公开实施例的模型训练方法200的流程图;
图3示出了根据本公开实施例的链接评分方法300的流程图;
图4示出了根据本公开的实施例的模型训练装置400的示意性框图; 以及
图5示出了可以用来实施本公开的实施例的示例电子设备500的示 意性框图。
在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示 了本公开的优选实施例,然而应该理解,可以以各种形式实现本公开而不 应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更 加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人 员。
在本文中使用的术语“包括”及其变形表示开放性包括,即“包括但不 限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分 地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个示例实施 例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第 二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐 含的定义。
如以上在背景技术中所描述的,传统的用于链接库维护的技术存在不 足。具体而言,在传统方案中,现有技术中,由于链接库中仅仅存储单纯 的链接数据,而没有与链接相关联的页面的内容数据,因此可用于判断页 面质量好坏的特征非常少,通常只有单纯的链接特征,比如:例如url的 链接长相特征等,因此难以准确地确定链接的质量。
为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个 问题,本公开的实施例提出了一种链接评分方法,利用该方法的技术方案, 可以基于与链接相关联的、在主域、站点和目录粒度中的链接质量信息和 链接统计信息来训练链接评分模型,以用于对抓取的链接进行准确和高效 的评分,以及进一步地丢弃低评分的链接、针对高评分的链接抓取相关联 的页面内容和相关联的链接,因此能够提高链接抓取和链接库维护的质量 和效率,不仅能够节省链接库的存储资源,也能够提升使用链接库的用户 的用户体验。
图1示出了可以在其中实现本公开的某些实施例中的模型训练方法 的模型训练环境100的示意性框图。根据本公开的一个或多个实施例,模 型训练环境100可以是云环境。如图1中所示,模型训练环境100包括计 算设备110。在模型训练环境100中,训练相关数据120作为计算设备110 的输入被提供给计算设备110。训练相关数据120例如可以包括所选择的 链接以及与被存储在链接库中的链接集合相关联的链接质量信息和链接 统计信息,其中链接集合与所选择的链接相关联。计算设备110可以与链 接评分模型130进行交互,例如,计算设备110可以将训练相关数据120 中的至少一部分提供给链接评分模型130,从链接评分模型130接收由链 接评分模型130基于训练相关数据120而确定的针对所选择的链接的评 分,以及通过将由链接评分模型130确定的针对所选择的链接的评分与对 应的、针对所选择的链接预先标注的标注评分进行比较,并且判断比较得 到的差别是否小于阈值差别来向链接评分模型130发出调整链接评分模型 130的参数的指令,以对链接评分模型130进行训练。
根据本公开的一个或多个实施例,在模型训练环境100中,当计算设 备110接收到由链接评分模型130基于训练相关数据120而确定的针对所 选择的链接的评分之后,可以通过将由链接评分模型130确定的针对所选 择的链接的评分与对应的、针对所选择的链接预先标注的标注评分进行比 较来向链接评分模型130发出调整链接评分模型130的参数的指令,从而 使得由链接评分模型130确定的针对所选择的链接的评分与对应的针对所 选择的链接预先标注的标注评分的差别尽可能小。
应当理解,模型训练环境100仅仅是示例性而不是限制性的,并且其 是可扩展的,其中可以包括更多的计算设备110,并且可以向计算设备110 提供更多的训练相关数据120作为输入,计算设备110也可以与更多的链 接评分模型130进行交互,从而使得可以满足更多用户同时利用更多的计 算设备110,甚至利用更多的训练相关数据120来同时或者非同时地训练 链接评分模型130的需求。此外,计算设备110也可以在完成对链接评分 模型130的训练之后,使用经训练的链接评分模型130来确定针对输入链 接的评分。
在图1所示的模型训练环境100中,向计算设备110输入训练相关数 据120以及计算设备110与链接评分模型130之间的交互可以通过网络来 进行。
图2示出了根据本公开的实施例的模型训练方法200的流程图。具体 而言,模型训练方法200可以由图1中所示的模型训练环境100中的计算 设备110来执行。应当理解的是,模型训练方法200还可以包括未示出的 附加操作和/或可以省略所示出的操作,本公开的范围在此方面不受限制。
在框202,计算设备110获取与被存储在链接库中的链接集合相关联 的链接质量信息和链接统计信息。根据本公开的一个或多个实施例,链接 集合与所选择的链接相关联,并且计算设备110可以基于接收到对所选择 的链接的指示来获取与被存储在链接库中的链接集合相关联的链接质量 信息和链接统计信息。
根据本公开的一个或多个实施例,链接集合与所选择的链接相关联包 括以下至少一项:链接集合与所选择的链接属于同一主域;链接集合与所 选择的链接属于同一站点;以及链接集合与所选择的链接属于同一站点下 的同一目录。主域的形式例如是baidu.com等,当主域是baidu.com时, 其中可以包括www.baidu.com、zhidao.baidu.com等站点。站点的形式例 如是www.baidu.com等。目录的形式可以是www.baidu.com/index/a等, 并且属于同一目录中的链接可以包括正则匹配的链接。
根据本公开的一个或多个实施例,链接质量信息包括以下至少一项: 链接集合中、与不良页面相关联的链接在链接集合中的数量比例;链接集 合中的低质量链接在链接集合中的数量比例;与链接集合相关联的页面 中、抓取页面内容失败的页面在与链接集合相关联的页面中的数量比例; 链接集合中的高质量链接在链接集合中的数量比例;以及链接集合中、在 最新近的第一预定时间段内被存储在链接库中的高质量链接与在最新近 的第一预定时间段内被存储在链接库中的链接的数量比例。
与不良页面相关联的链接例如可以包括相关联的页面内容涉及色情、 赌博、诈骗等内容的链接,或者相关联的页面为导流页面的链接。与不良 页面相关联的链接例如可以通过使用经训练的语义模型分析与链接相关 联的页面内容而被确定。根据本公开的实施例,对于此类链接的评分可以 较低。
低质量链接例如可以包括相关联的页面为空白页或者相关联的页面 丢失的链接,由于这样的链接没有链接到有价值的内容,因此被认为是低 质量链接。根据本公开的实施例,对于此类链接的评分可以较低。
抓取页面内容失败的页面例如可以包括由于服务器不稳定、相关内容 已被删除等原因而无法抓取到与链接相关联的页面内容的页面。这样的页 面通常难以稳定地提供有价值的内容。根据本公开的实施例,对于此类链 接的评分可以较低。
高质量链接例如可以包括相关联的页面的页面内容易于获取和保存、 并且页面内容具有较高价值或者较受欢迎的链接。高质量链接例如可以通 过使用经训练的策略模型分析与链接相关联的页面而被确定。根据本公开 的实施例,对于此类链接的评分可以较高。需要指出的是,可以同时统计 链接集合中的高质量链接在链接集合中的数量比例以及链接集合中、在最 新近的第一预定时间段内被存储在链接库中的高质量链接与在最新近的 第一预定时间段内被存储在链接库中的链接的数量比例,从而使得可以在 例如出现某站点的页面曾经质量较高但近期质量严重下降的情况,综合考 虑长期质量和实时质量的影响。
根据本公开的一个或多个实施例,链接统计信息包括以下至少一项: 链接集合中的链接的数量;链接集合中、在最新近的第二预定时间段内被 存储在链接库中的链接的数量;链接集合中的链接被存储在链接库中的时 间;与链接集合相关联的页面中、在最新近的第三预定时间段内、与竞品 数据相关联的页面的浏览数量;链接集合中的链接的长度;链接集合中、 在最新近的第四预定时间段内被存储在链接库中的动态链接的数量;以及链接集合中、在最新近的第四预定时间段内被存储在链接库中的静态链接 的数量。
需要指出的是,可以同时统计链接集合中的链接的数量以及链接集合 中、在最新近的第二预定时间段内被存储在链接库中的链接的数量,从而 使得可以通过历史链接数量和实时链接数量来确定被存储到链接库中的 链接的数目是否出现异常。根据本公开的实施例,当根据前述链接的数量 确定在第二预定时间段内被存储在链接库中的链接的数量异常时,可以调 整对此类链接的评分。此时,如果近期被存储到链接库中的链接数量明显 减少,则可以对此类链接评分降低,如果近期被存储到链接库中的链接数 量明显增多,则可以进一步基于与链接相关联的页面内容来确定如何调整 评分,因为页面涉及不良内容也可能导致近期被存储到链接库中的链接数 量明显增多。
链接集合中的链接被存储在链接库中的时间可以指示两个链接被存 储的时间间隔,这例如可以用于确定链接被存储到链接库中的频率。例如, 如果来自某个站点的链接被频繁存储到链接库中,则可以说明来自这个站 点的链接的可入库性较高。根据本公开的实施例,对于此类链接的评分可 以较高。
与竞品数据相关联的页面例如可以包括对站点贡献大的页面,或者涉 及站点的主体内容的页面。例如,如果站点涉及商品站点,则与商品买卖 相关联页面可以被认为是与竞品数据相关联的页面。根据本公开的实施 例,如果与竞品数据相关联的页面的浏览数量较大,则对于此类链接的评 分可以较高。
链接集合中的链接的长度例如可以包括链接所包括的字符的数目。例 如,来自同一站点的链接通常包括的字符数目会在一个范围内,因此可以 通过链接的长度来确定链接是否是异常链接。如果通过链接的长度将链接 确定为异常链接,则根据本公开的实施例,对于此类链接的评分可以较低。
动态链接和静态链接是对链接进行的分类。动态链接例如可以包括与 直播页面相关联的链接。由于直播页面可能在一段时间后会停止播放,因 此动态链接通常稳定性低于静态链接。因此,根据本公开的实施例,在其 他条件相同或者相似时,对静态链接的评分可以高于对动态链接的评分。
根据本公开的一个或多个实施例,在前述链接质量信息和链接统计信 息中所提及的第一预定时间段、第二预定时间段、第三预定时间段和第四 预定时间段的时长可以相同。
在框204,计算设备110训练链接评分模型130,使得使用经训练的 链接评分模型130,基于在框202所获取链接质量信息和链接统计信息所 确定的、针对所选择的链接的评分和针对所选择的链接预先标注的标注评 分的差别小于阈值差别。
根据本公开的一个或多个实施例,计算设备110可以训练链接评分模 型130,使得使用经训练的链接评分模型130,基于在框202所获取链接 质量信息和链接统计信息所确定的、针对所选择的链接的评分和针对所选 择的链接预先标注的标注评分的差别尽可能小或者收敛。
根据本公开的一个或多个实施例,可以引入损失分数来有助于对由链 接评分模型130所确定的、针对所选择的链接的评分和针对所选择的链接 预先标注的标注评分进行比较。例如,计算设备110可以使用损失函数, 针对由链接评分模型130所确定的、针对所选择的链接的评分和针对所选 择的链接预先标注的标注评分确定评分损失分数,并且随后调整链接评分 模型130的参数,使得针对由链接评分模型130所确定的、针对所选择的 链接的评分和针对所选择的链接预先标注的标注评分确定的评分损失分 数尽可能小。
根据本公开的一个或多个实施例,在对链接评分模型130进行训练 时,可以根据所选择的链接、在框202所获取链接质量信息和链接统计信 息以及针对所选择的链接预先标注的标注评分获取正负样本来训练对链 接评分模型130。例如,可以根据站点价值等站点信息来区分正负样本, 或者可以将与通过语义模型被判断为不良页面相关联的链接确定为负样 本。需要指出的是,在对链接评分模型130进行训练时,可以更多的考虑 会导致评分降低的因素,使得可以尽可能的将低质量的链接类型都学习 到,从而可以有助于经训练的链接评分模型130能够更准确地确定链接的 评分。
图3示出了根据本公开实施例的链接评分方法300的流程图。具体而 言,链接评分方法300可以由图1中所示的模型训练环境100中的计算设 备110来执行。应当理解的是,链接评分方法300还可以包括未示出的附 加操作和/或可以省略所示出的操作,本公开的范围在此方面不受限制。
在框302,计算设备110通过网络爬虫抓取输入链接。根据本公开的 一些实施例,输入链接可以通过网络爬虫而被抓取,并且可以通过对输入 链接的评分来进一步确定是否将输入链接存储在链接库中。根据本公开的 另一些实施例,输入链接可以是已经被存储在链接库中的链接,此时无需 通过网络爬虫抓取输入链接,并且可以通过对输入链接的评分来进一步确 定是否将输入链接从链接库移除。
在框304,计算设备110使用根据模型训练方法200而被训练的链接 评分模型130,确定针对输入链接的评分。根据本公开的一个或多个实施 例,当获取了输入链接之后,计算设备110可以使用根据模型训练方法200 而被训练的链接评分模型130,结合与关联于输入链接的、被存储在链接 库中的链接集合相关联的链接质量信息和链接统计信息,来确定针对输入 链接的评分。
在框306,计算设备110确定在框304确定的评分是否高于第一阈值 评分。如果在框304确定的评分高于第一阈值评分,则方法300前进到框 308;否则,方法300前进到框310。根据本公开的一个或多个实施例,第 一阈值评分为预设的阈值评分,并且评分高于第一阈值评分的链接被认为 是高质量链接。
在框308,计算设备110将输入链接存储在链接库中。
在框310,计算设备110确定在框304确定的评分是否低于第二阈值 评分。如果在框304确定的评分低于第二阈值评分,则方法300前进到框 312;否则,方法300可以不进行操作,或者可以将输入链接标记为未决 以用于进一步的人工审核。
在框312,计算设备110将输入链接丢弃。
根据本公开的一个或多个实施例,第一阈值评分和第二阈值评分可以 相同。
应当理解,当输入链接是已经被存储在链接库中的链接时,可以修改 方法300以无需框302、306和308的步骤,从而使得仅判断输入链接的 评分是否低于第二阈值评分,并且当输入链接的评分低于第二阈值评分 时,从链接库删除输入链接。
以上参考图1至图3描述了与可以在其中实现本公开的某些实施例中 的模型训练方法的模型训练环境100、根据本公开实施例的模型训练方法 200、以及根据本公开实施例的链接评分方法300的相关内容。应当理解, 上述描述是为了更好地展示本公开中所记载的内容,而不是以任何方式进 行限制。
应当理解,本公开的上述各个附图中所采用的各种元件的数目和物理 量的大小仅为举例,而并不是对本公开的保护范围的限制。上述数目和大 小可以根据需要而被任意设置,而不会对本公开的实施方式的正常实施产 生影响。
上文已经参见图1至图3描述了根据本公开的实施方式的模型训练方 法200和链接评分方法300的细节。在下文中,将参见图4描述模型训练 装置中的各个模块。
图4是根据本公开实施例的模型训练装置400的示意性框图。如图4 所示,模型训练装置400可以包括:信息获取模块410,被配置为获取与 被存储在链接库中的链接集合相关联的链接质量信息和链接统计信息,链 接集合与所选择的链接相关联;以及模型训练模块420,被配置为训练链 接评分模型,使得使用经训练的链接评分模型,基于链接质量信息和链接 统计信息所确定的、针对所选择的链接的评分和针对所选择的链接预先标 注的标注评分的差别小于阈值差别。
在一个或多个实施例中,其中链接集合与所选择的链接相关联包括以 下至少一项:
链接集合与所选择的链接属于同一主域;
链接集合与所选择的链接属于同一站点;以及
链接集合与所选择的链接属于同一站点下的同一目录。
在一个或多个实施例中,其中链接质量信息包括以下至少一项:
链接集合中、与不良页面相关联的链接在链接集合中的数量比例;
链接集合中的低质量链接在链接集合中的数量比例;
与链接集合相关联的页面中、抓取页面内容失败的页面在与链接集合 相关联的页面中的数量比例;
链接集合中的高质量链接在链接集合中的数量比例;以及
链接集合中、在最新近的第一预定时间段内被存储在链接库中的高质 量链接与在最新近的第一预定时间段内被存储在链接库中的链接的数量 比例。
在一个或多个实施例中,其中链接统计信息包括以下至少一项:
链接集合中的链接的数量;
链接集合中、在最新近的第二预定时间段内被存储在链接库中的链接 的数量;
链接集合中的链接被存储在链接库中的时间;
与链接集合相关联的页面中、在最新近的第三预定时间段内、与竞品 数据相关联的页面的浏览数量;
链接集合中的链接的长度;
链接集合中、在最新近的第四预定时间段内被存储在链接库中的动态 链接的数量;以及
链接集合中、在最新近的第四预定时间段内被存储在链接库中的静态 链接的数量。
通过以上参考图1至图4的描述,根据本公开的实施方式的技术方案 相对于传统方案具有诸多优点。例如,利用该方法的技术方案,可以基于 与链接相关联的、在主域、站点和目录粒度中的链接质量信息和链接统计 信息来训练链接评分模型,以用于对抓取的链接进行准确和高效的评分, 以及进一步地丢弃低评分的链接、针对高评分的链接抓取相关联的页面内 容和相关联的链接,因此能够提高链接抓取和链接库维护的质量和效率,不仅能够节省链接库的存储资源,也能够提升使用链接库的用户的用户体 验。
具体而言,根据本公开的实施方式的技术方案可以基于链接质量信息 和链接统计信息来判断大规模链接的链接质量,并且可以基于大量种类丰 富的链接质量信息和链接统计信息来判断链接的质量。此外,根据本公开 的实施方式的技术方案可以支持清理链接库中所存储的垃圾链接或者无 价值的链接,从而可以有效地节省链接库的存储资源,进而可以保证良好 的链接库使用环境。
根据本公开的实施例,还提供了一种被配置为使用由根据本公开的模 型训练装置400训练的链接评分模型来确定针对输入链接的评分的链接评 分装置、一种电子设备、一种计算机可读存储介质和一种计算机程序产品。
图5示出了可以用来实施本公开的实施例的示例电子设备500的示意 性框图。例如,如图1所示的计算设备110和如图4所示的模型训练装置 400可以由电子设备500来实施。电子设备500旨在表示各种形式的数字 计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服 务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可 以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、 可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、 以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要 求的本公开的实现。
如图5所示,设备500包括计算单元501,其可以根据存储在只读存 储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存 储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在 RAM 503中,还可存储设备500操作所需的各种程序和数据。计算单元 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O) 接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506, 例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等; 存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制 解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网 的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理 组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图 形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机 器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的 处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如模型训练方法200和链接评分方法300。例如,在一些实施 例中,模型训练方法200和链接评分方法300可以被实现为计算机软件程 序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例 中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而 被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算 单元501执行时,可以执行上文描述的模型训练方法200和链接评分方法 300的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通 过其他任何适当的方式(例如,借助于固件)而被配置为执行模型训练方 法200和链接评分方法300。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路 系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、 专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑 设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这 些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或 者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行 和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从 存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并 且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个 输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的 任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其 他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控 制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可 以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机 器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含 或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设 备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读 储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电 磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组 合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连 接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、 可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑 盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的 任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技 术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极 射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如, 鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计 算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户 的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触 觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入) 来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例 如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服 务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网 络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器 来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、 中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式 或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。 通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此 并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具 有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或 删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地 执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望 的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术 人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、 子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和 改进等,均应包含在本公开保护范围之内。

Claims (22)

1.一种模型训练方法,包括:
获取与被存储在链接库中的链接集合相关联的链接质量信息和链接统计信息,所述链接集合与所选择的链接相关联;以及
训练链接评分模型,使得使用经训练的所述链接评分模型,基于所述链接质量信息和所述链接统计信息所确定的、针对所述所选择的链接的评分和针对所述所选择的链接预先标注的标注评分的差别小于阈值差别。
2.根据权利要求1所述的方法,其中所述链接集合与所述所选择的链接相关联包括以下至少一项:
所述链接集合与所述所选择的链接属于同一主域;
所述链接集合与所述所选择的链接属于同一站点;以及
所述链接集合与所述所选择的链接属于同一站点下的同一目录。
3.根据权利要求1所述的方法,其中所述链接质量信息包括以下至少一项:
所述链接集合中、与不良页面相关联的链接在所述链接集合中的数量比例;
所述链接集合中的低质量链接在所述链接集合中的数量比例;以及
所述链接集合中、在最新近的第一预定时间段内被存储在所述链接库中的高质量链接与在最新近的所述第一预定时间段内被存储在所述链接库中的链接的数量比例。
4.根据权利要求1所述的方法,其中所述链接统计信息包括以下至少一项:
所述链接集合中、在最新近的第二预定时间段内被存储在所述链接库中的链接的数量;
与所述链接集合相关联的页面中、在最新近的第三预定时间段内、与竞品数据相关联的页面的浏览数量;以及
所述链接集合中、在最新近的第四预定时间段内被存储在所述链接库中的动态链接的数量。
5.一种链接评分方法,包括使用根据权利要求1至4中的任一权利要求而被训练的链接评分模型,确定针对输入链接的评分。
6.根据权利要求5所述的方法,还包括:
通过网络爬虫抓取所述输入链接。
7.根据权利要求5所述的方法,还包括:
如果所述评分高于第一阈值评分,则将所述输入链接存储在链接库中。
8.根据权利要求5所述的方法,还包括:
如果所述评分低于第二阈值评分,则将所述输入链接丢弃。
9.一种模型训练装置,包括:
信息获取模块,被配置为获取与被存储在链接库中的链接集合相关联的链接质量信息和链接统计信息,所述链接集合与所选择的链接相关联;以及
模型训练模块,被配置为训练链接评分模型,使得使用经训练的所述链接评分模型,基于所述链接质量信息和所述链接统计信息所确定的、针对所述所选择的链接的评分和针对所述所选择的链接预先标注的标注评分的差别小于阈值差别。
10.根据权利要求9所述的装置,其中所述链接集合与所述所选择的链接相关联包括以下至少一项:
所述链接集合与所述所选择的链接属于同一主域;
所述链接集合与所述所选择的链接属于同一站点;以及
所述链接集合与所述所选择的链接属于同一站点下的同一目录。
11.根据权利要求9所述的装置,其中所述链接质量信息包括以下至少一项:
所述链接集合中、与不良页面相关联的链接在所述链接集合中的数量比例;
所述链接集合中的低质量链接在所述链接集合中的数量比例;以及
所述链接集合中、在最新近的第一预定时间段内被存储在所述链接库中的高质量链接与在最新近的所述第一预定时间段内被存储在所述链接库中的链接的数量比例。
12.根据权利要求9所述的装置,其中所述链接统计信息包括以下至少一项:
所述链接集合中、在最新近的第二预定时间段内被存储在所述链接库中的链接的数量;
与所述链接集合相关联的页面中、在最新近的第三预定时间段内、与竞品数据相关联的页面的浏览数量;以及
所述链接集合中、在最新近的第四预定时间段内被存储在所述链接库中的动态链接的数量。
13.一种链接评分装置,被配置为使用由根据权利要求9至12中的任一权利要求所述的模型训练装置训练的链接评分模型,确定针对输入链接的评分。
14.根据权利要求13所述的装置,还包括:
链接抓取模块,被配置为通过网络爬虫抓取所述输入链接。
15.根据权利要求13所述的装置,还包括:
链接存储模块,被配置为如果所述评分高于第一阈值评分,则将所述输入链接存储在链接库中。
16.根据权利要求13所述的装置,还包括:
链接丢弃模块,被配置为如果所述评分低于第二阈值评分,则将所述输入链接丢弃。
17.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。
18.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求5-8中任一项所述的方法。
19.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求5-8中任一项所述的方法。
21.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时,执行权利要求1-4中任一项所述的方法。
22.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时,执行权利要求5-8中任一项所述的方法。
CN202110666665.6A 2021-06-16 2021-06-16 模型训练方法、链接评分方法、装置、设备、介质和产品 Active CN113656671B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110666665.6A CN113656671B (zh) 2021-06-16 2021-06-16 模型训练方法、链接评分方法、装置、设备、介质和产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110666665.6A CN113656671B (zh) 2021-06-16 2021-06-16 模型训练方法、链接评分方法、装置、设备、介质和产品

Publications (2)

Publication Number Publication Date
CN113656671A true CN113656671A (zh) 2021-11-16
CN113656671B CN113656671B (zh) 2024-05-24

Family

ID=78488988

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110666665.6A Active CN113656671B (zh) 2021-06-16 2021-06-16 模型训练方法、链接评分方法、装置、设备、介质和产品

Country Status (1)

Country Link
CN (1) CN113656671B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102298583A (zh) * 2010-06-22 2011-12-28 腾讯科技(深圳)有限公司 一种电子公告板网页质量评价方法和系统
CN102317936A (zh) * 2008-12-18 2012-01-11 谷歌公司 识别评论以连同文档一起示出
CN105117501A (zh) * 2015-10-09 2015-12-02 广州神马移动信息科技有限公司 网络爬虫调度方法及应用其的网络爬虫系统
CN106354800A (zh) * 2016-08-26 2017-01-25 中国互联网络信息中心 一种基于多维度特征的不良网站检测方法
WO2017015134A1 (en) * 2015-07-23 2017-01-26 Google Inc. Native application deeplink scoring
CN107547552A (zh) * 2017-09-07 2018-01-05 杭州安恒信息技术有限公司 一种基于网站特征识别和关系拓扑的网站信誉度评估方法及装置
CN107544968A (zh) * 2016-06-23 2018-01-05 北京国双科技有限公司 一种确定网站可用性的方法及装置
CN108573146A (zh) * 2017-03-07 2018-09-25 华为技术有限公司 一种恶意url检测方法及装置
CN108681571A (zh) * 2018-05-05 2018-10-19 吉林大学 基于Word2Vec的主题爬虫系统和方法
CN109522504A (zh) * 2018-10-18 2019-03-26 杭州安恒信息技术股份有限公司 一种基于威胁情报判别仿冒网站的方法
CN110781497A (zh) * 2019-10-21 2020-02-11 新华三信息安全技术有限公司 网页链接的检测方法及存储介质
CN111488621A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种篡改网页检测方法、系统及电子设备和存储介质
CN112579729A (zh) * 2020-12-25 2021-03-30 百度(中国)有限公司 文档质量评价模型的训练方法、装置、电子设备和介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102317936A (zh) * 2008-12-18 2012-01-11 谷歌公司 识别评论以连同文档一起示出
CN102298583A (zh) * 2010-06-22 2011-12-28 腾讯科技(深圳)有限公司 一种电子公告板网页质量评价方法和系统
WO2017015134A1 (en) * 2015-07-23 2017-01-26 Google Inc. Native application deeplink scoring
CN105117501A (zh) * 2015-10-09 2015-12-02 广州神马移动信息科技有限公司 网络爬虫调度方法及应用其的网络爬虫系统
CN107544968A (zh) * 2016-06-23 2018-01-05 北京国双科技有限公司 一种确定网站可用性的方法及装置
CN106354800A (zh) * 2016-08-26 2017-01-25 中国互联网络信息中心 一种基于多维度特征的不良网站检测方法
CN108573146A (zh) * 2017-03-07 2018-09-25 华为技术有限公司 一种恶意url检测方法及装置
CN107547552A (zh) * 2017-09-07 2018-01-05 杭州安恒信息技术有限公司 一种基于网站特征识别和关系拓扑的网站信誉度评估方法及装置
CN108681571A (zh) * 2018-05-05 2018-10-19 吉林大学 基于Word2Vec的主题爬虫系统和方法
CN109522504A (zh) * 2018-10-18 2019-03-26 杭州安恒信息技术股份有限公司 一种基于威胁情报判别仿冒网站的方法
CN111488621A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种篡改网页检测方法、系统及电子设备和存储介质
CN110781497A (zh) * 2019-10-21 2020-02-11 新华三信息安全技术有限公司 网页链接的检测方法及存储介质
CN112579729A (zh) * 2020-12-25 2021-03-30 百度(中国)有限公司 文档质量评价模型的训练方法、装置、电子设备和介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘雁, 书方平: "利用链接关系评价网络信息的可行性研究", 情报学报, no. 04 *
周涛;陈向东;: "基于链接分析的网站评价", 广西教育学院学报, no. 04 *

Also Published As

Publication number Publication date
CN113656671B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
CN112765452B (zh) 搜索推荐方法、装置及电子设备
CN111966887B (zh) 动态缓存方法及装置、电子设备、存储介质
CN114363019B (zh) 钓鱼网站检测模型的训练方法、装置、设备及存储介质
CN113568938A (zh) 数据流处理方法、装置、电子设备及存储介质
CN112560461A (zh) 新闻线索的生成方法、装置、电子设备及存储介质
CN113360895B (zh) 站群检测方法、装置及电子设备
CN111488736A (zh) 自学习分词方法、装置、计算机设备和存储介质
US10963690B2 (en) Method for identifying main picture in web page
CN117040799A (zh) 页面拦截规则生成、页面访问控制方法、装置及电子设备
CN113656671B (zh) 模型训练方法、链接评分方法、装置、设备、介质和产品
CN116955817A (zh) 内容推荐方法、装置、电子设备以及存储介质
CN105245394A (zh) 一种基于分层方式分析网络访问日志的方法和设备
CN116684378A (zh) 基于分级管理的邮件缓存方法、装置、设备及介质
CN114722048B (zh) 一种数据处理方法、装置、电子设备及存储介质
CN114697247B (zh) 流媒体系统的故障检测方法、装置、设备和存储介质
CN112887426B (zh) 信息流的推送方法、装置、电子设备以及存储介质
CN113254578B (zh) 用于数据聚类的方法、装置、设备、介质和产品
CN113536086B (zh) 模型训练方法、账号评分方法、装置、设备、介质和产品
CN113642919A (zh) 风险控制方法、电子设备和存储介质
CN112860626A (zh) 一种文档排序方法、装置及电子设备
CN115086300B (zh) 一种视频文件调度方法和装置
CN114172725B (zh) 非法网站的处理方法、装置、电子设备和存储介质
CN113179218B (zh) 模型训练方法、网络拥塞控制方法、装置及相关产品
CN113569027B (zh) 一种文档标题处理方法、装置及电子设备
CN117494657A (zh) 内容排版方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant