CN110826007B - 栏目更新日期确定方法、装置、设备及可读存储介质 - Google Patents

栏目更新日期确定方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN110826007B
CN110826007B CN201911228627.1A CN201911228627A CN110826007B CN 110826007 B CN110826007 B CN 110826007B CN 201911228627 A CN201911228627 A CN 201911228627A CN 110826007 B CN110826007 B CN 110826007B
Authority
CN
China
Prior art keywords
target
column
address
update date
date
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911228627.1A
Other languages
English (en)
Other versions
CN110826007A (zh
Inventor
汪磊
范渊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Original Assignee
DBAPPSecurity Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DBAPPSecurity Co Ltd filed Critical DBAPPSecurity Co Ltd
Priority to CN201911228627.1A priority Critical patent/CN110826007B/zh
Publication of CN110826007A publication Critical patent/CN110826007A/zh
Application granted granted Critical
Publication of CN110826007B publication Critical patent/CN110826007B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • G06F8/65Updates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本申请公开了一种栏目更新日期确定方法、装置、设备及可读存储介质。本申请公开的方法包括:从目标网站中提取目标栏目的目标地址,目标栏目为目标网站中待确定更新日期的栏目;按照目标地址查询目标栏目的源码,并根据源码生成目标DOM树;在目标DOM树中查询有效内链地址对应的内链标签元素;根据内链标签元素确定目标栏目的更新日期。本申请仅针对与目标栏目相关的信息进行处理,不涉及其他栏目或页面的信息,因此最后确定的更新日期为目标栏目的更新日期,而非其他日期,从而降低了栏目更新日期的误报率和漏报率。本申请公开的一种栏目更新日期确定装置、设备及可读存储介质,也同样具有上述技术效果。

Description

栏目更新日期确定方法、装置、设备及可读存储介质
技术领域
本申请涉及计算机技术领域,特别涉及一种栏目更新日期确定方法、装置、设备及可读存储介质。
背景技术
在现有技术中,一般利用正则匹配方式对网站中含有日期的特征进行提取,进而将提取到的日期确定为网站中栏目的更新日期。但由于网站的展示页面中还可能设有用户打开网站页面时的日期,或用户浏览网站时当前时刻的日期,因此利用正则匹配方式提取到的日期不一定为栏目的更新日期,还可能是用户浏览网站的日期,所以将正则匹配方式提取到的日期确定为网站中栏目的更新日期会增加误报率和漏报率。
因此,如何降低网站中栏目更新日期的误报率和漏报率,是本领域技术人员需要解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种栏目更新日期确定方法、装置、设备及可读存储介质,以降低网站中栏目更新日期的误报率和漏报率。其具体方案如下:
第一方面,本申请提供了一种栏目更新日期确定方法,包括:
从目标网站中提取目标栏目的目标地址,目标栏目为目标网站中待确定更新日期的栏目;
按照目标地址查询目标栏目的源码,并根据源码生成目标DOM树;
在目标DOM树中查询有效内链地址对应的内链标签元素;
根据内链标签元素确定目标栏目的更新日期。
优选地,从目标网站中提取目标栏目的目标地址,包括:
利用目标标签从目标网站中提取目标地址,目标标签包括:nav、menu、nav*和menu*
优选地,在目标DOM树中查询有效内链地址对应的内链标签元素之前,还包括:
对目标DOM树进行去噪。
优选地,在目标DOM树中查询有效内链地址对应的内链标签元素,包括:
在目标DOM树中查询内链地址;
对查询到的内链地址进行筛选,获得有效内链地址;
从目标DOM树中提取有效内链地址对应的内链标签元素。
优选地,对查询到的内链地址进行筛选,获得有效内链地址,包括:
确定目标地址的第一文件目录,以及查询到的内链地址的第二文件目录;
若第一文件目录和第二文件目录的头部相同,则将内链地址确定为有效内链地址;
若第一文件目录和第二文件目录的头部不相同,则将内链地址确定为无效内链地址。
优选地,根据内链标签元素确定目标栏目的更新日期,包括:
判断内链标签元素的父标签元素是否存在父节点;
若否,则在父标签元素中查询日期,并将查询到的日期确定为目标栏目的更新日期。
优选地,还包括:
若父标签元素存在父节点,则确定内链标签元素和父标签元素所属的标签元素组;
若标签元素组中仅有一个日期,则将日期确定为目标栏目的更新日期。
第二方面,本申请提供了一种栏目更新日期确定装置,包括:
提取模块,用于从目标网站中提取目标栏目的目标地址,目标栏目为目标网站中待确定更新日期的栏目;
执行模块,用于按照目标地址查询目标栏目的源码,并根据源码生成目标DOM树;
查询模块,用于在目标DOM树中查询有效内链地址对应的内链标签元素;
获取模块,用于根据内链标签元素确定目标栏目的更新日期。
第三方面,本申请提供了一种栏目更新日期确定设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序,以实现前述公开的栏目更新日期确定方法。
第四方面,本申请提供了一种可读存储介质,用于保存计算机程序,其中,计算机程序被处理器执行时实现前述公开的栏目更新日期确定方法。
通过以上方案可知,本申请提供了一种栏目更新日期确定方法,包括:从目标网站中提取目标栏目的目标地址,目标栏目为目标网站中待确定更新日期的栏目;按照目标地址查询目标栏目的源码,并根据源码生成目标DOM树;在目标DOM树中查询有效内链地址对应的内链标签元素;根据内链标签元素确定目标栏目的更新日期。
可见,该方法在从目标网站中提取到目标栏目的目标地址后,首先按照目标地址查询目标栏目的源码,并根据源码生成目标DOM树;进而在目标DOM树中查询有效内链地址对应的内链标签元素,内链标签元素是存有当前目标栏目的更新日期的信息,因此从内链标签元素中可获取到目标栏目的更新日期。本申请仅针对目标栏目相关的信息进行处理,不涉及其他栏目或页面的信息,因此最后确定的更新日期为目标栏目的更新日期,而非其他日期,从而降低了网站中栏目更新日期的误报率和漏报率,提高了网站中栏目更新日期的确定准确率。其中,确定网站中栏目更新日期,可为评估网站的更新及时性提供可靠的依据。
相应地,本申请提供的一种栏目更新日期确定装置、设备及可读存储介质,也同样具有上述技术效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的第一种栏目更新日期确定方法流程图;
图2为本申请公开的第二种栏目更新日期确定方法流程图;
图3为本申请公开的一种栏目更新日期确定方案示意图;
图4为本申请公开的一种栏目更新日期提取方法流程图;
图5为本申请公开的一种栏目更新日期确定装置示意图;
图6为本申请公开的一种栏目更新日期确定设备示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,利用正则匹配方式提取网站中栏目的更新日期会增加误报率和漏报率。为此,本申请提供了一种栏目更新日期确定方案,能够降低网站中栏目更新日期的误报率和漏报率,从而提高了网站中栏目更新日期的确定准确率。
参见图1所示,本申请实施例公开了第一种栏目更新日期确定方法,包括:
S101、从目标网站中提取目标栏目的目标地址。
其中,目标栏目为目标网站中待确定更新日期的栏目。目标栏目可以为一个或多个,当目标栏目为多个时,待确定更新日期的栏目可排列为栏目列表,具体以各个目标栏目的目标地址进行排列。其中,当目标栏目为多个时,提取到的多个目标地址可能会存在重复,因此需要对多个目标地址进行去重。去重方式为:计算每个目标地址的哈希值,对于重复存在的哈希值仅保留一个,其他删除。若哈希值重复,则表明目标地址重复,因此重复存在的哈希值仅保留一个。
在一种具体实施方式中,从目标网站中提取目标栏目的目标地址,包括:利用目标标签从目标网站中提取目标地址,目标标签包括:nav、menu、nav*和menu*。其中,nav和menu适用于精确提取,nav*和menu*适用于模糊提取。
S102、按照目标地址查询目标栏目的源码,并根据源码生成目标DOM树。
其中,目标DOM树中可能有其他干扰信息,因此在目标DOM树中查询有效内链地址对应的内链标签元素之前,可以对目标DOM树进行去噪。其他干扰信息如:head、title、input等标签;noscript标签;xml、vbscript等内容。
S103、在目标DOM树中查询有效内链地址对应的内链标签元素。
S104、根据内链标签元素确定目标栏目的更新日期。
在一种具体实施方式中,根据内链标签元素确定目标栏目的更新日期,包括:判断内链标签元素的父标签元素是否存在父节点;若否,则在父标签元素中查询日期,并将查询到的日期确定为目标栏目的更新日期。若父标签元素存在父节点,则确定内链标签元素和父标签元素所属的标签元素组;若标签元素组中仅有一个日期,则将日期确定为目标栏目的更新日期。若标签元素组中有多个日期,则生成无法确定目标栏目的更新日期的消息。若父标签元素无父节点,且在父标签元素中未查询到日期,则生成无法确定目标栏目的更新日期的消息。
其中,确定标签元素组也就是对内链标签元素一直往上取父标签元素,确定所有标签元素组成的标签元素组。如:内链标签元素为A,A的父标签元素为B,B的父标签元素为C,C无父标签元素,那么可确定标签元素组为:A-B-C;若A-B-C中仅C中有日期,则该日期为目标栏目的更新日期;若A-B-C中仅B中有日期,则该日期为目标栏目的更新日期。若A-B-C中有多个日期,则生成无法确定目标栏目的更新日期的消息。
可见,本申请实施例在从目标网站中提取到目标栏目的目标地址后,首先按照目标地址查询目标栏目的源码,并根据源码生成目标DOM树;进而在目标DOM树中查询有效内链地址对应的内链标签元素,内链标签元素是存有当前目标栏目的更新日期的信息,因此从内链标签元素中可获取到目标栏目的更新日期。本申请仅针对目标栏目相关的信息进行处理,不涉及其他栏目或页面的信息,因此最后确定的更新日期为目标栏目的更新日期,而非其他日期,从而降低了网站中栏目更新日期的误报率和漏报率,提高了网站中栏目更新日期的确定准确率。其中,确定网站中栏目更新日期,可为评估网站的更新及时性提供可靠的依据。
参见图2所示,本申请实施例公开了第二种栏目更新日期确定方法,包括:
S201、从目标网站中提取目标栏目的目标地址;
其中,目标栏目为目标网站中待确定更新日期的栏目。
在一种具体实施方式中,从目标网站中提取目标栏目的目标地址,包括:利用目标标签从目标网站中提取目标地址,目标标签包括:nav、menu、nav*和menu*。其中,nav和menu适用于精确提取,nav*和menu*适用于模糊提取。
S202、按照目标地址查询目标栏目的源码,并根据源码生成目标DOM树;
S203、对目标DOM树进行去噪;
S204、在目标DOM树中查询内链地址;
S205、对查询到的内链地址进行筛选,获得有效内链地址;
S206、从目标DOM树中提取有效内链地址对应的内链标签元素;
S207、根据内链标签元素确定目标栏目的更新日期。
需要说明的是,查询到的内链地址中可能存在无效内链地址,也就是不属于目标栏目的内链地址,因此需要对查询到的内链地址进行筛选,以获得有效内链地址。
在一种具体实施方式中,对查询到的内链地址进行筛选,获得有效内链地址,包括:确定目标地址的第一文件目录,以及查询到的内链地址的第二文件目录;若第一文件目录和第二文件目录的头部相同,则将内链地址确定为有效内链地址;若第一文件目录和第二文件目录的头部不相同,则将内链地址确定为无效内链地址。其中,若第一文件目录和第二文件目录的头部相同,则认为目标地址和查询到的内链地址相似,则确定查询到的内链地址属于目标栏目的内链地址,为有效内链地址。若第一文件目录和第二文件目录的头部不相同,则认为目标地址和查询到的内链地址不相似,则确定查询到的内链地址不属于目标栏目的内链地址,为无效内链地址。
在一种具体实施方式中,根据内链标签元素确定目标栏目的更新日期,包括:判断内链标签元素的父标签元素是否存在父节点;若否,则在父标签元素中查询日期,并将查询到的日期确定为目标栏目的更新日期。若父标签元素存在父节点,则确定内链标签元素和父标签元素所属的标签元素组;若标签元素组中仅有一个日期,则将日期确定为目标栏目的更新日期。若标签元素组中有多个日期,则生成无法确定目标栏目的更新日期的消息。若父标签元素无父节点,且在父标签元素中未查询到日期,则生成无法确定目标栏目的更新日期的消息。
其中,现有技术中的正则匹配方式仅适用于较为规范的传统网站,不适用干扰要素过多的网站。因此若利用正则匹配方式对干扰要素过多的网站中的栏目进行处理,误报率和漏报率也较高。干扰要素过多的网站如:具有动态展示功能的网站或框架层级过深的网站。而本申请对标签元素组进行处理,对于干扰要素过多的网站也能够适用,从而可降低对于干扰要素过多的网站的处理误报率和漏报率。
需要说明的是,本实施例中的其他实现步骤与上述实施例相同或类似,故本实施例在此不再赘述。
由上可见,本实施例在从目标网站中提取到目标栏目的目标地址后,首先按照目标地址查询目标栏目的源码,并根据源码生成目标DOM树;进而在目标DOM树中查询有效内链地址对应的内链标签元素,内链标签元素是存有当前目标栏目的更新日期的信息,因此从内链标签元素中可获取到目标栏目的更新日期。本申请仅针对目标栏目相关的信息进行处理,不涉及其他栏目或页面的信息,因此最后确定的更新日期为目标栏目的更新日期,而非其他日期,从而降低了网站中栏目更新日期的误报率和漏报率,提高了网站中栏目更新日期的确定准确率。其中,确定网站中栏目更新日期,可为评估网站的更新及时性提供可靠的依据。
按照本申请提供的方法可实现如下实施例。请参见图3,本实施例提供的栏目更新日期确定方案包括三个阶段,分别为:栏目收集阶段、栏目有效正文收集阶段和栏目更新内容识别阶段。其中,栏目收集阶段主要用于收集网站中待确定更新日期的栏目的地址。栏目有效正文收集阶段主要用于确定待确定更新日期的栏目的DOM树,并对DOM树去噪。栏目更新内容识别阶段主要用于根据栏目的地址和去噪后的DOM树,提取出正文中的内链地址及内链地址对应的内链标签元素;去除无效内链地址;对内链标签元素进行处理,获得栏目的更新信息。
栏目收集阶段具体包括:
通过nav、menu等标签精确提取栏目地址($Column_Url);和/或通过nav*、menu*等属性;和/或通风‘more’、‘更多’等特征关键词模糊提取栏目地址,从而得到栏目列表,也就是待确定更新日期的栏目的列表。
栏目有效正文收集阶段具体包括:
使用网络爬虫和动态脚本渲染技术(ChromeDriver)获取栏目的源码($Column_Url),通过Jsoup工具将源码解析为DOM树($Dom);使用网页去噪技术收集有效正文,获得去噪后的DOM树,即有效DOM树($Valid_Dom)。被去噪的内容一般包括:特征标签内容,如:head、title、input等;脚本标签,如:noscript标签等;无效引用信息,如:xml、vbscript等。
栏目更新内容识别阶段具体包括:
对有效DOM树进行内链地址($Inner_Url)提取,对提取到的内链地址进行相似度判断,以区分出有效内链地址($Valid_Inner_Url),进而从有效DOM树中提取出有效内链地址对应的内链标签元素($Valid_Inner_Element)。其中,内链地址($Inner_Url)对应的内链标签元素为$Inner_Element。内链标签元素包括栏目中的文章标题($Article_Title),其为干扰因素,因此可将其删除。
对于有效内链地址对应的内链标签元素,递归获取其父标签元素包括的日期。若父标签元素无父节点,则在父标签元素中查询日期,并将查询到的日期确定为目标栏目的更新日期。若父标签元素存在父节点,则确定内链标签元素和父标签元素所属的标签元素组;若标签元素组中仅有一个日期,则将日期确定为目标栏目的更新日期。
其中,若标签元素组中仅有一个日期($Article_Date),但标签元素组中的标签元素超过预设数量(如5个),则生成无法确定目标栏目的更新日期的消息。因为层级过深,确定的日期可能不准确,因此舍弃掉日期。
需要说明的是,若内链标签元素的父标签元素中包括多个日期,则这些日期进行倒序排列,可获得有序集合($Tree_Set),那么排列在有序集合首位的日期即为栏目的更新日期($Column_Update_Date)。
按照本实施例可实现如图4所示的栏目更新日期提取方法流程图,栏目更新日期提取方法流程包括:栏目输入-响应判断-利用栏目更新日期确定方法进行处理-更新日期输出。
可见,本实施例能够利用动态脚本渲染技术(ChromeDriver)获取栏目的源码;也能够对DOM树进行去噪;同时可对内链低至与栏目地址进行相似性分析,以确保内链地址与栏目相关联;最后递归提取内链标签元素中的日期文本,使得可应对多层级的复杂网站。因此本实施例能有效提高对于网站内容更新的监管效率,降低了网站中栏目更新日期的误报率和漏报率,也减少了对于网站监管的人工审核投入,能够节约网站运营成本。
下面对本申请实施例提供的一种栏目更新日期确定装置进行介绍,下文描述的一种栏目更新日期确定装置与上文描述的一种栏目更新日期确定方法可以相互参照。
参见图5所示,本申请实施例公开了一种栏目更新日期确定装置,包括:
提取模块501,用于从目标网站中提取目标栏目的目标地址,目标栏目为目标网站中待确定更新日期的栏目;
执行模块502,用于按照目标地址查询目标栏目的源码,并根据源码生成目标DOM树;
查询模块503,用于在目标DOM树中查询有效内链地址对应的内链标签元素;
获取模块504,用于根据内链标签元素确定目标栏目的更新日期。
在一种具体实施方式中,提取模块具体用于:
利用目标标签从目标网站中提取目标地址,目标标签包括:nav、menu、nav*和menu*
在一种具体实施方式中,还包括:
去噪模块,用于对目标DOM树进行去噪。
在一种具体实施方式中,查询模块包括:
查询单元,用于在目标DOM树中查询内链地址;
筛选单元,用于对查询到的内链地址进行筛选,获得有效内链地址;
提取单元,用于从目标DOM树中提取有效内链地址对应的内链标签元素。
在一种具体实施方式中,筛选单元包括:
第一确定子单元,用于确定目标地址的第一文件目录,以及查询到的内链地址的第二文件目录;
第二确定子单元,用于若第一文件目录和第二文件目录的头部相同,则将内链地址确定为有效内链地址;
第三确定子单元,用于若第一文件目录和第二文件目录的头部不相同,则将内链地址确定为无效内链地址。
在一种具体实施方式中,获取模块包括:
判断单元,用于判断内链标签元素的父标签元素是否存在父节点;
第一确定单元,用于若内链标签元素的父标签元素不存在父节点,则在父标签元素中查询日期,并将查询到的日期确定为目标栏目的更新日期。
在一种具体实施方式中,获取模块还包括:
第二确定单元,用于若父标签元素存在父节点,则确定内链标签元素和父标签元素所属的标签元素组;若标签元素组中仅有一个日期,则将日期确定为目标栏目的更新日期。
其中,关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本实施例提供了一种栏目更新日期确定装置,该装置仅针对目标栏目相关的信息进行处理,不涉及其他栏目或页面的信息,因此最后确定的更新日期为目标栏目的更新日期,而非其他日期,从而降低了网站中栏目更新日期的误报率和漏报率,提高了网站中栏目更新日期的确定准确率。其中,确定网站中栏目更新日期,可为评估网站的更新及时性提供可靠的依据。
下面对本申请实施例提供的一种栏目更新日期确定设备进行介绍,下文描述的一种栏目更新日期确定设备与上文描述的一种栏目更新日期确定方法及装置可以相互参照。
参见图6所示,本申请实施例公开了一种栏目更新日期确定设备,包括:
存储器601,用于保存计算机程序;
处理器602,用于执行所述计算机程序,以实现上述任意实施例公开的方法。
下面对本申请实施例提供的一种可读存储介质进行介绍,下文描述的一种可读存储介质与上文描述的一种栏目更新日期确定方法、装置及设备可以相互参照。
一种可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述实施例公开的栏目更新日期确定方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本申请涉及的“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法或设备固有的其它步骤或单元。
需要说明的是,在本申请中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的可读存储介质中。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (9)

1.一种栏目更新日期确定方法,其特征在于,包括:
从目标网站中提取目标栏目的目标地址,所述目标栏目为所述目标网站中待确定更新日期的栏目;
按照所述目标地址查询所述目标栏目的源码,并根据所述源码生成目标DOM树;
在所述目标DOM树中查询有效内链地址对应的内链标签元素;
根据所述内链标签元素确定所述目标栏目的更新日期;
其中,所述根据所述内链标签元素确定所述目标栏目的更新日期,包括:
判断所述内链标签元素的父标签元素是否存在父节点;
若否,则在所述父标签元素中查询日期,并将查询到的日期确定为所述目标栏目的更新日期。
2.根据权利要求1所述的栏目更新日期确定方法,其特征在于,所述从目标网站中提取目标栏目的目标地址,包括:
利用目标标签从所述目标网站中提取所述目标地址,所述目标标签包括:nav、menu、nav*和menu*
3.根据权利要求1所述的栏目更新日期确定方法,其特征在于,所述在所述目标DOM树中查询有效内链地址对应的内链标签元素之前,还包括:
对所述目标DOM树进行去噪。
4.根据权利要求3所述的栏目更新日期确定方法,其特征在于,所述在所述目标DOM树中查询有效内链地址对应的内链标签元素,包括:
在所述目标DOM树中查询内链地址;
对查询到的所述内链地址进行筛选,获得有效内链地址;
从所述目标DOM树中提取所述有效内链地址对应的内链标签元素。
5.根据权利要求4所述的栏目更新日期确定方法,其特征在于,所述对查询到的所述内链地址进行筛选,获得有效内链地址,包括:
确定所述目标地址的第一文件目录,以及查询到的所述内链地址的第二文件目录;
若所述第一文件目录和所述第二文件目录的头部相同,则将所述内链地址确定为有效内链地址;
若所述第一文件目录和所述第二文件目录的头部不相同,则将所述内链地址确定为无效内链地址。
6.根据权利要求1所述的栏目更新日期确定方法,其特征在于,还包括:
若所述父标签元素存在父节点,则确定所述内链标签元素和所述父标签元素所属的标签元素组;
若所述标签元素组中仅有一个日期,则将所述日期确定为所述目标栏目的更新日期。
7.一种栏目更新日期确定装置,其特征在于,包括:
提取模块,用于从目标网站中提取目标栏目的目标地址,所述目标栏目为所述目标网站中待确定更新日期的栏目;
执行模块,用于按照所述目标地址查询所述目标栏目的源码,并根据所述源码生成目标DOM树;
查询模块,用于在所述目标DOM树中查询有效内链地址对应的内链标签元素;
获取模块,用于根据所述内链标签元素确定所述目标栏目的更新日期;
其中,获取模块包括:
判断单元,用于判断内链标签元素的父标签元素是否存在父节点;
第一确定单元,用于若内链标签元素的父标签元素不存在父节点,则在父标签元素中查询日期,并将查询到的日期确定为目标栏目的更新日期。
8.一种栏目更新日期确定设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至6任一项所述的栏目更新日期确定方法。
9.一种可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的栏目更新日期确定方法。
CN201911228627.1A 2019-12-04 2019-12-04 栏目更新日期确定方法、装置、设备及可读存储介质 Active CN110826007B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911228627.1A CN110826007B (zh) 2019-12-04 2019-12-04 栏目更新日期确定方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911228627.1A CN110826007B (zh) 2019-12-04 2019-12-04 栏目更新日期确定方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN110826007A CN110826007A (zh) 2020-02-21
CN110826007B true CN110826007B (zh) 2022-07-05

Family

ID=69543898

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911228627.1A Active CN110826007B (zh) 2019-12-04 2019-12-04 栏目更新日期确定方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN110826007B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883044B (zh) * 2021-03-29 2023-02-07 浙江太美医疗科技股份有限公司 用于数据库的数据处理方法、装置及计算机可读介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101782914A (zh) * 2009-06-23 2010-07-21 北京搜狗科技发展有限公司 一种对网页信息进行提示的方法及系统
CN101908052A (zh) * 2009-11-27 2010-12-08 新奥特(北京)视频技术有限公司 一种多媒体节目的制作方法及装置
CN103731478A (zh) * 2013-12-13 2014-04-16 深圳市云宙多媒体技术有限公司 一种基于用户访问时间的内容发布方法及系统
US8738663B2 (en) * 2004-01-09 2014-05-27 Oracle International Corporation Rule-based transformation of metadata
CN106021247A (zh) * 2015-07-14 2016-10-12 陈兆福 一种在互联网中传递信息的方法
CN106599160A (zh) * 2016-12-08 2017-04-26 网帅科技(北京)有限公司 一种内容规则库管理系统及其编码方法
CN107924387A (zh) * 2015-06-18 2018-04-17 缇洛公司 用于生成电子页面的系统和方法
CN109491962A (zh) * 2018-11-06 2019-03-19 深圳市网心科技有限公司 一种文件目录树管理方法及相关装置
CN110110002A (zh) * 2019-05-13 2019-08-09 江南大学 大数据可视化交互系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2997504B1 (en) * 2013-06-09 2019-07-31 Apple Inc. Browser-driven power saving

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8738663B2 (en) * 2004-01-09 2014-05-27 Oracle International Corporation Rule-based transformation of metadata
CN101782914A (zh) * 2009-06-23 2010-07-21 北京搜狗科技发展有限公司 一种对网页信息进行提示的方法及系统
CN101908052A (zh) * 2009-11-27 2010-12-08 新奥特(北京)视频技术有限公司 一种多媒体节目的制作方法及装置
CN103731478A (zh) * 2013-12-13 2014-04-16 深圳市云宙多媒体技术有限公司 一种基于用户访问时间的内容发布方法及系统
CN107924387A (zh) * 2015-06-18 2018-04-17 缇洛公司 用于生成电子页面的系统和方法
CN106021247A (zh) * 2015-07-14 2016-10-12 陈兆福 一种在互联网中传递信息的方法
CN106599160A (zh) * 2016-12-08 2017-04-26 网帅科技(北京)有限公司 一种内容规则库管理系统及其编码方法
CN109491962A (zh) * 2018-11-06 2019-03-19 深圳市网心科技有限公司 一种文件目录树管理方法及相关装置
CN110110002A (zh) * 2019-05-13 2019-08-09 江南大学 大数据可视化交互系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"A column-wise update algorithm for nonnegative matrix factorization in Bregman divergence with an orthogonal constraint";Kimura K 等;《Machine Learning》;20161030;第285-306页 *
"利用Diff-IE插件跟踪页面更新";大江东去;《电脑迷》;20111231;第79页 *

Also Published As

Publication number Publication date
CN110826007A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
US20090319449A1 (en) Providing context for web articles
CN107423391B (zh) 网页结构化数据的信息提取方法
CN110602045A (zh) 一种基于特征融合和机器学习的恶意网页识别方法
CN110377796B (zh) 基于dom树的正文抽取方法、装置、设备及存储介质
CN103927480A (zh) 一种恶意网页的识别方法、装置和系统
CN104462396B (zh) 字符串处理方法和装置
CN106547803B (zh) 爬取网站增量资源的方法和装置
CN106547749A (zh) 网页数据采集的方法和装置
CN107015986B (zh) 一种爬虫爬取网页的方法及装置
CN108768982A (zh) 钓鱼网站的检测方法、装置、计算设备及计算机存储介质
CN113868568A (zh) 一种网页关键字高亮方法、装置、设备及存储介质
CN105528357A (zh) 一种基于url和网页文档结构的相似性的网页内容提取方法
CN110390037B (zh) 基于dom树的信息分类方法、装置、设备及存储介质
CN110826007B (zh) 栏目更新日期确定方法、装置、设备及可读存储介质
CN117390329A (zh) 网页标注方法、装置及设备
CN103838865A (zh) 用于挖掘时效性种子页的方法及装置
CN108595453B (zh) Url标识映射获取方法及装置
CN106776654B (zh) 一种数据搜索方法及装置
CN110929188A (zh) 服务端页面渲染方法及装置
US10606875B2 (en) Search support apparatus and method
CN108804620B (zh) 互联网数据采集方法、系统及计算机终端
CN108153817B (zh) 一种智能网页数据采集方法
CN112131448A (zh) 网络信息获取方法、装置和电子设备
CN106997353B (zh) 网页改版的监控方法及装置
CN110929184A (zh) 链接的显示方法、系统、存储介质和处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant