CN107766384A - 一种确定页面发布时间的方法和装置 - Google Patents

一种确定页面发布时间的方法和装置 Download PDF

Info

Publication number
CN107766384A
CN107766384A CN201610702597.3A CN201610702597A CN107766384A CN 107766384 A CN107766384 A CN 107766384A CN 201610702597 A CN201610702597 A CN 201610702597A CN 107766384 A CN107766384 A CN 107766384A
Authority
CN
China
Prior art keywords
page
content pages
date format
issuing time
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610702597.3A
Other languages
English (en)
Inventor
潘峰
孙德彬
曹志明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201610702597.3A priority Critical patent/CN107766384A/zh
Publication of CN107766384A publication Critical patent/CN107766384A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种确定页面发布时间的方法和装置,该方法包括:获取目标网站的指定页面上的内容页标题链接;判断指定页面上是否有与所述内容页标题链接对应的第一日期格式字符串;若指定页面上有与内容页标题链接对应的第一日期格式字符串,则将第一日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间;若指定页面上没有与内容页标题链接对应的第一日期格式字符串,则根据预定策略从目标网站的其他位置确定所述内容页的发布时间,通过不同的方式在指定页面上确定出内容页的发布时间,而不需要进入每个内容页进行解析,这样能减少解析的任务量,提高确定发布时间的效率,尽可能使用最小资源消耗完成解析工作。

Description

一种确定页面发布时间的方法和装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种确定页面发布时间的方法和装置。
背景技术
在网站质量检查以及数据抓取过程中,通常需要获取内容页面的发布时间,这一方面可以用于考察网站本身的信息更新情况,另一方面也用于确定内容发布的实时性。
目前,由于网站设计不统一,内容页的发布时间可能设置在不同的位置,导致不能使用单一的方法来确定页面的发布时间。
针对现有技术不能使用单一的方法来确定页面的发布时间的问题,目前尚未提出有效的解决方案。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的确定页面发布时间的方法和装置。
依据本发明实施例的第一个方面,提供了一种确定页面发布时间的方法,所述方法包括:
获取目标网站的指定页面上的内容页标题链接;
判断所述指定页面上是否有与所述内容页标题链接对应的第一日期格式字符串;
若所述指定页面上有与所述内容页标题链接对应的第一日期格式字符串,则将所述第一日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间;
若所述指定页面上没有与所述内容页标题链接对应的第一日期格式字符串,则根据预定策略从目标网站的其他位置确定所述内容页的发布时间。
可选地,所述根据预定策略从目标网站的其他位置确定所述内容页的发布时间,包括:
判断所述内容页标题链接内是否携带有第二日期格式字符串;
若所述内容页标题链接内携带有第二日期格式字符串,则将所述第二日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间。
可选地,所述根据预定策略从目标网站的其他地方确定所述内容页的发布时间,还包括:
获取所述内容页标题链接对应内容页的页面源码;
判断所述页面源码中指定标签是否携带有第三日期格式字符串;
若所述页面源码中指定标签携带有第三日期格式字符串,则将所述第三日期格式字符串对应的时间值确定为所述内容页的发布时间。
可选地,所述根据预定策略从目标网站的其他地方确定所述内容页的发布时间,还包括:
从页面源码中提取出与发布时间相关的指定关键词以及所述指定关键词附近的多个发布时间;
根据每个发布时间和指定关键词在页面源码中的距离,确定每个发布时间的权重值,其中,发布时间和指定关键词在页面源码中距离越近,权重值越大;
将最大的权重值对应的发布时间,确定为所述内容页的发布时间。
依据本发明实施例的第二个方面,还提供了一种确定页面发布时间的方法,所述方法包括:
获取目标网站的指定页面上的内容页标题链接;
判断所述指定页面上是否有所述内容页标题链接对应的第一日期格式字符串;
若所述指定页面上有所述内容页标题链接对应的第一日期格式字符串,则将所述第一日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间;
若所述指定页面上没有所述内容页标题链接对应的第一日期格式字符串,则判断所述内容页标题链接内是否携带有第二日期格式字符串;
若所述内容页标题链接内携带有第二日期格式字符串,则将所述第二日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间;
若所述内容页标题链接内没有携带第二日期格式字符串,则获取所述内容页标题链接对应内容页的页面源码,判断所述页面源码中指定标签是否携带有第三日期格式字符串;
若所述页面源码中指定标签携带有第三日期格式字符串,则将所述第三日期格式字符串对应的时间值确定为所述内容页的发布时间;
若所述页面源码中指定标签没有携带第三日期格式字符串,根据所述页面源码中的指定关键词确定所述内容页的发布时间。
依据本发明实施例的第三个方面,还提供了一种确定页面发布时间的装置,所述装置包括:
第一获取模块,用于获取目标网站的指定页面上的内容页标题链接;
第一判断模块,用于判断所述指定页面上是否有与所述内容页标题链接对应的第一日期格式字符串;
第一确定模块,用于若所述指定页面上有与所述内容页标题链接对应的第一日期格式字符串,则将所述第一日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间;
第二确定模块,用于若所述指定页面上没有与所述内容页标题链接对应的第一日期格式字符串,则根据预定策略从目标网站的其他位置确定所述内容页的发布时间。
可选地,所述第二确定模块包括:
第一判断单元,用于判断所述内容页标题链接内是否携带有第二日期格式字符串;
第一确定单元,用于若所述内容页标题链接内携带有第二日期格式字符串,则将所述第二日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间。
可选地,所述第二确定模块还包括:
第一获取单元,用于获取所述内容页标题链接对应内容页的页面源码;
第二判断单元,用于判断所述页面源码中指定标签是否携带有第三日期格式字符串;
第二确定单元,用于若所述页面源码中指定标签携带有第三日期格式字符串,则将所述第三日期格式字符串对应的时间值确定为所述内容页的发布时间。
可选地,所述第二确定模块还包括:
提取单元,用于从页面源码中提取出与发布时间相关的指定关键词以及所述指定关键词附近的多个发布时间;
第三确定单元,用于根据每个发布时间和指定关键词在页面源码中的距离,确定每个发布时间的权重值,其中,发布时间和指定关键词在页面源码中距离越近,权重值越大;
第四确定单元,用于将最大的权重值对应的发布时间,确定为所述内容页的发布时间。
依据本发明实施例的第四个方面,还提供了一种确定页面发布时间的装置,所述装置包括:
第二获取模块,用于获取目标网站的指定页面上的内容页标题链接;
第二判断模块,用于判断所述指定页面上是否有所述内容页标题链接对应的第一日期格式字符串;
第三确定模块,用于若所述指定页面上有所述内容页标题链接对应的第一日期格式字符串,则将所述第一日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间;
第三判断模块,用于若所述指定页面上没有所述内容页标题链接对应的第一日期格式字符串,则判断所述内容页标题链接内是否携带有第二日期格式字符串;
第四确定模块,用于若所述内容页标题链接内携带有第二日期格式字符串,则将所述第二日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间;
第四判断模块,用于若所述内容页标题链接内没有携带第二日期格式字符串,则获取所述内容页标题链接对应内容页的页面源码,判断所述页面源码中指定标签是否携带有第三日期格式字符串;
第五确定模块,用于若所述页面源码中指定标签携带有第三日期格式字符串,则将所述第三日期格式字符串对应的时间值确定为所述内容页的发布时间;
第六确定模块,用于若所述页面源码中指定标签没有携带第三日期格式字符串,根据所述页面源码中的指定关键词确定所述内容页的发布时间。
借由上述技术方案,本发明实施例提供的确定页面发布时间的方法和装置,在尽可能节省资源的前提下,准确的解析网站页面的发布时间,为衡量网站更新情况和消息实时性提供数据基础,通过多种不同的方式确定出内容页的发布时间,例如首先判断是否可以通过内容页标题链接在指定页面的源码中确定与内容页标题链接对应内容页的发布时间,若无法确定,则通过内容页标题链接确定内容页标题链接对应内容页的发布时间,进一步地,若还是无法确定,则通过内容页的页面源码中的指定标签确定内容页的发布时间,若还是无法确定,则通过内容页的页面源码中指定关键词确定内容页的发布时间,需要说明的是,上述多种解析方式是充分考虑了确定发布时间的效率,尽可能使用最小资源消耗完成解析任务。例如,如果在指定页面上解析出了发布时间,就不再需要进入每个内容页进行分析,这样能大大减少解析的任务量。
进一步地,在本发明实施例中,可以根据预定策略从目标网站的其他位置提取日期格式字符串,根据该日期格式字符串确定内容页的发布时间,上述预定策略中包含提取日期格式字符串的位置,以及提取日期格式字符串的顺序,用户可以根据网页的设计灵活调整上述预定策略,从而提高本发明实施方式的可扩展性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明的第一实施例的中栏目页的示意图;
图2为本发明的第一实施例的确定页面发布时间的方法的流程图;
图3为本发明的第一实施例的步骤202的流程示意图;
图4~图5为HTML源码的标签的示意图;
图6为本发明的第一实施例的步骤208流程示意图之一;
图7为本发明的第一实施例的步骤208流程示意图之二;
图8为本发明的第一实施例的步骤208流程示意图之三;
图9为本发明的第二实施例中<meta>标签的示意图;
图10为本发明的第二实施例中确定页面发布时间的方法的流程图;
图11为本发明的第三实施例的确定页面发布时间的装置的框图;
图12为本发明的第四实施例的确定页面发布时间的装置的框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区分类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便在这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如一系列步骤或单元的,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。
需要说明的是,在不冲突的情况下,本发明的实施例以及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明的技术方案。
对本发明实施例中所涉及的技术术语做如下解释:
目标网站可以是门户网站,例如新浪、网易、搜狐、腾讯等,或者上述目标网站也可以是政府网站,又或者上述目标网站也可以是企业网站。需要说明的是,在本实施例中并不限定具体的目标网站。
指定页面可以是首页(或者称为主页),又或者上述指定页面也可以是栏目页,例如新闻栏目页、产品栏目页等。通常网站可以包括:首页、栏目页和内容页等,其中,首页是一个网站的入口网页;栏目页是一个首页到具体相关内容页之间的过度页面,栏目页是根据网站的整体结构及发布信息的类别作出具体分类而设立,该栏目页可以包括导航目录;内容页是指一个网站中内容所在的最终页面。
内容页标题用于标明文章、作品等内容的简短语句,通常情况下内容页标题会综合概括文章主旨。内容页标题链接是指标题可以被点击,点击后可以转移到内容页标题链接对应的页面,需要说的是,上述内容页标题链接也可称为内容页的页面地址。
参见图1,图中示出了栏目页的示意图,栏目页(也可称为内容页所属列表页)中包括导航目录和发布时间,导航目录可以包括多个内容页标题链接,每个内容页标题链接对应一个内容页,每个内容页对应一个发布时间,点击“市监察局:2016年南阳市委第二轮巡查工作启动”可跳转到对应的内容页,该内容页的内容页标题为《市监察局:2016年南阳市委第二轮巡查工作启动》,该内容页的发布时间是2016年4月21日。需要说明的是,在本实施例中并不限定具体的目标网站,以及具体的指定页面。
第一实施例
图2是根据本发明实施例的确定页面发布时间的方法的流程图,如图2所示,该确定页面发布时间的方法可以包括如下的步骤:
步骤202、获取目标网站的指定页面上的内容页标题链接,然后进入步骤204;
可选地,参见图3,步骤202包括:步骤2022、步骤2024和步骤2026。
步骤2022、获取目标网站的指定页面,然后进入步骤2024。
可选地,通过现有的栏目页检查算法来自动判断网站的栏目页面,在此不再敷述。当然上述目标网站的指定页面也可以是预先配置的,例如该指定页面可以是栏目页,人工配置栏目页的优点在于准确度高,可以避免栏目页检查算法带来的误判情况。
步骤2024、获取目标网站的指定页面的页面源码,然后进入步骤2026。
上述页面源码是指构成一个web页面所使用的HTML源代码,这也是目前爬虫等程序处理网站页面的单元。在本实施例中可以通过现有的网络爬虫等技术得到指定页面的页面源码,网络爬虫是一个自动提取网页的程序。传统爬虫从一个或若干初始网页的页面地址(例如Url地址)开始,获得初始网页上的页面地址,在抓取网页的过程中,不断从当前页面上抽取新的页面地址放入队列,直到满足系统的一定停止条件,具体过程在此不再敷述。参见图4~图6,图中示出了三个不同的指定页面的源码。
步骤2026、从目标网站的指定页面的页面源码中获取内容页标题链接。
可选地,通过现有的HTML源码解析工具从页面源码中解析出链接标签,然后根据内容页标题链接通常可能出现的位置,从该链接标签中提取出内容页标题链接,具体过程在此不再敷述,例如,链接标签的结构可以参见图4、图5中的“<a href=“***”>***</a>”结构。
步骤204、判断指定页面上是否有与所述内容页标题链接对应的第一日期格式字符串,若指定页面上有与所述内容页标题链接对应的第一日期格式字符串,进入步骤206;否则,进入步骤208;
上述第一日期格式字符串的形式可以是XXXX-XX-XX,例如2016-04-21,当然可以理解的是,在本实施例中并不限定上述第一日期格式字符串的具体形式。需要说明的是,在本实施例中涉及查找日期格式字符串的方式可以是利用正则表达式匹配的方式进行,预先设置一个或多个正则表达式,例如正则表达式为:XXXX-XX-XX,用来代表所有可能出现的日期格式字符串,在查找过程中如果其中一个或多个正则表达式匹配到合适的字符串,可判定匹配到的这个字符串代表一个日期,更进一步的可以获取到这个字符串所代表日期的具体值。需要说明的是,具体的正则表达式在此不再赘述。
作为一种可选方式,在步骤204中判断指定页面的源码中内容页标题链接是否对应有第一日期格式字符串。
通常情况下,在指定页面(例如栏目页)的源码中内容页标题链接(也可称为内容页的页面地址)与日期格式字符串按规律出现,这里所说的规律是指成对出现,即一个内容页标题链接会对应一个日期格式字符串。在本实施例中可以基于上述规律从指定页面的源码中提取与内容页标题链接对应的日期格式字符串。
具体地,提取内容页标题链接和日期格式字符串的方式如下:首先可以通过HTML源码解析工具获取到源码中所有的链接标签(如图4~图5中<a href=”***”>***</a>结构)及其所在的位置上下文信息,然后检查每个链接标签的同级标签内(包括每个同级标签内嵌套的其它标签内容)是否存在日期格式字符串,再检查该链接标签的父级标签的同级标签内是否存在日期格式字符串(如果结构类似于图4,那么对于图4中的<a>标签来说这一步可以成功匹配到其父级(即<dt>标签)的同级标签(即下一个<dt>标签)内嵌套的<span>标签内的日期格式字符串)。通过以上两步检查,可以匹配出内容页面的地址及其对应的发布时间。图5是与图4类似的一种结构,显然这种情况下内容页面的地址对应的发布时间所在标签在链接标签之前(图4是日期标签在链接标签之后),由于是按照内容页面的地址在HTML源码中出现的顺序进行检查,因此在对每个页面第一次检查到符合的结构(这里所说的结构主要是区分图4和图5两种情况)后,后续的检查都会依照次结构进行,即对于图4会检查同级标签的下一个标签,对于图5会检查同级标签的上一个标签。
如果这一步成功,那么解析出的内容页标题链接和对应日期就组成了网站的一个更新信息;如果不成功,那么说明不存在这种结构(或者是空栏目),那么继续进行步骤208。
下面介绍下HTML源码中的标签,其中每个“<***>”被称为HTML标签,其中的“<ulclass=’list-t’>”、“<dl>”、“<dt>”、“<li>”、“<a href=’***’>”和“</a>”等。标签总是成对出现的,每个标记都有一个带“/”的标签与之对应,表示该标签的结束,如“<a href=’***’>”和“</a>”对应,一对标签内可以嵌套其它一对或多对标签和文本信息,如<il></il>标签对内嵌套了<a></a>和<span></span>两个标签对,同时<a></a>标签对中出现了文本内容。这里称被嵌套的标签为子级标签,嵌套其它标签的标签为父级标签,显然这里所说的父级和子级关系是相对的,一对标签相对其嵌套的标签来说是父级标签,同时对于嵌套它的标签来说它又是子级标签。同时存在并列的标签结构,如<a>标签和<span>标签,称为同级标签。
步骤206、将第一日期格式字符串对应的时间值确定为内容页标题链接对应内容页的发布时间;
在通过内容页标题链接在指定页面的源码中确定发布时间的过程中,可通过HTML源码解析工具获取到源码中所有的链接标签以及链接标签所在的位置上下文信息,然后判断是指定页面的源码中否有与内容页标题链接对应内容页的第一日期格式字符串,若有,将第一日期格式字符串对应的时间值确定为内容页标题链接对应内容页的发布时间,由于只需提取源码中所有的链接标签以及链接标签所在的位置上下文信息,能够做到一次检查就能确定发布时间,本实施例中的上述方式与采用网络爬虫技术确定发布时间的方式相比消耗的资源较少,而且通过网络爬虫技术会出现漏爬的情况,本实施例中的上述方式确定的内容页的发布时间准确性较高。
参见图4和图5,将第一日期格式字符串2011-01-01对应的时间值2011年1月1日确定为内容页标题链接“南阳要闻”的发布时间。
通常情况下,内容页的内容页标题链接中会携带发布时间,该发布时间一般会以日期格式字符串的形式出现,例如:内容页的内容页标题链接为:
http://news.sina.com.cn/c/nd/2016-04-21/doc-ifxrpvcy4283438.shtml
从上述内容页的内容页标题链接中,可以通过正则匹配方式得到“2016-04-21”字符串,然后根据“2016-04-21”字符串确定该内容页的发布时间为2016年4月21日。
步骤208、根据预定策略从目标网站的其他位置确定内容页的发布时间。
具体地,在本实施例中,可以根据预定策略从目标网站的其他位置提取日期格式字符串,根据该日期格式字符串确定内容页的发布时间。
上述其他位置包括但不限于:内容页标题链接、内容页标题链接对应内容页的页面源码、发布时间可能出现的位置等。
上述预定策略中包含提取日期格式字符串的位置,以及提取日期格式字符串的顺序。
上述顺序可以是按照各种提取方式处理的工作量由小到大依次执行的顺序,或者按照各种提取方式的易难程度依次执行的顺序等。
上述提取日期格式字符串的位置包括但不限于:内容页标题链接、内容页的页面源码等。
例如:从内容页标题链接中提取日期格式字符串的顺序在内容页的页面源码中提取日期格式字符串的顺序之前。
需要说明的是,在本实施例中,可以根据网页的设计灵活调整上述预定策略,从而提高本发明实施方式的可扩展性。例如,如果在网页设计时将日期格式字符串放置在新的位置,通过调整上述预定策略,使得本实施例可以对上述新的位置处的日期格式字符串进行提取,并根据提取结果确定发布时间。
当步骤206判断指定页面上没有内容页标题链接对应的第一日期格式字符串时,在本实施例中还可以根据预定策略从目标网站的其他位置确定内容页的发布时间,从而实现多种途径解析发布时间,可以最大化的适应各种网站设计,避免现有的技术方案的局限性。
在本实施例中,可选地,上述步骤208可包括:步骤2082和步骤2084,参见图6,具体步骤如下:
步骤2082、判断所述内容页标题链接内是否携带有第二日期格式字符串,若是,进入步骤2084;
上述第二日期格式字符串的形式可以是XXXX-XX-XX,例如2016-04-21,当然可以理解的是,在本实施例中并不限定上述第二日期格式字符串的具体形式。需要说明的是,在本实施例中涉及查找日期格式字符串的方式可以是利用正则表达式匹配的方式进行,预先设置一个或多个正则表达式,例如正则表达式为:XXXX-XX-XX,用来代表所有可能出现的日期格式字符串,在查找过程中如果其中一个或多个正则表达式匹配到合适的字符串,可判定匹配到的这个字符串代表一个日期,更进一步的可以获取到这个字符串所代表日期的具体值。需要说明的是,具体的正则表达式在此不再赘述。
步骤2084、将第二日期格式字符串对应的时间值确定为内容页标题链接对应内容页的发布时间。
假设内容页标题链接如下:
http://news.sina.com.cn/c/nd/2016-05-04/doc-ifxryhhh1593267.shtml,通过前面介绍的正则匹配方法可以取到该内容页标题链接中的“2016-05-04”字符串,那么可以确定该内容页标题链接及解析出的发布时间作为网站更新信息。
在本实施例中,通过步骤206和步骤2084中两种不同的方式在指定页面上确定出内容页的发布时间,而不需要进入每个内容页进行解析,这样能减少解析的任务量,提高确定发布时间的效率,尽可能使用最小资源消耗完成解析工作。
在本实施例中,可选地,上述步骤208可包括:步骤2082和步骤2084,参见图7,具体步骤如下:
步骤2086、获取内容页标题链接对应内容页的页面源码;
在本实施例中,可以通过爬虫等手段获取内容页的页面源码,当然也并不限于此。
步骤2088、判断页面源码中指定标签是否携带有第三日期格式字符串,若是,进入步骤2090;
上述指定标签可以是用于描述内容页的发布时间,例如指定标签可以为<meta>标签,<meta>标签用来描述一个HTML网页文档的属性,例如作者、日期和时间、网页描述、关键词、页面刷新等,当然也并不限于此。
上述第三日期格式字符串的形式可以是XXXX-XX-XX,例如2016-04-21,当然可以理解的是,在本实施例中并不限定上述第三日期格式字符串的具体形式。需要说明的是,在本实施例中涉及查找日期格式字符串的方式可以是利用正则表达式匹配的方式进行,预先设置一个或多个正则表达式,例如正则表达式为:XXXX-XX-XX,用来代表所有可能出现的日期格式字符串,在查找过程中如果其中一个或多个正则表达式匹配到合适的字符串,可判定匹配到的这个字符串代表一个日期,更进一步的可以获取到这个字符串所代表日期的具体值。需要说明的是,具体的正则表达式在此不再赘述。
步骤2090、将第三日期格式字符串对应的时间值确定为内容页的发布时间。
对于<meta>标签的提取可以通过限制关键词的方式进行,比如可以只提取包含“publish”和“time”关键词的<meta>标签,这样在对这些<meta>标签进行日期匹配,所面对的<meta>标签数量将大大减少,通常一个页面中会有5个以上的<meta>标签,但满足包含“publish”和“time”关键词的<meta>标签可能最多只有一个。如果找到了第三日期格式字符串(如图9所示),那么解析出的日期及该页面的地址将作为网站的一个更新信息。
在本实施例中,可选地,上述步骤208可包括:步骤2092、步骤2094和步骤2096,参见图8,具体步骤如下:
步骤2092、从页面源码中提取出与发布时间相关的指定关键词以及所述指定关键词附近的多个发布时间;
上述指定关键词可以是与“发布时间”相关的词语,例如直接将“发布时间”作为指定关键词,当然也并不限于。
可选地,从页面源码中提取出文章内容前的部分页面源码,然后进行文章内容提取,再从文章内容中提取出与发布时间相关的指定关键词以及该指定关键词附近的多个发布时间。
步骤2094、根据每个发布时间和指定关键词在页面源码中的距离,确定每个发布时间的权重值,其中,发布时间和指定关键词在页面源码中距离越近,权重值越大;
需要说明的是,在本实施例中可采用现有的关键词权重计算算法确定每个发布时间的权重值,例如将发布时间对应的字符串和指定关键词对应的字符串作为空间上的两个点,然后计算两个点之间的距离,具体计算过程在此不在敷述。
步骤2096、将最大的权重值对应的发布时间,确定为所述内容页的发布时间。
由于指定标签更容易确定,因此可以优先进行匹配,如果匹配成功则使用匹配到的日期和该页面地址组成网站的一个更新信息;如果匹配失败则进行指定关键词的匹配,在进行指定关键词的匹配时可以设置权重值(也可称为关键词加权),例如:匹配到的日期字符串在“发布时间”关键词附近,则认为该日期权重值较大;匹配到的字符串附近有标点符号,则认为是文章中提及的一个日期,因此权重较小。
如果没有找到指定标签,那么需要对该页面进行文章提取,在提取后的文章内寻找指定关键词的情况。文章提取主要思想是去掉源码中的标签,保留文本信息,然后再对剩下的文本信息进行逐行检查文本密度,显然文章内容所在行一般有较多的文本,文本稀疏的行极可能不是文章行。同时为了避免将某些本身文本较少的文章行错判为非文章行,会一次对多行进行统一判断(而不是逐行判断,一般是5行作为一个整体进行判断,多行总的文本字符个数与一个阈值进行比较,大于等于该阈值则认定为文章行,小于该阈值则认为是非文章行,该阈值可以根据具体情况进行设置),提高文章提取的准确度。
在本实施例中,通过多种不同的方式确定出内容页的发布时间,例如首先判断是否可以通过内容页标题链接在指定页面的源码中确定与内容页标题链接对应内容页的发布时间,若无法确定,则通过内容页标题链接确定内容页标题链接对应内容页的发布时间,进一步地,若还是无法确定,则通过内容页的页面源码中的指定标签确定内容页的发布时间,若还是无法确定,则通过内容页的页面源码中指定关键词确定内容页的发布时间,需要说明的是,上述多种解析方式是充分考虑了确定发布时间的效率,尽可能使用最小资源消耗完成解析任务。例如,如果在指定页面上解析出了发布时间,就不再需要进入每个内容页进行分析,这样能大大减少解析的任务量。
第二实施例
图10是根据本发明实施例的确定页面发布时间的方法的流程图,如图10所示,该确定页面发布时间的方法可以包括如下的步骤:
步骤1402、获取目标网站的指定页面上的内容页标题链接;
步骤1404、判断指定页面上是否有所述内容页标题链接对应的第一日期格式字符串;若所述指定页面上有所述内容页标题链接对应的第一日期格式字符串,进入步骤1406;否则进入步骤1408;
步骤1406、将第一日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间;
步骤1408、判断内容页标题链接内是否携带有第二日期格式字符串,若是,进入步骤1410;否则,进入步骤1412;
步骤1410、将第二日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间;
步骤1412、获取内容页标题链接对应内容页的页面源码;
步骤1414、判断所述页面源码中指定标签是否携带有第三日期格式字符串,若是,进入步骤1416;否则,进入步骤1418;
步骤1416、将第三日期格式字符串对应的时间值确定为内容页的发布时间;
步骤1418、根据页面源码中的指定关键词确定内容页的发布时间。
本发明实施例提供的确定页面发布时间的方法,在尽可能节省资源的前提下,准确的解析网站页面的发布时间,为衡量网站更新情况和消息实时性提供数据基础,通过多种不同的方式确定出内容页的发布时间,例如首先判断是否可以通过内容页标题链接在指定页面的源码中确定与内容页标题链接对应内容页的发布时间,若无法确定,则通过内容页标题链接确定内容页标题链接对应内容页的发布时间,进一步地,若还是无法确定,则通过内容页的页面源码中的指定标签确定内容页的发布时间,若还是无法确定,则通过内容页的页面源码中指定关键词确定内容页的发布时间,需要说明的是,上述多种解析方式是充分考虑了确定发布时间的效率,尽可能使用最小资源消耗完成解析任务。例如,如果在指定页面上解析出了发布时间,就不再需要进入每个内容页进行分析,这样能大大减少解析的任务量。
第三实施例
参见图11,图中示出了一种确定页面发布时间的装置,装置1500包括:
第一获取模块1511,用于获取目标网站的指定页面上的内容页标题链接;
第一判断模块1512,用于判断所述指定页面上是否有与所述内容页标题链接对应的第一日期格式字符串;
第一确定模块1513,用于若所述指定页面上有与所述内容页标题链接对应的第一日期格式字符串,则将所述第一日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间;
第二确定模块1514,用于若所述指定页面上没有与所述内容页标题链接对应的第一日期格式字符串,则根据预定策略从目标网站的其他位置确定所述内容页的发布时间。
在本实施例中,可选地,所述第二确定模块包括:
第一判断单元,用于判断所述内容页标题链接内是否携带有第二日期格式字符串;
第一确定单元,用于若所述内容页标题链接内携带有第二日期格式字符串,则将所述第二日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间。
在本实施例中,可选地,所述第二确定模块还包括:
第一获取单元,用于获取所述内容页标题链接对应内容页的页面源码;
第二判断单元,用于判断所述页面源码中指定标签是否携带有第三日期格式字符串;
第二确定单元,用于若所述页面源码中指定标签携带有第三日期格式字符串,则将所述第三日期格式字符串对应的时间值确定为所述内容页的发布时间。
在本实施例中,可选地,所述第二确定模块还包括:
提取单元,用于从页面源码中提取出与发布时间相关的指定关键词以及所述指定关键词附近的多个发布时间;
第三确定单元,用于根据每个发布时间和指定关键词在页面源码中的距离,确定每个发布时间的权重值,其中,发布时间和指定关键词在页面源码中距离越近,权重值越大;
第四确定单元,用于将最大的权重值对应的发布时间,确定为所述内容页的发布时间。
本发明实施例提供的确定页面发布时间的装置,在尽可能节省资源的前提下,准确的解析网站页面的发布时间,为衡量网站更新情况和消息实时性提供数据基础,通过多种不同的方式确定出内容页的发布时间,例如首先判断是否可以通过内容页标题链接在指定页面的源码中确定与内容页标题链接对应内容页的发布时间,若无法确定,则通过内容页标题链接确定内容页标题链接对应内容页的发布时间,进一步地,若还是无法确定,则通过内容页的页面源码中的指定标签确定内容页的发布时间,若还是无法确定,则通过内容页的页面源码中指定关键词确定内容页的发布时间,需要说明的是,上述多种解析方式是充分考虑了确定发布时间的效率,尽可能使用最小资源消耗完成解析任务。例如,如果在指定页面上解析出了发布时间,就不再需要进入每个内容页进行分析,这样能大大减少解析的任务量。
进一步地,在本发明实施例中,可以根据预定策略从目标网站的其他位置提取日期格式字符串,根据该日期格式字符串确定内容页的发布时间,上述预定策略中包含提取日期格式字符串的位置,以及提取日期格式字符串的顺序,用户可以根据网页的设计灵活调整上述预定策略,从而提高本发明实施方式的可扩展性。
第四实施例
参见图12,图中示出了一种确定页面发布时间的装置,装置1600包括:
第二获取模块1602,用于获取目标网站的指定页面上的内容页标题链接;
第二判断模块1604,用于判断所述指定页面上是否有所述内容页标题链接对应的第一日期格式字符串;
第三确定模块1606,用于若所述指定页面上有所述内容页标题链接对应的第一日期格式字符串,则将所述第一日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间;
第三判断模块1608,用于若所述指定页面上没有所述内容页标题链接对应的第一日期格式字符串,则判断所述内容页标题链接内是否携带有第二日期格式字符串;
第四确定模块1610,用于若所述内容页标题链接内携带有第二日期格式字符串,则将所述第二日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间;
第四判断模块1612,用于若所述内容页标题链接内没有携带第二日期格式字符串,则获取所述内容页标题链接对应内容页的页面源码,判断所述页面源码中指定标签是否携带有第三日期格式字符串;
第五确定模块1614,用于若所述页面源码中指定标签携带有第三日期格式字符串,则将所述第三日期格式字符串对应的时间值确定为所述内容页的发布时间;
第六确定模块1616,用于若所述页面源码中指定标签没有携带第三日期格式字符串,根据所述页面源码中的指定关键词确定所述内容页的发布时间。
在本实施例中选确定页面发布时间的装置能够实现图1~图10的方法实施例中实现的各个过程,为避免重复,在这里不再敷述。
所述确定页面发布时间的装置包括处理器和存储器,上述获取模块、判断模块、第一确定模块、第二获取模块、第二确定模块等均确定为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现选取的关键词能够完成考核指标。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供的确定页面发布时间的装置,在尽可能节省资源的前提下,准确的解析网站页面的发布时间,为衡量网站更新情况和消息实时性提供数据基础,其可通过多种不同的方式确定出内容页的发布时间,例如首先判断是否可以通过内容页标题链接在指定页面的源码中确定与内容页标题链接对应内容页的发布时间,若无法确定,则通过内容页标题链接确定内容页标题链接对应内容页的发布时间,进一步地,若还是无法确定,则通过内容页的页面源码中的指定标签确定内容页的发布时间,若还是无法确定,则通过内容页的页面源码中指定关键词确定内容页的发布时间,需要说明的是,上述多种解析方式是充分考虑了确定发布时间的效率,尽可能使用最小资源消耗完成解析任务。例如,如果在指定页面上解析出了发布时间,就不再需要进入每个内容页进行分析,这样能大大减少解析的任务量。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取目标网站的指定页面上的内容页标题链接;判断所述指定页面上是否有与所述内容页标题链接对应的第一日期格式字符串;若所述指定页面上有与所述内容页标题链接对应的第一日期格式字符串,则将所述第一日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间;若所述指定页面上没有与所述内容页标题链接对应的第一日期格式字符串,则根据预定策略从目标网站的其他位置确定所述内容页的发布时间。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取目标网站的指定页面上的内容页标题链接;判断所述指定页面上是否有所述内容页标题链接对应的第一日期格式字符串;若所述指定页面上有所述内容页标题链接对应的第一日期格式字符串,则将所述第一日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间;若所述指定页面上没有所述内容页标题链接对应的第一日期格式字符串,则判断所述内容页标题链接内是否携带有第二日期格式字符串;若所述内容页标题链接内携带有第二日期格式字符串,则将所述第二日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间;若所述内容页标题链接内没有携带第二日期格式字符串,则获取所述内容页标题链接对应内容页的页面源码,判断所述页面源码中指定标签是否携带有第三日期格式字符串;若所述页面源码中指定标签携带有第三日期格式字符串,则将所述第三日期格式字符串对应的时间值确定为所述内容页的发布时间;若所述页面源码中指定标签没有携带第三日期格式字符串,根据所述页面源码中的指定关键词确定所述内容页的发布时间。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种确定页面发布时间的方法,其特征在于,所述方法包括:
获取目标网站的指定页面上的内容页标题链接;
判断所述指定页面上是否有与所述内容页标题链接对应的第一日期格式字符串;
若所述指定页面上有与所述内容页标题链接对应的第一日期格式字符串,则将所述第一日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间;
若所述指定页面上没有与所述内容页标题链接对应的第一日期格式字符串,则根据预定策略从目标网站的其他位置确定所述内容页的发布时间。
2.根据权利要求1所述的方法,其特征在于,所述根据预定策略从目标网站的其他位置确定所述内容页的发布时间,包括:
判断所述内容页标题链接内是否携带有第二日期格式字符串;
若所述内容页标题链接内携带有第二日期格式字符串,则将所述第二日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间。
3.根据权利要求1或2所述的方法,其特征在于,所述根据预定策略从目标网站的其他地方确定所述内容页的发布时间,还包括:
获取所述内容页标题链接对应内容页的页面源码;
判断所述页面源码中指定标签是否携带有第三日期格式字符串;
若所述页面源码中指定标签携带有第三日期格式字符串,则将所述第三日期格式字符串对应的时间值确定为所述内容页的发布时间。
4.根据权利要求1或2所述的方法,其特征在于,所述根据预定策略从目标网站的其他地方确定所述内容页的发布时间,还包括:
从页面源码中提取出与发布时间相关的指定关键词以及所述指定关键词附近的多个发布时间;
根据每个发布时间和指定关键词在页面源码中的距离,确定每个发布时间的权重值,其中,发布时间和指定关键词在页面源码中距离越近,权重值越大;
将最大的权重值对应的发布时间,确定为所述内容页的发布时间。
5.一种确定页面发布时间的方法,其特征在于,所述方法包括:
获取目标网站的指定页面上的内容页标题链接;
判断所述指定页面上是否有所述内容页标题链接对应的第一日期格式字符串;
若所述指定页面上有所述内容页标题链接对应的第一日期格式字符串,则将所述第一日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间;
若所述指定页面上没有所述内容页标题链接对应的第一日期格式字符串,则判断所述内容页标题链接内是否携带有第二日期格式字符串;
若所述内容页标题链接内携带有第二日期格式字符串,则将所述第二日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间;
若所述内容页标题链接内没有携带第二日期格式字符串,则获取所述内容页标题链接对应内容页的页面源码,判断所述页面源码中指定标签是否携带有第三日期格式字符串;
若所述页面源码中指定标签携带有第三日期格式字符串,则将所述第三日期格式字符串对应的时间值确定为所述内容页的发布时间;
若所述页面源码中指定标签没有携带第三日期格式字符串,根据所述页面源码中的指定关键词确定所述内容页的发布时间。
6.一种确定页面发布时间的装置,其特征在于,所述装置包括:
第一获取模块,用于获取目标网站的指定页面上的内容页标题链接;
第一判断模块,用于判断所述指定页面上是否有与所述内容页标题链接对应的第一日期格式字符串;
第一确定模块,用于若所述指定页面上有与所述内容页标题链接对应的第一日期格式字符串,则将所述第一日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间;
第二确定模块,用于若所述指定页面上没有与所述内容页标题链接对应的第一日期格式字符串,则根据预定策略从目标网站的其他位置确定所述内容页的发布时间。
7.根据权利要求6所述的装置,其特征在于,所述第二确定模块包括:
第一判断单元,用于判断所述内容页标题链接内是否携带有第二日期格式字符串;
第一确定单元,用于若所述内容页标题链接内携带有第二日期格式字符串,则将所述第二日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间。
8.根据权利要求6或7所述的装置,其特征在于,所述第二确定模块还包括:
第一获取单元,用于获取所述内容页标题链接对应内容页的页面源码;
第二判断单元,用于判断所述页面源码中指定标签是否携带有第三日期格式字符串;
第二确定单元,用于若所述页面源码中指定标签携带有第三日期格式字符串,则将所述第三日期格式字符串对应的时间值确定为所述内容页的发布时间。
9.根据权利要求6或7所述的装置,其特征在于,所述第二确定模块还包括:
提取单元,用于从页面源码中提取出与发布时间相关的指定关键词以及所述指定关键词附近的多个发布时间;
第三确定单元,用于根据每个发布时间和指定关键词在页面源码中的距离,确定每个发布时间的权重值,其中,发布时间和指定关键词在页面源码中距离越近,权重值越大;
第四确定单元,用于将最大的权重值对应的发布时间,确定为所述内容页的发布时间。
10.一种确定页面发布时间的装置,其特征在于,所述装置包括:
第二获取模块,用于获取目标网站的指定页面上的内容页标题链接;
第二判断模块,用于判断所述指定页面上是否有所述内容页标题链接对应的第一日期格式字符串;
第三确定模块,用于若所述指定页面上有所述内容页标题链接对应的第一日期格式字符串,则将所述第一日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间;
第三判断模块,用于若所述指定页面上没有所述内容页标题链接对应的第一日期格式字符串,则判断所述内容页标题链接内是否携带有第二日期格式字符串;
第四确定模块,用于若所述内容页标题链接内携带有第二日期格式字符串,则将所述第二日期格式字符串对应的时间值确定为所述内容页标题链接对应内容页的发布时间;
第四判断模块,用于若所述内容页标题链接内没有携带第二日期格式字符串,则获取所述内容页标题链接对应内容页的页面源码,判断所述页面源码中指定标签是否携带有第三日期格式字符串;
第五确定模块,用于若所述页面源码中指定标签携带有第三日期格式字符串,则将所述第三日期格式字符串对应的时间值确定为所述内容页的发布时间;
第六确定模块,用于若所述页面源码中指定标签没有携带第三日期格式字符串,根据所述页面源码中的指定关键词确定所述内容页的发布时间。
CN201610702597.3A 2016-08-22 2016-08-22 一种确定页面发布时间的方法和装置 Pending CN107766384A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610702597.3A CN107766384A (zh) 2016-08-22 2016-08-22 一种确定页面发布时间的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610702597.3A CN107766384A (zh) 2016-08-22 2016-08-22 一种确定页面发布时间的方法和装置

Publications (1)

Publication Number Publication Date
CN107766384A true CN107766384A (zh) 2018-03-06

Family

ID=61263657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610702597.3A Pending CN107766384A (zh) 2016-08-22 2016-08-22 一种确定页面发布时间的方法和装置

Country Status (1)

Country Link
CN (1) CN107766384A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232075A (zh) * 2020-12-14 2021-01-15 北京智慧星光信息技术有限公司 基于时间格式和网页元素特征的文章发布时间识别方法
CN112650910A (zh) * 2020-12-30 2021-04-13 北京百度网讯科技有限公司 确定网站更新信息的方法、装置、设备和存储介质
CN114547497A (zh) * 2022-02-24 2022-05-27 马上消费金融股份有限公司 网页发布时间的确定方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101094135A (zh) * 2006-06-23 2007-12-26 腾讯科技(深圳)有限公司 一种互联网内容信息的提取方法和提取系统
CN102750390A (zh) * 2012-07-05 2012-10-24 翁时锋 新闻网页要素自动提取方法
CN103064845A (zh) * 2011-10-20 2013-04-24 北京中搜网络技术股份有限公司 网页信息处理装置和网页信息处理方法
CN103064827A (zh) * 2013-01-16 2013-04-24 盘古文化传播有限公司 一种网页内容抽取的方法及装置
CN103593360A (zh) * 2012-08-16 2014-02-19 江苏金鸽网络科技有限公司 基于页面分析的互联网信息发表时间提取方法
KR20140056685A (ko) * 2012-10-31 2014-05-12 서울대학교산학협력단 인디케이터를 이용한 정보 관리 장치
CN104462151A (zh) * 2013-09-25 2015-03-25 腾讯科技(深圳)有限公司 评估网页发布时间的方法和相关装置
CN105786841A (zh) * 2014-12-22 2016-07-20 北京奇虎科技有限公司 一种对新闻类的网页智能摘要的生成方法与系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101094135A (zh) * 2006-06-23 2007-12-26 腾讯科技(深圳)有限公司 一种互联网内容信息的提取方法和提取系统
CN103064845A (zh) * 2011-10-20 2013-04-24 北京中搜网络技术股份有限公司 网页信息处理装置和网页信息处理方法
CN102750390A (zh) * 2012-07-05 2012-10-24 翁时锋 新闻网页要素自动提取方法
CN103593360A (zh) * 2012-08-16 2014-02-19 江苏金鸽网络科技有限公司 基于页面分析的互联网信息发表时间提取方法
KR20140056685A (ko) * 2012-10-31 2014-05-12 서울대학교산학협력단 인디케이터를 이용한 정보 관리 장치
CN103064827A (zh) * 2013-01-16 2013-04-24 盘古文化传播有限公司 一种网页内容抽取的方法及装置
CN104462151A (zh) * 2013-09-25 2015-03-25 腾讯科技(深圳)有限公司 评估网页发布时间的方法和相关装置
CN105786841A (zh) * 2014-12-22 2016-07-20 北京奇虎科技有限公司 一种对新闻类的网页智能摘要的生成方法与系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
仲兆满等: "一种高效的Web新闻发表时间提取方法", 《小型微型计算机系统》 *
方建生等: "《电子商务》", 31 December 2012, 厦门大学出版社 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112232075A (zh) * 2020-12-14 2021-01-15 北京智慧星光信息技术有限公司 基于时间格式和网页元素特征的文章发布时间识别方法
CN112650910A (zh) * 2020-12-30 2021-04-13 北京百度网讯科技有限公司 确定网站更新信息的方法、装置、设备和存储介质
CN112650910B (zh) * 2020-12-30 2024-03-12 北京百度网讯科技有限公司 确定网站更新信息的方法、装置、设备和存储介质
CN114547497A (zh) * 2022-02-24 2022-05-27 马上消费金融股份有限公司 网页发布时间的确定方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN104182412B (zh) 一种网页爬取方法及系统
CN107590219A (zh) 网页人物主题相关信息提取方法
TWI695277B (zh) 自動化網站資料蒐集方法
CN105022803B (zh) 一种提取网页正文内容的方法及系统
CN106446072B (zh) 网页内容的处理方法和装置
CN108984775B (zh) 一种基于商品评论的舆情监控方法及系统
CN103246732B (zh) 一种在线Web新闻内容的抽取方法及系统
CN103207855A (zh) 针对产品评论信息的细粒度情感分析系统及方法
US10789302B2 (en) Method and system for extracting user-specific content
CN113282955B (zh) 隐私政策中隐私信息提取方法、系统、终端及介质
CN102915361B (zh) 一种基于文字分布特征的网页正文提取方法
CN107102993A (zh) 一种用户诉求分析方法和装置
CN103106211B (zh) 客户咨询文本的情感识别方法及装置
CN107766384A (zh) 一种确定页面发布时间的方法和装置
CN104572934A (zh) 一种基于dom的网页关键内容抽取方法
JP6505600B2 (ja) 自動構成評価器
CN104317845A (zh) 一种深度网络数据自动抽取方法及系统
CN113918794B (zh) 企业网络舆情效益分析方法、系统、电子设备及存储介质
CN103559202B (zh) 一种网页内容抽取装置和方法
CN108829898B (zh) Html内容页发布时间提取方法和系统
Bu et al. An FAR-SW based approach for webpage information extraction
CN108694192B (zh) 网页类型的判断方法及装置
CN105183730B (zh) 网页信息的处理方法和装置
CN103729354B (zh) 网页信息处理方法及装置
CN106897287B (zh) 网页发布时间抽取方法和用于网页发布时间抽取的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180306