CN104462257B - 一种校验中间页信息的方法和装置 - Google Patents

一种校验中间页信息的方法和装置 Download PDF

Info

Publication number
CN104462257B
CN104462257B CN201410674840.6A CN201410674840A CN104462257B CN 104462257 B CN104462257 B CN 104462257B CN 201410674840 A CN201410674840 A CN 201410674840A CN 104462257 B CN104462257 B CN 104462257B
Authority
CN
China
Prior art keywords
page
verified
content
intermediate page
data item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410674840.6A
Other languages
English (en)
Other versions
CN104462257A (zh
Inventor
赵辉
闫庆宏
沙安澜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410674840.6A priority Critical patent/CN104462257B/zh
Publication of CN104462257A publication Critical patent/CN104462257A/zh
Application granted granted Critical
Publication of CN104462257B publication Critical patent/CN104462257B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种校验中间页信息的方法和装置,其中方法包括:抓取中间页;利用预先配置的中间页模板从抓取的中间页中解析待校验数据项的内容;抓取所述中间页所指向的详情页;利用预先配置的详情页模板从抓取的详情页中解析待校验数据项的内容;将同一待校验数据项在中间页中的内容与在详情页中的内容进行比对;输出比对结果。本发明不再依赖人工校验,实现了中间页信息校验的自动化,节约了人力成本,且具有高效、准确的特点。

Description

一种校验中间页信息的方法和装置
【技术领域】
本发明涉及计算机应用技术领域,特别涉及一种校验中间页信息的方法和装置。
【背景技术】
中间页是一个在搜索引擎和传统产业中间的状态来给别人提供服务,中间页能够将用户带到另外一个网站,这个网站通常是一个传统产业的网站。中间页服务商在实现站内查询时,将各查询结果以信息单元的形式进行整合展示,每个信息单元分别指向具体的详情页,在各信息单元中包含详情页中的关键项目内容。像目前比较火热的去哪儿网、58同城、汽车之家等等。当用户在诸如去哪儿网这类旅游搜索类网站中输入查询项时,返回如图1中所示的中间页。当用户点击其中一个信息单元时,例如点击标题为“北京-桂林往返3天2晚自由行全程入住四星级…”的信息单元时,跳转到具体的详情页,该详情页是某旅行社的网页,如图2中所示。
由于中间页展示的信息并不一定是直接从信息原始网页提取的,来源可能多种多样,大部分是由信息提供方以一种结构化的数据形式提供。由于结构化数据的时效性问题,实际情况中经常出现中间页展示的信息与具体详情页的信息不相符的情况,这就需要对中间页的信息进行校验。目前对中间页的信息进行校验采用的多为人工校验,由于中间页信息为海量信息并且需要周期性校验,因此人工成本高昂且耗时太长。
【发明内容】
有鉴于此,本发明提供了一种校验中间页信息的方法和装置,以便于降低人工成本,提高效率。
具体技术方案如下:
本发明提供了一种校验中间页信息的方法,该方法包括:
抓取中间页;
利用预先配置的中间页模板从抓取的中间页中解析待校验数据项的内容;
抓取所述中间页所指向的详情页;
利用预先配置的详情页模板从抓取的详情页中解析待校验数据项的内容;
将同一待校验数据项在中间页中的内容与在详情页中的内容进行比对;
输出比对结果。
根据本发明一优选实施方式,所述抓取中间页包括:
通过自定义参数构造查询请求,抓取所述查询请求对应的中间页。
根据本发明一优选实施方式,所述通过自定义参数构造查询请求包括:
从中间页网站提供的各查询类目中分别选择至多一个查询关键词进行组合,利用组合得到的查询关键词来构造查询请求。
根据本发明一优选实施方式,所述中间页模板和所述查询页模板包括:待校验数据项的名称和XPath;
依据所述XPath解析待校验数据项的内容。
根据本发明一优选实施方式,预先针对中间页url的类型信息配置所述中间页模板,在利用预先配置的中间页模板从抓取的中间页中解析待校验数据项的内容时,根据抓取的中间页url的类型信息确定利用的中间页模板;
预先针对详情页url的类型信息配置所述详情页模板,在利用预先配置的详情页模板从抓取的详情页中解析待校验数据项的内容时,根据抓取的详情页url的类型信息确定利用的详情页模板。
根据本发明一优选实施方式,从抓取的中间页中解析得到的待校验数据项的内容包括该中间页所指向的详情页地址;
利用该中间页所指向的详情页地址执行所述抓取所述中间页所指向的详情页。
根据本发明一优选实施方式,所述将同一待校验数据项在中间页中的内容与在详情页中的内容进行比对包括:
将同一待校验数据项在中间页中的内容与在详情页中的内容进行相似度计算,确定满足相似度要求的待校验数据项在中间页中的内容准确,确定不满足相似度要求的待校验数据项在中间页中的内容不准确。
本发明还提供了一种校验中间页信息的装置,该装置包括:
第一抓取单元,用于抓取中间页;
第一解析单元,用于利用预先配置的中间页模板从抓取的中间页中解析待校验数据项的内容;
第二抓取单元,用于抓取所述中间页所指向的详情页;
第二解析单元,用于利用预先配置的详情页模板从抓取的详情页中解析待校验数据项的内容;
比对单元,用于将同一待校验数据项在中间页中的内容与在详情页中的内容进行比对;
输出单元,用于输出所述比对单元的比对结果。
根据本发明一优选实施方式,所述第一抓取单元,具体用于通过自定义参数构造查询请求,抓取所述查询请求对应的中间页。
根据本发明一优选实施方式,所述第一抓取单元,具体用于从中间页网站提供的各查询类目中分别选择至多一个查询关键词进行组合,利用组合得到的查询关键词来构造查询请求。
根据本发明一优选实施方式,所述中间页模板和所述查询页模板包括:待校验数据项的名称和XPath;
所述第一解析单元,具体用于根据中间页模板包括的XPath从抓取的中间页中解析待校验数据项的内容;
所述第二解析单元,具体用于根据详情页模板包括的XPath从抓取的详情页中解析待校验数据项的内容。
根据本发明一优选实施方式,所述中间页模板是预先针对中间页url的类型信息配置的,所述详情页模板是预先针对详情页url的类型信息配置的;
所述第一解析单元在利用预先配置的中间页模板从抓取的中间页中解析待校验数据项的内容时,根据抓取的中间页url的类型信息确定利用的中间页模板;
所述第二解析单元在利用预先配置的详情页模板从抓取的详情页中解析待校验数据项的内容时,根据抓取的详情页url的类型信息确定利用的详情页模板。
根据本发明一优选实施方式,所述第一解析单元解析得到的待校验数据项的内容包括该中间页所指向的详情页地址;
所述第二抓取单元,具体用于利用该中间页所指向的详情页地址执行所述抓取所述中间页所指向的详情页的操作。
根据本发明一优选实施方式,所述比对单元,具体用于将同一待校验数据项在中间页中的内容与在详情页中的内容进行相似度计算,确定满足相似度要求的待校验数据项在中间页中的内容准确,确定不满足相似度要求的待校验数据项在中间页中的内容不准确。
由以上技术方案可以看出,本发明能够解析出待校验数据项在中间页中的内容以及在详情页中的内容,并将两者进行比对,从而实现了中间页信息的自动校验,相比较人工校验的方式,降低了人工成本,提高了效率。
【附图说明】
图1为一个中间页的实例图;
图2为一个详情页的实例图;
图3为本发明实施例提供的方法流程图;
图4为本发明实施例提供的一个中间页的查询类目实例图;
图5为本发明实施例提供的装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图3为本发明实施例提供的方法流程图,如图3中所示,该方法可以具体包括以下步骤:
首先在301中抓取中间页,即通过自定义参数构造查询请求,抓取查询请求对应的中间页。
通常在提供中间页服务的网站中,会提供一些查询类目,用户在该网站中的查询基于这些查询类目进行,即在提供的查询类目中选择或者输入具体的查询关键词进行站内查询。例如在诸如去哪儿网等旅游类网站中,会存在如图4中所示的查询类目:产品类型、出行月份、形成天数、出发地、目的地,并且在各查询类目中提供了具体的查询关键词,例如在“产品类型”这一查询类目中提供了“自由行”和“跟团游”两个查询关键词,在“出发地”这一查询类目中提供了“北京”这个查询关键词,其他查询类目不再罗列。在本步骤中,可以通过从各查询类目中分别选择至多一个查询关键词进行组合,利用组合得到的查询关键词来构造查询请求发送给提供中间页服务的网站,并抓取提供中间页服务的网站返回的中间页。
例如,利用产品类型“自由行”构造查询请求,利用产品类型“自由行”+出行月份“11月”构造查询请求,利用出行月份“12月”+出行天数“1天”构造查询请求,利用出发地“北京”+目的地“智利”构造查询请求,利用产品类型“自由行”+出行月份“12月”+出行天数“5天”+出发地“北京”+目的地“意大利”构造查询请求,等等,不再逐一罗列。将所有可能的组合都用以构造查询请求,从而抓取到各中间页。
在302中,利用预先配置的中间页模板从抓取的中间页中解析待校验数据项的内容。
通常提供中间页的网站在展示中间页时,是按照一定的格式展示各数据项的,例如旅游类网站的中间页网站在中间页中,是按照固定的格式提供各信息单元的标题、价格、行程天数、出发日期、详情页地址等数据项的。中间页是XML(Extensible MarkupLanguage,可扩展标记语言)网页,也就是说,中间页中各数据项对应的节点是有其固定的位置的,在本发明实施例中就可以预先针对中间页网页配置中间页模板,该中间页模板中包含待校验数据项的名称和XPath,还可以包含数据项的描述信息。
XPath即为XML路径语言,是一种用来确定XML文档中某部分位置的语言。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。通过中间页模板中的XPath,解析程序就能够解析出待校验数据项在中间页中的内容,各数据项的内容用名称进行标识。另外,如果中间页中包含多个信息单元,则各待校验数据项的内容以信息单元进行区分,在区分时,可以按照解析顺序对各信息单元进行标识,由于各信息单元对应的详情页地址是唯一的,也可以采用各信息单元对应的详情页地址对各信息单元进行标识。
通常一个网站可以对应一个或多个中间页模板,本发明实施例中在确定解析中间页所采用的中间页模板时,可以根据网页url的类型(pattern)信息来确定,即预先针对网页url的pattern信息配置中间页模板。
例如,http://uvbl3.package.qunar.com/user/detail.jsp?id=2259340421,该url的pattern信息为:http://*.package.qunar.com/user/detail.jsp?id=*,其中的*为通配符。通常具有相同pattern信息的网页具有相同的展示结构。
通常待校验数据项的内容为详情页的网站提供的结构化信息,本步骤中还会将详情页地址作为待校验数据项,目的是用于在303中,根据详情页地址抓取具体的详情页。
在本步骤中,利用步骤302解析得到的各信息单元的详情页地址构造网络请求,并获取返回的详情页。详情页指的是中间页的各信息单元所指向的实际信息页面。
在上述步骤301和303中可以利用已有的页面抓取工具进行中间页和详情页的抓取,抓取工具是可自行实现抓取HTML(HyperText Mark-up Language,超文本标记语言)源代码的程序,在此不做详述。
然后在304中,利用预先配置的详情页模板从抓取的详情页中解析待校验数据项的内容。
同样,各网站在网页中展示自己的产品时,通常按照一定的格式展示各数据项,也就是说,详情页中各数据项在网页中具有一定的位置。例如,旅游类网站的中间页中某信息单元所指向的详情页为某一个旅行社网站提供的网页,在该网页中对其产品“桂林五日自由行”进行详细描述,在该网页中“标题”、“价格”、“行程天数”、“出发日期”等数据项对应的节点具有固定的位置,那么在本发明实施例中就可以针对这种详情页预先配置详情页模板,在该详情页模板中包含待校验数据项的名称和XPath,还可以包含数据项的描述信息。
利用详情页模板中各待校验数据项的XPath就可以解析出待校验数据项在详情页中的内容,各数据项的内容同样用名称进行标识。
同样,一个网站可以对应一个或多个详情页模板。本发明实施例中在确定解析详情页所采用的详情页模板时,也可以根据网页url的pattern信息来确定,即预先针对网页url的pattern信息配置详情页模板。
在305中,将各待校验数据项在中间页中的内容与该待校验数据项所在信息单元所指向的详情页中的内容进行比对。
在进行比对时,将同一待校验数据项在中间页中的内容和在详情页中的内容进行相似度计算,如果得到的相似度满足预设要求,则确定两者一致,即该待校验数据项在中间页中的内容准确;否则确定该解析数据项在中间页中的内容不准确。
在本步骤中可以采用计算汉明距离、余弦相似度等方式来进行相似度的计算,本发明实施例在此不会文本相似度的计算方式进行具体限制。
在306中,可以采用校验报告、邮件、短消息等方式输出步骤305得到的比对结果。
以上是对本发明所提供的方法进行的详细描述,下面结合图5对本发明提供的装置进行详细描述。如图5中所示,该装置可以包括:第一抓取单元01、第一解析单元02、第二抓取单元03、第二解析单元04、比对单元05和输出单元06。
第一抓取单元01负责抓取中间页,即通过自定义参数构造查询请求,抓取查询请求对应的中间页。具体地,第一抓取单元01可以从中间页网站提供的各查询类目中分别选择至多一个查询关键词进行组合,利用组合得到的查询关键词来构造查询请求。
第一解析单元02负责利用预先配置的中间页模板从抓取的中间页中解析待校验数据项的内容。通常提供中间页的网站在展示中间页时,是按照一定的格式展示各数据项的,也就是说,中间页中各数据项对应的节点是有其固定的位置的,在本发明实施例中就可以预先针对中间页网页配置中间页模板,该中间页模板中包含待校验数据项的名称和XPath,还可以包含数据项的描述信息。通过中间页模板中的XPath,第一解析单元02就能够解析出待校验数据项在中间页中的内容,各数据项的内容用名称进行标识。另外,如果中间页中包含多个信息单元,则各待校验数据项的内容以信息单元进行区分,在区分时,可以按照解析顺序对各信息单元进行标识,由于各信息单元对应的详情页地址是唯一的,也可以采用各信息单元对应的详情页地址对各信息单元进行标识。
通常一个网站可以对应一个或多个中间页模板,本发明实施例中第一解析单元02在确定解析中间页所采用的中间页模板时,可以根据网页url的类型(pattern)信息来确定,即预先针对网页url的pattern信息配置中间页模板。
第二抓取单元03负责抓取中间页所指向的详情页。通常第一解析单元02解析得到的中间页中的待校验数据项的内容为详情页的网站提供的结构化信息,在本发明实施例中,还会将详情页地址作为待校验数据项,目的是用于第二抓取单元03利用该中间页所指向的详情页地址执行抓取中间页所指向的详情页的操作。
第二解析单元04负责利用预先配置的详情页模板从抓取的详情页中解析待校验数据项的内容。同样,各网站在网页中展示自己的产品时,通常按照一定的格式展示各数据项,也就是说,详情页中各数据项在网页中具有一定的位置。在本发明实施例中就可以针对这种详情页预先配置详情页模板,在该详情页模板中包含待校验数据项的名称和XPath,还可以包含数据项的描述信息。第二解析单元04利用详情页模板中各待校验数据项的XPath就可以解析出待校验数据项在详情页中的内容,各数据项的内容同样用名称进行标识。
同样,一个网站可以对应一个或多个详情页模板。本发明实施例中第二解析单元04在确定解析详情页所采用的详情页模板时,也可以根据网页url的pattern信息来确定,即预先针对网页url的pattern信息配置详情页模板。
比对单元05负责将同一待校验数据项在中间页中的内容与在详情页中的内容进行比对。在进行比对时,将同一待校验数据项在中间页中的内容和在详情页中的内容进行相似度计算,如果得到的相似度满足预设要求,则确定两者一致,即该待校验数据项在中间页中的内容准确;否则确定该解析数据项在中间页中的内容不准确。
输出单元06负责输出比对单元05的比对结果。具体可以采用诸如校验报告、邮件、短消息等方式输出比对单元05的比对结果。这样用户就能够一目了然地获知中间页中各待校验数据项的内容是否准确。
由以上描述可以看出,本发明不再依赖人工校验,实现了中间页信息校验的自动化,节约了人力成本,且具有高效、准确的特点。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (12)

1.一种校验中间页信息的方法,其特征在于,该方法包括:
抓取中间页,所述中间页以信息单元的形式整合展示查询结果;
利用预先配置的中间页模板从抓取的中间页中解析待校验数据项的内容,所述待校验数据项包含在所述信息单元中,若所述中间页包含多个信息单元,则所述待校验数据项以信息单元进行区分,所述待校验数据项的内容为所述中间页所指向的详情页的网站提供的结构化信息;
抓取所述中间页所指向的详情页;
利用预先配置的详情页模板从抓取的详情页中解析待校验数据项的内容;
将同一待校验数据项在中间页中的内容与在详情页中的内容进行比对;
输出比对结果;
其中所述中间页模板和所述详情页模板包括:待校验数据项的名称和XPath;依据所述XPath执行所述解析待校验数据项的内容。
2.根据权利要求1所述的方法,其特征在于,所述抓取中间页包括:
通过自定义参数构造查询请求,抓取所述查询请求对应的中间页。
3.根据权利要求2所述的方法,其特征在于,所述通过自定义参数构造查询请求包括:
从中间页网站提供的各查询类目中分别选择至多一个查询关键词进行组合,利用组合得到的查询关键词来构造查询请求。
4.根据权利要求1所述的方法,其特征在于,预先针对中间页url的类型信息配置所述中间页模板,在利用预先配置的中间页模板从抓取的中间页中解析待校验数据项的内容时,根据抓取的中间页url的类型信息确定利用的中间页模板;
预先针对详情页url的类型信息配置所述详情页模板,在利用预先配置的详情页模板从抓取的详情页中解析待校验数据项的内容时,根据抓取的详情页url的类型信息确定利用的详情页模板。
5.根据权利要求1所述的方法,其特征在于,从抓取的中间页中解析得到的待校验数据项的内容包括该中间页所指向的详情页地址;
利用该中间页所指向的详情页地址执行所述抓取所述中间页所指向的详情页。
6.根据权利要求1所述的方法,其特征在于,所述将同一待校验数据项在中间页中的内容与在详情页中的内容进行比对包括:
将同一待校验数据项在中间页中的内容与在详情页中的内容进行相似度计算,确定满足相似度要求的待校验数据项在中间页中的内容准确,确定不满足相似度要求的待校验数据项在中间页中的内容不准确。
7.一种校验中间页信息的装置,其特征在于,该装置包括:
第一抓取单元,用于抓取中间页,所述中间页以信息单元的形式整合展示查询结果;
第一解析单元,用于利用预先配置的中间页模板从抓取的中间页中解析待校验数据项的内容,所述待校验数据项包含在所述信息单元中,若所述中间页包含多个信息单元,则所述待校验数据项以信息单元进行区分,所述待校验数据项的内容为所述中间页所指向的详情页的网站提供的结构化信息;
第二抓取单元,用于抓取所述中间页所指向的详情页;
第二解析单元,用于利用预先配置的详情页模板从抓取的详情页中解析待校验数据项的内容;
比对单元,用于将同一待校验数据项在中间页中的内容与在详情页中的内容进行比对;
输出单元,用于输出所述比对单元的比对结果;
其中所述中间页模板和所述详情页模板包括:待校验数据项的名称和XPath;
所述第一解析单元根据中间页模板包括的XPath执行所述解析待校验数据项的内容;
所述第二解析单元根据详情页模板包括的XPath执行所述解析待校验数据项的内容。
8.根据权利要求7所述的装置,其特征在于,所述第一抓取单元,具体用于通过自定义参数构造查询请求,抓取所述查询请求对应的中间页。
9.根据权利要求8所述的装置,其特征在于,所述第一抓取单元,具体用于从中间页网站提供的各查询类目中分别选择至多一个查询关键词进行组合,利用组合得到的查询关键词来构造查询请求。
10.根据权利要求7所述的装置,其特征在于,所述中间页模板是预先针对中间页url的类型信息配置的,所述详情页模板是预先针对详情页url的类型信息配置的;
所述第一解析单元在利用预先配置的中间页模板从抓取的中间页中解析待校验数据项的内容时,根据抓取的中间页url的类型信息确定利用的中间页模板;
所述第二解析单元在利用预先配置的详情页模板从抓取的详情页中解析待校验数据项的内容时,根据抓取的详情页url的类型信息确定利用的详情页模板。
11.根据权利要求7所述的装置,其特征在于,所述第一解析单元解析得到的待校验数据项的内容包括该中间页所指向的详情页地址;
所述第二抓取单元,具体用于利用该中间页所指向的详情页地址执行所述抓取所述中间页所指向的详情页的操作。
12.根据权利要求7所述的装置,其特征在于,所述比对单元,具体用于将同一待校验数据项在中间页中的内容与在详情页中的内容进行相似度计算,确定满足相似度要求的待校验数据项在中间页中的内容准确,确定不满足相似度要求的待校验数据项在中间页中的内容不准确。
CN201410674840.6A 2014-11-21 2014-11-21 一种校验中间页信息的方法和装置 Active CN104462257B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410674840.6A CN104462257B (zh) 2014-11-21 2014-11-21 一种校验中间页信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410674840.6A CN104462257B (zh) 2014-11-21 2014-11-21 一种校验中间页信息的方法和装置

Publications (2)

Publication Number Publication Date
CN104462257A CN104462257A (zh) 2015-03-25
CN104462257B true CN104462257B (zh) 2018-03-30

Family

ID=52908293

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410674840.6A Active CN104462257B (zh) 2014-11-21 2014-11-21 一种校验中间页信息的方法和装置

Country Status (1)

Country Link
CN (1) CN104462257B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106453689B (zh) * 2016-11-11 2019-05-24 四川长虹电器股份有限公司 提取及校验url的方法
CN109241501A (zh) * 2018-08-15 2019-01-18 北京北信源信息安全技术有限公司 文件解析方法和装置
CN109669736A (zh) * 2018-12-18 2019-04-23 北京城市网邻信息技术有限公司 一种小程序的加载方法、装置、终端设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6021435A (en) * 1996-03-13 2000-02-01 Sun Microsystems, Inc. Apparatus and method for displaying enhanced hypertext link anchor information regarding hypertext page availability and content
CN102567417A (zh) * 2010-12-31 2012-07-11 百度在线网络技术(北京)有限公司 一种用于确定超链接的锚文本可信度的分析设备和方法
CN104077700A (zh) * 2014-06-09 2014-10-01 中国建设银行股份有限公司 用于电商平台的任务处理方法、装置及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6021435A (en) * 1996-03-13 2000-02-01 Sun Microsystems, Inc. Apparatus and method for displaying enhanced hypertext link anchor information regarding hypertext page availability and content
CN102567417A (zh) * 2010-12-31 2012-07-11 百度在线网络技术(北京)有限公司 一种用于确定超链接的锚文本可信度的分析设备和方法
CN104077700A (zh) * 2014-06-09 2014-10-01 中国建设银行股份有限公司 用于电商平台的任务处理方法、装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于网页对比的校园二级网站防篡改监控系统的设计与实现;鲁寅辉;《实验技术与管理》;20110630;第119-121页 *

Also Published As

Publication number Publication date
CN104462257A (zh) 2015-03-25

Similar Documents

Publication Publication Date Title
US10311118B2 (en) Systems and methods for generating search results using application-specific rule sets
KR102263637B1 (ko) 검색 시스템을 위한 써드 파티 검색 애플리케이션들
US20190377788A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
JP5721818B2 (ja) 検索におけるモデル情報群の使用
US8832102B2 (en) Methods and apparatuses for clustering electronic documents based on structural features and static content features
JP6906419B2 (ja) 情報提供装置、情報提供方法、およびプログラム
US9229974B1 (en) Classifying queries
US20120042020A1 (en) Micro-blog message filtering
US9910870B2 (en) System and method for creating data models from complex raw log files
JP5021845B2 (ja) 多重エンティティ中心的統合検索システムおよび方法
US8892537B2 (en) System and method for providing total homepage service
CN106462565A (zh) 在文档内更新文本
JP2012529688A (ja) 更新通知方法、およびシステム
CN101313330A (zh) 选择用于显示的高质量评论
CN103324666A (zh) 一种基于微博数据的话题跟踪方法及装置
US10073918B2 (en) Classifying URLs
CN106021583A (zh) 页面流量数据的统计方法及其系统
CN105718533A (zh) 信息推送方法和装置
US20110184956A1 (en) Accessing digitally published content using re-indexing of search results
KR100671077B1 (ko) 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템
CN104462257B (zh) 一种校验中间页信息的方法和装置
KR20170073693A (ko) 유사 그룹 요소 추출
US10504145B2 (en) Automated classification of network-accessible content based on events
CN116226494B (zh) 一种用于信息搜索的爬虫系统及方法
KR101583073B1 (ko) 기사 요약 서비스 서버 및 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant