CN104915439A - 搜索结果推送方法和装置 - Google Patents

搜索结果推送方法和装置 Download PDF

Info

Publication number
CN104915439A
CN104915439A CN201510359094.6A CN201510359094A CN104915439A CN 104915439 A CN104915439 A CN 104915439A CN 201510359094 A CN201510359094 A CN 201510359094A CN 104915439 A CN104915439 A CN 104915439A
Authority
CN
China
Prior art keywords
user
data entries
feature tag
internet information
tag field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510359094.6A
Other languages
English (en)
Inventor
刘政
李丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201510359094.6A priority Critical patent/CN104915439A/zh
Publication of CN104915439A publication Critical patent/CN104915439A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种搜索结果推送方法和装置。所述方法包括:根据用户的搜索定制请求抓取互联网信息;根据对抓取到的互联网信息的特征过滤,获取关于抓取到的互联网信息的信息条目;将所述信息条目以实时更新的方式推送给用户。本发明实施例提供的搜索结果推送方法和装置实现了搜索引擎对搜索结果信息的实时动态推送。本发明另一实施例提供的搜索结果推送方法和装置通过用户对推送信息的查看形成反馈,服务器根据这些反馈操作自动调整后续的推送内容。

Description

搜索结果推送方法和装置
技术领域
本发明实施例涉及互联网技术领域,尤其涉及一种搜索结果推送方法和装置。
背景技术
随着互联网技术的深入发展,人们的日常生活已经越来越离不开搜索引擎。目前,人们通过搜索引擎获取信息的流程大致是:用户通过终端输入自己感兴趣的搜索词,服务端获取到用户输入的搜索词之后,根据获取到的搜索词抓取互联网上的各种信息,形成搜索结果页,并将搜索结果页展示给用户。
这样的流程的主要不足之处在于:用户每执行一次搜索,对搜索结果信息的获取次数对应的也只有一次。也就是说,搜索引擎对搜索结果信息的推送方式是静态的。
发明内容
针对上述技术问题,本发明实施例提供了一种搜索结果推送方法和装置,以实现搜索引擎对搜索结果信息的实时动态推送。
第一方面,本发明实施例提供了一种搜索结果推送方法,所述方法包括:
根据用户的搜索定制请求抓取互联网信息;
根据对抓取到的互联网信息的特征过滤,获取关于抓取到的互联网信息的信息条目;
将所述信息条目以实时更新的方式推送给用户。
第二方面,本发明实施例还提供了一种搜索结果推送装置,所述装置包括:
抓取模块,用于根据用户的搜索定制请求抓取互联网信息;
条目获取模块,用于根据对抓取到的互联网信息的特征过滤,获取关于抓取到的互联网信息的信息条目;
推送模块,用于将所述信息条目以实时更新的方式推送给用户。
本发明实施例提供的搜索结果推送方法和装置通过根据用户的搜索词抓取互联网信息,根据对抓取到的互联网信息的特征过滤,获取到抓取到用户感兴趣的互联网信息的信息条目,以及将所述信息条目以实时更新的方式推送给用户,从而实现了对搜索结果信息的实时动态推送。
附图说明
图1是本发明第一实施例提供的搜索结果推送方法的流程图;
图2是本发明第二实施例提供的搜索结果推送方法的流程图;
图3是本发明第三实施例提供的搜索结果推送方法中抓取操作的流程图;
图4是本发明第四实施例提供的搜索结果推送方法中推送操作的流程图;
图5是本发明第五实施例提供的搜索结果推送装置的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
第一实施例
本实施例提供了搜索结果推送方法的一种技术方案。所述搜索结果推送方法由网络侧的搜索引擎服务器执行。
参见图1,所述搜索结果推送方法包括:
S11,根据用户的搜索定制请求抓取互联网信息。
用户如果需要搜索引擎实时推送的信息条目,首先需要向搜索引擎提交搜索定制请求。所述搜索定制请求应该包括至少一个用户输入的搜索词。
接收到用户的搜索定制请求之后,搜索引擎根据所述搜索定制请求抓取互联网上的互联网信息。所述互联网信息是指互联网网页中呈现的各种信息,其内容可以包括文字、图片,甚至是视频。
具体的,抓取互联网信息的过程可以是利用所述搜索定制请求中的搜索词检索互联网网页的过程。
S12,根据对抓取到的互联网信息的特征过滤,获取关于抓取到的互联网信息的信息条目。
抓取到相应的互联网信息之后,对所述互联网信息进行特征过滤。所述特征过滤包括对重复的互联网信息执行的去重操作。优选的,在执行所述去重操作之后,还需要对余下的互联网信息根据信息的主题进行归类。
完成上述特征过滤操作之后,对抓取到的互联网信息进行信息组织,以生成所述互联网信息的信息条目。所述信息条目包括:时间点、信息内容以及特征标签三个字段。所述时间点是指所述互联网信息所记录的事件发生的时间点,它可以通过对所述互联网信息的文本解析而获得。所述信息内容是指所述互联网信息的内容。所述信息内容可以包括文本、图片、视频等。所述特征标签是指通过对所述互联网信息进行文本解析而获得的互联网信息的一些标签。例如,一个标题为“韩MERS增3死亡病例死亡率目前最高”的网页的特征标签可能是“MERS”,或者“医疗卫生”。
S13,将所述信息条目以实时更新的方式推送给用户。
具体的,可以将获取到的信息条目按照时间点字段进行排序,再将排序后的信息条目以固定的更新频率推送给用户。比如,可以是每3分钟更新一次的方式将排序后的信息条目推送给用户。而且,推送的信息条目不仅包括最新的信息条目,还包括历史的信息条目。
本实施例通过根据用户的搜索定制请求抓取互联网信息,根据对抓取到的互联网信息的特征过滤,获取关于抓取到的互联网信息的信息条目,以及将所述信息条目以实时更新的方式推送给用户,从而实现了对搜索结果信息的实时动态推送。
第二实施例
本实施例以本发明的上述实施例为基础,进一步的提供了搜索结果推送方法的另一种技术方案。在该技术方案中,所述搜索结果推送方法包括:根据用户的搜索定制请求抓取互联网信息;根据对抓取到的互联网信息的特征过滤,获取关于抓取到的互联网信息的信息条目;将所述信息条目以实时更新的方式推送给用户;从客户端获取与用户点击查看的内容相关的特征标签字段;将特征标签字段与原始搜索词关联;调整所述特征标签字段的权重值;利用所述特征标签字段的权重值对所述特征标签字段进行筛选;将筛选得到的特征标签字段设置为对与所述原始搜索词相关联的搜索结果的过滤条件。
参见图2,所述搜索结果推送方法包括:
S21,根据用户的搜索定制请求抓取互联网信息。
S22,根据对抓取到的互联网信息的特征过滤,获取关于抓取到的互联网信息的信息条目。
S23,将所述信息条目以实时更新的方式推送给用户。
S24,从客户端获取与用户点击查看的内容相关的特征标签字段。
获取到以实时更新方式推送至客户端的信息条目之后,用户会通过点击的方式查看自己感兴趣的信息条目的内容。用户每次执行点击操作时,客户端会将用户所点击的信息条目的特征标签字段,以及能够唯一标识获取到该信息条目的搜索请求的搜索请求标识发送给服务器。此时,服务器获取与用户点击查看的内容相关的特征标签字段。
S25,将特征标签字段与原始搜索词关联。
获取到用户在点击所述信息条目时发送的特征标签字段之后,将所述特征标签字段与所述原始搜索词进行关联。可以理解的是,对于相同的原始搜索词,与之关联的可能会有多个不同的特征标签字段。
S26,调整所述特征标签字段的权重值。
根据用户点击查看包含所述特征标签字段的信息条目的频度,调整所述特征标签字段的权重值。一般来说,点击查看的频度越高,相应的所述特征标签字段的权重值就应该越高。但是需要注意,相同的原始搜索词对应的不同的特征标签字段的权重值之和不能大于1。
S27,利用所述特征标签字段的权重值对所述特征标签字段进行筛选。
最为简单的,可以将权重值高于一个预设阈值的特征字段筛选出来,作为进一步进行搜索结果过滤的过滤条件。当然,也不排除利用其他的筛选方式对所述特征标签字段进行筛选。
S28,将筛选得到的特征标签字段设置为对与所述原始搜索词相关联的搜索结果的过滤条件。
完成了所述特征标签字段的筛选之后,将筛选得到的特征标签字段作为对与所述原始搜索词相关的搜索结果进行过滤的过滤条件。具体的,可以将筛选得到的特征标签编制成为白名单。在对搜索结果进行过滤时,只有特征标签字段与所述白名单中的特征标签匹配成功的信息条目才能最终被显示给用户。
需要说明的是,上述操作流程在实际的搜索结果信息推送中是一个循环执行的过程。也就是说,对信息条目设置过滤条件之后,会继续利用设置的过滤条件对新获取到的信息条目进行进一步的过滤,而不是以设置了搜索结果的过滤条件作为上述过程的执行终点。
另外,除了将所述特征标签字段设置为对搜索结果的过滤条件以外,还可以将所述特征标签字段的内容作为用户进行搜索的新的关键词推送给用户。这样,用户可以从推送的特征标签中对后续互联网搜索的关键词进行更新操作。
对所述信息条目的推送会依据预设的推送停止条件而停止。所述推送停止条件包括:依据预设时间的推送停止条件、依据主动请求的推送停止条件或者依据用户反馈的推送停止条件。
依据预设时间的推送停止条件是指用户预先设置了停止信息条目推送的时间点。如果当前时间到达所述预先设置的时间点,则停止信息条目的推送。
依据主动请求的推送停止条件是指在信息条目的推送过程中,用户以请求的方式明确指示要求停止信息条目的推送,则停止上述推送过程。
依据用户反馈的推送停止条件是指经历的一段时间的实时的向用户推送信息条目以后,用户没有对推送的信息条目有任何点击动作,则停止所述信息条目的推送。
本实施例通过在将所述信息条目以实时更新的方式推送给用户之后,从客户端获取与用户点击查看的内容相关的特征标签字段,将特征标签字段与原始搜索词关联,调整所述特征标签字段的权重值,利用所述特征标签字段的权重值对所述特征标签字段进行筛选,以及将筛选得到的特征标签字段设置为对与所述原始搜索词关联的搜索结果过滤条件,从而能够根据用户的点击频度对推送的信息条目进行选择性的显示,进一步的提高了用户与搜索引擎交互过程的灵活程度。
第三实施例
本实施例以本发明上述实施例为基础,进一步的提供了搜索结果推送方法中抓取操作的一种技术方案。在该技术方案中,根据用户的搜索定制请求抓取互联网信息包括:根据用户的搜索定制请求中的搜索词利用爬虫程序抓取互联网信息;对抓取到的互联网信息进行去重。
参见图3,根据用户的搜索定制请求抓取互联网信息包括:
S31,根据用户的搜索定制请求中的搜索词利用爬虫程序抓取互联网信息。
S32,对抓取到的互联网信息进行去重。
利用爬虫程序抓取到的互联网信息中可能会存在重复的信息,因此,在利用爬虫程序抓取互联网信息之后,对抓取到的互联网信息执行去重操作。具体的,可以通过对抓取到的互联网信息之间的比较,执行所述去重操作。
本实施例通过根据用户的搜索定制请求中的搜索词利用爬虫程序抓取互联网信息,以及对抓取到的互联网信息进行去重,从而实现了对互联网信息的抓取。
第四实施例
本实施例以本发明的上述实施例为基础,进一步的提供了搜索结果推送方法中推送操作的一种技术方案。在该技术方案中,将所述信息条目以实时更新的方式推送给用户包括:对信息条目以时间点字段进行时间排序;以设定的推送频率将排序后的信息条目推送给用户。
参见图4,将所述信息条目以实时更新的方式推送给用户包括:
S41,对信息条目以时间点字段进行时间排序。
所述信息条目包括时间点、信息内容以及特征标签三个字段。在获取到所述信息条目之后,以所述信息条目中包含的时间点对所述信息条目进行排序。一般情况下,所述排序是根据时间点的倒序排序。
S42,以设定的推送频率将排序后的信息条目推送给用户。
具体的,可以以每个3分钟一次的推送频率将所述信息条目推送给用户。
本实施例通过对信息条目以时间点字段进行时间排序,并以设定的推送频率将排序后的信息条目推送给用户,实现了对信息条目的实时推送。
第五实施例
本实施例提供了搜索结果推送装置的一种技术方案。在该技术方案中,所述搜索结果推送装置包括:抓取模块51、条目获取模块52以及推送模块53。
所述抓取模块51用于根据用户的搜索定制请求抓取互联网信息。
所述条目获取模块52用于根据对抓取到的互联网信息的特征过滤,获取关于抓取到的互联网信息的信息条目。
所述推送模块53用于将所述信息条目以实时更新的方式推送给用户。
进一步的,所述搜索结果推送装置还包括:特征字段获取模块54、关联模块55、权重调整模块56、筛选模块57以及条件设置模块58。
所述特征字段获取模块54用于在将所述信息条目以实时更新的方式推送给用户之后,从客户端获取与用户点击查看的内容相关的特征标签字段。
所述关联模块55用于将特征标签字段与原始搜索词关联。
所述权重调整模块56用于调整所述特征标签字段的权重值。
所述筛选模块57用于利用所述特征标签字段的权重值对所述特征标签字段进行筛选。
所述条件设置模块58用于将筛选得到的特征标签字段设置为对与所述原始搜索词相关联的搜索结果的过滤条件。
进一步的,所述抓取模块51包括:信息抓取单元以及信息去重单元。
所述信息抓取单元用于根据用户的搜索定制请求中的搜索词利用爬虫程序抓取互联网信息。
所述信息去重单元用于对抓取到的互联网信息进行去重。
进一步的,所述推送模块包括:条目排序单元以及条目推送单元。
所述条目排序单元用于对信息条目以时间点字段进行时间排序。
所述条目推送单元用于以设定的推送频率将排序后的信息条目推送给用户。
进一步的,所述信息条目包括:时间点字段、内容字段以及特征标签字段。
本领域普通技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个计算装置上,或者分布在多个计算装置所组成的网络上,可选地,他们可以用计算机装置可执行的程序代码来实现,从而可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件的结合。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间的相同或相似的部分互相参见即可。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种搜索结果推送方法,其特征在于,包括:
根据用户的搜索定制请求抓取互联网信息;
根据对抓取到的互联网信息的特征过滤,获取关于抓取到的互联网信息的信息条目;
将所述信息条目以实时更新的方式推送给用户。
2.根据权利要求1所述的方法,其特征在于,在将所述信息条目以实时更新的方式推送给用户之后,还包括:
从客户端获取与用户点击查看的内容相关的特征标签字段;
将特征标签字段与原始搜索词关联;
调整所述特征标签字段的权重值;
利用所述特征标签字段的权重值对所述特征标签字段进行筛选;
将筛选得到的特征标签字段设置为对与所述原始搜索词相关联的搜索结果的过滤条件。
3.根据权利要求1或2所述的方法,其特征在于,根据用户的搜索定制请求抓取互联网信息包括:
根据用户的搜索定制请求中的搜索词利用爬虫程序抓取互联网信息;
对抓取到的互联网信息进行去重。
4.根据权利要求1或2所述的方法,其特征在于,将所述信息条目以实时更新的方式推送给用户包括:
对信息条目以时间点字段进行时间排序;
以设定的推送频率将排序后的信息条目推送给用户。
5.根据权利要求1所述的方法,其特征在于,所述信息条目包括:时间点字段、内容字段以及特征标签字段。
6.一种搜索结果推送装置,其特征在于,包括:
抓取模块,用于根据用户的搜索定制请求抓取互联网信息;
条目获取模块,用于根据对抓取到的互联网信息的特征过滤,获取关于抓取到的互联网信息的信息条目;
推送模块,用于将所述信息条目以实时更新的方式推送给用户。
7.根据权利要求6所述的装置,其特征在于,还包括:
特征字段获取模块,用于在将所述信息条目以实时更新的方式推送给用户之后,从客户端获取与用户点击查看的内容相关的特征标签字段;
关联模块,用于将特征标签字段与原始搜索词关联;
权重调整模块,用于调整所述特征标签字段的权重值;
筛选模块,用于利用所述特征标签字段的权重值对所述特征标签字段进行筛选;
条件设置模块,用于将筛选得到的特征标签字段设置为对与所述原始搜索词相关联的搜索结果的过滤条件。
8.根据权利要求6或7所述的装置,其特征在于,所述抓取模块包括:
信息抓取单元,用于根据用户的搜索定制请求中的搜索词利用爬虫程序抓取互联网信息;
信息去重单元,用于对抓取到的互联网信息进行去重。
9.根据权利要求6或7所述的装置,其特征在于,所述推送模块包括:
条目排序单元,用于对信息条目以时间点字段进行时间排序;
条目推送单元,用于以设定的推送频率将排序后的信息条目推送给用户。
10.根据权利要求6所述的装置,其特征在于,所述信息条目包括:时间点字段、内容字段以及特征标签字段。
CN201510359094.6A 2015-06-25 2015-06-25 搜索结果推送方法和装置 Pending CN104915439A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510359094.6A CN104915439A (zh) 2015-06-25 2015-06-25 搜索结果推送方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510359094.6A CN104915439A (zh) 2015-06-25 2015-06-25 搜索结果推送方法和装置

Publications (1)

Publication Number Publication Date
CN104915439A true CN104915439A (zh) 2015-09-16

Family

ID=54084502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510359094.6A Pending CN104915439A (zh) 2015-06-25 2015-06-25 搜索结果推送方法和装置

Country Status (1)

Country Link
CN (1) CN104915439A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391511A (zh) * 2016-05-16 2017-11-24 中国移动通信集团内蒙古有限公司 一种信息推送方法和装置
CN112000820A (zh) * 2020-08-10 2020-11-27 海信电子科技(武汉)有限公司 一种媒资推荐方法及显示设备
CN112307316A (zh) * 2019-08-02 2021-02-02 北京字节跳动网络技术有限公司 信息处理方法、装置、存储介质及电子设备
CN112765464A (zh) * 2021-01-13 2021-05-07 中国地质大学(武汉) 面向主题的新内容检索推送方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101635718A (zh) * 2009-08-26 2010-01-27 中兴通讯股份有限公司 网络爬虫系统及其获取资源的方法和网络资源抓取装置
CN102222078A (zh) * 2010-12-08 2011-10-19 常华 实时信息推送方法及设备
CN102270243A (zh) * 2011-08-25 2011-12-07 北京思博途信息技术有限公司 信息搜索方法和系统
US20130332442A1 (en) * 2012-06-06 2013-12-12 Microsoft Corporation Deep application crawling
CN104142940A (zh) * 2013-05-08 2014-11-12 华为技术有限公司 信息推荐处理方法及装置
CN104462397A (zh) * 2014-12-10 2015-03-25 北京国双科技有限公司 推广信息处理方法和装置
CN104731926A (zh) * 2015-03-27 2015-06-24 百度在线网络技术(北京)有限公司 推荐词的展现方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101635718A (zh) * 2009-08-26 2010-01-27 中兴通讯股份有限公司 网络爬虫系统及其获取资源的方法和网络资源抓取装置
CN102222078A (zh) * 2010-12-08 2011-10-19 常华 实时信息推送方法及设备
CN102270243A (zh) * 2011-08-25 2011-12-07 北京思博途信息技术有限公司 信息搜索方法和系统
US20130332442A1 (en) * 2012-06-06 2013-12-12 Microsoft Corporation Deep application crawling
CN104142940A (zh) * 2013-05-08 2014-11-12 华为技术有限公司 信息推荐处理方法及装置
CN104462397A (zh) * 2014-12-10 2015-03-25 北京国双科技有限公司 推广信息处理方法和装置
CN104731926A (zh) * 2015-03-27 2015-06-24 百度在线网络技术(北京)有限公司 推荐词的展现方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107391511A (zh) * 2016-05-16 2017-11-24 中国移动通信集团内蒙古有限公司 一种信息推送方法和装置
CN112307316A (zh) * 2019-08-02 2021-02-02 北京字节跳动网络技术有限公司 信息处理方法、装置、存储介质及电子设备
CN112000820A (zh) * 2020-08-10 2020-11-27 海信电子科技(武汉)有限公司 一种媒资推荐方法及显示设备
CN112765464A (zh) * 2021-01-13 2021-05-07 中国地质大学(武汉) 面向主题的新内容检索推送方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
KR101315554B1 (ko) 웹 페이지에 키워드를 할당하기 위한 방법 및 장치
CN102200980B (zh) 一种提供网络资源的方法及系统
AU2009276354B2 (en) Providing posts to discussion threads in response to a search query
CN102930059B (zh) 一种聚焦爬虫的设计方法
CN103927370B (zh) 一种组合文字和图片信息的网络资讯批量采集方法
CN104063454A (zh) 一种挖掘用户需求的搜索推送方法和装置
CN103389983A (zh) 一种用于网络爬虫系统的网页内容抓取方法及装置
CN104915439A (zh) 搜索结果推送方法和装置
US20120246139A1 (en) System and method for resume, yearbook and report generation based on webcrawling and specialized data collection
CN105045838A (zh) 基于分布式存储系统的网络爬虫系统
CN102426591A (zh) 一种操作用于内容输入的语料库的方法和设备
CN103324669A (zh) 一种对网页书签进行处理的方法和客户端
CN104182506A (zh) 日志管理方法
Sukumar et al. Review on modern Data Preprocessing techniques in Web usage mining (WUM)
CN103186666A (zh) 基于收藏进行搜索的方法、装置与设备
US20130346386A1 (en) Temporal topic extraction
CN105677536A (zh) 一种任务消息的实现方法及实现该任务消息的任务系统
CN103902667A (zh) 一种基于元搜索的网络信息采集器简单实现方法
JP6453464B2 (ja) 検索エンジンにウェブサイト認証データを提供するための方法及び装置
CN111241373A (zh) 一种基于微服务的网页爬虫系统及实现方法
Basyuk Popularization of website and without anchor promotion
CN103605742B (zh) 识别网络资源实体目录页的方法及装置
CN104424188A (zh) 对获取的网页数据进行更新的系统及方法
CN105868321A (zh) 文件管理方法及装置
CN105183843A (zh) 列表页识别系统及方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150916

RJ01 Rejection of invention patent application after publication