CN105989167A - 基于新闻客户端的数据采集方法及装置 - Google Patents

基于新闻客户端的数据采集方法及装置 Download PDF

Info

Publication number
CN105989167A
CN105989167A CN201510097088.8A CN201510097088A CN105989167A CN 105989167 A CN105989167 A CN 105989167A CN 201510097088 A CN201510097088 A CN 201510097088A CN 105989167 A CN105989167 A CN 105989167A
Authority
CN
China
Prior art keywords
news
data
data structure
client
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510097088.8A
Other languages
English (en)
Other versions
CN105989167B (zh
Inventor
王文文
杨建武
郑孙雷
赵增峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University, Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University
Priority to CN201510097088.8A priority Critical patent/CN105989167B/zh
Publication of CN105989167A publication Critical patent/CN105989167A/zh
Application granted granted Critical
Publication of CN105989167B publication Critical patent/CN105989167B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种基于新闻客户端的数据采集方法及装置,其中采集方法包括:在用户访问移动终端上的新闻客户端时,获取当前新闻客户端的新闻链接地址;根据所述新闻链接地址,确定所述新闻客户端中当前频道的页面的数据结构;根据所述数据结构,查找与所述数据结构相匹配的数据采集模板;采用所述数据采集模板,对所述当前新闻客户端显示频道中的新闻数据进行采集,将所述采集到的新闻数据存储到数据库中。通过本发明提供的基于新闻客户端的数据采集方法及装置,能够对不同的新闻客户端进行数据的通用性的采集,同时对新闻客户端的不同频道进行新闻数据的通用采集,避免了对某个新闻客户端的单独采集,同时提高了采集的效率。

Description

基于新闻客户端的数据采集方法及装置
技术领域
本发明涉及数据采集技术领域,尤其涉及一种基于新闻客户端的数据采集方法及装置。
背景技术
随着移动终端设备的普及,移动终端中新闻客户端软件已经成为新闻传播的一种重要方式。新闻客户端软件除了获取新闻信息之外,与传统新闻媒体有一个很大的区别,就是用户可以比较方便的进行交互功能。用户可以自由的订阅自己感兴趣的内容。利用现有的新闻客户端软件,比如,现有的常见的手机新闻客户端软件包括搜狐新闻、腾讯新闻、网易新闻等移动APP,用户可以根据自己的喜好,订阅相应的专题,但是,用户的这种订阅,往往都是根据一个大的类别来进行,比如体育新闻频道、法制新闻频道、社会新闻频道等。
在移动互联网大潮涌来的当下,“媒体融合”和“移动传播”已经成为趋势,无论传统媒体,还是网络媒体,都在运用新的传播方式向移动互联网转型,新闻客户端已经成为其中的一个重要的方向。新闻客户端具有新闻专业性和移动性两大特征,具有巨大用户价值,自然成了舆情的一种重要传播方式,人们通过新闻客户端了解最新的新闻事件,了解不同的社会阶层对新闻事件的看法,新闻客户端数据的采集为舆情管理工作提供重要的依据。
在市场上,涉及新闻的互联网公司都有自己的新闻客户端,每个新闻客户端都有特定的数据结构,新闻客户端的数据结构之间各不相同,这就使得新闻客户端对新闻数据的采集无法进行通用性的数据的采集,只能针对某个新闻客户端进行单独到的数据采集。
发明内容
针对现有技术中的缺陷,本发明提供一种基于新闻客户端的数据采集方法及装置,能够对不同的新闻客户端进行数据的通用性的采集,同时对新闻客户端的不同频道进行新闻数据的通用采集,避免了对某个新闻客户端的单独采集,同时提高了采集的效率。
第一方面,本发明提供了一种基于新闻客户端的数据采集方法,包括:
在用户访问移动终端上的新闻客户端时,获取当前新闻客户端的新闻链接地址;
根据所述新闻链接地址,确定所述新闻客户端中当前频道的页面的数据结构;
根据所述数据结构,查找与所述数据结构相匹配的数据采集模板;
采用所述数据采集模板,对所述当前新闻客户端显示频道中的新闻数据进行采集,将所述采集到的新闻数据存储到数据库中。
进一步地,所述获取当前新闻客户端的新闻链接地址,包括:
获取所述新闻客户端发送给互联网服务器的请求,所述请求中携带所述新闻链接地址;
根据所述请求,确定所述新闻链接地址。
进一步地,所述在对所述当前新闻客户端显示频道中的新闻数据进行采集的步骤之前,所述方法还包括:
若查找不到与所述数据结构相匹配的数据采集模板;
根据所述数据结构,建立与所述数据结构相匹配的数据采集模板。
进一步地,所述根据所述数据结构,建立与所述数据结构相匹配的数据采集模板,包括:
根据所述数据结构的字段信息,在预设的框架中配置各字段的位置信息,得到与所述数据结构相匹配的数据采集模板;
其中,所述数据采集模板包括:含有标题字段、头图类型字段、头图标记字段、列表数据类型的列表区域;
含有新闻内容字段、数据结构类型字段、来源字段的详情区域;
含有评论数据类型字段、评论人字段、评论内容字段的评论区域。
进一步地,所述数据结构的类型包括Json格式、Xml格式和Html格式。
第二方面,本发明提供了一种基于新闻客户端的数据采集装置,包括:
获取单元,用于在用户访问移动终端上的新闻客户端时,获取当前新闻客户端的新闻链接地址;
确定单元,用于根据所述新闻链接地址,确定所述新闻客户端中当前频道的页面的数据结构;
查找单元,用于根据所述数据结构,查找与所述数据结构相匹配的数据采集模板;
采集单元,用于采用所述数据采集模板,对所述当前新闻客户端显示频道中的新闻数据进行采集,将所述采集到的新闻数据存储到数据库中。
进一步地,所述获取单元,还用于获取所述新闻客户端发送给互联网服务器的请求,所述请求中携带所述新闻链接地址;
所述获取单元,还用于根据所述请求,确定所述新闻链接地址。
进一步地,在所述查找单元与所述采集单元之间,所述装置还包括创建单元;
所述创建单元,用于若查找不到与所述数据结构相匹配的数据采集模板;
所述创建单元,用于根据所述数据结构,建立与所述数据结构相匹配的数据采集模板。
进一步地,所述创建单元,还用于根据所述数据结构的字段信息,在预设的框架中配置各字段的位置信息,得到与所述数据结构相匹配的数据采集模板;
其中,所述数据采集模板包括:含有标题字段、头图类型字段、头图标记字段、列表数据类型的列表区域;
含有新闻内容字段、数据结构类型字段、来源字段的详情区域;
含有评论数据类型字段、评论人字段、评论内容字段的评论区域。
进一步地,其特征在于,所述数据结构的类型包括Json格式、Xml格式和Html格式。
由上述技术方案可知,通过本发明提供的基于新闻客户端的数据采集方法及装置,其中采集方法包括:在用户访问移动终端上的新闻客户端时,获取当前新闻客户端的新闻链接地址;根据所述新闻链接地址,确定所述新闻客户端中当前频道的页面的数据结构;根据所述数据结构,查找与所述数据结构相匹配的数据采集模板;采用所述数据采集模板,对所述当前新闻客户端显示频道中的新闻数据进行采集,将所述采集到的新闻数据存储到数据库中。通过本发明提供的基于新闻客户端的数据采集方法及装置,能够对不同的新闻客户端进行数据的通用性的采集,同时对新闻客户端的不同频道进行新闻数据的通用采集,避免了对某个新闻客户端的单独采集,同时提高了采集的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于新闻客户端的数据采集方法的流程示意图;
图2为本发明实施例提供的一种基于新闻客户端的数据采集方法的流程示意图;
图3为本发明实施例提供的一种转包工具的配置示意图;
图4为本发明实施例提供的一种手机终端代理配置示意图;
图5为本发明实施例提供的一种抓包工具获取的新浪新闻客户端请求链接及数据示意图;
图6为本发明实施例提供的一种对请求数据分析的示意图;
图7为本发明实施例提供的一种基于新闻客户端的数据采集装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他的实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种基于新闻客户端的数据采集方法的流程示意图,如图1所示,本实施例的基于新闻客户端的数据采集方法如下所述。
101、在用户访问移动终端上的新闻客户端时,获取当前新闻客户端的新闻链接地址。
应理解的是,新闻客户端用于给用户提供及时的新闻、社会热点信息和社会各阶层对事件的评述。新闻客户端与互联网的服务器相连接,服务器中存储着各式各样的新闻。
在用户访问移动终端上的新闻客户端时,获取当前新闻客户端的新闻链接地址。
获取新闻客户端的新闻链接地址,比如说,获取网易新闻客户端的某个新闻频道中的头条新闻的链接地址。
102、根据所述新闻链接地址,确定所述新闻客户端中当前频道的页面的数据结构。
应理解的是,获得新闻链接地址,可以查看到请求的数据结果,进而确定新闻客户端中当前频道的页面的数据结构。
举例来说,对于同一个新闻客户端而言,数据类型有可能为单一的类型,也可能为多类型混合,但是数据结构的类型主要是Json、Xml、Html这三种类型。如果数据类型为Json或者Xml格式,可以点击Fiddler工具的Json或者Xml的选项卡查看数据的类型。
103、根据所述数据结构,查找与所述数据结构相匹配的数据采集模板。
应理解的是,根据新闻客户端中当前频道的页面的数据结构,查找与当前的数据结构相匹配的数据采集模板。
还可以理解的是,数据采集模板与当前的数据结构的类型相匹配。
104、采用所述数据采集模板,对所述当前新闻客户端显示频道中的新闻数据进行采集,将所述采集到的新闻数据存储到数据库中。
应理解的是,根据查找到的与数据结构相匹配的数据采集模板,对当前新闻客户端显示频道中的新闻数据进行此埃及,将采集到的新闻数据存储到数据库中。
还可以理解的是,根据查找到的数据采集模板,采集当前新闻客户端的新闻数据,可以是财经频道的数据,体育频道的数据,这里并不做出具体的限定,将采集到的数据存储到数据库中。
通过本实施例提供的基于新闻客户端的数据采集方法,能够对不同的新闻客户端进行数据的通用性的采集,同时对新闻客户端的不同频道进行新闻数据的通用采集,避免了对某个新闻客户端的单独采集,同时提高了采集的效率。
图2为本发明实施例提供的一种基于新闻客户端的数据采集方法的流程示意图,如图2所示,本实施例的基于新闻客户端的数据采集方法如下所述。
当然,在实际应用中,上述方法可在任一终端中使用,在使用之前,需要对移动终端的进行配置,如图4所示的手机终端代理配置示意图,对移动终端进行访问代理设置,代理服务器的端口为8888。
201、获取所述新闻客户端发送给互联网服务器的请求,所述请求中携带所述新闻链接地址。
应理解的是,获取新闻客户端向互联网服务器发送的请求,请求中携带新闻链接地址。
举例来说,如图3所示的转包工具的配置示意图,可在抓包工具上获新闻客户端请求链接及请求数据,通过图中数据格式可以看到数据位Json格式。
202、根据所述请求,确定所述新闻链接地址。
应理解的是,根据获取的请求,确定请求里面的新闻链接地址。
203、根据所述新闻链接地址,确定所述新闻客户端中当前频道的页面的数据结构。
应理解的是,根据新闻链接地址,确定新闻客户端中当前频道的页面的数据结构。
举例来说,对于同一个新闻客户端而言,数据类型有可能为单一的类型,也可能为多类型混合,但是数据结构的类型主要是Json、Xml、Html这三种类型。如果数据类型为Json或者Xml格式,可以点击Fiddler工具的Json或者Xml的选项卡查看数据的类型。
数据结构的类型包括Json格式、Xml格式和Html格式。
204、若查找不到与所述数据结构相匹配的数据采集模板,根据所述数据结构,建立与所述数据结构相匹配的数据采集模板。
应理解的是,若查找不到与数据结构相匹配的数据采集模板,根据数据结构,建立与数据结构相匹配的数据采集模板。
根据数据结构,建立与数据结构相匹配的数据采集模板,包括:
根据数据结构的字段信息,在预设的框架中配置各字段的位置信息,得到与数据结构相匹配的数据采集模板。
数据采集模板包括:含有标题字段、头图类型字段、头图标记字段、列表数据类型的列表区域。
含有新闻内容字段、数据结构类型字段、来源字段的详情区域。
含有评论数据类型字段、评论人字段、评论内容字段的评论区域。
举例来说,新闻客户端数据结构及采集数据呈现基础上,基本上可以分为三大部分:列表区域、详情区域、评论区域。列表区域包含新闻头条图类型、列表数据结构类型、列表区域、头图标记、标题、摘要、时间、链接、图片地址、列表数据类型、列表下一页等。详情区域包含数据结构类型、内容区域、标题、时间、链接、作者、来源等。评论区域包含评论数据类型、评论下一页、评论人、评论时间、评论内容、评论地域、评论点赞数等
举例来说,图5为本发明实施例提供的一种抓包工具获取的新浪新闻客户端请求链接及数据示意图,图6为本发明实施例提供的一种对请求数据分析的示意图,如图5和图6所示,对请求内容进行分析为了更好的对Json数据进行分析,可将数据内容在json.parser.online.fr贴入查看。对比手机客户端新浪新闻头条频道列表,可知列表展示内容对应就是对应data节点对象下的list的数据集合;单条数据中标题对应title,来源对应source,图片地址对应pic,摘要对应infro等。
举例来说,新浪新闻客户端在模板表中对列表区域配置为{"jsons":[{"key":"null","type":"obj","child":{"key":"data","type":"obj","child":{"key":"list","type":"array"}}}]},其中title对应客户端列表记录的标题,配置为{"jsons":[{"key":"title","type":"string"}]},其他字段均按照此规则进行配置。在此基础过程上完成所有部分的模板配置。
205、采用所述数据采集模板,对所述当前新闻客户端显示频道中的新闻数据进行采集,将所述采集到的新闻数据存储到数据库中。
应理解的是,采用所述数据采集模板,对当前新闻客户端显示频道中的新闻数据进行采集,将采集到的新闻数据存储到数据库中。
举例来说,采集当前新闻客户端的新闻数据,可以是财经频道的数据,体育频道的数据,这里并不做出具体的限定,将采集到的数据存储到数据库中。
举例来说,启动后台Java程序,依据网站获取网站的配置模板,对站点多个频道依据模板对数据进行解析入库,完成对该客户端的头条频道的数据采集。
手机请求新浪客户端社会频道,经过对数据的分析,发现该频道数据结构与头条频道一致,增配社会频道后,运行后台代码,数据就可采集入库。
通过本实施例提供的基于新闻客户端的数据采集方法,能够对不同的新闻客户端进行数据的通用性的采集,同时对新闻客户端的不同频道进行新闻数据的通用采集,避免了对某个新闻客户端的单独采集,同时提高了采集的效率。
图7为本发明实施例提供的一种基于新闻客户端的数据采集装置的结构示意图,如图7所示,本实施例的基于新闻客户端的数据采集装置如下所述。
一种基于新闻客户端的数据采集装置,包括:获取单元71,确定单元72,查找单元73和采集单元74。
获取单元71,用于在用户访问移动终端上的新闻客户端时,获取当前新闻客户端的新闻链接地址。
确定单元72,用于根据所述新闻链接地址,确定所述新闻客户端中当前频道的页面的数据结构。
查找单元73,用于根据所述数据结构,查找与所述数据结构相匹配的数据采集模板。
采集单元74,用于采用所述数据采集模板,对所述当前新闻客户端显示频道中的新闻数据进行采集,将所述采集到的新闻数据存储到数据库中。
获取单元71,还用于获取所述新闻客户端发送给互联网服务器的请求,所述请求中携带所述新闻链接地址。
获取单元71,还用于根据所述请求,确定所述新闻链接地址。
在查找单元73与采集单元74之间,装置还包括创建单元75。
创建单元75,用于若查找不到与所述数据结构相匹配的数据采集模板。
创建单元75,用于根据所述数据结构,建立与所述数据结构相匹配的数据采集模板。
创建单元75,还用于根据所述数据结构的字段信息,在预设的框架中配置各字段的位置信息,得到与所述数据结构相匹配的数据采集模板。
应理解的是,数据采集模板包括:含有标题字段、头图类型字段、头图标记字段、列表数据类型的列表区域,含有新闻内容字段、数据结构类型字段、来源字段的详情区域,含有评论数据类型字段、评论人字段、评论内容字段的评论区域。
应理解的是,数据结构的类型包括Json格式、Xml格式和Html格式。
通过本实施例提供的基于新闻客户端的数据采集装置,能够对不同的新闻客户端进行数据的通用性的采集,同时对新闻客户端的不同频道进行新闻数据的通用采集,避免了对某个新闻客户端的单独采集,同时提高了采集的效率。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或者部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
以上所述,仅为本发明的具体实施方式,但是,本发明的保护范围不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替代,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种基于新闻客户端的数据采集方法,其特征在于,包括:
在用户访问移动终端上的新闻客户端时,获取当前新闻客户端的新闻链接地址;
根据所述新闻链接地址,确定所述新闻客户端中当前频道的页面的数据结构;
根据所述数据结构,查找与所述数据结构相匹配的数据采集模板;
采用所述数据采集模板,对所述当前新闻客户端显示频道中的新闻数据进行采集,将所述采集到的新闻数据存储到数据库中。
2.根据权利要求1所述的基于新闻客户端的数据采集方法,其特征在于,所述获取当前新闻客户端的新闻链接地址,包括:
获取所述新闻客户端发送给互联网服务器的请求,所述请求中携带所述新闻链接地址;
根据所述请求,确定所述新闻链接地址。
3.根据权利要求1所述的基于新闻客户端的数据采集方法,其特征在于,所述在对所述当前新闻客户端显示频道中的新闻数据进行采集的步骤之前,所述方法还包括:
若查找不到与所述数据结构相匹配的数据采集模板;
根据所述数据结构,建立与所述数据结构相匹配的数据采集模板。
4.根据权利要求3所述的基于新闻客户端的数据采集方法,其特征在于,所述根据所述数据结构,建立与所述数据结构相匹配的数据采集模板,包括:
根据所述数据结构的字段信息,在预设的框架中配置各字段的位置信息,得到与所述数据结构相匹配的数据采集模板;
其中,所述数据采集模板包括:含有标题字段、头图类型字段、头图标记字段、列表数据类型的列表区域;
含有新闻内容字段、数据结构类型字段、来源字段的详情区域;
含有评论数据类型字段、评论人字段、评论内容字段的评论区域。
5.根据权利要求1或4任一所述的基于新闻客户端的数据采集方法,其特征在于,所述数据结构的类型包括Json格式、Xml格式和Html格式。
6.一种基于新闻客户端的数据采集装置,其特征在于,包括:
获取单元,用于在用户访问移动终端上的新闻客户端时,获取当前新闻客户端的新闻链接地址;
确定单元,用于根据所述新闻链接地址,确定所述新闻客户端中当前频道的页面的数据结构;
查找单元,用于根据所述数据结构,查找与所述数据结构相匹配的数据采集模板;
采集单元,用于采用所述数据采集模板,对所述当前新闻客户端显示频道中的新闻数据进行采集,将所述采集到的新闻数据存储到数据库中。
7.根据权利要求6所述的基于新闻客户端的数据采集装置,其特征在于,所述获取单元,还用于获取所述新闻客户端发送给互联网服务器的请求,所述请求中携带所述新闻链接地址;
所述获取单元,还用于根据所述请求,确定所述新闻链接地址。
8.根据权利要求6所述的基于新闻客户端的数据采集装置,其特征在于,在所述查找单元与所述采集单元之间,所述装置还包括创建单元;
所述创建单元,用于若查找不到与所述数据结构相匹配的数据采集模板;
所述创建单元,用于根据所述数据结构,建立与所述数据结构相匹配的数据采集模板。
9.根据权利要求8所述的基于新闻客户端的数据采集装置,其特征在于,所述创建单元,还用于根据所述数据结构的字段信息,在预设的框架中配置各字段的位置信息,得到与所述数据结构相匹配的数据采集模板;
其中,所述数据采集模板包括:含有标题字段、头图类型字段、头图标记字段、列表数据类型的列表区域;
含有新闻内容字段、数据结构类型字段、来源字段的详情区域;
含有评论数据类型字段、评论人字段、评论内容字段的评论区域。
10.根据权利要求6或9任一所述的基于新闻客户端的数据采集装置,其特征在于,所述数据结构的类型包括Json格式、Xml格式和Html格式。
CN201510097088.8A 2015-03-04 2015-03-04 基于新闻客户端的数据采集方法及装置 Expired - Fee Related CN105989167B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510097088.8A CN105989167B (zh) 2015-03-04 2015-03-04 基于新闻客户端的数据采集方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510097088.8A CN105989167B (zh) 2015-03-04 2015-03-04 基于新闻客户端的数据采集方法及装置

Publications (2)

Publication Number Publication Date
CN105989167A true CN105989167A (zh) 2016-10-05
CN105989167B CN105989167B (zh) 2019-11-08

Family

ID=57039180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510097088.8A Expired - Fee Related CN105989167B (zh) 2015-03-04 2015-03-04 基于新闻客户端的数据采集方法及装置

Country Status (1)

Country Link
CN (1) CN105989167B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273494A (zh) * 2017-06-15 2017-10-20 浪潮软件集团有限公司 一种数据采集方法和装置
CN107992567A (zh) * 2017-11-29 2018-05-04 北京天健通泰科技有限公司 数据采集方法及数据采集系统
CN110334259A (zh) * 2019-04-22 2019-10-15 新分享科技服务(深圳)有限公司 网页数据采集方法、装置及计算机可读存储介质
CN112541107A (zh) * 2020-12-25 2021-03-23 天津浪淘科技股份有限公司 一种页面数据的学习和自动采集方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446983A (zh) * 2009-01-12 2009-06-03 腾讯科技(深圳)有限公司 一种实现移动终端获取网页的方法、系统和设备
CN101561802A (zh) * 2008-04-18 2009-10-21 上海复旦光华信息科技股份有限公司 网页结构化数据提取方法与系统
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
CN103581123A (zh) * 2012-07-20 2014-02-12 中兴通讯股份有限公司 网络数据的处理方法及装置、网络数据的发布方法及系统
CN103678511A (zh) * 2013-11-25 2014-03-26 北京奇虎科技有限公司 根据可视化模板进行网页内容抽取的方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101561802A (zh) * 2008-04-18 2009-10-21 上海复旦光华信息科技股份有限公司 网页结构化数据提取方法与系统
CN101446983A (zh) * 2009-01-12 2009-06-03 腾讯科技(深圳)有限公司 一种实现移动终端获取网页的方法、系统和设备
CN103581123A (zh) * 2012-07-20 2014-02-12 中兴通讯股份有限公司 网络数据的处理方法及装置、网络数据的发布方法及系统
CN102831234A (zh) * 2012-08-31 2012-12-19 北京邮电大学 基于新闻内容和主题特征的个性化新闻推荐装置和方法
CN103678511A (zh) * 2013-11-25 2014-03-26 北京奇虎科技有限公司 根据可视化模板进行网页内容抽取的方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273494A (zh) * 2017-06-15 2017-10-20 浪潮软件集团有限公司 一种数据采集方法和装置
CN107992567A (zh) * 2017-11-29 2018-05-04 北京天健通泰科技有限公司 数据采集方法及数据采集系统
CN110334259A (zh) * 2019-04-22 2019-10-15 新分享科技服务(深圳)有限公司 网页数据采集方法、装置及计算机可读存储介质
CN112541107A (zh) * 2020-12-25 2021-03-23 天津浪淘科技股份有限公司 一种页面数据的学习和自动采集方法

Also Published As

Publication number Publication date
CN105989167B (zh) 2019-11-08

Similar Documents

Publication Publication Date Title
CN109543086B (zh) 一种面向多数据源的网络数据采集与展示方法
US9697261B2 (en) Application representation for application editions
Abel et al. Cross-system user modeling and personalization on the social web
US8555157B1 (en) Document update generation
JP5160556B2 (ja) 分散型コンピュータネットワークに基づくログファイル分析方法およびシステム
US7499965B1 (en) Software agent for locating and analyzing virtual communities on the world wide web
CN102456054B (zh) 一种搜索方法及系统
US20120066380A1 (en) Update notification method and system
CN101382954B (zh) 提供网址收藏名称的方法及系统
JP2013531289A (ja) 検索におけるモデル情報群の使用
TW201250492A (en) Method and system of extracting web page information
US20140280133A1 (en) Structured Data to Aggregate Analytics
US10095789B2 (en) Method and system of searching composite web page elements and annotations presented by an annotating proxy server
US20110238653A1 (en) Parsing and indexing dynamic reports
US7949646B1 (en) Method and apparatus for building sales tools by mining data from websites
CN105989167A (zh) 基于新闻客户端的数据采集方法及装置
CN104391978A (zh) 用于浏览器的网页收藏处理方法及装置
Reddy et al. Preprocessing the web server logs: an illustrative approach for effective usage mining
KR20060096356A (ko) 페이지 묶음을 이용한 정보 검색 서비스 제공 서버, 방법및 시스템
CN106959995A (zh) 兼容双向自动化网页内容采集方法
CN108280102A (zh) 上网行为记录方法、装置及用户终端
CN104216901B (zh) 信息搜索的方法和系统
CN103634160B (zh) 基于web的通用互联网产品数据对比测试的方法及装置
Liu et al. Federated searching interface techniques for heterogeneous OAI repositories
US8315998B1 (en) Methods and apparatus for focusing search results on the semantic web

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220621

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

Address before: 100871, fangzheng building, 298 Fu Cheng Road, Beijing, Haidian District

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: BEIJING FOUNDER ELECTRONICS Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20191108

CF01 Termination of patent right due to non-payment of annual fee