CN102118400B - 数据采集方法和数据采集系统 - Google Patents

数据采集方法和数据采集系统 Download PDF

Info

Publication number
CN102118400B
CN102118400B CN 200910206791 CN200910206791A CN102118400B CN 102118400 B CN102118400 B CN 102118400B CN 200910206791 CN200910206791 CN 200910206791 CN 200910206791 A CN200910206791 A CN 200910206791A CN 102118400 B CN102118400 B CN 102118400B
Authority
CN
China
Prior art keywords
url
data
collected
website
downloaded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 200910206791
Other languages
English (en)
Other versions
CN102118400A (zh
Inventor
罗丽俊
陈文斌
汪洋
程鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xi'an NavInfo Information Technology Co. Ltd.
Original Assignee
Navinfo Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Navinfo Co Ltd filed Critical Navinfo Co Ltd
Priority to CN 200910206791 priority Critical patent/CN102118400B/zh
Publication of CN102118400A publication Critical patent/CN102118400A/zh
Application granted granted Critical
Publication of CN102118400B publication Critical patent/CN102118400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种数据采集方法和数据采集系统,所述数据采集方法包括以下步骤:根据URL分配策略和待采集站点URL信息,生成待下载URL集合;根据所述待下载URL集合,下载URL源码;对所述URL源码进行分析,得到用户所需数据。本发明能够自动从互联网上采集用户所需数据。

Description

数据采集方法和数据采集系统
技术领域
本发明涉及互联网技术领域,尤其涉及一种数据采集方法和数据采集系统。
背景技术
在现阶段的电子地图的地理信息数据的生产过程中,均是通过人工的方式进行地理信息数据的采集。在需要采集的地理信息数据规模较大时,通过人工方式采集的效率较低。另外,目前地理信息数据的更新速度也急剧加快,通过人工方式也无法做到地理信息数据的及时更新,难以满足大规模地理信息数据生产的需求。
发明内容
有鉴于此,本发明提供一种数据采集方法和数据采集系统,能够自动从互联网上采集用户所需数据。
为解决上述问题,本发明提供一种数据采集方法,包括以下步骤:
根据URL分配策略和待采集站点URL信息,生成待下载URL集合;
根据所述待下载URL集合,下载URL源码;
对所述URL源码进行分析,得到用户所需数据。
所述URL分配策略为:
预设待采集站点的URL在所述待下载URL集合中所占的条数;和/或
预设URL级别的URL在所述待下载URL集合中所占的条数。
所述对所述URL源码进行分析,得到用户所需数据,具体包括:
抽取所述URL源码中的情报数据;
从所述情报数据中,获取满足预设过滤规则的第一数据;
采用机器学习算法,将所述第一数据与语料库中的预设语料文件进行匹配,获取所述第一数据的信息价值;
将信息价值超过第一预设阈值的第一数据作为所述用户所需数据。
所述得到用户所需数据,之后还包括:
从所述用户所需数据中提取属于特定时间范围,且信息价值超过第二预设阈值的第二数据,所述第二预设阈值大于所述第一预设阈值;
将所述第二数据作为新的语料文件,更新所述语料库。
所述得到用户所需数据,之后还包括:
获取所述用户所需数据对应的URL,作为有效URL;
统计所述待采集站点中包含的有效URL的条数;
根据所述待采集站点中包含的有效URL的条数,更新所述待采集站点的URL在所述待下载URL集合中所占的条数。
所述根据所述待下载URL集合,下载URL源码,之后还包括:
从所述URL源码中,获取满足预设条件的URL,所述预设条件为:所述URL不属于特定类型,且为所述待采集站点的URL,且不属于所述待采集站点的站内URL黑名单;
根据所述满足预设条件的URL,更新所述待采集站点URL信息。
所述从所述URL源码中,获取满足预设条件的URL,之后还包括:
将所述满足预设条件的URL存储于内存映射文件中,且采用双层哈希表记录所述满足预设条件的URL的存储位置。
所述用户所需数据为地理信息数据。
本发明还提供一种数据采集系统,包括:
生成模块,用于根据URL分配策略和待采集站点URL信息,生成待下载在URL集合;
下载模块,用于根据所述待下载在URL集合,下载URL源码;
分析模块,用于对所述URL源码进行分析,得到用户所需数据。
所述生成模块、所述下载模块和所述分析模块设置于一台或多台计算机上。
本发明具有以下有益效果:
系统的自动化程度高。能够自动从互联网上获取用户所需数据,有效提高了数据采集速度,从而能够快速增加数据采集总量,满足大规模数据生产的需求,相对人工方式采集数据来说,既极大地提高了数据生产效率,又节省了人力成本;
系统学习能力强。通过对得到的用户所需数据进行分析,能够自动调整URL分配策略和语料库,从而能够满足数据更新速度急剧加快的需求。
系统并发性高。系统各模块之间互相对立,能够分布式部署,从而提高了系统的并发能力。
系统处理能力高。采用内存映射机制,能够支持大批量的URL分析处理,同时采用自动修复映射文件机制,能够有效避免服务器突然中断带来的损失。
附图说明
图1为本发明实施例的数据采集方法的一流程示意图;
图2为本发明实施例的数据采集方法的另一流程示意图;
图3为本发明实施例的数据采集系统的一结构示意图;
图4为本发明实施例的数据采集系统的另一结构示意图;
图5为本发明实施例的URL下载模块的示意图;
图6为本发明实施例的信息价值分析模块的示意图;
图7为本发明实施例的URL分析模块的示意图;
图8为本发明实施例的日志分析模块的示意图;
图9为本发明实施例的URL分配策略模块的示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
如图1所示为本发明实施例的数据采集方法的一流程示意图,所述数据采集方法包括以下步骤:
步骤101,根据URL(Uniform/Universal Resource Locator,统一资源定位符)分配策略和待采集站点URL信息,生成待下载URL集合。
所谓URL也称成网页地址,是因特网(Internet)上标准的资源地址(Address)。所述URL分配策略可以为包括:预设待采集站点的URL在所述待下载URL集合中所占的条数。预设待采集站点的URL在所述待下载URL集合中所占的条数,也称为预设待采集站点的下载权重,例如,URL分配策略可以设置为:待采集站点A的下载权重为30%,即每100条待下载URL集合中属于待采集站点A的URL占30条。所述URL分配策略还可以为包括:预设URL级别的URL在所述待下载URL集合中所占的条数。本发明实施例中,可以将URL划分为四个级别,其中,级别1:通常需要快速下载,例如,下载期限为2天(即需要在2天内下载完成),级别2:一般为列表页,其下载期限略长于级别1的下载期限,例如,下载期限为5天,级别3:一般为详细页,其下载期限略长于级别2的下载期限,例如,下载期限为一周,级别4:其下载期限最长,例如,下载期限为一个月。此时,URL分配策略可以设置为:级别1的URL的下载权重为50%,即每100条待下载URL集合中级别1的URL占50条。
所述待采集站点URL信息包括:待采集站点的URL和待采集站点的站内URL黑名单(即不需要访问的站内URL)。所述待采集站点的URL可以为待采集站点的首页URL(也称为站点种子),也可以为待采集站点的子页面URL。
在系统初始化时,通常设定URL分配策略为空,且将所述待采集站点的首页URL作为最初的待下载URL,生成待下载URL集合。另外,为了获取大量的用户所需数据,在系统初始化时,待采集站点的个数通常设置的较多,例如为1000个。
步骤102,根据所述待下载URL集合,下载URL源码;
所述待下载URL集合可以存储于一“URL下载队列”中,并按照先进先出的顺序从所述“URL下载队列”中获取待下载URL,根据所述待下载URL下载URL源码。
具体的,系统通过域名服务器解析所述待下载URL,将所述待下载URL转换成待IP地址,从而根据IP地址,下载URL源码。
步骤103,对所述URL源码进行分析,得到用户所需数据。
所述用户所需数据可以为地理信息数据、图书数据、产品数据等。
通过上述实施例提供的数据采集方法,能够自动从互联网上获取用户所需数据,有效提高了数据采集速度,从而能够快速增加数据采集总量,满足大规模数据生产的需求,相对人工方式采集数据来说,既极大地提高了数据生产效率,又节省了人力成本。
下面对URL源码的分析过程进行详细描述。
如图2所示为本发明实施例的数据采集方法的另一流程示意图,所述数据采集方法包括以下步骤:
步骤201,根据URL分配策略和待采集站点URL信息,获取待下载URL集合;
步骤202,根据所述待下载URL集合,下载URL源码;
步骤203,抽取所述URL源码中的情报数据;
所述情报数据可以包括:当前页面的URL、页面标题、页面内容、页面创建时间、所属站内URL目录等。
步骤204,从所述情报数据中,获取满足预设过滤规则的第一数据;
所述预设过滤规则可以为时间过滤规则,例如,如果只需获取某一时间段内待采集站点的更新数据,则可以通过时间过滤规则以及情报数据中的页面创建时间,仅获取某一时间段内创建的情报数据。
步骤205,采用机器学习算法,将所述第一数据与语料库中的预设语料文件进行匹配,获取所述第一数据的信息价值;
所述语料库中记载有与用户所需数据相关的多个语料文件,所述语料文件中记载有用户所需数据的数据格式、字符编码或文本描述等信息。假设用户所需数据为交通类数据,则所述语料库中则存储有多个交通类数据相关的语料文件,所述语料文件中记载有交通类数据的特定规则。可以通过机器学习算法,将所述第一数据与语料库中的预设语料文件进行匹配,判断所述第一数据与所述预设语料文件的匹配度,从而得到所述第一数据的信息价值。
步骤206,将信息价值超过第一预设阈值的第一数据作为所述用户所需数据。
所述信息价值可以设定为0至100分,例如,通过与预设语料文件匹配,得到所述第一数据的信息价值为70分。假设所述第一预设阈值为80分,则所述第一数据则不是用户所需数据。
步骤207,从所述用户所需数据中提取属于特定时间范围,且信息价值超过第二预设阈值的第二数据,所述第二预设阈值大于所述第一预设阈值;
为了使得语料库中的语料文件的信息价值较高,因此,设定的第二预设阈值要远大于第一预设阈值,例如,所述第一预设阈值可以设定为80分,所述第二预设阈值可以设定为95分。
步骤208,将所述第二数据作为新的语料文件,更新所述语料库。
另外,还可以对得到的用户所需数据进行分析,自动调整URL分配策略,从而能够满足数据更新速度急剧加快的需求。此时,上述方法还包括:
步骤209,获取所述用户所需数据对应的URL,作为有效URL;
步骤210,统计所述待采集站点中包含的有效URL的条数;
步骤211,根据所述待采集站点中包含的有效URL的条数,更新所述待采集站点的URL在所述待下载URL中所占的条数(即所述待采集站点的下载权重)。
另外,还可以统计待采集站点与数据类别的比重,调整数据类别在待采集站点中的阀值。
以及,统计预设URL目录中包含的有效URL的条数,将不包含有效URL或者包含很少个有效URL的URL目录列入URL黑名单。
上述实施例中,在抽取所述URL源码中的情报数据时,还可以从所述URL源码中抽取出URL,从而更新所述待采集站点URL信息。因此,上述方法还包括:
步骤212,从所述URL源码中,抽取URL;
步骤213,从所述抽取的URL中,获取满足预设条件的URL,所述预设条件为:所述URL不属于特定类型(例如:图片类型(URL的后缀为*.jpg等)、特定文档类型(URL后缀为*.ppt等)),且属于所述待采集站点(本发明实施例中也将待采集站点称为白名单)的URL,且不属于所述待采集站点的站内URL黑名单。
步骤214,根据所述满足预设条件的URL,更新所述待采集站点URL信息。
另外,为了防止随着URL的增加而使得系统负担增大,可以将满足预设条件的URL存储于内存映射文件中,通过内存映射机制,在单个服务器(4G内存)能够支持一亿个URL的分析处理。另外,为了方便查找,可以采用双层哈希表(hash)记录所述满足预设条件的URL的存储位置。采用双层哈希表可以确定URL的唯一存储位置,其中,第一层hash为固定值(例如1~500),可用于分布式扩展,第二层可自动扩展(即大小不限)。另外,由于内存映射文件时时变动,为了防止由于服务器突然中断而带来的影响,需对具有一定机制对内存映射文件进行还原。例如,可以每隔一定时间将内存映射文件保存一次,然而由于内存映射文件通常较大(1千万URL的信息大概有2G大小),因此,每次使用拷贝将占用了大量的时间与空间。本发明实施例中,可以仅保存内存hash的信息(最多为500M)为hash文件,通过hash文件,可快速还原内存映射文件,通常情况下,在3分钟之内可还原1千万的URL信息。
对应于上述数据采集方法,本发明实施例还提供一种数据采集系统,如图3所示,所述数据采集系统包括:
生成模块301,用于根据URL分配策略和待采集站点URL信息,生成待下载URL集合;
下载模块302,用于根据所述下下载URL集合,下载URL源码;
分析模块303,用于对所述URL源码进行分析,得到用户所需数据。
所述生成模块301、所述下载模块302和所述分析模块304可以设置于一台计算机上,当然,为了提高系统的并发能力,所述生成模块301、所述下载模块302和所述分析模块304还可以设置于多台计算机上。
下面举例对上述实施例的数据采集系统进行详细说明。
如图4所示为本发明实施例的数据采集系统的另一结构示意图,所述数据采集系统包括:WEB管理系统模块、URL下载模块、信息抽取模块、信息价值分析模块、URL分析模块、日志分析模块和URL分配策略模块,上述各模块可以分布在一台或多台计算机上,由于每台计算机的处理能力有限,通常将上述模块设置于多台计算机上,各模块通过指定类型的信息包与管道进行通信。管道是一种通信机制,由计算机的操作系统提供。信息包可以采用轮寻的方式或广播的方式在管道中传送,每个模块只处理(接收和或删除)属于该模块的指定规定类型的信息包,处理后按约定的方式向管道中发送新的信息包。
各模块的如下所示:
1、WEB管理系统模块:
WEB管理系统模块在系统初始化时使用,用于输入待采集站点URL信息(例如,待采集站点的首页URL、待采集站点的站内URL黑名单等),得到待下载URL集合,并根据所述待下载URL集合,生成“URL下载包”发送给管道。
所述待下载URL集合中包括多个URL,例如1000个,根据所述待下载URL集合生成的“URL下载包”可以为多个,每一“URL下载包”中可以包括若干个待下载URL,例如10个。
由于是数据采集的初始化阶段,因此该步骤中URL分配策略设置为空。
2、URL下载模块:
所述URL下载模块主要用于下载URL,其主要包括以下步骤:
1)在管道中获取“URL下载包”,把待下载URL存到URL下载对列中;所述URL下载队列的容量有限,例如长度为100,即仅能存储100个待下载URL。当URL下载对列中的URL小于某固定值(例如90)时,所述URL下载模块可以主动向管道发送“请求URL包”,以请求新的待下载URL。
2)从URL下载对列中获取待下载URL,把待下载URL发送给客户端。
如图5所示为本发明实施例的URL下载模块的示意图,所述URL下载队列可以位于一服务器上,而具体的URL下载任务可以由一个或多个客户端执行,服务器与客户端之间可以通过socket(套接字)通信,在待下载URL数据较大时,通常采用多个客户端同时执行下载任务。
3)获取客户端下载的URL源码,并生成“URL源码包”向管道发送。
3、信息抽取模块:
1)在管道中获取“URL源码包”,对所述“URL源码包”进行分析,从URL源码中抽取出URL列表,生成“URL列表包”,所述“URL列表包”用于待采集站点URL信息的更新;
2)从URL源码中抽取出情报信息,生成“信息分析包”;
3)向管道发送所述“URL列表包”和“信息分析包”。
4、信息价值分析模块:
所述信息价值分析模块主要用于获取用户所需数据,其可以包括以下步骤:
1)在管道中获取“信息分析包”,根据时间过滤规则以及语料库,对所述
“信息分析包”中的情报信息进行分析,得到用户所需数据。如6图所示为本发明实施例的信息价值分析模块的示意图。
2)将分析得到的用户所需数据的相关信息(信息价值、所属类别等)以及情报信息整合在一起,生成“日志分析包”,并向管道发送。
5、URL分析模块:
如7图所示为本发明实施例的URL分析模块的示意图,所述URL分析模块的工作流程主要包括以下步骤:
1)在管道中获取“URL列表包”,获取满足预设条件的URL,所述满足预设条件的URL为不属于特定类型的URL,且属于待采集站点的URL,且不属于站内URL黑名单;
2)URL排重:
判断内存映射文件中是否存在重复的URL,如果存在重复的URL,则判断URL的更新时间是否发生变化,如果URL的更新时间发生变化,则修改内存映射文件中存储的该URL的相关信息,例如:修改URL更新时间、URL下载时间(可以将下载时间置为空);如果URL的更新时间未发生变化,则结束;
如果不存在重复的URL,则对URL的级别进行计算,得到URL的级别信息,并将URL信息插入内存映射文件。
6、日志分析模块:
在管道中获取“日志分析包”,将所述“日志分析包”中的数据存入数据库中的两个表格中,其中第一个表格主要包含的字段为:URL、信息价值、类别ID、标题、内容、记录插入时间(即数据插入数据库的时间)等,第二个表格主要包含的字段为:URL、信息价值、类别ID(用户所需数据所属的类别的编号)、站点ID(用户所需数据对应的待采集站点的编号)、站内目录ID(用户所需数据对应的待采集站点的站内URL目录的编号)、记录插入时间等。
如图8所示为本发明实施例的日志分析模块的示意图,所述日志分析模块的工作流程主要包括以下步骤:
1)定期对第一个表格进行分析,提取特定时间范围内的数据,把信息价值度高的信息,推送给对应类别的语料文件,更新语料库,推送方式由机器自动推到和人工审核两种方式。
2)定期对第二个表格进行分析,提取特定时间范围内的数据(将用户所需数据对应的URL称为有效URL);
A:统计待采集站点中有效URL所占的比重,对于比重高的待采集站点,赋予更高的下载权重;
B:统计待采集站点的站内URL目录中有效URL所占的比重,把比重低的站内URL目录,列入站内URL黑名单;此时,为了提高准确度,还可以由人工来审核系统推送的URL是否需要列入URL黑名单;
C:统计待采集站点与数据类别的比重,调整数据类别在待采集站点中的阀值。
根据上述分析结果,对URL分配策略进行更新。
7、URL分配策略模块:
如图9所示为本发明实施例的URL分配策略模块的示意图。
1)当“URL调度队列”中的URL的个数小于一定值时,例如小于100时,扫描URL分析模块产生的映射文件,以及日志分析模块产生的URL分配策略,生成“URL调度队列”;所述“URL调度队列”用于存储通过URL分配策略从所述内存映射文件中获取的待下载URL集合。
或者,所述“URL调度队列”也可以定时(例如每天零点)扫描URL分析模块产生的映射文件,以及日志分析模块产生的URL分配策略,生成“URL调度队列”;
2)在管道中获取“请求URL包”,从“URL调度对列”中,向管道发送“URL下载包”。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (9)

1.一种数据采集方法,其特征在于,包括以下步骤:
根据统一资源定位符URL分配策略和待采集站点URL信息,生成待下载URL集合;所述URL分配策略包括:预设待采集站点的URL在所述待下载URL集合中所占的条数或者预设URL级别的URL在所述待下载URL集合中所占的条数;
根据所述待下载URL集合,下载URL源码;
对所述URL源码进行分析,得到用户所需数据。
2.根据权利要求1所述的数据采集方法,其特征在于,所述对所述URL源码进行分析,得到用户所需数据,具体包括:
抽取所述URL源码中的情报数据;
从所述情报数据中,获取满足预设过滤规则的第一数据;
采用机器学习算法,将所述第一数据与语料库中的预设语料文件进行匹配,获取所述第一数据的信息价值;
将信息价值超过第一预设阈值的第一数据作为所述用户所需数据。
3.根据权利要求2所述的数据采集方法,其特征在于,所述得到用户所需数据,之后还包括:
从所述用户所需数据中提取属于特定时间范围,且信息价值超过第二预设阈值的第二数据,所述第二预设阈值大于所述第一预设阈值;
将所述第二数据作为新的语料文件,更新所述语料库。
4.根据权利要求2所述的数据采集方法,其特征在于,所述得到用户所需数据,之后还包括:
获取所述用户所需数据对应的URL,作为有效URL;
统计所述待采集站点中包含的有效URL的条数;
根据所述待采集站点中包含的有效URL的条数,更新所述待采集站点的URL在所述待下载URL集合中所占的条数。
5.根据权利要求1所述的数据采集方法,其特征在于,所述根据所述待下载URL集合,下载URL源码,之后还包括:
从所述URL源码中,获取满足预设条件的URL,所述预设条件为:所述URL不属于特定类型,且为所述待采集站点的URL,且不属于所述待采集站点的站内URL黑名单;
根据所述满足预设条件的URL,更新所述待采集站点URL信息。
6.根据权利要求5所述的数据采集方法,其特征在于,所述从所述URL源码中,获取满足预设条件的URL,之后还包括:
将所述满足预设条件的URL存储于内存映射文件中,且采用双层哈希表记录所述满足预设条件的URL的存储位置。
7.根据权利要求1至6任一项所述的数据采集方法,其特征在于,所述用户所需数据为地理信息数据。
8.一种数据采集系统,其特征在于,包括:
生成模块,用于根据URL分配策略和待采集站点URL信息,生成待下载URL集合;所述URL分配策略包括:预设待采集站点的URL在所述待下载URL集合中所占的条数或者预设URL级别的URL在所述待下载URL集合中所占的条数;
下载模块,用于根据所述待下载URL集合,下载URL源码;
分析模块,用于对所述URL源码进行分析,得到用户所需数据。
9.根据权利要求8所述的数据采集系统,其特征在于,所述生成模块、所述下载模块和所述分析模块设置于一台或多台计算机上。
CN 200910206791 2009-12-31 2009-12-31 数据采集方法和数据采集系统 Active CN102118400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200910206791 CN102118400B (zh) 2009-12-31 2009-12-31 数据采集方法和数据采集系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200910206791 CN102118400B (zh) 2009-12-31 2009-12-31 数据采集方法和数据采集系统

Publications (2)

Publication Number Publication Date
CN102118400A CN102118400A (zh) 2011-07-06
CN102118400B true CN102118400B (zh) 2013-07-17

Family

ID=44216989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200910206791 Active CN102118400B (zh) 2009-12-31 2009-12-31 数据采集方法和数据采集系统

Country Status (1)

Country Link
CN (1) CN102118400B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103164435B (zh) 2011-12-13 2016-03-09 北大方正集团有限公司 一种网络数据的采集方法和系统
CN103327056B (zh) * 2012-03-23 2016-04-27 上海申通地铁集团有限公司 用于轨道交通的在线检测系统及其检测方法
CN104715016B (zh) * 2015-02-04 2018-02-16 北京中搜搜悦网络技术有限公司 一种搜悦采集方法
CN105207852A (zh) * 2015-10-09 2015-12-30 西安未来国际信息股份有限公司 一种基于分布式网络数据定向采集的方法
CN107273409B (zh) * 2017-05-03 2020-12-15 广州赫炎大数据科技有限公司 一种网络数据采集、存储及处理方法及系统
CN107368598A (zh) * 2017-07-26 2017-11-21 北京锐安科技有限公司 用户数据的采集方法及装置
CN111460337B (zh) * 2020-03-23 2023-04-11 武汉思普崚技术有限公司 一种url识别率的分析方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及系统
CN101441629A (zh) * 2007-11-19 2009-05-27 上海新纳广告传媒有限公司 一种非结构化网页信息的自动采集方法
CN101520798A (zh) * 2009-03-06 2009-09-02 苏州锐创通信有限责任公司 基于垂直搜索和聚焦爬虫的网页分类技术
EP2107480A1 (en) * 2008-03-31 2009-10-07 Ricoh Company, Ltd. Document annotation sharing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及系统
CN101441629A (zh) * 2007-11-19 2009-05-27 上海新纳广告传媒有限公司 一种非结构化网页信息的自动采集方法
EP2107480A1 (en) * 2008-03-31 2009-10-07 Ricoh Company, Ltd. Document annotation sharing
CN101520798A (zh) * 2009-03-06 2009-09-02 苏州锐创通信有限责任公司 基于垂直搜索和聚焦爬虫的网页分类技术

Also Published As

Publication number Publication date
CN102118400A (zh) 2011-07-06

Similar Documents

Publication Publication Date Title
CN102118400B (zh) 数据采集方法和数据采集系统
CN1294512C (zh) 在服务器上预先高速缓存数据的方法和设备
CN102663062B (zh) 一种处理搜索结果中无效链接的方法及装置
CN102662703B (zh) 一种应用程序插件加载方法及装置
CN102164186B (zh) 一种实现云搜索服务的方法及系统
CN102651021B (zh) 一种图标内容更新方法及更新装置
CN1941786A (zh) 通过博客发布内容的方法和设备
CN101364979A (zh) 下载资料解析及处理系统及方法
CN102710795A (zh) 热点聚合方法及装置
CN102521232B (zh) 一种互联网元数据的分布式采集处理系统及方法
CN1555533A (zh) 用于在网络中传送动态信息的方法和系统
CN101046806B (zh) 搜索引擎系统和方法
CN1949715A (zh) 一种限制浏览器访问网络地址的方法
CN102930017A (zh) 一种用于在移动终端上提供搜索结果的方法和设备
CN102831114A (zh) 实现互联网用户访问情况统计分析的方法及装置
CN102811207A (zh) 网络信息推送方法及系统
CN108154376B (zh) 数据处理方法及装置
CN101158981A (zh) 一种对下载资源进行分类的方法、系统和装置
JP5537428B2 (ja) ワイヤレス通信ネットワークを通じた検索インデックス断片の標的設定した配信
CN103123640A (zh) 一种小说的搜索方法和装置
CN102882988A (zh) 一种获得资源信息的地址信息的方法、装置及设备
CN103955517B (zh) 将文档型数据库的数据转换至关系型数据库的方法及系统
CN101751443A (zh) 数据检索与处理系统及方法
CN105975599B (zh) 一种监测网站的页面埋点的方法和装置
CN110955855A (zh) 一种信息拦截的方法、装置及终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20110706

Assignee: Xi'an NavInfo Information Technology Co. Ltd.

Assignor: Beijing NavInfo Co., Ltd.

Contract record no.: 2015990000722

Denomination of invention: Data acquisition method and data acquisition system of distributed file system

Granted publication date: 20130717

License type: Exclusive License

Record date: 20150813

LICC Enforcement, change and cancellation of record of contracts on the licence for exploitation of a patent or utility model
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160407

Address after: 710100, Xi'an, Shaanxi Aerospace base, No. two, Industrial Road 55 (three days of the office building of Tian Hui group company)

Patentee after: Xi'an NavInfo Information Technology Co. Ltd.

Address before: 100028 Beijing City, Chaoyang District Shuguang Sirirath A Phoenix Plaza No. 5 Building 16 storey office building

Patentee before: Beijing NavInfo Co., Ltd.