CN108829759A - 一种数据采集方法、装置、电子设备及存储介质 - Google Patents
一种数据采集方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN108829759A CN108829759A CN201810521162.8A CN201810521162A CN108829759A CN 108829759 A CN108829759 A CN 108829759A CN 201810521162 A CN201810521162 A CN 201810521162A CN 108829759 A CN108829759 A CN 108829759A
- Authority
- CN
- China
- Prior art keywords
- target
- acquisition
- network address
- acquisition source
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例提供了一种数据采集方法、装置、电子设备及存储介质。所述方法包括:获得目标采集源的网络地址;利用所述网络地址,确定所述目标采集源的目标类别;从预设的关于采集源的类别和采集项的对应关系中,确定与所述目标类别所对应的目标采集项;将所述网络地址和所述目标采集项发送至网络爬虫程序,以使得所述网络爬虫程序对具有所述网络地址的目标采集源中的所述目标采集项进行数据采集。应用本发明实施例能够实现对采集源进行快速有效的数据采集的目的。
Description
技术领域
本发明涉及数据处理领域,特别是涉及一种数据采集方法、装置、电子设备及存储介质。
背景技术
在数据处理领域中,数据处理工作的基础通常是对数据的采集,例如,首先对网页上的文章、图片进行采集,获得采集到的文章及图片,之后才能对采集到的文章及图片进行合成、裁剪等处理,获得需要的数据内容。
而对于不同类别的采集源而言,所对应的有价值的采集项可能不同。例如:对微信类别而言,即采集源源自微信,采集项可以为微信文章的标题、作者及内容等;而对网站类别而言,即采集源源自一般网站,采集项可以为网站文章的标题、作者、内容、缩略图及音视频标题等。
那么,如何快速有效地实现对采集源的数据采集是一个亟待解决的问题。
发明内容
本发明实施例的目的在于提供一种数据采集方法、装置、电子设备及存储介质,以实现对采集源进行快速有效的数据采集的目的。具体技术方案如下:
第一方面,本发明实施例提供了一种数据采集方法,所述方法包括:
获得目标采集源的网络地址;
利用所述网络地址,确定所述目标采集源的目标类别;
从预设的关于采集源的类别和采集项的对应关系中,确定与所述目标类别所对应的目标采集项;
将所述网络地址和所述目标采集项发送至网络爬虫程序,以使得所述网络爬虫程序对具有所述网络地址的目标采集源中的所述目标采集项进行数据采集。
可选的,所述获得目标采集源的网络地址的步骤,包括:
获得用户输入的目标采集源的地址;或
获得预设存储位置中存储的目标采集源的地址。
可选的,所述利用所述网络地址,确定所述目标采集源的目标类别的步骤,包括:
识别所述网络地址的目标结构特征;
将所述目标结构特征分别与预设的各个样本结构特征组进行匹配;其中,所述样本结构特征组与类别具有唯一对应性;
将与所述目标结构特征相匹配的样本结构特征组对应的类别,作为所述目标采集源的目标类别。
可选的,所述目标结构特征,包括:
所述网络地址中预设级的域名。
可选的,所述目标类别,包括:
网站类别、微信类别或rss类别。
可选的,所述方法还包括:
当所述目标采集源的目标类别确定失败时,将预设的通用采集项作为目标采集项,并执行所述将所述网络地址和所述目标采集项发送至网络爬虫程序的步骤。
第二方面,本发明实施例提供了一种数据采集装置,所述装置包括:
获得模块,用于获得目标采集源的网络地址;
第一确定模块,用于利用所述网络地址,确定所述目标采集源的目标类别;
第二确定模块,用于从预设的关于采集源的类别和采集项的对应关系中,确定与所述目标类别所对应的目标采集项;
发送模块,用于将所述网络地址和所述目标采集项发送至网络爬虫程序,以使得所述网络爬虫程序对具有所述网络地址的目标采集源中的所述目标采集项进行数据采集。
可选的,所述获得模块具体用于:
获得用户输入的目标采集源的地址;或
获得预设存储位置中存储的目标采集源的地址。
可选的,所述第一确定模块,具体用于:
识别所述网络地址的目标结构特征;
将所述目标结构特征分别与预设的各个样本结构特征组进行匹配;其中,所述样本结构特征组与类别具有唯一对应性;
将与所述目标结构特征相匹配的样本结构特征组对应的类别,作为所述目标采集源的目标类别。
可选的,所述目标结构特征,包括:
所述网络地址中预设级的域名。
可选的,所述目标类别,包括:
网站类别、微信类别或rss类别。
可选的,所述方法还包括:
当所述目标采集源的目标类别确定失败时,将预设的通用采集项作为目标采集项,并执行所述将所述网络地址和所述目标采集项发送至网络爬虫程序的步骤。
第三方面,本发明实施例提供了一种电子设备,包括处理器和存储器,其中,
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现本发明实施例所提供的数据采集方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例所提供的数据采集方法的步骤。
本发明实施例所提供的方案中,对不同类别的采集源,预设对应的采集项,根据目标采集源的网络地址,确定所述目标采集源的目标类别,并从预设的关于采集源的类别和采集项的对应关系中,确定与所述目标类别所对应的目标采集项给所述网络爬虫程序,以使得所述网络爬虫程序对具有所述网络地址的目标采集源中的所述目标采集项进行数据采集。因此能够实现对采集源进行快速有效的数据采集的目的。
当然,实施本发明的任一产品或方法必不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例所提供的一种数据采集方法的流程示意图;
图2为本发明实施例所提供的一种数据采集装置的结构示意图;
图3为本发明实施例所提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了对采集源进行快速有效的数据采集,本发明实施例提供了一种数据采集方法、装置、电子设备及存储介质。
需要说明的是,本发明实施例所提供的一种数据采集方法的执行主体可以为一种数据采集装置,本发明实施例所提供的数据采集方法应用于电子设备,具体的,实现本发明实施例所提供的数据采集方法的程序可以为脚本程序,当然并不局限于此。
下面,首先对本发明实施例所提供的一种数据采集方法进行介绍。
如图1所示,本发明实施例所提供的一种数据采集方法,可以包括如下步骤:
S101,获得目标采集源的网络地址。
目标采集源为本发明实施例的采集对象,在本发明实施例中,目标采集源可以为网站上的文章、视频及微信公众号上的文章等等。
本领域技术人员可以理解的是,目标采集源的网络地址为URL
(Uniform Resource Locator,统一资源定位符)地址,每个采集源都有一个唯一的URL地址,用来表示该采集源的位置及访问方式等信息。
可选地,在一种实现方式中,所述获得目标采集源的网络地址可以包括:获得用户输入的目标采集源的地址。具体过程可以为:实现本发明实施例所提供的数据采集方法的程序,可以提供一个输入界面,该程序可以获得用户在输入界面内输入的目标采集源的地址。
可选地,在另一种实现方式中,所述获得目标采集源的网络地址可以包括:获得预设存储位置中存储的目标采集源的地址。具体的,在本发明实施例中,可以预先设置一个预设存储位置,该预设存储位置可以位于本地设备中,也可以位于远程服务器中等等。并且,该预设存储位置用来存储待采集的至少一个目标采集源,实现本发明实施例所提供的数据采集方法的程序,可以从该预设存储位置中获得已存储的目标采集源的地址。可以理解的是,该程序获得目标采集源的地址可以依据一定的规则,比如获得存储时间最近的一个目标采集源,或者获得具有预设标识的一个目标采集源等等,在此,并不对所述规则进行限定。
需要说明的是,在本发明实施例中,获得目标采集源的网络地址的方式并不限于以上所述的方式。
S102,利用所述网络地址,确定所述目标采集源的目标类别。
可以理解的是,采集源的网络地址中含有采集源的位置及访问方式等信息,那么,可以预先通过对各种采集源地址中的信息进行分析,将采集源划分为不同的类别,每一种类别的采集源的地址都具有对应的结构特征。针对目标采集源,通过对目标采集源的地址进行分析,将该目标采集源的地址的结构特征与各个类别的采集源的地址所具有的结构特征进行比较,可以确定目标采集源的目标类别。
可选的,在本发明实施例中,所述利用所述网络地址,确定所述目标采集源的目标类别的步骤,包括:
第一步,识别所述网络地址的目标结构特征;其中,所述目标结构特征包括:所述网络地址中预设级的域名,比如第二级域名等等。
第二步,将所述目标结构特征分别与预设的各个样本结构特征组进行匹配;其中,所述样本结构特征组与类别具有唯一对应性。
第三步,将与所述目标结构特征相匹配的样本结构特征组对应的类别,作为所述目标采集源的目标类别。
以下对上述步骤进行举例说明,比如:在本发明实施例中,根据采集源的来源,可以将采集源分为:网站类别、微信类别和rss类别。其中,网站类别表示采集源来源于一般网站,微信类别表示采集源来源于微信,rss类别表示采集源来源于rss代码。
不同类别的采集源的网络地址具有对应的结构特征,比如微信类别的采集源的网络地址的第二级的域名包含“weixin”这一字符。那么当识别目标采集源的网络地址的第二级域名包含“weixin”这一字符时,则可以确定目标采集源为微信类别。
可以理解的是,网站类别以及rss类别的网络地址都有对应的结构特征,比如某一级的域名含有预定字符等等。
针对于目标采集源,通过上述三个步骤,可以确定目标采集源的目标类别为网站类别、微信类别或rss类别。
可以理解的是,本发明实施例对采集源的分类并不限于网站类别、微信类别和rss类别,还可以有多种分类方法。以下举例说明:
可以理解的是,URL地址的结构通常为:传输协议://服务器地址:端口号/路径。其中,传输协议://为访问该URL地址所使用的传输协议。最常用的是HTTP://,即HTTP协议,除此之外还有:
HTTPS://,表示通过安全的HTTPS访问资源;
fi le://,表示fi le资源是本地计算机上的文件;
FTP://,表示通过FTP访问资源;
MMS://,表示支持流媒体协议等等。
比如,在本发明实施例中,可以根据URL地址中不同的传输协议,将采集源分为多个类别,如HTTP类或FTP类等等,利用各个类别的URL地址所具有的传输协议作为该类别的结构特征,利用上述步骤确定目标采集源的目标类别。
再比如,在本发明实施例中,可以预设多个服务器地址,利用服务器地址将采集源分类,将服务器地址将作为结构特征,利用目标采集源的URL地址中的服务器地址,与多个预设服务器地址进行匹配,从而确定一个匹配的服务器地址作为目标采集源的目标类别。
又比如,在URL地址中,可能含有采集源所在的客户端的名称或采集源的格式对应的字符,在本发明实施例中,可以利用这些字符作为结构特征,确定目标采集源的目标类别。
具体的:针对于音视频类别的采集源的URL地址,所述URL地址中可能含有音视频客户端对应的字符,比如“youku”等字符,在本发明实施例中,可以将该字符作为音视频类别的结构特征,实现对采集源的分类;当然,所述URL地址中也含有音视频格式对应的字符,比如“Wma”、“MP3”等,在本发明实施例中,也可以将这些字符作为音视频类别的结构特征,实现对采集源的分类,当然,本发明实施例可以结合音视频类别的多种结构特征,实现对采集源的分类,这都是合理的。
值得注意的是,在本发明实施例中,利用所述网络地址,确定所述目标采集源的目标类别的方式并不限于上述所述示例。
S103,从预设的关于采集源的类别和采集项的对应关系中,确定与所述目标类别所对应的目标采集项。
结合实际可知,对于不同类别的采集源而言,所对应的有价值的采集项可能不同。因此,在本发明实施例中,针对于各个类别的采集源,预设一些有价值的采集项作为各个类别对应的采集项,比如:针对微信类别,采集项可以为微信文章的标题、作者、图片及内容等;而对网站类别,采集项可以为网站文章的标题、作者、内容、图片及音视频标题等。对于音视频类别,采集项为音视频数据。
基于目标采集源的目标类别,利用本发明实施例预设的、关于采集源的类别和采集项的对应关系,可以确定目标采集源对应的采集项。
S104,将所述网络地址和所述目标采集项发送至网络爬虫程序,以使得所述网络爬虫程序对具有所述网络地址的目标采集源中的所述目标采集项进行数据采集。
由实现本发明实施例所提供的数据采集方法的程序,将所述网络地址和所述目标采集项发送至网络爬虫程序,以使得所述网络爬虫程序对具有所述网络地址的目标采集源中的所述目标采集项进行数据采集。其中,所述网络爬虫程序可以为现有的任意一种用于数据采集的程序或者工具,如采集工具queryl ist等。可以理解的是,该网络爬虫程序可以基于所述网络地址和所述目标采集项,采集到目标采集源的目标采集项对应的数据,通常来说,采集到的数据为源代码。
可以理解的是,所述网络爬虫程序针对各个目标采集源,仅采集对应的采集项,可以快速实现数据采集,且采集到的数据均为具有采集价值的数据,因此采集过程是有效的。
需要强调的是,本发明实施例所提供的数据采集方法还包括:
当所述目标采集源的目标类别确定失败时,将预设的通用采集项作为目标采集项,并执行所述将所述网络地址和所述目标采集项发送至网络爬虫程序的步骤。
其中,所述通用采集项可以包含各种类别的采集源的采集项,采集范围较广。
本发明实施例所提供的方案中,对不同类别的采集源,预设对应的采集项,根据目标采集源的网络地址,确定所述目标采集源的目标类别,并从预设的关于采集源的类别和采集项的对应关系中,确定与所述目标类别所对应的目标采集项给所述网络爬虫程序,以使得所述网络爬虫程序对具有所述网络地址的目标采集源中的所述目标采集项进行数据采集。因此能够实现对采集源进行快速有效的数据采集的目的。
相应于上述方法实施例,本发明实施例还提供了一种数据采集装置,如图2所示,该数据采集装置包括:
获得模块201,用于获得目标采集源的网络地址;
第一确定模块202,用于利用所述网络地址,确定所述目标采集源的目标类别;
第二确定模块203,用于从预设的关于采集源的类别和采集项的对应关系中,确定与所述目标类别所对应的目标采集项;
发送模块204,用于将所述网络地址和所述目标采集项发送至网络爬虫程序,以使得所述网络爬虫程序对具有所述网络地址的目标采集源中的所述目标采集项进行数据采集。
可选地,在本发明实施例中,所述获得模块201具体用于:
获得用户输入的目标采集源的地址;或
获得预设存储位置中存储的目标采集源的地址。
可选地,在本发明实施例中,所述第一确定模块202具体用于:
识别所述网络地址的目标结构特征;
将所述目标结构特征分别与预设的各个样本结构特征组进行匹配;其中,所述样本结构特征组与类别具有唯一对应性;
将与所述目标结构特征相匹配的样本结构特征组对应的类别,作为所述目标采集源的目标类别。
可选地,在本发明实施例中,所述目标结构特征,包括:
所述网络地址中预设级的域名。
可选地,在本发明实施例中,所述目标类别,包括:
网站类别、微信类别或rss类别。
可选地,在本发明实施例中,当所述目标采集源的目标类别确定失败时,所述第二确定模块203还用于:将预设的通用采集项作为目标采集项,并由所述发送模块204执行所述将所述网络地址和所述目标采集项发送至网络爬虫程序的步骤。
本发明实施例所提供的方案中,对不同类别的采集源,预设对应的采集项,根据目标采集源的网络地址,确定所述目标采集源的目标类别,并从预设的关于采集源的类别和采集项的对应关系中,确定与所述目标类别所对应的目标采集项给所述网络爬虫程序,以使得所述网络爬虫程序对具有所述网络地址的目标采集源中的所述目标采集项进行数据采集。因此能够实现对采集源进行快速有效的数据采集的目的。
相应于上述方法实施例,本发明实施例还提供了一种电子设备,如图3所示,可以包括处理器301和存储器302,其中,
所述存储器302,用于存放计算机程序;
所述处理器301,用于执行所述存储器302上所存放的程序时,实现本发明实施例所提供的数据采集方法的步骤。
上述存储器可以包括RAM(Random Access Memory,随机存取存储器),也可以包括NVM(Non-Volatile Memory,非易失性存储器),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离于上述处理器的存储装置。
上述处理器可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processor,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
通过上述电子设备,能够实现:对不同类别的采集源,预设对应的采集项,根据目标采集源的网络地址,确定所述目标采集源的目标类别,并从预设的关于采集源的类别和采集项的对应关系中,确定与所述目标类别所对应的目标采集项给所述网络爬虫程序,以使得所述网络爬虫程序对具有所述网络地址的目标采集源中的所述目标采集项进行数据采集。因此能够实现对采集源进行快速有效的数据采集的目的。
另外,相应于上述实施例所提供的数据采集方法,本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现本发明实施例所提供的数据采集方法的步骤。
上述计算机可读存储介质存储有在运行时执行本发明实施例所提供的数据采集方法的应用程序,因此能够实现:对不同类别的采集源,预设对应的采集项,根据目标采集源的网络地址,确定所述目标采集源的目标类别,并从预设的关于采集源的类别和采集项的对应关系中,确定与所述目标类别所对应的目标采集项给所述网络爬虫程序,以使得所述网络爬虫程序对具有所述网络地址的目标采集源中的所述目标采集项进行数据采集。因此能够实现对采集源进行快速有效的数据采集的目的。
对于电子设备以及计算机可读存储介质实施例而言,由于其所涉及的方法内容基本相似于前述的方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种数据采集方法,其特征在于,应用于电子设备,所述方法包括:
获得目标采集源的网络地址;
利用所述网络地址,确定所述目标采集源的目标类别;
从预设的关于采集源的类别和采集项的对应关系中,确定与所述目标类别所对应的目标采集项;
将所述网络地址和所述目标采集项发送至网络爬虫程序,以使得所述网络爬虫程序对具有所述网络地址的目标采集源中的所述目标采集项进行数据采集。
2.根据权利要求1所述的方法,其特征在于,所述获得目标采集源的网络地址的步骤,包括:
获得用户输入的目标采集源的地址;或
获得预设存储位置中存储的目标采集源的地址。
3.根据权利要求1所述的方法,其特征在于,所述利用所述网络地址,确定所述目标采集源的目标类别的步骤,包括:
识别所述网络地址的目标结构特征;
将所述目标结构特征分别与预设的各个样本结构特征组进行匹配;其中,所述样本结构特征组与类别具有唯一对应性;
将与所述目标结构特征相匹配的样本结构特征组对应的类别,作为所述目标采集源的目标类别。
4.根据权利要求3所述的方法,其特征在于,所述目标结构特征,包括:
所述网络地址中预设级的域名。
5.根据权利要求3所述的方法,其特征在于,所述目标类别,包括:
网站类别、微信类别或rss类别。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述目标采集源的目标类别确定失败时,将预设的通用采集项作为目标采集项,并执行所述将所述网络地址和所述目标采集项发送至网络爬虫程序的步骤。
7.一种数据采集装置,其特征在于,所述装置包括:
获得模块,用于获得目标采集源的网络地址;
第一确定模块,用于利用所述网络地址,确定所述目标采集源的目标类别;
第二确定模块,用于从预设的关于采集源的类别和采集项的对应关系中,确定与所述目标类别所对应的目标采集项;
发送模块,用于将所述网络地址和所述目标采集项发送至网络爬虫程序,以使得所述网络爬虫程序对具有所述网络地址的目标采集源中的所述目标采集项进行数据采集。
8.根据权利要求7所述的装置,其特征在于,所述获得模块具体用于:
获得用户输入的目标采集源的地址;或
获得预设存储位置中存储的目标采集源的地址。
9.一种电子设备,其特征在于,包括处理器和存储器,其中,
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的程序时,实现权利要求1-6任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-6任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810521162.8A CN108829759A (zh) | 2018-05-28 | 2018-05-28 | 一种数据采集方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810521162.8A CN108829759A (zh) | 2018-05-28 | 2018-05-28 | 一种数据采集方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108829759A true CN108829759A (zh) | 2018-11-16 |
Family
ID=64145886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810521162.8A Pending CN108829759A (zh) | 2018-05-28 | 2018-05-28 | 一种数据采集方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108829759A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008264A (zh) * | 2019-03-04 | 2019-07-12 | 广州易朋软件有限公司 | 成本核算系统的数据采集方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927325A (zh) * | 2014-03-13 | 2014-07-16 | 中国联合网络通信集团有限公司 | 一种对url进行分类的方法及装置 |
US9298824B1 (en) * | 2010-07-07 | 2016-03-29 | Symantec Corporation | Focused crawling to identify potentially malicious sites using Bayesian URL classification and adaptive priority calculation |
CN106096056A (zh) * | 2016-06-30 | 2016-11-09 | 西南石油大学 | 一种基于分布式的舆情数据实时采集方法和系统 |
WO2017066210A1 (en) * | 2015-10-12 | 2017-04-20 | Ipextreme, Inc | System and method for ip fingerprinting and ip dna analysis |
-
2018
- 2018-05-28 CN CN201810521162.8A patent/CN108829759A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9298824B1 (en) * | 2010-07-07 | 2016-03-29 | Symantec Corporation | Focused crawling to identify potentially malicious sites using Bayesian URL classification and adaptive priority calculation |
CN103927325A (zh) * | 2014-03-13 | 2014-07-16 | 中国联合网络通信集团有限公司 | 一种对url进行分类的方法及装置 |
WO2017066210A1 (en) * | 2015-10-12 | 2017-04-20 | Ipextreme, Inc | System and method for ip fingerprinting and ip dna analysis |
CN106096056A (zh) * | 2016-06-30 | 2016-11-09 | 西南石油大学 | 一种基于分布式的舆情数据实时采集方法和系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008264A (zh) * | 2019-03-04 | 2019-07-12 | 广州易朋软件有限公司 | 成本核算系统的数据采集方法和装置 |
CN110008264B (zh) * | 2019-03-04 | 2020-12-25 | 广州易朋软件有限公司 | 成本核算系统的数据采集方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102982058B (zh) | 用于支持播客的技术和系统 | |
US8572118B2 (en) | Computer method and apparatus of information management and navigation | |
CN109783719B (zh) | 基于单位名称的资产数据查找方法、装置、设备及介质 | |
KR102361112B1 (ko) | 유사 그룹 요소 추출 | |
US9836775B2 (en) | System and method for synchronized web scraping | |
CN103186666A (zh) | 基于收藏进行搜索的方法、装置与设备 | |
CN106611008A (zh) | 一种互联网内容标签的管理方法及装置 | |
CN104219230A (zh) | 识别恶意网站的方法及装置 | |
CN103577447A (zh) | 一种用于确定目标页面的页面类型信息的方法和设备 | |
JP2015144011A (ja) | 代表者の信頼度を用いた検索結果順位化装置および方法 | |
CN101894109A (zh) | 一种数据库建立方法和装置 | |
CN111224923A (zh) | 一种仿冒网站的检测方法、装置及系统 | |
CN108829759A (zh) | 一种数据采集方法、装置、电子设备及存储介质 | |
CN109698814A (zh) | 僵尸网络发现方法及僵尸网络发现装置 | |
JPWO2016075829A1 (ja) | データ取得プログラム、データ取得方法及びデータ取得装置 | |
US20140122693A1 (en) | Web Navigation Tracing | |
CN104021170A (zh) | 一种信息获取方法及云端服务器 | |
CN110019042A (zh) | 报表文件生成方法、装置及系统 | |
CN106446055A (zh) | 网页的生成方法及系统 | |
CN106897297B (zh) | 网站栏目间访问路径的确定方法及装置 | |
CN105893584A (zh) | 一种显示收藏夹网址标签的方法、客户端和系统 | |
CN104468857B (zh) | 一种对应关系的获取方法及系统 | |
CN108062352A (zh) | 网页页面缓存处理方法和移动终端设备和介质产品 | |
CN112749352A (zh) | 网页跳转方法、装置、电子设备及可读存储介质 | |
CN105930343A (zh) | 一种收藏app内容引用的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181116 |
|
RJ01 | Rejection of invention patent application after publication |