CN110795616B - 一种数据搜集方法及装置 - Google Patents
一种数据搜集方法及装置 Download PDFInfo
- Publication number
- CN110795616B CN110795616B CN201910958665.6A CN201910958665A CN110795616B CN 110795616 B CN110795616 B CN 110795616B CN 201910958665 A CN201910958665 A CN 201910958665A CN 110795616 B CN110795616 B CN 110795616B
- Authority
- CN
- China
- Prior art keywords
- website
- data
- preset
- webpage
- dark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
Abstract
本申请提供了一种数据搜集方法及装置,该方案包括:获取暗网站点域名,通过域名向暗网站点发送访问请求,其中,通过预设第一样式表css路径获取暗网站点网页的meta标签,并基于meta标签确定暗网站点的最新域名。在登录状态为登录的情况下,基于预设第二样式表css路径获取暗网站点中满足预设搜集条件的网页数据。将网页数据转化为符合预设格式的数据,并将数据存储至数据库。基于本申请,通过域名向暗网站点发送访问请求能够实现暗网站点的自动访问,通过预设第一样式表css路径获取暗网站点的最新域名,避免无法访问,以及基于预设第二样式表css路径实现数据的自动搜索和摘录,减少人力成本,提高在暗网中进行舆情数据搜集的效率。
Description
技术领域
本申请涉及互联网信息技术领域,尤其涉及一种数据搜集方法及装置。
背景技术
整个互联网可以划分为明网和深网,明网和深网的区别在于能否被普通的搜索引擎检索到。在深网中,还有一小部分被称为暗网,暗网站点需要特定的浏览器、特殊授权或是特殊设置才能进行访问。实时搜集暗网中相关的舆情数据,能提高企业对网络舆情的整体掌控能力和应急处置能力。
目前,现有的暗网站点中舆情数据的搜集方式大部分采用的是人工进行搜集,预先架构海外服务器,并通过人工连接洋葱网络搜寻相应的暗网站点,人工注册和登陆暗网站点的账户后,进行人工的信息检索和信息录入。然而,人工搜索暗网站点,成功的概率十分小,并且人工进行信息检索和信息录入耗费大量的人力资源。综上可知,人工在暗网中进行舆情数据搜集,耗费人力资源成本太多,且效率十分低下。
发明内容
本申请提供了一种数据搜集方法及装置,目的在于解决现有在暗网中进行舆情数据搜集耗费大量人力资源,搜集效率低下的问题。
为了实现上述目的,本申请提供了以下技术方案:
本申请实施例第一方面公开了一种数据搜集方法,所述数据搜集方法包括:
获取暗网站点域名,通过所述域名向所述暗网站点发送访问请求,其中,通过预设第一样式表css路径获取所述暗网站点网页的meta标签,并基于所述meta标签确定所述暗网站点的最新域名;
在登录状态为登录的情况下,基于预设第二样式表css路径获取所述暗网站点中满足预设搜集条件的网页数据;
将所述网页数据转化为符合预设格式的数据,并将所述数据存储至数据库。
可选的,在上述数据搜集方法中,所述通过所述域名向所述暗网站点发送访问请求,包括:
将所述域名发送至上级节点,并接收所述上级节点反馈的网页,所述上级节点用于,通过解析所述域名得到所述暗网站点的实际地址,并依据所述实际地址获取所述暗网站点的网页;
依据所述网页的head标签中的目标参数,获取所述暗网站点的最新网址;
基于所述暗网站点的最新网址,生成符合浏览器访问请求格式的访问请求,并向所述暗网站点发送所述访问请求,其中,采用多个真实的用户UA信息作为所述访问请求中的标头Header信息。
可选的,在上述数据搜集方法中,还包括:
在所述登录状态为未登录的情况下,判断用户状态是否为已注册且未被注销;
在所述用户状态为未注册或者被注销的情况下,基于预设第三样式表css路径,生成第一post请求,并向所述暗网站点发送所述第一post请求,使得所述用户状态更新为已注册且未被注销,所述第一post请求包括所述暗网站点的注册表单所需的数据;
在所述用户状态为已注册且未被注销的情况下,基于预设第四样式表css路径,生成第二post请求,并向所述暗网站点发送所述第二post请求,使得所述登录状态更新为登录,所述第二post请求包括所述暗网站点的登录表单所需的数据。
可选的,在上述数据搜集方法中,所述基于预设第二样式表css路径获取所述暗网站点中满足预设搜集条件的网页数据,包括:
基于预设第五样式表css路径获取所述暗网站点中各个网页链接所对应的网页信息;
基于预设第二样式表css路径获取所述网页信息中满足预设搜索条件的网页数据。
可选的,在上述数据搜集方法中,在将所述网页数据转化为符合预设格式的数据之后,还包括:
比较所述数据的标识和数据库中存储的数据的标识;
在所述数据的标识和所述数据库中存储的数据的标识不相同的情况下,将所述数据存储至所述数据库。
本申请实施例第二方面公开了一种数据搜集装置,所述数据搜集装置包括:
访问单元,用于获取暗网站点域名,通过所述域名向所述暗网站点发送访问请求,其中,通过预设第一样式表css路径获取所述暗网站点网页的meta标签,并基于所述meta标签确定所述暗网站点的最新域名;
获取单元,用于在登录状态为登录的情况下,基于预设第二样式表css路径获取所述暗网站点中满足预设搜集条件的网页数据;
存储单元,用于将所述网页数据转化为符合预设格式的数据,并将所述数据存储至数据库。
可选的,在上述数据搜集装置中,所述访问单元具体用于:
将所述域名发送至上级节点,并接收所述上级节点反馈的网页,所述上级节点用于,通过解析所述域名得到所述暗网站点的实际地址,并依据所述实际地址获取所述暗网站点的网页;依据所述网页的head标签中的目标参数,获取所述暗网站点的最新网址;基于所述暗网站点的最新网址,生成符合浏览器访问请求格式的访问请求,并向所述暗网站点发送所述访问请求,其中,采用多个真实的用户UA信息作为所述访问请求中的标头Header信息。
可选的,在上述数据搜集装置中,还包括:
判断单元,用于在所述登录状态为未登录的情况下,判断用户状态是否为已注册且未被注销;
注册单元,用于在所述用户状态为未注册或者被注销的情况下,基于预设第三样式表css路径,生成第一post请求,并向所述暗网站点发送所述第一post请求,使得所述用户状态更新为已注册且未被注销,所述第一post请求包括所述暗网站点的注册表单所需的数据;
登录单元,用于在所述用户状态为已注册且未被注销的情况下,基于预设第四样式表css路径,生成第二post请求,并向所述暗网站点发送所述第二post请求,使得所述登录状态更新为登录,所述第二post请求包括所述暗网站点的登录表单所需的数据。
可选的,在上述数据搜集装置中,所述获取单元具体用于:
基于预设第五样式表css路径获取所述暗网站点中各个网页链接所对应的网页信息;基于预设第二样式表css路径获取所述网页信息中满足预设搜索条件的网页数据。
可选的,在上述数据搜集装置中,所述存储单元还用于:
比较所述数据的标识和数据库中存储的数据的标识;在所述数据的标识和所述数据库中存储的数据的标识不相同的情况下,将所述数据存储至所述数据库。
本申请实施例公开的数据搜集方法及装置,获取暗网站点域名,通过域名向暗网站点发送访问请求,其中,通过预设第一样式表css路径获取暗网站点网页的meta标签,并基于meta标签确定暗网站点的最新域名。在登录状态为登录的情况下,基于预设第二样式表css路径获取暗网站点中满足预设搜集条件的网页数据。将网页数据转化为符合预设格式的数据,并将数据存储至数据库。基于本申请,通过域名向暗网站点发送访问请求能够实现暗网站点的自动访问,通过预设第一样式表css路径获取暗网站点的最新域名,避免无法访问,以及基于预设第二样式表css路径实现数据的自动搜索和摘录,减少人力成本,提高在暗网中进行舆情数据搜集的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据搜集方法的示意图;
图2为本申请实施例提供的一种通过域名向暗网站点发送访问请求的具体实现方式的示意图;
图3为本申请实施例提供的另一种数据搜集方法的示意图;
图4为本申请实施例提供的一种获取暗网站点的网页数据的具体实现方式的示意图;
图5为本申请实施例提供的另一种数据搜集方法的示意图;
图6为本申请实施例提供的一种数据搜集装置的结构示意图;
图7为本申请实施例提供的另一种数据搜集装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在暗网站点进行数据搜集时,需要预先架构海外服务器,并连接洋葱网络搜寻相应的暗网站点。在本申请实施例中,预先架构海外虚拟专用服务器,并在海外虚拟专用服务器部署洋葱头tor软件和python3开发环境,分别搭建基于Django的Agent端和服务端,该Agent端用于实现本申请实施例提供的数据搜集方法,服务端用于存储Agent端发送的数据。
如图1所示,为本申请实施例提供的一种数据搜集方法的示意图,包括如下步骤:
S101:获取暗网站点域名,通过域名向暗网站点发送访问请求。
其中,通过预设第一样式表css路径获取暗网站点网页的meta标签,并基于meta标签确定暗网站点的最新域名。由于暗网站点的域名不是一成不变的,暗网站点每次更新域名时,暗网站点网页的meta标签中会包含最新域名的信息。在本申请实施例中,预设第一样式表css路径包括但不限于是“meta#url”,预设第一样式表css路径的具体内容可由技术人员根据实际情况进行设置。
需要说明的是,通过域名向暗网站点发送访问请求的具体实现方式如图2所示。
S102:在登录状态为登录的情况下,基于预设第二样式表css路径获取暗网站点中满足预设搜集条件的网页数据。
其中,预设搜集条件包括但不限于是关键字、图片等数据格式,例如,“钢铁价格”、“阿里山茶叶”、“跑车.jpg”等。预设搜集条件的具体内容可由技术人员根据实际情况进行设置。在本申请实施例中,预设第二样式表css路径包括但不限于是“.postbody.content”,预设第二样式表css路径的具体内容可由技术人员根据实际情况进行设置。
具体的,预设搜集条件为“买家数据”、“交易”和“收货地址”,在登录状态为登录的情况下,基于预设第二样式表css路径“.postbody.content”获取暗网站点“xxx.onion”中的网页数据,该网页数据包括“淘宝买家数据65万,18年全年数据,各个类目的,数据有效真实,需要的老板直接拍,格式买家名字+电话号码+收货地址+等等,数据复制性强,一经发售概不退换!未发生交易前禁止一切站外联系!”。
需要说明的是,上述具体实现过程仅仅用于举例说明。
需要说明的是,由于只有已注册用户的登录状态进入暗网站点,才能浏览暗网站点内的所有内容,因此需识别当前的登录状态。当成功访问暗网站点后,若登录状态为未登录,暗网站点会反馈用户登录信息,用于提示进行登录或者注册。在本申请实施例中,若登录状态为未登录,则执行数据搜集的具体执行过程可参见下述图3及图3示出的解释说明。
此外,基于预设第二样式表css路径获取暗网站点中满足预设搜集条件的网页数据的具体实现方式可参见下述图4及图4示出的解释说明。
S103:将网页数据转化为符合预设格式的数据,并将数据存储至数据库。
其中,预设格式包括但不限于是json数据格式,数据的具体格式可由技术人员根据实际情况进行下设置。例如,依据预设条件将网页数据进行排序,例如根据网页数据获取时间的早晚进行排序。
在本申请实施例中,获取暗网站点域名,通过域名向暗网站点发送访问请求。判断登录状态是否为登录,在登录状态为登录的情况下,基于预设第二样式表css路径获取暗网站点中满足预设搜集条件的网页数据。将网页数据转化为符合预设格式的数据,并将数据存储至数据库。基于本申请,实现暗网站点的自动访问,以及数据的自动搜索和摘录,减少人力成本,提高在暗网中进行舆情数据搜集的效率。
可选的,如图2所示,为本申请实施例提供的一种通过域名向暗网站点发送访问请求的具体实现方式的示意图,包括如下步骤:
S201:将域名发送至上级节点,并接收上级节点反馈的网页。
其中,上级节点用于,通过解析域名得到暗网站点的实际地址,并依据实际地址获取暗网站点的网页。需要说明的是,上级节点获取暗网站点的网页这一过程,为本领域技术人员所熟知的技术手段,这里不再赘述。
S202:依据网页的head标签中的目标参数,获取暗网站点的最新网址。
其中,网页中包含暗网站点的网址信息,依据该网页的head标签中的autorefresh参数,获取暗网站点的最新网址。
S203:基于暗网站点的最新网址,生成符合浏览器访问请求格式的访问请求,并向暗网站点发送访问请求。
其中,生成符合浏览器访问请求格式的访问请求的具体实现过程,为本领域技术人员所熟知的技术手段,这里不再赘述。此外,采用多个真实的用户UA信息作为访问请求中的标头Header信息。
需要说明的是,以多个真实的用户UA信息作为访问请求中的标头Header信息,能够生成有效的Session信息,基于Session信息能够实现暗网站点的访问。真实的用户UA信息可由技术人员根据实际情况进行设置,例如“Mozilla/5.0(Windows NT 10.0;win64;x64;rv:60.0)Gecko/20100101Firefox/60.0”、“Mozilla/5.0(Windows NT5.2;wow64;)Gecko PaleMoon/24”、“Opera/9.80(Android;Opera Mini/9.0.1829/37.8069;U;en)Presto、2.12.423Version/12.6”等。
需要说明的是,采用多个真实的用户UA信息作为访问请求中的标头Header信息,以及网页的head标签中的autorefresh参数实时更新暗网站点的最新网址,能够破解暗网站点的反爬虫机制,防止被暗网站点封锁访问。
在本申请实施例中,将域名发送至上级节点,并接收上级节点反馈的网页。其中,上级节点用于,通过解析域名得到暗网站点的实际地址,并依据实际地址获取暗网站点的网页。依据网页的head标签中的目标参数,获取暗网站点的最新网址,基于暗网站点的最新网址,生成符合浏览器访问请求格式的访问请求,并向暗网站点发送访问请求。其中,采用多个真实的用户UA信息作为访问请求中的标头Header信息。基于本申请,由于采用多个真实的用户UA信息作为访问请求中的标头Header信息,以及依据网页的head标签中的autorefresh参数实时更新暗网站点的最新网址。因此,能够破解暗网站点的反爬虫机制,防止被暗网站点封锁访问。
可选的,如图3所示,为本申请实施例提供的另一种数据搜集方法的示意图,包括如下步骤:
S301:获取暗网站点域名,通过域名向暗网站点发送访问请求。
其中,S301的具体执行过程和实现原理与上述图1示出的S101的具体执行过程和实现原理一致,这里不再赘述。
S302:判断登录状态是否为登录。
其中,若登录状态为登录则执行S306,否则执行S303。
S303:判断用户状态是否为已注册且未被注销。
其中,若用户状态为未注册或者被注销,则执行S304,若用户状态为已注册且未被注销,则执行S305。
S304:基于预设第三样式表css路径,生成第一post请求,并向暗网站点发送第一post请求,使得用户状态更新为已注册且未被注销。
其中,第一post请求包括暗网站点的注册表单所需的数据。在本申请实施例中,预设第三样式表css路径包括但不限于是“#qa_confirm_id”,预设第三样式表css路径的具体内容可由技术人员根据实际情况进行设置。此外,生成第一post请求的具体实现过程,为本领域技术人员所熟知的技术手段,这里不再赘述。具体的,第一post请求包括暗网站点的注册表单所需的数据,该数据可由技术人员根据实际情况进行设置。
具体的,基于“#qa_confirm_id”路径和“#qa_confirm_pin”路径,生成第一post请求,该第一post请求包括暗网站点的注册表单所需的数据为“88899913”和“12345”。其中,“88899913”用于注册用户账号,“12345”用于注册账号密码。
需要说明的是,上述具体实现过程仅仅用于举例说明。
需要说明的是,在执行完S304后,执行S305。
S305:基于预设第四样式表css路径,生成第二post请求,并向暗网站点发送第二post请求,使得登录状态更新为登录。
其中,第二post请求包括暗网站点的登录表单所需的数据。在本申请实施例中,预设第四样式表css路径包括但不限于是“input[name="form_token"]”,预设第四样式表css路径的具体内容可由技术人员根据实际情况进行设置。此外,生成第二post请求的具体实现过程,为本领域技术人员所熟知的技术手段,这里不再赘述。具体的,第二post请求包括暗网站点的登录表单所需的数据,该数据可由技术人员根据实际情况进行设置。
具体的,基于“input[name="form_token”路径和“input[pin="form_token”路径,生成第二post请求,该第二post请求包括暗网站点的登录表单所需的数据为“anjlnak3n”和“1234556”。其中,“anjlnak3n”用于表征用户账号,“1234556”用于表征用户账号的登录密码。
需要说明的是,上述具体实现过程仅仅用于举例说明。
S306:基于预设第二样式表css路径获取暗网站点中满足预设搜集条件的网页数据。
其中,S306的具体执行过程和实现原理与上述图1示出的S103的具体执行过程和实现原理一致,这里不再赘述。
S307:将网页数据转化为符合预设格式的数据,并将数据存储至数据库。
其中,S307的具体执行过程和实现原理与上述图1示出的S104的具体执行过程和实现原理一致,这里不再赘述。
在本申请实施例中,在登录状态为未登录的情况下,判断用户状态是否为已注册且未被注销。在用户状态为未注册或者被注销的情况下,基于预设第三样式表css路径,生成第一post请求,并向暗网站点发送第一post请求,使得用户状态更新为已注册且未被注销,第一post请求包括暗网站点的注册表单所需的数据。在用户状态为已注册且未被注销的情况下,基于预设第四样式表css路径,生成第二post请求,并向暗网站点发送第二post请求,使得登录状态更新为登录,第二post请求包括暗网站点的登录表单所需的数据。基于本申请,通过第三样式表css路径生成第一post请求能够实现自动注册用户,以及通过第四样式表css路径生成第二post请求能够实现自动登录,能够破解暗网站点的反爬虫机制,防止被暗网站点封锁访问。
可选的,如图4所示,为本申请实施例提供的一种获取暗网站点的网页数据的具体实现方式的示意图,包括如下步骤:
S401:基于预设第五样式表css路径获取暗网站点中各个网页链接所对应的网页信息。
其中,预设第五样式表css路径包括但不限于是“.page_b1”,预设第五样式表css路径的具体内容可由技术人员根据实际情况进行设置。
具体的,基于样式表css路径“.page_a2”,获取暗网站点“xxx.onion”中网页链接“xxx.onion?page=a2”的网页信息。基于样式表css路径“.page_c4”,获取暗网站点“xxx.onion”中网页链接“xxx.onion?page=c4”的网页信息。
需要说明的是,上述具体实现过程仅仅用于举例说明。
S402:基于预设第二样式表css路径获取网页信息中满足预设搜索条件的网页数据。
其中,基于预设第五样式表css路径获取暗网站点中各个网页链接所对应的各个网页信息,实现对暗网站点中各个网页的访问。基于预设第二样式表css路径获取各个网页信息中满足预设搜索条件的网页数据,可以完全获取暗网站点中的全部满足预设搜集条件的网页数据。
在本申请实施例中,基于预设第五样式表css路径获取暗网站点中各个网页链接所对应的网页信息,基于预设第二样式表css路径获取网页信息中满足预设搜索条件的网页数据。基于本申请,基于样式表css路径,获取暗网站点中的网页数据,实现数据的自动搜索和摘录,减少了大量人力资源。
可选的,如图5所示,为本申请实施例提供的另一种数据搜集方法的示意图,包括如下步骤:
S501:获取暗网站点域名,通过域名向暗网站点发送访问请求。
其中,S501的具体执行过程和实现原理与上述图1示出的S101的执行过程和实现原理一致,这里不再赘述。
S502:在登录状态为登录的情况下,基于预设第二样式表css路径获取暗网站点中满足预设搜集条件的网页数据。
其中,S502的具体执行过程和实现原理与上述图1示出的S102的执行过程和实现原理一致,这里不再赘述。
S503:将网页数据转化为符合预设格式的数据。
S504:比较数据的标识和数据库中存储的数据的标识。
其中,若数据的标识和数据库中存储的数据的标识相同,则删除该数据,若数据的标识和数据库中存储的数据的标识不相同,则执行S505。
S505:将数据存储至数据库。
其中,可以临时将数据存储至基于Django搭建的Agent端预设的数据库中,最后在预设时间内将数据存储至基于Django搭建的服务端预设的数据库中。
在本申请实施例中,获取暗网站点域名,通过域名向暗网站点发送访问请求。判断登录状态是否为登录,在登录状态为登录的情况下,基于预设第二样式表css路径获取暗网站点中满足预设搜集条件的网页数据。将网页数据转化为符合预设格式的数据,比较数据的标识和数据库中存储的数据的标识。在数据的标识和数据库中存储的数据的标识不相同的情况下,将数据存储至数据库。基于本申请,实现暗网站点的自动访问,以及数据的自动搜索和摘录,减少人力成本,并且比较数据的标识和数据库中存储的数据标识,用于滤除重复的数据,提高在暗网中进行舆情数据搜集的效率。
与上述本申请实施例提供的数据搜集方法相对应,如图6所示,为本申请实施例提供的一种数据搜集装置的结构示意图,该装置包括:
访问单元100,用于获取暗网站点域名,通过域名向暗网站点发送访问请求,其中,通过预设第一样式表css路径获取暗网站点网页的meta标签,并基于meta标签确定暗网站点的最新域名。
其中,访问单元100通过域名向暗网站点发送访问请求的具体实现方式包括:将域名发送至上级节点,并接收上级节点反馈的网页。其中,上级节点用于,通过解析域名得到暗网站点的实际地址,并依据实际地址获取暗网站点的网页。依据网页的head标签中的目标参数,获取暗网站点的最新网址。基于暗网站点的最新网址,生成符合浏览器访问请求格式的访问请求,并向暗网站点发送访问请求,其中,采用多个真实的用户UA信息作为访问请求中的标头Header信息。
获取单元200,用于在登录状态为登录的情况下,基于预设第二样式表css路径获取暗网站点中满足预设搜集条件的网页数据。
其中,获取单元200基于预设第二样式表css路径获取暗网站点中满足预设搜集条件的网页数据的具体实现方式包括:基于预设第五样式表css路径获取暗网站点中各个网页链接所对应的网页信息。基于预设第二样式表css路径获取网页信息中满足预设搜索条件的网页数据。
存储单元300,用于将网页数据转化为符合预设格式的数据,并将数据存储至数据库。
其中,存储单元300还用于比较数据的标识和数据库中存储的数据的标识。在数据的标识和数据库中存储的数据的标识不相同的情况下,将数据存储至数据库。
在本申请实施例中,获取暗网站点域名,通过域名向暗网站点发送访问请求。判断登录状态是否为登录,在登录状态为登录的情况下,基于预设第二样式表css路径获取暗网站点中满足预设搜集条件的网页数据。将网页数据转化为符合预设格式的数据,比较数据的标识和数据库中存储的数据的标识。在数据的标识和数据库中存储的数据的标识不相同的情况下,将数据存储至数据库。基于本申请,通过域名向暗网站点发送访问请求能够实现暗网站点的自动访问,通过预设第一样式表css路径获取暗网站点的最新域名,避免无法访问,以及基于预设第二样式表css路径实现数据的自动搜索和摘录,减少人力成本,提高在暗网中进行舆情数据搜集的效率。
可选的,如图7所示,为本申请实施例提供的另一种数据搜集装置的结构示意图,该装置还包括:
判断单元400,用于在登录状态为未登录的情况下,判断用户状态是否为已注册且未被注销。
注册单元500,用于在用户状态为未注册或者被注销的情况下,基于预设第三样式表css路径,生成第一post请求,并向暗网站点发送第一post请求,使得用户状态更新为已注册且未被注销,第一post请求包括暗网站点的注册表单所需的数据。
登录单元600,用于在用户状态为已注册且未被注销的情况下,基于预设第四样式表css路径,生成第二post请求,并向暗网站点发送第二post请求,使得登录状态更新为登录,第二post请求包括暗网站点的登录表单所需的数据。
在本申请实施例中,获取暗网站点域名,通过域名向暗网站点发送访问请求。判断登录状态是否为登录,在登录状态为登录的情况下,基于预设第二样式表css路径获取暗网站点中满足预设搜集条件的网页数据。将网页数据转化为符合预设格式的数据,比较数据的标识和数据库中存储的数据的标识。在数据的标识和数据库中存储的数据的标识不相同的情况下,将数据存储至数据库。基于本申请,通过域名向暗网站点发送访问请求能够实现暗网站点的自动访问,通过预设第一样式表css路径获取暗网站点的最新域名,避免无法访问,以及基于预设第二样式表css路径实现数据的自动搜索和摘录,减少人力成本,提高在暗网中进行舆情数据搜集的效率。通过第三样式表css路径生成第一post请求能够实现自动注册用户,以及通过第四样式表css路径生成第二post请求能够实现自动登录,能够破解暗网站点的反爬虫机制,防止被暗网站点封锁访问。
本申请实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本申请实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种数据搜集方法,其特征在于,包括:
获取暗网站点域名,通过所述域名向所述暗网站点发送访问请求,其中,通过预设第一样式表css路径获取所述暗网站点网页的meta标签,并基于所述meta标签确定所述暗网站点的最新域名;
在登录状态为登录的情况下,基于预设第二样式表css路径获取所述暗网站点中满足预设搜集条件的网页数据;
将所述网页数据转化为符合预设格式的数据,并将所述数据存储至数据库。
2.根据权利要求1所述的方法,其特征在于,所述通过所述域名向所述暗网站点发送访问请求,包括:
将所述域名发送至上级节点,并接收所述上级节点反馈的网页,所述上级节点用于,通过解析所述域名得到所述暗网站点的实际地址,并依据所述实际地址获取所述暗网站点的网页;
依据所述网页的head标签中的目标参数,获取所述暗网站点的最新网址;
基于所述暗网站点的最新网址,生成符合浏览器访问请求格式的访问请求,并向所述暗网站点发送所述访问请求,其中,采用多个真实的用户UA信息作为所述访问请求中的标头Header信息。
3.根据权利要求1所述的方法,其特征在于,还包括:
在所述登录状态为未登录的情况下,判断用户状态是否为已注册且未被注销;
在所述用户状态为未注册或者被注销的情况下,基于预设第三样式表css路径,生成第一post请求,并向所述暗网站点发送所述第一post请求,使得所述用户状态更新为已注册且未被注销,所述第一post请求包括所述暗网站点的注册表单所需的数据;
在所述用户状态为已注册且未被注销的情况下,基于预设第四样式表css路径,生成第二post请求,并向所述暗网站点发送所述第二post请求,使得所述登录状态更新为登录,所述第二post请求包括所述暗网站点的登录表单所需的数据。
4.根据权利要求1所述的方法,其特征在于,所述基于预设第二样式表css路径获取所述暗网站点中满足预设搜集条件的网页数据,包括:
基于预设第五样式表css路径获取所述暗网站点中各个网页链接所对应的网页信息;
基于预设第二样式表css路径获取所述网页信息中满足预设搜索条件的网页数据。
5.根据权利要求1所述的方法,其特征在于,在将所述网页数据转化为符合预设格式的数据之后,还包括:
比较所述数据的标识和数据库中存储的数据的标识;
在所述数据的标识和所述数据库中存储的数据的标识不相同的情况下,将所述数据存储至所述数据库。
6.一种数据搜集装置,其特征在于,包括:
访问单元,用于获取暗网站点域名,通过所述域名向所述暗网站点发送访问请求,其中,通过预设第一样式表css路径获取所述暗网站点网页的meta标签,并基于所述meta标签确定所述暗网站点的最新域名;
获取单元,用于在登录状态为登录的情况下,基于预设第二样式表css路径获取所述暗网站点中满足预设搜集条件的网页数据;
存储单元,用于将所述网页数据转化为符合预设格式的数据,并将所述数据存储至数据库。
7.根据权利要求6所述的装置,其特征在于,所述访问单元具体用于:
将所述域名发送至上级节点,并接收所述上级节点反馈的网页,所述上级节点用于,通过解析所述域名得到所述暗网站点的实际地址,并依据所述实际地址获取所述暗网站点的网页;依据所述网页的head标签中的目标参数,获取所述暗网站点的最新网址;基于所述暗网站点的最新网址,生成符合浏览器访问请求格式的访问请求,并向所述暗网站点发送所述访问请求,其中,采用多个真实的用户UA信息作为所述访问请求中的标头Header信息。
8.根据权利要求6所述的装置,其特征在于,还包括:
判断单元,用于在所述登录状态为未登录的情况下,判断用户状态是否为已注册且未被注销;
注册单元,用于在所述用户状态为未注册或者被注销的情况下,基于预设第三样式表css路径,生成第一post请求,并向所述暗网站点发送所述第一post请求,使得所述用户状态更新为已注册且未被注销,所述第一post请求包括所述暗网站点的注册表单所需的数据;
登录单元,用于在所述用户状态为已注册且未被注销的情况下,基于预设第四样式表css路径,生成第二post请求,并向所述暗网站点发送所述第二post请求,使得所述登录状态更新为登录,所述第二post请求包括所述暗网站点的登录表单所需的数据。
9.根据权利要求6所述的装置,其特征在于,所述获取单元具体用于:
基于预设第五样式表css路径获取所述暗网站点中各个网页链接所对应的网页信息;基于预设第二样式表css路径获取所述网页信息中满足预设搜索条件的网页数据。
10.根据权利要求6所述的装置,其特征在于,所述存储单元还用于:
比较所述数据的标识和数据库中存储的数据的标识;在所述数据的标识和所述数据库中存储的数据的标识不相同的情况下,将所述数据存储至所述数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910958665.6A CN110795616B (zh) | 2019-10-10 | 2019-10-10 | 一种数据搜集方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910958665.6A CN110795616B (zh) | 2019-10-10 | 2019-10-10 | 一种数据搜集方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110795616A CN110795616A (zh) | 2020-02-14 |
CN110795616B true CN110795616B (zh) | 2020-10-23 |
Family
ID=69438906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910958665.6A Active CN110795616B (zh) | 2019-10-10 | 2019-10-10 | 一种数据搜集方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110795616B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102355449A (zh) * | 2011-06-30 | 2012-02-15 | 深信服网络科技(深圳)有限公司 | 一种隐蔽发送重定向请求的方法、网关和系统 |
CN109561162A (zh) * | 2017-09-26 | 2019-04-02 | 北京国双科技有限公司 | 挖掘用户访问喜好的方法及装置 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102915308B (zh) * | 2011-08-02 | 2016-03-09 | 阿里巴巴集团控股有限公司 | 一种页面渲染的方法及装置 |
US20150242529A1 (en) * | 2014-02-21 | 2015-08-27 | Pradeep S. Kinger | Method for Interlacing Multiple Internet domain names with a Database Driven Website to Obtain Better Webpage Ranking on Major Search Engines by Executing Computer-Executable Instructions Stored On a Non-Transitory Computer-Readable Medium |
US20160071135A1 (en) * | 2014-09-08 | 2016-03-10 | Sitecore Corporation A/S | Method for obtaining business intelligence information from a large dataset |
CN109145237A (zh) * | 2017-11-06 | 2019-01-04 | 上海华测导航技术股份有限公司 | 一种网页缓存问题的优化方法 |
-
2019
- 2019-10-10 CN CN201910958665.6A patent/CN110795616B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102355449A (zh) * | 2011-06-30 | 2012-02-15 | 深信服网络科技(深圳)有限公司 | 一种隐蔽发送重定向请求的方法、网关和系统 |
CN109561162A (zh) * | 2017-09-26 | 2019-04-02 | 北京国双科技有限公司 | 挖掘用户访问喜好的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110795616A (zh) | 2020-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100533434C (zh) | 在因特网搜索引擎上检测无效点击的方法和设备 | |
JP6520513B2 (ja) | 問答情報提供システム、情報処理装置及びプログラム | |
CN101971560B (zh) | 用于处理多步骤验证序列的方法和装置 | |
CN111723313A (zh) | 页面跳转的处理方法、装置、设备及存储介质 | |
CN109656999B (zh) | 大数据量的数据同步方法、设备、存储介质及装置 | |
KR20180074774A (ko) | 악의 웹 사이트 식별 방법, 장치 및 컴퓨터 기억매체 | |
CN114650176A (zh) | 钓鱼网站的检测方法、装置、计算机设备及存储介质 | |
CN110336791B (zh) | 一种断点数据传输方法、装置、设备及计算机存储介质 | |
WO2022007798A1 (zh) | 数据显示方法、装置、终端设备及存储介质 | |
CN112564957B (zh) | 虚拟网元的运行数据采集方法及装置 | |
CN111723083B (zh) | 用户身份识别方法、装置、电子设备及存储介质 | |
CN110795616B (zh) | 一种数据搜集方法及装置 | |
US20160285905A1 (en) | System and method for detecting mobile cyber incident | |
CN106126538B (zh) | 页面的转化处理方法及装置 | |
CN111209325A (zh) | 业务系统接口识别方法、装置及存储介质 | |
CN106919600A (zh) | 一种失效网址访问方法及终端 | |
CN111221711A (zh) | 用户行为数据处理方法、服务器及存储介质 | |
CN115865507A (zh) | 一种爬虫识别方法、系统、装置及可读存储介质 | |
CN115913671A (zh) | 基于零信任网关的令牌注入访问方法、装置、电子设备和存储介质 | |
CN112860456B (zh) | 日志处理方法和装置 | |
CN106326419B (zh) | 网络自动机处理方法及装置 | |
CN112749975B (zh) | 自动处理退费请求的方法、自动处理平台 | |
CN113992390A (zh) | 一种钓鱼网站的检测方法及装置、存储介质 | |
CN111865977A (zh) | 一种信息处理方法及系统 | |
CN106095946B (zh) | 页面的处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |