CN113343159A - 一种从任意渠道快速获取数据并分析与存储的方法及系统 - Google Patents
一种从任意渠道快速获取数据并分析与存储的方法及系统 Download PDFInfo
- Publication number
- CN113343159A CN113343159A CN202110903379.7A CN202110903379A CN113343159A CN 113343159 A CN113343159 A CN 113343159A CN 202110903379 A CN202110903379 A CN 202110903379A CN 113343159 A CN113343159 A CN 113343159A
- Authority
- CN
- China
- Prior art keywords
- data
- browser plug
- page
- channel
- matching rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/986—Document structures and storage, e.g. HTML extensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/048—Interaction techniques based on graphical user interfaces [GUI]
- G06F3/0484—Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Human Computer Interaction (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明提供了一种从任意渠道快速获取数据并分析与存储的方法及系统,包括步骤:浏览器插件获取当前网页链接地址并反馈至服务器;服务器查询是否有对应的页面数据匹配规则,若有则反馈至浏览器插件;浏览器插件根据匹配规则提取页面中的相关数据;服务器接收相关数据并验证是否满足预设业务规则,并将验证结果反馈至浏览器插件,浏览器插件根据匹配规则生成html元素,将html元素插入到指定位置;通过监听html元素点击事件,获取鼠标点击事件对应的html元素,提取相关数据并发送至服务器存储。本发明可将实时获取的数据与服务器的数据做比对,能够避免用户之间撞单。提取数据的过程也只需点选,无需手动抄录,提升了数据获取效率。
Description
技术领域
本发明涉及信息与数据处理技术领域,具体而言,涉及一种从任意渠道快速获取数据并分析与存储的方法及系统。
背景技术
随着信息化程度不断加强,企业对情报信息化集成的渴求也日益强烈;互联网持续增长的信息资源蕴含了巨量的具有商业价值的信息,成为重要的情报信息源头。目前,销售人员常常从第三方平台获取客户资料进行销售推广,若客户有意向则将客户信息录入业务管理系统中,以对客户资源进行保护,防止销售人员之间同时联系客户,给客户带来不好的体验。
第三方平台的信息是数据孤岛,无法自动获取并传回业务管理系统进行比对并直观展示,帮助销售人员提前规避已成交客户或有归属客户。参阅图4所示,图4示出现有技术的流程示意图,用户需要花费大量时间在第三方平台筛选有价值的数据,手动录入到企业业务管理系统,由于业务管理内部规则,有些数据可能无法成功录入。用户录入失败后又得重新寻找有价值的数据;且通过自制插件获取数据,若第三方信息在页面中的展示结构发生变化会导致插件需要更新,这样的录入方式效率低下,对于企业管理系统不能入库的信息无法及时预警,导致工作产出低下。
故亟需一种能够快速提取第三方平台信息数据用于筛选及存储的方法及系统。
发明内容
本发明的目的在于提供一种从任意渠道快速获取数据并分析与存储的方法及系统,以解决背景技术中所指出的问题。
本发明的实施例通过以下技术方案实现:一种从任意渠道快速获取数据并分析与存储的方法,包括如下步骤:
步骤一、通过浏览器插件获取当前网页链接地址,并将获取得到的网页链接地址反馈至后端服务器;
步骤二、后端服务器基于接收的网页链接地址查询是否有对应的页面数据匹配规则,若有则将页面数据匹配规则反馈至浏览器插件并执行步骤三,若没有则流程结束;
步骤三、浏览器插件接收后端服务器反馈的页面数据匹配规则,根据所述页面数据匹配规则提取页面中的相关数据;
步骤四、后端服务器接收所述相关数据并验证是否满足预设业务规则,若满足则发送第一构造指令并执行步骤五,若不满足则发送第二构造指令并执行步骤五,所述第一构造指令和第二构造指令中分别携带有页面可点击元素的数据结构;
步骤五、浏览器插件根据页面数据匹配规则以及接收的构造指令生成对应的html元素,通过调用当前页面的jquery函数将html元素插入到指定位置;
步骤六、监听html元素的点击事件,获取鼠标点击事件的对应html元素,浏览器插件获取相关数据并发送至后端服务器存储。
根据一种优选实施方式,所述步骤四中预设业务规则指相关数据在后端服务器中不存在。
根据一种优选实施方式,所述步骤六还包括:将数据获取结果告知用户。
根据一种优选实施方式,在将数据获取结果告知用户之后,进一步包括:
后端服务器接收到浏览器插件发送的页面数据完成存储处理时,将存储处理结果反馈至浏览器插件,浏览器插件告知存储处理结果。
根据一种优选实施方式,所述浏览器插件采用注入执行javascript脚本的方式,告知存储处理结果。
根据一种优选实施方式,所述步骤一中用户使用基于Chrome内核的浏览器提供的chrono下载管理器插件,获取当前网页链接地址。
根据一种优选实施方式,所述步骤二中的页面数据匹配规则指:通过调用当前网页jquery库,获取网页元素的文本信息。
根据一种优选实施方式,所述第一构造指令和第二构造指令均指示预设的html元素的生成。
本发明还提供一种从任意渠道快速获取数据并分析与存储的系统,应用到如上述所述方法,该系统包括存储器和处理器,其中,
所述存储器用以存放程序;
所述处理器,用于调用所述程序执行如下步骤:
S01、通过浏览器插件获取当前网页链接地址,并将获取得到的网页链接地址反馈至后端服务器;
S02、通过后端服务器基于接收的网页链接地址查询是否有对应的页面数据匹配规则,若有则将页面数据匹配规则反馈至浏览器插件并进一步执行后续步骤,若没有则流程结束;
S03、通过浏览器插件接收后端服务器反馈的页面数据匹配规则,根据所述页面数据匹配规则提取页面中的相关数据;
S04、通过后端服务器接收所述相关数据并验证是否满足预设业务规则,若满足则发送第一构造指令并进一步执行后续步骤,若不满足则发送第二构造指令并进一步执行后续步骤;
S05、通过浏览器插件根据页面数据匹配规则以及接收的构造指令生成对应的html元素,通过调用当前页面的jquery函数将html元素插入到指定位置;
S06、监听html元素的点击事件,获取鼠标点击事件的对应html元素,浏览器插件获取相关数据并发送至后端服务器存储。
本发明实施例的技术方案至少具有如下优点和有益效果:本发明提供的方法和系统可以实时获取用户查看到的页面数据,将这些数据与后台服务器的企业业务管理系统做比对,对于无法入库的信息及时在用户页面进行提示,能够有效避免用户不必要的工作浪费。若用户查找到可用信息,也可以将可用信息进行提取并回传企业业务管理系统入库。这些过程用户只需点选页面中需要的数据,无需手动抄录,提升了数据获取效率,避免了人工效率低下,错误率高的问题;且利用浏览器插件来获取数据,还能够避免由于插件更新,录入方式效率低下的问题。
附图说明
图1为本发明实施例1提供的一种从任意渠道快速获取数据并分析与存储的方法的流程示意图;
图2为本发明实施例1提供的一种从任意渠道快速获取数据并分析与存储的系统的结构框图;
图3为本发明实施例1提供的浏览器插件运行时序图;
图4为现有技术的流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
实施例1
参阅图1所示,图1示出了本发明实施例提供的一种从任意渠道快速获取数据并分析与存储的方法的流程示意图。
经申请人研究发现,随着信息化程度不断加强,企业对情报信息化集成的渴求也日益强烈;互联网持续增长的信息资源蕴含了巨量的具有商业价值的信息,成为重要的情报信息源头。目前,销售人员常常从第三方平台获取客户资料进行销售推广,若客户有意向则将客户信息录入业务管理系统中,以对客户资源进行保护,防止销售人员之间同时联系客户,给客户带来不好的体验。
第三方平台的信息是数据孤岛,无法自动获取并传回业务管理系统进行比对并直观展示,帮助销售人员提前规避已成交客户或有归属客户。参阅图4所示,图4示出现有技术的流程示意图,用户需要花费大量时间在第三方平台筛选有价值的数据,手动录入到企业业务管理系统,由于业务管理内部规则,有些数据可能无法成功录入。用户录入失败后又得重新寻找有价值的数据;且通过自制插件获取数据,若第三方信息在页面中的展示结构发生变化会导致插件需要更新,这样的录入方式效率低下,对于企业管理系统不能入库的信息无法及时预警,导致工作产出低下。因此,本发明实施例提供一种一种从任意渠道快速获取数据并分析与存储的方法以解决上述问题,具体方案如下所述:
一种从任意渠道快速获取数据并分析与存储的方法,包括如下步骤:
步骤一、通过浏览器插件获取当前网页链接地址,并将获取得到的网页链接地址反馈至后端服务器;本实施例以销售人员寻找潜在成交客户资源,使用企查查网站获取企业数据为案例进行举例说明;具体的,用户使用基于Chrome内核的浏览器(如谷歌浏览器、360浏览器、搜狗浏览器),以及安装了chrono下载管理器插件的前提情景下,访问企查查网站企业列表;
参阅图3所示,图3示出本实施例提供的浏览器插件运行时序图。
当用户浏览器加载完成该列表页或详情页面后,浏览器插件主动到浏览器中获取当前浏览器访问的具体链接地址,然后将用户浏览器的当前地址传递给后台服务器。
在步骤一获取到具体链接地址后,进一步执行步骤二,在本实施例的一种实施方式中,步骤二包括:后端服务器基于接收的网页链接地址查询是否有对应的页面数据匹配规则,若有则将页面数据匹配规则反馈至浏览器插件并执行步骤三,若没有则流程结束;具体的,后端服务器会识别浏览器插件提交上来的链接地址判断当前页面是否有页面数据匹配规则。如果没有匹配规则,则反馈给浏览器插件,浏览器插件将不会对当前页面进行后续的处理,流程结束。如果后端服务器查询到有匹配规则,则后端服务器将会下发匹配规则。这里的匹配规则实际就是javascript编码传回到浏览器插件并执行,其原理是调用当前网页jquery库,去获取企查查页面列表中的文本信息,例如获取客户名称、联系电话等数据。
进一步的,确定页面地址是否有页面数据匹配规则之后,进一步执行步骤三,在本实施例的一种实施方式中,步骤三包括:浏览器插件接收后端服务器反馈的页面数据匹配规则,根据所述页面数据匹配规则提取页面中的相关数据;具体的,浏览器插件接收到后端服务器传回的匹配规则,并执行javascript编码,调用jquery选择器,获取列表html,例如获取列表html中的5条企业名称,进一步的将获取的数据传回后端服务器。
在获取到相关数据后,进一步执行步骤四,在本实施例的一种实施方式中,步骤四具体包括:后端服务器接收所述相关数据并验证是否满足预设业务规则,若满足则发送第一构造指令并执行步骤五,若不满足则发送第二构造指令并执行步骤五,所述第一构造指令和第二构造指令中分别携带有页面可点击元素的数据结构,用以指示预设的html元素的生成;具体的,后端服务器接收到浏览器插件传回的相关数据,根据企业内部业务规则查询数据是否满足业务规则。例如,查询当前企业资料是否已存在于企业内部系统中,若存在,则销售人员不必再次跟进,避免和其它销售人员撞单。如果不存在,那么则表明销售人员可以跟进当前企业资料进行推广营销活动。
进一步执行步骤五,提取当前客户资料等操作;在本实施例的一种实施方式中,步骤五包括:浏览器插件根据页面数据匹配规则以及接收的构造指令生成对应的html元素,通过调用当前页面的jquery函数将html元素插入到指定位置;具体的,浏览器插件接收到构造指令后,根据构造指令生成html中的按钮源码。在本实施例的一种实施方式中,通过调用浏览器页面中的jquery函数库,将按钮源码插入到第三方页面网址中的指定位置。如果能提取客户资料则提供彩色点击按钮,若不允许提取客户资料则提供灰色按钮,并给予提示,提示方式可为采用注入执行javascript脚本的方式来告知。
在完成html按钮插入后,进一步执行步骤六:监听html元素的点击事件,获取鼠标点击事件的对应html元素,浏览器插件获取相关数据并发送至后端服务器存储。当用户点击经二次处理后的页面上提供的按钮,例如“提取客户”按钮,浏览器插件立即执行之前从后端服务器下载的匹配规则源码,获取企查查列表中当前按钮所在行的客户资料。例如获取客户名称,法人名称,电话等信息。具体的,具体获取方式为:浏览器插件调用当前网页jquery函数库,获取网页元素的文本信息,并将文本信息传回后端服务器进行处理及存储。
此外,在此之后还包括将数据获取结果告知用户,在本实施例的一种实施方式中,采用如下方式将处理存储结果告知用户:后端服务器接收到浏览器插件发送的页面数据完成存储处理时,将存储处理结果反馈至浏览器插件,浏览器插件采用注入执行javascript脚本的方式,告知存储处理结果;例如,在当前页面显示“企业资料提取成功”,已告知用户资料成功提取。
参阅图2所示,图2示出了本发明实施例提供的一种从任意渠道快速获取数据并分析与存储的系统的结构框图。
本发明实施例还提供一种从任意渠道快速获取数据并分析与存储的系统,应用到如上述所述方法,该系统包括存储器和处理器,其中,
所述存储器用以存放程序;
所述处理器,用于调用所述程序执行如下步骤:
S01、通过浏览器插件获取当前网页链接地址,并将获取得到的网页链接地址反馈至后端服务器;
S02、通过后端服务器基于接收的网页链接地址查询是否有对应的页面数据匹配规则,若有则将页面数据匹配规则反馈至浏览器插件并进一步执行后续步骤,若没有则流程结束;
S03、通过浏览器插件接收后端服务器反馈的页面数据匹配规则,根据所述页面数据匹配规则提取页面中的相关数据;
S04、通过后端服务器接收所述相关数据并验证是否满足预设业务规则,若满足则发送第一构造指令并进一步执行后续步骤,若不满足则发送第二构造指令并进一步执行后续步骤;
S05、通过浏览器插件根据页面数据匹配规则以及接收的构造指令生成对应的html元素,通过调用当前页面的jquery函数将html元素插入到指定位置;
S06、监听html元素的点击事件,获取鼠标点击事件的对应html元素,浏览器插件获取相关数据并发送至后端服务器存储。
综上所述,本发明提供的方法和系统可以实时获取用户查看到的页面数据,将这些数据与后台服务器的企业业务管理系统做比对,对于无法入库的信息及时在用户页面进行提示,能够有效避免用户不必要的工作浪费。若用户查找到可用信息,也可以将可用信息进行提取并回传企业业务管理系统入库。这些过程用户只需点选页面中需要的数据,无需手动抄录,提升了数据获取效率,避免了人工效率低下,错误率高的问题;且利用浏览器插件来获取数据,还能够避免由于插件更新,录入方式效率低下的问题。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种从任意渠道快速获取数据并分析与存储的方法,其特征在于,包括如下步骤:
步骤一、通过浏览器插件获取当前网页链接地址,并将获取得到的网页链接地址反馈至后端服务器;
步骤二、后端服务器基于接收的网页链接地址查询是否有对应的页面数据匹配规则,若有则将页面数据匹配规则反馈至浏览器插件并执行步骤三,若没有则流程结束;
步骤三、浏览器插件接收后端服务器反馈的页面数据匹配规则,根据所述页面数据匹配规则提取页面中的相关数据;
步骤四、后端服务器接收所述相关数据并验证是否满足预设业务规则,若满足则发送第一构造指令并执行步骤五,若不满足则发送第二构造指令并执行步骤五,所述第一构造指令和第二构造指令中分别携带有页面可点击元素的数据结构;
步骤五、浏览器插件根据页面数据匹配规则以及接收的构造指令生成对应的html元素,通过调用当前页面的jquery函数将html元素插入到指定位置;
步骤六、监听html元素的点击事件,获取鼠标点击事件的对应html元素,浏览器插件获取相关数据并发送至后端服务器存储。
2.如权利要求1所述的从任意渠道快速获取数据并分析与存储的方法,其特征在于,所述步骤四中预设业务规则指相关数据在后端服务器中不存在。
3.如权利要求2所述的从任意渠道快速获取数据并分析与存储的方法,其特征在于,所述步骤六之后还包括:将数据获取结果告知用户。
4.如权利要求3所述的从任意渠道快速获取数据并分析与存储的方法,其特征在于,在将数据获取结果告知用户之后,进一步包括:
后端服务器接收到浏览器插件发送的页面数据完成存储处理时,将存储处理结果反馈至浏览器插件,浏览器插件告知存储处理结果。
5.如权利要求4所述的从任意渠道快速获取数据并分析与存储的方法,其特征在于,所述浏览器插件采用注入执行javascript脚本的方式,告知存储处理结果。
6.如权利要求5所述的从任意渠道快速获取数据并分析与存储的方法,其特征在于,所述步骤一中用户使用基于Chrome内核的浏览器提供的chrono下载管理器插件,获取当前网页链接地址。
7.如权利要求6所述的从任意渠道快速获取数据并分析与存储的方法,其特征在于,所述步骤二中的页面数据匹配规则指:通过调用当前网页jquery库,获取网页元素的文本信息。
8.如权利要求7所述的从任意渠道快速获取数据并分析与存储的方法,其特征在于,所述第一构造指令和第二构造指令均指示预设的html元素的生成。
9.一种从任意渠道快速获取数据并分析与存储的系统,应用到如权利要求1至8任一项所述方法,其特征在于,所述系统包括存储器和处理器,其中,
所述存储器用于存放程序;
所述处理器,用于调用所述程序执行权利要求1所述的一种从任意渠道快速获取数据并分析与存储的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110903379.7A CN113343159B (zh) | 2021-08-06 | 2021-08-06 | 一种从任意渠道快速获取数据并分析与存储的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110903379.7A CN113343159B (zh) | 2021-08-06 | 2021-08-06 | 一种从任意渠道快速获取数据并分析与存储的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113343159A true CN113343159A (zh) | 2021-09-03 |
CN113343159B CN113343159B (zh) | 2021-11-12 |
Family
ID=77480944
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110903379.7A Active CN113343159B (zh) | 2021-08-06 | 2021-08-06 | 一种从任意渠道快速获取数据并分析与存储的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113343159B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663062A (zh) * | 2012-03-30 | 2012-09-12 | 奇智软件(北京)有限公司 | 一种处理搜索结果中无效链接的方法及装置 |
US20130136253A1 (en) * | 2011-11-28 | 2013-05-30 | Hadas Liberman Ben-Ami | System and method for tracking web interactions with real time analytics |
CN105094786A (zh) * | 2014-05-21 | 2015-11-25 | 广州市动景计算机科技有限公司 | 基于JavaScript定制页面的方法及系统 |
US20160283460A1 (en) * | 2013-12-03 | 2016-09-29 | Sharethrough Inc. | Dynamic native content insertion |
CN106095775A (zh) * | 2016-05-24 | 2016-11-09 | 中国银行股份有限公司 | 一种实现数据查询或导出的方法及系统 |
CN106126747A (zh) * | 2016-07-14 | 2016-11-16 | 北京邮电大学 | 基于爬虫的数据获取方法及装置 |
US20170039663A1 (en) * | 2011-01-20 | 2017-02-09 | Patent Savant, Llc | System and Method for Analyzing and Predicting Behavior of an Organization and Personnel |
CN106610925A (zh) * | 2015-10-26 | 2017-05-03 | 北京国双科技有限公司 | 网页表格的显示方法及装置 |
CN106777362A (zh) * | 2017-01-19 | 2017-05-31 | 杭州云灵科技有限公司 | 一种html页面的信息采集方法 |
CN107609150A (zh) * | 2017-08-28 | 2018-01-19 | 湖北省楚天云有限公司 | 一种基于页面元素选取的交互式网络爬虫创建方法及系统 |
CN110059282A (zh) * | 2019-04-23 | 2019-07-26 | 北京奇艺世纪科技有限公司 | 一种交互类数据的获取方法及系统 |
CN110069683A (zh) * | 2017-09-18 | 2019-07-30 | 北京国双科技有限公司 | 一种基于浏览器爬取数据的方法及装置 |
US20190377782A1 (en) * | 2004-12-21 | 2019-12-12 | Bill Hicks | Systems and methods for capturing real time client side data and for generating a permanent record |
CN110851681A (zh) * | 2019-10-12 | 2020-02-28 | 平安科技(深圳)有限公司 | 爬虫处理方法、装置、服务器及计算机可读存储介质 |
CN112835809A (zh) * | 2021-03-22 | 2021-05-25 | 亿企赢网络科技有限公司 | 一种基于浏览器的测试数据设置方法、装置、设备及介质 |
-
2021
- 2021-08-06 CN CN202110903379.7A patent/CN113343159B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190377782A1 (en) * | 2004-12-21 | 2019-12-12 | Bill Hicks | Systems and methods for capturing real time client side data and for generating a permanent record |
US20170039663A1 (en) * | 2011-01-20 | 2017-02-09 | Patent Savant, Llc | System and Method for Analyzing and Predicting Behavior of an Organization and Personnel |
US20130136253A1 (en) * | 2011-11-28 | 2013-05-30 | Hadas Liberman Ben-Ami | System and method for tracking web interactions with real time analytics |
CN102663062A (zh) * | 2012-03-30 | 2012-09-12 | 奇智软件(北京)有限公司 | 一种处理搜索结果中无效链接的方法及装置 |
US20160283460A1 (en) * | 2013-12-03 | 2016-09-29 | Sharethrough Inc. | Dynamic native content insertion |
CN105094786A (zh) * | 2014-05-21 | 2015-11-25 | 广州市动景计算机科技有限公司 | 基于JavaScript定制页面的方法及系统 |
CN106610925A (zh) * | 2015-10-26 | 2017-05-03 | 北京国双科技有限公司 | 网页表格的显示方法及装置 |
CN106095775A (zh) * | 2016-05-24 | 2016-11-09 | 中国银行股份有限公司 | 一种实现数据查询或导出的方法及系统 |
CN106126747A (zh) * | 2016-07-14 | 2016-11-16 | 北京邮电大学 | 基于爬虫的数据获取方法及装置 |
CN106777362A (zh) * | 2017-01-19 | 2017-05-31 | 杭州云灵科技有限公司 | 一种html页面的信息采集方法 |
CN107609150A (zh) * | 2017-08-28 | 2018-01-19 | 湖北省楚天云有限公司 | 一种基于页面元素选取的交互式网络爬虫创建方法及系统 |
CN110069683A (zh) * | 2017-09-18 | 2019-07-30 | 北京国双科技有限公司 | 一种基于浏览器爬取数据的方法及装置 |
CN110059282A (zh) * | 2019-04-23 | 2019-07-26 | 北京奇艺世纪科技有限公司 | 一种交互类数据的获取方法及系统 |
CN110851681A (zh) * | 2019-10-12 | 2020-02-28 | 平安科技(深圳)有限公司 | 爬虫处理方法、装置、服务器及计算机可读存储介质 |
CN112835809A (zh) * | 2021-03-22 | 2021-05-25 | 亿企赢网络科技有限公司 | 一种基于浏览器的测试数据设置方法、装置、设备及介质 |
Non-Patent Citations (3)
Title |
---|
ZHENG GUOJUN 等: ""Design and application of intelligent dynamic crawler for web data mining"", 《2017 32ND YOUTH ACADEMIC ANNUAL CONFERENCE OF CHINESE ASSOCIATION OF AUTOMATION (YAC)》 * |
任宪臻等: "基于规则引擎的大规模网页信息抽取平台设计与实现", 《北京城市学院学报》 * |
孙骏雄: ""基于网络爬虫的网站信息采集技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113343159B (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446412B (zh) | 基于网页标签的产品数据推送方法、装置、设备及介质 | |
US20120234907A1 (en) | System and process for managing hosting and redirecting the data output of a 2-D QR barcode | |
US20110055217A1 (en) | System to modify websites for organic search optimization | |
CN109191158B (zh) | 用户画像标签数据的处理方法及处理设备 | |
US20170351691A1 (en) | Search method and apparatus | |
CN110837356B (zh) | 一种数据处理方法和装置 | |
US20200026802A1 (en) | Image quality independent searching of screenshots of web content | |
US20160179512A1 (en) | Identifying equivalent javascript events | |
CN111931183A (zh) | 开源软件安全漏洞处理方法和装置 | |
Van Nortwick et al. | Setting the bar low: are websites complying with the minimum requirements of the CCPA? | |
TWI417751B (zh) | Information providing device, information providing method, information application program, and information recording medium | |
Di Lucca et al. | Clone analysis in the web era: An approach to identify cloned web pages | |
CN108494728B (zh) | 防止流量劫持的黑名单库创建方法、装置、设备及介质 | |
CN113760763A (zh) | 软件测试方法、设备、服务器和系统 | |
US20220269743A1 (en) | Methods and systems for dynamic search listing ranking of software components | |
CN113656737B (zh) | 网页内容展示方法、装置、电子设备以及存储介质 | |
CN113742551A (zh) | 一种基于scrapy和puppeteer的动态数据抓取方法 | |
CN113343159B (zh) | 一种从任意渠道快速获取数据并分析与存储的方法及系统 | |
US8234307B1 (en) | Determining search configurations for network sites | |
CN113535577A (zh) | 基于知识图谱的应用测试方法、装置、电子设备和介质 | |
TW201211804A (en) | Information provision device, information provision method, programme, and information recording medium | |
CN111273964A (zh) | 一种数据加载方法及装置 | |
CN108073626B (zh) | 目标客户群的定位方法和装置 | |
CN115291762A (zh) | 业务项目的触发方法及装置、存储介质、计算机设备 | |
CN103823825A (zh) | 在线内容采集 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |