CN107798101A - 用户自由点选配置的网页数据采集方法及系统 - Google Patents
用户自由点选配置的网页数据采集方法及系统 Download PDFInfo
- Publication number
- CN107798101A CN107798101A CN201711033606.5A CN201711033606A CN107798101A CN 107798101 A CN107798101 A CN 107798101A CN 201711033606 A CN201711033606 A CN 201711033606A CN 107798101 A CN107798101 A CN 107798101A
- Authority
- CN
- China
- Prior art keywords
- data
- webpage
- web
- network address
- user interface
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本公开属于计算机技术领域,具体涉及一种用户自由点选配置的网页数据采集方法及系统。该方法包括:接收用户输入的预设网址,根据所述预设网址对与该预设网址对应的第一网页进行分析处理,以将所述第一网页转换为第二网页;其中所述第一网页包括非结构化数据,所述第二网页包括转换后的结构化数据;根据所述第二网页分析整理网页数据,并将整理得到的网页数据显示于预设用户界面上;接收对所述预设用户界面上的网页数据的抓取选择操作,并对被选的网页数据进行自动化采集。本公开对技术人员要求低,用户可简单方便抓取数据,且效率高而成本低。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种用户自由点选配置的网页数据采集方法及数据采集系统。
背景技术
近年来互联网发展迅猛,随之而来的数据量越来越大。非结构化公开网页是重要的数据来源,而传统的网页数据抓取,都需要研究网页源代码、抓包工具等各种复杂的功能或编码。
目前的网页抓取技术往往需要数据采集人员具备技术背景,且抓取新的网页需要对其结构进行分析,对源网页代码进行分析,这涉及到正则表达式、网络爬虫等专业化知识,对技术人员要求高,抓取效率低。当前市场主流的抓取工具也只是仅仅提供网页的配置方式,仍然需要用户具有一定的网页技术知识背景,没有人机交互的智能傻瓜式操作。另外,新的网页需求又要开发新的抓取程序,网页改版也要做抓取程序的适配,这也导致一些人力财力的浪费。
发明内容
本公开的目的在于提供一种用户自由点选配置的网页数据采集方法及数据采集系统,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
根据本公开实施例的第一方面,提供一种用户自由点选配置的网页数据采集方法,该方法包括:
接收用户输入的预设网址,根据所述预设网址对与该预设网址对应的第一网页进行分析处理,以将所述第一网页转换为第二网页;其中所述第一网页包括非结构化数据,所述第二网页包括转换后的结构化数据;
根据所述第二网页分析整理网页数据,并将整理得到的网页数据显示于预设用户界面上;
接收对所述预设用户界面上的网页数据的抓取选择操作,并对被选的网页数据进行自动化采集。
本公开的实施例中,所述根据所述预设网址对与该预设网址对应的第一网页进行分析处理,以将所述第一网页转换为第二网页的步骤,包括:
根据所述预设网址获取所述第一网页,对所述第一网页进行网页模型构建;
根据构建的网页模型对所述第一网页进行分析以将所述第一网页转换为所述第二网页。
本公开的实施例中,基于所述网页模型由后台采集引擎智能分析所述第一网页,以去除所述第一网页中无关的预设非结构化数据,进而将所述第一网页转换为结构化数据的所述第二网页。
本公开的实施例中,所述对被选的网页数据进行自动化采集的步骤,包括:
通过构建数据采集任务在后台实现自动化采集被选的网页数据,并实时将采集的网页数据推送给用户。
本公开的实施例中,所述预设用户界面包括多个用于点选的预设控件,所述网页数据包括多个不同类别的数据,且每个所述预设控件关联一个类别的数据;所述接收对所述预设用户界面上的网页数据的抓取选择操作的步骤,包括:
接收对所述预设用户界面上的所述预设控件的触控操作,以将与该预设控件关联的网页数据确定为所述被选的网页数据。
根据本公开实施例的第二方面,提供一种用户自由点选配置的网页数据采集系统,该系统包括:
数据分析转换模块,用于接收用户输入的预设网址,根据所述预设网址对与该预设网址对应的第一网页进行分析处理,以将所述第一网页转换为第二网页;其中所述第一网页包括非结构化数据,所述第二网页包括转换后的结构化数据;
数据整理显示模块,用于根据所述第二网页分析整理网页数据,并将整理得到的网页数据显示于预设用户界面上;
数据选取采集模块,用于接收对所述预设用户界面上的网页数据的抓取选择操作,并对被选的网页数据进行自动化采集。
本公开的实施例中,所述数据分析转换模块,具体用于:
根据所述预设网址获取所述第一网页,对所述第一网页进行网页模型构建;
根据构建的网页模型对所述第一网页进行分析以将所述第一网页转换为所述第二网页。
本公开的实施例中,所述数据分析转换模块,具体用于:基于所述网页模型由后台采集引擎智能分析所述第一网页,以去除所述第一网页中无关的预设非结构化数据,进而将所述第一网页转换为结构化数据的所述第二网页。
本公开的实施例中,所述数据选取采集模块,具体用于通过构建数据采集任务在后台实现自动化采集被选的网页数据,并实时将采集的网页数据推送给用户。
本公开的实施例中,所述预设用户界面包括多个用于点选的预设控件,所述网页数据包括多个不同类别的数据,且每个所述预设控件关联一个类别的数据;
所述数据选取采集模块,用于接收对所述预设用户界面上的所述预设控件的触控操作,以将与该预设控件关联的网页数据确定为所述被选的网页数据。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开实施例中,接收用户输入的预设网址,根据所述预设网址对非结构化的第一网页进行分析处理,以将所述第一网页转换为结构化的第二网页,然后根据所述第二网页分析整理网页数据,并将整理得到的网页数据显示于预设用户界面上,接着接收对所述预设用户界面上的网页数据的抓取选择操作,并对被选的网页数据进行自动化采集。这样,只要用户会上网就能采集网页数据,用户仅需输入网址和在可视化的该预设用户界面上进行如点选操作确定所需数据,所见即所得的界面,可视化流程,无需懂技术,点点如鼠标马上即可获取自己想要的数据,进而实现智能傻瓜式的操作。另外,也无需针对新的网页需求或者网页改版而相应开发做抓取程序的适配,在一定程度上可以减少不必要的人力财力的成本,经济方便。
附图说明
图1示出本公开示例性实施例中用户自由点选配置的网页数据采集方法流程图;
图2示出本公开示例性实施例用户自由点选配置的网页数据采集方法另一流程图;
图3示出本公开示例性实施例中用户自由点选配置的网页数据采集系统示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同处理器装置和/或微控制器装置中实现这些功能实体。
本示例实施方式中首先提供了一种用户自由点选配置的网页数据采集方法,该方法可以应用于服务器如网页服务器等。参考图1中所示,该方法可以包括以下步骤S101~S103:
步骤S101:接收用户输入的预设网址,根据所述预设网址对与该预设网址对应的第一网页进行分析处理,以将所述第一网页转换为第二网页;其中所述第一网页包括非结构化数据,所述第二网页包括转换后的结构化数据。
步骤S102:根据所述第二网页分析整理网页数据,并将整理得到的网页数据显示于预设用户界面上。
步骤S103:接收对所述预设用户界面上的网页数据的抓取选择操作,并对被选的网页数据进行自动化采集。
本公开实施例中,只要用户会上网就能采集网页数据,用户仅需输入网址和在可视化的该预设用户界面上进行如点选操作确定所需数据,所见即所得的界面,可视化流程,无需懂技术,点点如鼠标马上即可获取自己想要的数据,进而实现智能傻瓜式的操作。另外,也无需针对新的网页需求或者网页改版而相应开发做抓取程序的适配,在一定程度上可以减少不必要的人力财力的成本,经济方便。
具体的,在步骤S101中,接收用户输入的预设网址,根据所述预设网址对与该预设网址对应的第一网页进行分析处理,以将所述第一网页转换为第二网页;其中所述第一网页包括非结构化数据,所述第二网页包括转换后的结构化数据。
示例性的,所述预设网址可以是统一资源定位符URL,本实施例中对于具体网址不作限制。该第一网页即该URL所表征的对应的网页,且该第一网页是非结构化的网页,而该转化后的第二网页是结构化的网页。
在本公开的一实施例中,所述根据所述预设网址对与该预设网址对应的第一网页进行分析处理,以将所述第一网页转换为第二网页的步骤具体可以包括以下步骤:
步骤201:根据所述预设网址获取所述第一网页,对所述第一网页进行网页模型构建。例如可以根据输入的一URL获取对应的第一网页,然后可以根据如该第一网页上的内容以及布局样式等构建该第一网页的网页模型也即网页模板。
步骤202:根据构建的网页模型对所述第一网页进行分析以将所述第一网页转换为所述第二网页。
具体的,在本公开的实施例中,基于所述网页模型由后台采集引擎智能分析所述第一网页,以去除所述第一网页中无关的预设非结构化数据,进而将所述第一网页转换为结构化数据的所述第二网页。例如可以根据预设的过滤关键词等去除所述第一网页中无关的非结构化数据,以最终获取所需的网页结构化数据。本实施例中将非结构化网页转换为结构化网页并去除无关数据,从而可以提高后续抓取数据的准确性。另外基于所述网页模型由后台采集引擎智能自动分析处理,可以提高数据处理效率。
在步骤S102中,根据所述第二网页分析整理网页数据,并将整理得到的网页数据显示于预设用户界面上。也即对转换后的结构化网页进行处理,提取网页数据,具体例如可以根据网页源代码分析处理提取。提取的数据可以可视化呈现出来,如显示在网页上悬浮显示的一用户界面上。
在步骤S103中,接收对所述预设用户界面上的网页数据的抓取选择操作,并对被选的网页数据进行自动化采集。示例性的,用户可以在用户界面上如点选操作确定所要抓取的一个或多个数据,后台自动化采集确定的数据。
具体的,所述对被选的网页数据进行自动化采集的步骤可以包括:通过构建数据采集任务在后台实现自动化采集被选的网页数据,并实时将采集的网页数据推送给用户,这样,可以提高数据采集的效率。
进一步的,在本公开的另一实施例中,所述预设用户界面可以包括多个用于点选的预设控件如虚拟按钮等,所述网页数据包括多个不同类别的数据(如文字、图片和视频等等),且每个所述预设控件关联一个类别的数据。相应的,所述接收对所述预设用户界面上的网页数据的抓取选择操作的步骤具体可以包括:接收对所述预设用户界面上的所述预设控件的触控操作,以将与该预设控件关联的网页数据确定为所述被选的网页数据。也就是说,用户可以在可视化的用户界面上点选如不同的虚拟按钮配置所需采集的数据,灵活方便。
本发明实施例可以通过后台采集引擎能智能分析网页,将非结构化网页进行模型构建和数据分析,去除无关的网页结构数据,转化为结构化网页并通过可视化技术呈现数据给用户,用户直接点选需要的数据内容提交任务,后台即可实时抓取数据并推送给用户。参考图2中所示,数据抓取流程具体可以包括以下步骤:
步骤A、用户录入网址。如通过客户端浏览器录入URL。
步骤B、服务器系统对URL相应的网页进行分析及模型构建,将非结构化网页转换为结构化网页,重新归整网页数据并通过可视化技术呈现给用户。例如通过可视化用户界面呈现给用户。
步骤C、用户点选网页内容,选择要抓取的数据。也即用户可以在用户界面上点选所需抓取的数据。
步骤D、服务器系统构建抓取任务,通过后台实现自动化采集网页数据,并可以实时将采集的网页数据推送给用户前端。
综上,本公开实施例中,接收用户输入的预设网址,根据所述预设网址对非结构化的第一网页进行分析处理,以将所述第一网页转换为结构化的第二网页,然后根据所述第二网页分析整理网页数据,并将整理得到的网页数据显示于预设用户界面上,接着接收对所述预设用户界面上的网页数据的抓取选择操作,并对被选的网页数据进行自动化采集。这样,只要用户会上网就能采集网页数据,用户仅需输入网址和在可视化的该预设用户界面上进行如点选操作确定所需数据,所见即所得的界面,可视化流程,无需懂技术,点点如鼠标马上即可获取自己想要的数据,进而实现智能傻瓜式的操作。另外,也无需针对新的网页需求或者网页改版而相应开发做抓取程序的适配,在一定程度上可以减少不必要的人力财力的成本,经济方便。
需要说明的是,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。另外,也易于理解的是,这些步骤可以是例如在多个模块/进程/线程中同步或异步执行。
参考图3中所示,本公开实施例还提供一种用户自由点选配置的网页数据采集系统,该系统100可以包括数据分析转换模块101、数据整理显示模块102和数据选取采集模块103;其中:
所述数据分析转换模块101,用于接收用户输入的预设网址,根据所述预设网址对与该预设网址对应的第一网页进行分析处理,以将所述第一网页转换为第二网页;其中所述第一网页包括非结构化数据,所述第二网页包括转换后的结构化数据;
所述数据整理显示模块102,用于根据所述第二网页分析整理网页数据,并将整理得到的网页数据显示于预设用户界面上;
所述数据选取采集模块103,用于接收对所述预设用户界面上的网页数据的抓取选择操作,并对被选的网页数据进行自动化采集。
本公开的实施例中,所述数据分析转换模块101,具体用于根据所述预设网址获取所述第一网页,对所述第一网页进行网页模型构建;根据构建的网页模型对所述第一网页进行分析以将所述第一网页转换为所述第二网页。
进一步的,本公开的实施例中,所述数据分析转换模块101,具体用于:基于所述网页模型由后台采集引擎智能分析所述第一网页,以去除所述第一网页中无关的预设非结构化数据,进而将所述第一网页转换为结构化数据的所述第二网页。
本公开的实施例中,所述数据选取采集模块103,具体用于通过构建数据采集任务在后台实现自动化采集被选的网页数据,并实时将采集的网页数据推送给用户。
在本公开的实施例中,所述预设用户界面可以包括多个用于点选的预设控件,所述网页数据可以包括多个不同类别的数据,且每个所述预设控件关联一个类别的数据;相应的,所述数据选取采集模块103,可以用于接收对所述预设用户界面上的所述预设控件的触控操作,以将与该预设控件关联的网页数据确定为所述被选的网页数据。
需要说明的是,关于上述系统实施例,具体可参考前述方法实施例部分的详细描述,此处不再赘述。
在本公开上述各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能终端、个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质可以包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
总之,本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由所附的权利要求指出。
Claims (10)
1.一种用户自由点选配置的网页数据采集方法,其特征在于,该方法包括:
接收用户输入的预设网址,根据所述预设网址对与该预设网址对应的第一网页进行分析处理,以将所述第一网页转换为第二网页;其中所述第一网页包括非结构化数据,所述第二网页包括转换后的结构化数据;
根据所述第二网页分析整理网页数据,并将整理得到的网页数据显示于预设用户界面上;
接收对所述预设用户界面上的网页数据的抓取选择操作,并对被选的网页数据进行自动化采集。
2.根据权利要求1所述采集方法,其特征在于,所述根据所述预设网址对与该预设网址对应的第一网页进行分析处理,以将所述第一网页转换为第二网页的步骤,包括:
根据所述预设网址获取所述第一网页,对所述第一网页进行网页模型构建;
根据构建的网页模型对所述第一网页进行分析以将所述第一网页转换为所述第二网页。
3.根据权利要求2所述采集方法,其特征在于,基于所述网页模型由后台采集引擎智能分析所述第一网页,以去除所述第一网页中无关的预设非结构化数据,进而将所述第一网页转换为结构化数据的所述第二网页。
4.根据权利要求1~3任一项所述采集方法,其特征在于,所述对被选的网页数据进行自动化采集的步骤,包括:
通过构建数据采集任务在后台实现自动化采集被选的网页数据,并实时将采集的网页数据推送给用户。
5.根据权利要求4所述采集方法,其特征在于,所述预设用户界面包括多个用于点选的预设控件,所述网页数据包括多个不同类别的数据,且每个所述预设控件关联一个类别的数据;所述接收对所述预设用户界面上的网页数据的抓取选择操作的步骤,包括:
接收对所述预设用户界面上的所述预设控件的触控操作,以将与该预设控件关联的网页数据确定为所述被选的网页数据。
6.一种用户自由点选配置的网页数据采集系统,其特征在于,该系统包括:
数据分析转换模块,用于接收用户输入的预设网址,根据所述预设网址对与该预设网址对应的第一网页进行分析处理,以将所述第一网页转换为第二网页;其中所述第一网页包括非结构化数据,所述第二网页包括转换后的结构化数据;
数据整理显示模块,用于根据所述第二网页分析整理网页数据,并将整理得到的网页数据显示于预设用户界面上;
数据选取采集模块,用于接收对所述预设用户界面上的网页数据的抓取选择操作,并对被选的网页数据进行自动化采集。
7.根据权利要求6所述采集系统,其特征在于,所述数据分析转换模块,具体用于:
根据所述预设网址获取所述第一网页,对所述第一网页进行网页模型构建;
根据构建的网页模型对所述第一网页进行分析以将所述第一网页转换为所述第二网页。
8.根据权利要求7所述采集系统,其特征在于,所述数据分析转换模块,具体用于:基于所述网页模型由后台采集引擎智能分析所述第一网页,以去除所述第一网页中无关的预设非结构化数据,进而将所述第一网页转换为结构化数据的所述第二网页。
9.根据权利要求6~8任一项所述采集系统,其特征在于,所述数据选取采集模块,具体用于通过构建数据采集任务在后台实现自动化采集被选的网页数据,并实时将采集的网页数据推送给用户。
10.根据权利要求9所述采集系统,其特征在于,所述预设用户界面包括多个用于点选的预设控件,所述网页数据包括多个不同类别的数据,且每个所述预设控件关联一个类别的数据;
所述数据选取采集模块,用于接收对所述预设用户界面上的所述预设控件的触控操作,以将与该预设控件关联的网页数据确定为所述被选的网页数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711033606.5A CN107798101A (zh) | 2017-10-30 | 2017-10-30 | 用户自由点选配置的网页数据采集方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711033606.5A CN107798101A (zh) | 2017-10-30 | 2017-10-30 | 用户自由点选配置的网页数据采集方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107798101A true CN107798101A (zh) | 2018-03-13 |
Family
ID=61547811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711033606.5A Pending CN107798101A (zh) | 2017-10-30 | 2017-10-30 | 用户自由点选配置的网页数据采集方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107798101A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256256A (zh) * | 2020-09-28 | 2021-01-22 | 广州掌淘网络科技有限公司 | 一种用于采集网页数据的方法与设备 |
CN112580004A (zh) * | 2020-12-23 | 2021-03-30 | 北京通付盾人工智能技术有限公司 | 一种基于生物探针技术的网页端用户行为采集方法及系统 |
CN113741766A (zh) * | 2021-11-08 | 2021-12-03 | 山东捷瑞数字科技股份有限公司 | 一种面向网页代码的可视化采集工具 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102214179A (zh) * | 2010-04-12 | 2011-10-12 | 无锡科利德斯科技有限公司 | 网络信息抓取方法 |
CN102546771A (zh) * | 2011-12-27 | 2012-07-04 | 西安博构电子信息科技有限公司 | 基于特征模型的云挖掘网络舆情监测系统 |
CN103984749A (zh) * | 2014-05-27 | 2014-08-13 | 电子科技大学 | 一种基于链接分析的聚焦爬虫方法 |
CN105426549A (zh) * | 2015-12-29 | 2016-03-23 | 北京金山安全软件有限公司 | 一种读取网页资源的方法、装置及电子设备 |
CN105824908A (zh) * | 2016-03-15 | 2016-08-03 | 中国人民解放军装甲兵工程学院 | 一种层次结构数据的快速采集方法 |
-
2017
- 2017-10-30 CN CN201711033606.5A patent/CN107798101A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102214179A (zh) * | 2010-04-12 | 2011-10-12 | 无锡科利德斯科技有限公司 | 网络信息抓取方法 |
CN102546771A (zh) * | 2011-12-27 | 2012-07-04 | 西安博构电子信息科技有限公司 | 基于特征模型的云挖掘网络舆情监测系统 |
CN103984749A (zh) * | 2014-05-27 | 2014-08-13 | 电子科技大学 | 一种基于链接分析的聚焦爬虫方法 |
CN105426549A (zh) * | 2015-12-29 | 2016-03-23 | 北京金山安全软件有限公司 | 一种读取网页资源的方法、装置及电子设备 |
CN105824908A (zh) * | 2016-03-15 | 2016-08-03 | 中国人民解放军装甲兵工程学院 | 一种层次结构数据的快速采集方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112256256A (zh) * | 2020-09-28 | 2021-01-22 | 广州掌淘网络科技有限公司 | 一种用于采集网页数据的方法与设备 |
CN112580004A (zh) * | 2020-12-23 | 2021-03-30 | 北京通付盾人工智能技术有限公司 | 一种基于生物探针技术的网页端用户行为采集方法及系统 |
CN113741766A (zh) * | 2021-11-08 | 2021-12-03 | 山东捷瑞数字科技股份有限公司 | 一种面向网页代码的可视化采集工具 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105512687A (zh) | 训练情感分类模型和文本情感极性分析的方法及系统 | |
CN102915335B (zh) | 基于用户操作记录和资源内容的信息关联方法 | |
CN103729446A (zh) | 一种用户操作数据的处理方法、处理装置及服务器 | |
CN104199974A (zh) | 一种面向微博的动态主题检测与演变追踪方法 | |
CN108021651B (zh) | 一种网络舆情风险评估方法及装置 | |
Olmezogullari et al. | Representation of click-stream datasequences for learning user navigational behavior by using embeddings | |
CN106649527B (zh) | 基于Spark Streaming的广告点击异常检测系统及检测方法 | |
CN103226578A (zh) | 面向医学领域的网站识别和网页细分类的方法 | |
CN103577556A (zh) | 一种获取问答对的相关联程度的装置和方法 | |
CN107798101A (zh) | 用户自由点选配置的网页数据采集方法及系统 | |
WO2021184527A1 (zh) | 一种舆情信息中敏感信息的智能挖掘系统 | |
CN106227885A (zh) | 一种大数据的处理方法、装置及终端 | |
CN112311803B (zh) | 一种规则库更新方法、装置、电子设备及可读存储介质 | |
CN103116635B (zh) | 面向领域的暗网资源采集方法和系统 | |
Jha et al. | A review on the study and analysis of big data using data mining techniques | |
CN103198078B (zh) | 一种互联网新闻事件报道趋势分析方法及系统 | |
CN106844588A (zh) | 一种基于网络爬虫的用户行为数据的分析方法及系统 | |
CN103761246A (zh) | 一种基于链接网络的用户领域识别方法及其装置 | |
CN104750812A (zh) | 一种基于网页标签分析的数据自动采集方法 | |
CN104361061A (zh) | 一种web页面信息感知采集方法 | |
CN103886078A (zh) | 一种通用的新闻评论采集方法及装置 | |
Silpa et al. | Enriched big data pre-processing model with machine learning approach to investigate web user usage behaviour | |
CN105159886A (zh) | 一种基于凭证摘要文本的孤立点检测方法及系统 | |
Herder et al. | Interactive web usage mining with the navigation visualizer | |
CN109522466B (zh) | 一种分布式爬虫系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180313 |