CN113190753A - 数据采集方法和装置、电子设备、计算机可读介质 - Google Patents

数据采集方法和装置、电子设备、计算机可读介质 Download PDF

Info

Publication number
CN113190753A
CN113190753A CN202110506712.0A CN202110506712A CN113190753A CN 113190753 A CN113190753 A CN 113190753A CN 202110506712 A CN202110506712 A CN 202110506712A CN 113190753 A CN113190753 A CN 113190753A
Authority
CN
China
Prior art keywords
data
library
internet
screening
link
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110506712.0A
Other languages
English (en)
Other versions
CN113190753B (zh
Inventor
刘伟
余文利
陈由之
王鹏
杨国强
张博
林赛群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202110506712.0A priority Critical patent/CN113190753B/zh
Publication of CN113190753A publication Critical patent/CN113190753A/zh
Application granted granted Critical
Publication of CN113190753B publication Critical patent/CN113190753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本公开提供了一种数据采集方法和装置,涉及数据处理技术领域,具体涉及自然语言处理、图像处理等技术领域。具体实现方案为:获取互联网数据以及所述互联网数据的反馈特征;对互联网数据进行数据格式筛选,并将筛选后的数据存储至筛选库;基于所述反馈特征和所述互联网数据的全链路特征,对筛选库中的数据进行分层处理,并将分层后的数据存储至分层库;基于所述分层库中各个数据的层级,调整所述筛选库中与所述分层库的数据对应的数据。该实施方式提高了采集有效互联网数据的准确率。

Description

数据采集方法和装置、电子设备、计算机可读介质
技术领域
本公开涉及数据处理技术领域,具体涉及自然语言处理、图像处理等 技术领域,尤其涉及一种数据采集方法和装置、电子设备、计算机可读介 质以及计算机程序产品。
背景技术
互联网数据主体是网页数据,对这些网页数据的筛选挖掘,一般采用 对网页进行全量判断的网页的单层筛选方式。
针对网页的单层筛选方式,需要处理全部网页,这要求网页的全量获 取、存储和计算,存储和计算资源存在巨大压力。
发明内容
提供了一种数据采集方法和装置、电子设备、计算机可读介质以及计 算机程序产品。
根据第一方面,提供了一种数据采集方法,该方法包括:获取互联 网数据以及互联网数据的反馈特征;对互联网数据进行数据格式筛选, 并将筛选后的数据存储至筛选库;基于反馈特征和互联网数据的全链路 特征,对筛选库中的数据进行分层处理,并将分层后的数据存储至分层 库;基于分层库中各个数据的层级,调整筛选库中与分层库的数据对应 的数据。
根据第二方面,提供了一种数据采集装置,该装置包括:获取单 元,被配置成获取互联网数据以及互联网数据的反馈特征;筛选单元, 被配置成对互联网数据进行数据格式筛选,并将筛选后的数据存储至筛 选库;优化单元,被配置成基于反馈特征和互联网数据的全链路特征, 对筛选库中的数据进行分层处理,并将分层后的数据存储至分层库;调 整单元,被配置成基于分层库中各个数据的层级,调整筛选库中与分层 库的数据对应的数据。
根据第三方面,提供了一种电子设备,该电子设备包括:至少一个处 理器;以及与至少一个处理器通信连接的存储器,其中,存储器存储有可 被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一 个处理器能够执行如第一方面任一实现方式描述的方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存 储介质,计算机指令用于使计算机执行如第一方面任一实现方式描述的方 法。
根据第五方面,提供了一种计算机程序产品,包括计算机程序,计算 机程序在被处理器执行时实现如第一方面任一实现方式描述的方法。
本公开的实施例提供的数据采集方法和装置,首先,获取互联网数据 以及互联网数据的反馈特征;其次,对互联网数据进行数据格式筛选,并 将筛选后的数据存储至筛选库;从次,基于反馈特征和互联网数据的全链 路特征,对筛选库中的数据进行分层处理,并将分层后的数据存储至分层 库。最后,基于分层库中各个数据的层级,调整筛选库中与分层库的数据 对应的数据。由此,对互联网数据进行格式筛选,去除互联网数据中无效 数据,减小了网络资源存储和计算的压力;基于反馈特征和互联网数据的 全链路特征,对筛选后的数据进行分层处理,实现了互联网数据多层筛选 过滤;基于分层库中各个数据的层级,调整筛选库中与分层库的数据对应 的数据,可以保证全链路各个环节的协调合作,当优化后的互联网数据再 次投入互联网,可以使互联网数据形成一个良性循环。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键 或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下 的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开数据采集方法的一个实施例的流程图;
图2是根据本公开数据采集方法的另一个实施例的流程图;
图3是根据本公开数据采集方法的第三个实施例的流程图;
图4是本公开的实施例中互联网数据循环结构示意图;
图5是根据本公开数据采集装置的实施例的结构示意图;
图6是用来实现本公开实施例的数据采集方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实 施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本 领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和 修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的 描述中省略了对公知功能和结构的描述
图1示出了根据本公开数据采集方法的一个实施例的流程100,上述 数据采集方法包括以下步骤:
步骤101,获取互联网数据以及互联网数据的反馈特征。
本实施例中,数据采集方法运行于其上的执行主体可以实时从互联网 中获取互联网数据,其中,互联网数据可以包括:网页数据、链接数据等, 链接数据可以是URL(Uniform Resource Locator,统一资源定位符),或 者是分配了URL的图片或文本等,URL是互联网上标准资源的地址。互 联网上的每个文件都有一个唯一的URL,它包含的信息指出互联网上文件 的位置以及浏览器应该处理它。
网页数据是可以在互联网上传输,并被浏览器识别和翻译成页面显示 出来的数据,网页数据可以是网页的页面,页面包括图片、布局样式、音 乐等。
本实施例中,数据采集方法运行于其上的执行主体在获取到互联网数 据之后,还可以同时获取与互联网数据相关的信息,例如,用户对互联网 数据进行操作的操作信息,同站点下相同类型的互联网数据的生产规模等, 通过对与互联网数据相关的信息进行数据分析,得到互联网数据的反馈特 征,反馈特征是用于表征互联网数据被互联网传输生产或者用户需求的特 征,通过反馈特征可以反应互联网数据被需求或者被生产的累积量。
反馈特征是用户对互联网资源进行访问、增加、删除等操作后所记录 的特征,反馈特征可以包括用户行为特征和用户评价特征等,其中用户行 为特征用于反映互联网数据的被用户访问的访问量的大小,比如:用户的 点击量、用户的浏览时长等;用户评价特征用于为获取的用户对互联网数 据进行的主观的评价值,比如,用户对网页的点赞、对网页的正向评论等。
本实施例中,用户行为特征可以通过访问用户行为日志得到,而全链 路累计特征需要由独立的数据模块实时记录。
步骤102,对互联网数据进行数据格式筛选,并将筛选后的数据存储 至筛选库。
本实施例中,互联网数据是与互联网行业相关的数据,互联网数据具 有互联网的特征,并且互联网数据具备在互联网传输的固定数据格式,当 一些互联网数据(例如,垃圾搜索链接,空白网页等)的数据格式完全不 符合有效或者合理的数据表示形式,则该互联网数据为无效数据。
本实施例中,上述执行主体在对互联网数据进行数据格式筛选可以包 括:对互联网数据进行处理,例如,该处理包括图像识别、自然语言识别 结构分析等,基于对互联网数据的处理结果确定互联网数据是否满足预设 的互联网数据格式,若满足,将满足互联网数据格式的数据存储至筛选库。 本实施例中,筛选库是一种数据库,可以采用不同的数据结构,存储对互 联网数据进行筛选后的数据。
步骤103,基于反馈特征和互联网数据的全链路特征,对筛选库中的 数据进行分层处理,并将分层后的数据存储至分层库。
本实施例中,对数据进行分层处理是指对互联网数据进行优先级排序, 各个互联网数据可以以数据的关键词作为索引,基于反馈特征确定各互联 网数据的优先级级别,优先级级别越高的互联网数据的其层级越高,而优 先级级别越低的互联网数据的其层级越低。
本实施例中,全链路是指互联网数据在数据格式筛选、数据分层整个 过程途径的网络节点形成的链路。全链路特征包括:互联网中各个节点的 自身特征以及各个节点的全链路累计特征,其中,各个节点的自身特征用 于反映当前节点的属性特征,比如,链接特征(链接长相、后缀、长度、 前链接信息等),全链路累计特征用于反映互联网数据在链路中累计的共 享特征,比如:同站点下互联网数据的生产规模,链接量、网页量、非低 质数据占比或优质数据占比等,结合全链路特征和用户的反馈特征,对筛 选库中的数据进行分层处理,并将分层后的数据存储至分层库。
上述结合全链路特征和用户的反馈特征,对筛选后的数据进行分层处 理包括:基于全链路累计特征和用户行为特征,确定筛选后的各个数据的 价值量,基于各数据的价值量不同,确定与各个价值量对应层级,将属于 相同层级的数据划分在一起,得到分层后的数据。例如,非低质互联网数 据的比例越高,且用户点击量大,浏览时越长,确定互联网数据的价值越 高,则该高价值的互联网数据的层级越靠上。
步骤104,基于分层库中各个数据的层级,调整筛选库中与分层库的 数据对应的数据。
本实施例中,分层库中的最高层的数据可以再次投入互联网,作为向 用户展示的互联网数据,使用户得到最优质的网络资源。
本实施例中,分层库中的数据是由互联网数据经过层层筛选后得到的, 两库通过共同的标识(比如,URL)可以区分同一源头的互联网数据,而 为了优化筛选库中的数据,当对互联网数据进行数据格式筛选之后,还可 以基于不同数据在分层库中的层级调整筛选库中与分层库的数据对应的 数据。
上述调整数据包括删除和/或、增加数据等手段,例如,同时存储在筛 选库和分层库中的第一数据和第二数据,如果第二数据在分层库中处于层 级的最底层,则通过删除筛选库中的第二数据,可以达到优化筛选库的目 的;可选地,在删除筛选库中的第二数据之后,基于数据库的同步机制, 还可以删除分层库的第二数据。再如,第一数据在分层库中处于层级的最 高层,即优先级最高,则可以搜索互联网数据中与第一数据具有依赖关系 的数据,并在筛选库增加该与第一数据具有依赖关系的数据,从而利于数 据的丰富度;可选地,分层库同时也增加该与第一数据具有联系的数据。
在本实施例的一些可选实现方式中,上述基于分层库中各个数据的层 级,调整筛选库中与分层库的数据对应的数据,包括:确定所述分层库中 属于最低层级的数据,删除所述筛选库中与所述最低层级的数据对应 的数据。
本可选实现方式中,首先确定分层库中的属于最低层级的数据,其次 确定与该最低层级的数据对应的数据标识,再次,确定筛选库中与该最低 层级的数据对应的数据标识对应的数据,最后删除筛选库中与该最低层级 的数据对应的数据标识对应的数据。
本可选实现方式中,在确定分层库中最低层级的数据中,删除筛选库 中相对应的数据,从而优化了筛选库中的数据,保证了筛选库中数据的有 效性。
本公开的实施例提供的数据采集方法,首先,获取互联网数据以及互 联网数据的反馈特征;其次,对互联网数据进行数据格式筛选,并将筛选 后的数据存储至筛选库;从次,基于反馈特征和互联网数据的全链路特征, 对筛选库中的数据进行分层处理,并将分层后的数据存储至分层库。最后, 基于分层库中各个数据的层级,调整筛选库中与分层库的数据对应的数据。 由此,对互联网数据进行数据格式筛选,去除互联网数据中无效数据,减 小了网络资源存储和计算的压力;基于反馈特征和互联网数据的全链路特 征,对筛选后的数据进行分层处理,实现了互联网数据多层筛选过滤;基 于分层库中各个数据的层级,调整筛选库中与分层库的数据对应的数据, 可以保证全链路各个环节的协调合作,当优化后的互联网数据再次投入互 联网,可以使互联网数据形成一个良性循环。
图2示出了根据本公开数据采集方法的另一个实施例的流程图200, 上述数据采集方法包括以下步骤:
步骤201,获取互联网数据以及互联网数据的反馈特征。
步骤202,对互联网数据进行数据格式筛选,并将筛选后的数据存储 至筛选库。
步骤203,基于反馈特征和互联网数据的全链路特征,对筛选库中的 数据进行分层处理,并将分层后的数据存储至分层库。
步骤204,基于分层库中各个数据的层级,调整筛选库中与分层库的 数据对应的数据。
应当理解,上述步骤201-步骤204中的操作和特征,分别与步骤101- 104中的操作和特征相对应,因此,上述在步骤101-104中对于操作和特 征的描述,同样适用于步骤201-步骤204,在此不再赘述。
步骤205,接收用户的访问请求。
本实施例中,用户的访问请求是指用户对互联网上的资源进行操作的 后发出的获取互联网数据的请求,例如,该请求包括:浏览网页或者得到 URL等。
步骤206,基于访问请求,向用户展示分层库中的数据。
本实施例中,数据采集方法运行于其上的执行主体,在得到访问请求 之后,向用户展示分层库中的数据。进一步的,向用户展示的分层库中的 数据是与访问请求相关的数据,并且展示的数据还可以是分层库中最高层 级的数据或者前预设层级(比如3层级)中的数据。
本实施例中,基于反馈特征,对筛选库中的数据进行分层处理包括: 基于反馈特征,对筛选库中各个数据进行优先级排序,得到不同优先级的 数据。
可选地,上述数据采集方法还可以包括:管理(增加、删除、查询等) 筛选库和分层库中的互联网数据,以此实现了筛选库中数据与分层库中的 数据同步。
上述数据采集方法还可以包括:获取的筛选库和分层库中所有相同互 联网数据的数据标识,基于数据标识,使筛选库和分层库中的数据同步。 例如互联网数据采用url作为数据标识,则通过使筛选库与分层库中具有 相同url的数据的内容相同可以达到信息同步的目的,如:某个环节中与 一数据标识对应数据被标记为垃圾数据,则将筛选库和分层库中与该标记 对应的所有互联网数据进行删除或打压,可以保证所有互联网数据的同步。本实施例中,通过下游数据到上游的同步,可以保障全链路中靠近源头的 高价值互联网数据可靠保存和垃圾数据的提前过滤。
本实施例中,基于用户的访问请求,向用户展示分层库中的数据,从 而保证用户得到的互联网数据为较优数据,为用户优化了互联网资源,保 证了筛选库和分层库形成的链路的数据的良性循环。
在本实施例的一些可选实现方式中,上述数据采集方法还包括:接收 新的互联网数据以及新的互联网数据的反馈特征;基于新的互联网数据的 反馈特征和新的互联网数据的全链路特征,调整分层库中各个数据的层级; 基于分层库中各个数据的层级,对新的互联网数据进行筛选与存储。
本可选实现方式中,新的互联网数据是互联网中实时新产生的数据, 新的互联网数据还可以是数据采集方法运行于其上的执行主体在得到用 户访问请求之后,向用户展示分层库中的数据,再接收到的数据(即将优 化后的互联网数据再次投入互联网后得到的新的互联网数据)。
本实施例中,执行主体在得到新的互联网数据的同时,实时采集用户 对每个新的互联网数据的反馈特征,以及新的互联网数据在全链路中的全 链路特征。进一步地,随着新的互联网数据的变化和全链路特征的累计, 调整分层库中各个数据的层级,可以保证分层库中各个层级的划分精确度。
本可选实现方式中,基于分层库中各个数据的层级,对新的互联网数 据进行筛选可以包括:滤除新的互联网数据中属于分层库的底层层级的数 据。
本可选实现方式,基于分层库中各个数据的层级,筛选新的互联网数 据,可以保障全链路中靠近源头的高价值互联网数据的保留和垃圾数据的 提前过滤,并且可以在由分层库优化后的互联网数据再次投入互联网后, 使全链路形成一个良性循环。
针对上述实施例,在本实施例的一些可选实现方式中,上述数据采集 方法还包括:分别对分层后的数据和筛选库中的数据进行采样,并将采样 后的数据存储至样本库;从样本库抽取样本,并基于抽取的样本训练全链 路模型,全链路模型用于确定样本库的数据的分布状态。
本可选实现方式中,全链路模型基于样本库中的样本进行训练,得到 的训练完成的全链路模型,全链路模型可以确定互联网数据分别在筛选库、 分层库中的数据分布数量、以及同时在筛选库和分层库中的分布数量,由 此确定样本库的各个数据的分布状态。例如,样本库中属于筛选库的数据 满足正态分布。本可选实现方式中,对互联网数据进行筛选和分层的过程 中,会导致各个环节可见数据有偏见,通过对分层后的数据和筛选库中的 数据进行采样,保留整个全链路的样本,基于全链路的样本可以确定各个 数据中数据的实际分布。
本可选实现方式中,通过采样分层后的数据和筛选库中的数据,建立 全链路的样本库存储整个链路的样本,以通过样本库确定互联网数据的实 际分布,为模型训练或数据样本采集等场景提供了可靠的样本数据依据。
在本实施例的一些可选实现方式中,可以检测样本库中所有数据是否 符合预设的全链路分布状态,若符合预设的全链路分布状态,确定互联网 数据在全链路分布正常。
本可选实现方式中,预设的全链路分布状态可以基于互联网数据的生 成需求确定,比如,筛选库的数据在全链路数据中的占比为80%,分层库 在全链路数据中的占比为20%。
本可选实现方式中,样本库中所有数据的分布状态可以通过数据统计 工具得到,数据统计工具用于统计不同数据库(筛选库、分层库)中的数 量和状态(正常使用、未使用)。
本可选实现方式中,样本库中所有数据的分布状态还可以由上述全链 路模型得到的样本库的各个数据的分布状态。
本可选实现方式中,通过样本库中的数据分布,为确定全链路的数据 实际分布,提供了可靠的数据依据。
互联网的网页数据发现本身是一个从链接发现,再到网页抓取的分步 过程,本实施例提供的互联网数据可以是链接数据,通过对链接数据进行 网页抓取可以得到与链接数据对应的网页数据。具体地,在本实施例的一 些可选实现方式中,互联网数据包括:链接数据,筛选库包括:链接库和 网页库;对互联网数据进行数据格式筛选,并将筛选后的数据存储至筛选 库包括:去除链接数据中符合预设链接格式的数据,得到筛选后的链接数 据,将筛选后的链接数据存储至链接库;基于链接库中所有链接数据,得 到抓取网页数据;去除抓取网页数据中符合预设网页条件的网页数据,得 到筛选后的抓取网页数据,将筛选后的抓取网页数据存储至网页库。
本可选实现方式中,符合预设链接格式的数据是指符合无效的链接格 式的链接数据,例如,无法访问到有效信息的链接。预设网页条件的网页 数据是指符合无效的网页格式的网页数据,例如,页面为空白的网页,或 者页面内容为死链的网页均为无效的网页格式。
本可选实现方式中,在得到抓取网页数据之后,对所有当前抓取网页 数据中的文本数据进行自然语言处理,确定文本的语义;和/或对抓取网页 数据中的图像数据进行图像处理,确定图像含义。基于上述语义和/或图像 含义可以确定网页数据的页面价值量;当页面无价值时,确定当前抓取网 页数据为符合预设网页条件的网页数据;当页面价值量较大时,确定当前 抓取网页数据为不符合预设网页条件的网页数据。
本可选实现方式中,对互联网数据进行数据格式筛选,可以筛除不符 合实际格式需求的垃圾链接数据,仅保留高价值的链接数据;进一步地, 对保留的高价值的链接数据进行网页数据抓取,得到抓取网页数据;去除 抓取网页数据中符合预设网页条件的网页数据,可以仅保留高价值的网页 数据,并且仅有高价值的网页数据下发数据下游,垃圾网页数据在下游中 不可见。
本可选实现方式中,链接库存储的是链接数据,网页库存储的是网页 数据,链接库与网页库中同一个互联网数据可以通过同一个url进行标识。 如图4所示,网页库的数据是链接库下层的数据,在全链路中虽然层层过 滤,但由于增加了反馈特征的信息,越向下层互联网数据的内容和特征越 丰富,筛选后互联网数据的质量和精度也越好。
本可选实现方式中,基于链接类特征,对链接数据进行筛选,仅保留 高价值链接数据进行存储;基于网页类特征,对网页数据进行筛选,仅将 高价值网页数据下发下游,垃圾网页下游不可见,由此,实现了筛选得到 的互联网数据的可靠性。
在本实施例的一些可选实现方式中,预设链接格式的数据包括以下一 项或多项:垃圾搜索链接、搜索留痕链接、无价值链接、以及命名中存在 预设的符号或/和关键词链接。
链接数据的信息来源为url,由于url的命名和生产方法具有一定规则, 如:垃圾搜索链接、搜索留痕链接、无价值链接中均可能存在大量“&”、 “_”、“?”、关键词等信息。而“&”、“_”、“?”为预设的 符号或/和关键词。
对于垃圾搜索链接、搜索留痕链接、无价值链接也各自具有各自的特 征,如下所示链接:
https://car.yiche.com/xuanchegongju/?t=4_1421936413593&mid=37&more=1 92_247_264,为一种无价值链接。
再如,“http://www.jdwxw.cn/search.php?searchsubmit=yes”是一种低 价值或者无价值链接,该低价值或者无价值链接对用户没有任何价值。
本可选实现方式中,为预设链接格式设置链接筛选条件,便于去除链 接数据中无效数据,提高了链接数据筛选的可靠性。
本实施例中,互联网数据可以是链接数据和初始网页数据,通过对链 接数据进行网页抓取可以得到与链接数据对应的网页数据。在本实施例的 一些可选实现方式中,上述互联网数据还可以包括:初始网页数据,对互 联网数据进行数据格式筛选,并将筛选后的数据存储至筛选库还包括:去 除初始网页数据中符合预设网页条件的网页数据,得到筛选后的初始网页 数据,将筛选后的初始网页数据存储至网页库。
本可选实现方式中,初始网页数据是指获取到互联网数据中自身携带 的网页数据,相对于从链接数据中抓取得到的网页数据,初始网页数据无 需进行抓取,便可以得到页面信息(页面布局、页面样式等)。通过分析 初始网页数据的页面信息便可以确定初始网页对应的页面是否为无价值 的页面,也即符合预设网页条件的网页数据。
本可选实现方式中,当互联网数据包括网页数据和链接数据时,分别 对链接数据和网页进行筛选,并将筛选后的链接数据存储至链接库,将筛 选后的网页数据存储至网页库,实现了对不同类型数据的有效处理,提高 了数据采集的可靠性。
本实施例中,互联网数据可以是初始网页数据,通过对网页数据进行 筛选可以得到筛选后的网页数据。在本实施例的一些可选实现方式中,互 联网数据包括:初始网页数据,筛选库包括:网页库;对互联网数据进行 数据格式筛选,并将筛选后的数据存储至筛选库包括:去除初始网页数据 中符合预设网页条件的网页数据,得到筛选后的初始网页数据,将筛选后 的初始网页数据存储至网页库。
本可选实现方式中,针对互联网数据中仅具有初始网页数据的情况, 可以仅对初始网页数据进行无效网页分析,从而确定初始网页对应的页面 是否为无价值的页面,也即符合预设网页条件的网页数据。
本可选实现方式中,当互联网数据仅包括初始网页数据时,通过对初 始网页数据进行筛选,可以将筛选后的初始网页数据存储至网页库,为互 联网数据的处理提供了一种可靠性的实现方式。
图3示出了根据本公开数据采集方法的第三个实施例的流程图300, 上述数据采集方法包括以下步骤:
步骤301,获取链接数据。
如图4所示,可以从互联网中获取链接数据,互联网中具有海量的互 联网数据,互联网数据的规模和生产能力已经达到万亿级别。对如此大规 模数据进行挖掘,资源存储和计算的成本是非常巨大的。
步骤302,去除链接数据中符合预设链接格式的数据,得到筛选后的 链接数据。
在图4中,链接库中存储的数据为经过筛选的链接数据,从互联网得 到的链接数据需要经过预设链接格式的数据的去除,得到链接库中存储的 数据。
步骤303,将筛选后的链接数据存储至链接库。
如图4,链接库中的链接数据为对用户有效的数据,相对于初始的互 联网数据,数据量从万亿级别降低到数万亿,互联网数据的数据量相对减 小。
步骤304,基于链接库中所有链接数据,得到抓取网页数据。
本实施例中,对链接库中的所有链接数据进行网页抓取,得到与所有 链接数据对应的网页数据。
步骤305,去除抓取网页数据中符合预设网页条件的网页数据,得到 筛选后的抓取网页数据。
如图4所示,去除抓取网页数据中符合预设网页条件的网页数据,可 以使数据量从数万亿级别降低到数千亿级别,数据量明显减小。
步骤306,将筛选后的抓取网页数据存储至网页库。
步骤307,基于反馈特征和互联网数据的全链路特征,对链接库和网 页库中的数据进行分层处理,得到分层后的数据。
步骤308,将分层后的数据存储至分层库。
本实施例中,对链接库和网页库中的数据进行分层处理,得到分层后 的数据,可以使数据量从数千亿级别降低到千亿级别,数据量明显减小。
步骤309,基于分层库中各个数据的层级,分别调整网页库、链接库 中与分层库的数据对应的数据。
如图4所示,基于分层库中各个数据的层级,调整筛选库中与分层库 的数据对应的数据实现了网页库、链接库和分层库的信息同步,保证数据 有效性。
步骤310,对分层库、网页库、链接库中的数据进行采样,并将采样 后的数据存储至样本库。
如图4所示,分别对分层库、网页库、链接库中的数据进行部分数据 选取,并存储至样本库,可以使样本库中具有分层库、网页库以及链接库 三方的数据。
步骤311,从样本库抽取样本,并基于抽取的样本训练全链路模型。
操作人员可以实时从样本库中检测全链路中各个部分的数据分布,并 且样本库中的数据可用于全链路模型的训练,进一步地,样本库中的数据 还可以应用于与数据采集相关的数据模型的训练。
本实施例中,可以将分层库中的数据发送给用户,可以保证用户得到 的数据为用户感兴趣、且在流动性较大的数据。进一步地,还可以通过用 户反馈和用户行为数据对全链路进行调整和校验,如检测到某个站点优质 互联网数据的占比较高,则对这个站点分配调度流量增加,该站点涉及的 互联网数据的在各个筛选库中分层更向上;相反则下调配额和分层甚至封 禁。
本实施例中,全链路中所有数据是不断变化的,通过长期动态的、不 断调节校验,最终使全链路的互联网数据平衡,则全链路形成一个协同的 良性循环。
本实施例提供的数据采集方法,对互联网数据中的链接数据进行筛选 和存储,基于链接库中所有链接数据,得到抓取网页数据,对所有抓取网 页数据进行筛选和存储,将网页库和链接库中数据进行优先级排序,从而 在对互联网数据进行万亿级数据到千亿级的筛选之后,将互联网数据形成 了具有整体漏斗形态和用户核心关注数据的分层结构,同时促使了整个网 络链路形成一个协同良性的循环。
进一步参考图5,作为对上述各图所示方法的实现,本公开提供了数 据采集装置的一个实施例,该装置实施例与图1所示的方法实施例相对应, 该装置具体可应用于各种电子设备中。
如图5所示,本实施例提供的数据采集装置500包括:获取单元501, 筛选单元502,优化单元503,调整单元504。其中,上述获取单元501, 可以被配置成获取互联网数据以及互联网数据的反馈特征。上述筛选单元 502,可以被配置成对互联网数据进行数据格式筛选,并将筛选后的数据存 储至筛选库。上述优化单元503,可以被配置成基于反馈特征和互联网数 据的全链路特征,对筛选库中的数据进行分层处理,并将分层后的数据存 储至分层库。上述调整单元504,可以被配置成基于分层库中各个数据的 层级,调整筛选库中与分层库的数据对应的数据。
在本实施例中,数据采集装置500中:获取单元501,筛选单元502, 优化单元503,调整单元504的具体处理及其所带来的技术效果可分别参 考图1对应实施例中的步骤101、步骤102、步骤103、步骤104的相关说 明,在此不再赘述。
在本实施例的一些可选的实现方式中,上述调整单元504进一步被配 置成确定所述分层库中属于最低层级的数据,删除所述筛选库中与所述最 低层级的数据对应的数据。
在本实施例的一些可选的实现方式中,上述装置500还包括:采样单 元(图中未示出)、训练单元(图中未示出)。上述采样单元,被配置成 分别对分层库中的数据和筛选库中的数据进行采样,并将采样后的数据存 储至样本库。上述训练单元,被配置成从样本库抽取样本,并基于抽取的 样本训练全链路模型,全链路模型用于确定样本库的数据的分布状态。
在本实施例的一些可选实现方式中,上述装置500还包括:验证单元(图中未示出)。验证单元,被配置成响应于确定样本库中的所有数据符 合预设的全链路分布状态,确定互联网数据在全链路分布正常。
在本实施例的一些可选实现方式中,上述互联网数据包括:链接数据, 上述筛选库包括:链接库和网页库;上述筛选单元502包括:去除模块(图 中未示出),抓取模块(图中未示出),筛选模块(图中未示出),网存 模块(图中未示出)。其中,上述去除模块,可以被配置成去除链接数据 中符合预设链接格式的数据,得到筛选后的链接数据,将筛选后的链接数 据存储至链接库。上述抓取模块,可以被被配置成基于链接库中所有链接 数据,得到抓取网页数据。上述筛选模块,可以被配置成去除抓取网页数 据中符合预设网页条件的网页数据,得到筛选后的抓取网页数据。上述网 存模块,可以被配置成将筛选后的抓取网页数据存储至网页库。
在本实施例的一些可选实现方式中,上述预设链接格式的数据包括以 下一项或多项:垃圾搜索链接、搜索留痕链接、无价值链接、以及命名中 存在预设的符号或/和关键词链接。
在本实施例的一些可选实现方式中,上述互联网数据还包括:初始网 页数据,筛选单元502还包括:网筛模块(图中未示出),储存模块(图 中未示出)。其中,上述网筛模块,可以被配置成去除初始网页数据中符 合预设网页条件的网页数据,得到筛选后的初始网页数据。上述储存模块, 可以被配置成将筛选后的初始网页数据存储至网页库。
在本实施例的一些可选实现方式中,上述互联网数据包括:初始网页 数据,上述筛选库包括:网页库;筛选单元502包括:初筛模块(图中未 示出),初存模块(图中未示出)。其中,上述初筛模块,可以被配置成 去除初始网页数据中符合预设网页条件的网页数据,得到筛选后的初始网 页数据。上述初存模块,可以被配置成将筛选后的初始网页数据存储至网 页库。
在本实施例的一些可选的实现方式中,上述装置500包括:接收单元 (图中未示出)、展示单元(图中未示出)。上述排接收单元,被配置成 被配置成接收用户的访问请求。上述展示单元,被配置成基于访问请求, 向用户展示分层库中的数据。
在本实施例的一些可选的实现方式中,上述装置500还包括:反馈单 元(图中未示出)、分层单元(图中未示出)、处理单元(图中未示出)。 其中,上述反馈单元,被配置成接收新的互联网数据以及新的互联网数据 的反馈特征。上述分层单元,被配置成基于新的互联网数据的反馈特征和 新的互联网数据的全链路特征,调整分层库中各个数据的层级。上述处理 单元,被配置成基于分层库中各个数据的层级,对新的互联网数据进行筛 选与存储。
本公开的实施例提供的数据采集装置,首先,获取单元501获取互联 网数据以及互联网数据的反馈特征;其次,筛选单元502对互联网数据进 行数据格式筛选,并将筛选后的数据存储至筛选库;从次,优化单元503 基于反馈特征和互联网数据的全链路特征,对筛选库中的数据进行分层处 理,并将分层后的数据存储至分层库。最后,调整单元504基于分层库中 各个数据的层级,调整筛选库中与分层库的数据对应的数据。由此,对互 联网数据进行数据格式筛选,去除互联网数据中无效数据,减小了网络资 源存储和计算的压力;基于反馈特征,对筛选后的数据进行分层处理,实 现了互联网数据多层筛选过滤;基于分层库中各个数据的层级,调整筛选 库中与分层库的数据对应的数据,可以保证全链路各个环节的协调合作, 当优化后的互联网数据再次投入互联网,可以使互联网数据形成一个良性循环。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储 介质和一种计算机程序产品。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意 性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、 台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算 机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸 如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算 装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示 例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存 储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存 储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、 ROM 602以及RAM603通过总线604彼此相连。输入/输出(I/O)接口 605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例 如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存 储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调 器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计 算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理 组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图 形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机 器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的 处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如数据采集方法。例如,在一些实施例中,数据采集方法可被 实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元 608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和 /或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到 RAM 603并由计算单元601执行时,可以执行上文描述的数据采集方法的 一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他 任何适当的方式(例如,借助于固件)而被配置为执行数据采集方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路 系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、 专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设 备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些 各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者 多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/ 或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储 系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将 数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出 装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的 任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其 他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控 制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可 以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机 器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含 或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设 备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读 储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电 磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组 合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、 可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑 盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的 任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术, 该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线 管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠 标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算 机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的 反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉 反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入) 来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如, 作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、 或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器 的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处 描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部 件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络 的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此 并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具 有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
本公开的技术方案中,所涉及的用户个人信息的获取,存储和应用等, 均符合相关法律法规的规定,且不违背公序良俗。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或 删除步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执 行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的 结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术 人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、 子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和 改进等,均应包含在本公开保护范围之内。

Claims (15)

1.一种数据采集方法,所述方法包括:
获取互联网数据以及所述互联网数据的反馈特征;
对所述互联网数据进行数据格式筛选,并将筛选后的数据存储至筛选库;
基于所述反馈特征和所述互联网数据的全链路特征,对筛选库中的数据进行分层处理,并将分层后的数据存储至分层库,所述全链路特征为所述互联网数据在;
基于所述分层库中各个数据的层级,调整所述筛选库中与所述分层库的数据对应的数据。
2.根据权利要求1所述的方法,其中,所述基于所述分层库中各个数据的层级,调整所述筛选库中与所述分层库的数据对应的数据,包括:
确定所述分层库中属于最低层级的数据,删除所述筛选库中与所述最低层级的数据对应的数据。
3.根据权利要求1所述的方法,所述方法还包括:
分别对所述分层库中的数据和所述筛选库中的数据进行采样,并将采样后的数据存储至样本库;
从所述样本库抽取样本,并基于抽取的样本训练全链路模型,所述全链路模型用于确定所述样本库的数据的分布状态。
4.根据权利要求3所述的方法,所述方法还包括:
响应于确定样本库中的所有数据符合预设的全链路分布状态,确定所述互联网数据在全链路分布正常。
5.根据权利要求1-4之一所述的方法,其中,所述互联网数据包括:链接数据,所述筛选库包括:链接库和网页库;所述对所述互联网数据进行数据格式筛选,并将筛选后的数据存储至筛选库包括:
去除所述链接数据中符合预设链接格式的数据,得到筛选后的链接数据,将筛选后的链接数据存储至所述链接库;
基于所述链接库中所有链接数据,得到抓取网页数据;
去除所述抓取网页数据中符合预设网页条件的网页数据,得到筛选后的抓取网页数据,将筛选后的抓取网页数据存储至所述网页库。
6.根据权利要求5所述的方法,其中,所述预设链接格式的数据包括以下一项或多项:
垃圾搜索链接、搜索留痕链接、无价值链接、以及命名中存在预设的符号或/和关键词链接。
7.根据权利要求5所述的方法,其中,所述互联网数据还包括:初始网页数据,所述方法包括:
去除所述初始网页数据中符合预设网页条件的网页数据,得到筛选后的初始网页数据,将筛选后的初始网页数据存储至所述网页库。
8.根据权利要求1-4之一所述的方法,其中,所述互联网数据包括:初始网页数据,所述筛选库包括:网页库;所述对所述互联网数据进行数据格式筛选,并将筛选后的数据存储至筛选库包括:
去除所述初始网页数据中符合预设网页条件的网页数据,得到筛选后的初始网页数据,将筛选后的初始网页数据存储至所述网页库。
9.根据权利要求1-4之一所述的方法,所述方法还包括:
接收用户的访问请求;
基于所述访问请求,向所述用户展示所述分层库中的数据。
10.根据权利要求9所述的方法,所述方法还包括:
接收新的互联网数据以及所述新的互联网数据的反馈特征;
基于所述新的互联网数据的反馈特征和所述新的互联网数据的全链路特征,调整所述分层库中各个数据的层级;
基于所述分层库中各个数据的层级,对所述新的互联网数据进行筛选与存储。
11.一种数据采集装置,所述装置包括:
获取单元,被配置成获取互联网数据以及所述互联网数据的反馈特征;
筛选单元,被配置成对所述互联网数据进行数据格式筛选,并将筛选后的数据存储至筛选库;
优化单元,被配置成基于所述反馈特征和所述互联网数据的全链路特征,对筛选库中的数据进行分层处理,并将分层后的数据存储至分层库;
调整单元,被配置成基于所述分层库中各个数据的层级,调整所述筛选库中与所述分层库的数据对应的数据。
12.根据权利要求11所述的装置,所述调整单元进一步被配置成确定所述分层库中属于最低层级的数据,删除所述筛选库中与所述最低层级的数据对应的数据。
13.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-10中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现权利要求1-10中任一项所述的方法。
CN202110506712.0A 2021-05-10 2021-05-10 数据采集方法和装置、电子设备、计算机可读介质 Active CN113190753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110506712.0A CN113190753B (zh) 2021-05-10 2021-05-10 数据采集方法和装置、电子设备、计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110506712.0A CN113190753B (zh) 2021-05-10 2021-05-10 数据采集方法和装置、电子设备、计算机可读介质

Publications (2)

Publication Number Publication Date
CN113190753A true CN113190753A (zh) 2021-07-30
CN113190753B CN113190753B (zh) 2024-04-23

Family

ID=76988659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110506712.0A Active CN113190753B (zh) 2021-05-10 2021-05-10 数据采集方法和装置、电子设备、计算机可读介质

Country Status (1)

Country Link
CN (1) CN113190753B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120143792A1 (en) * 2010-12-02 2012-06-07 Microsoft Corporation Page selection for indexing
CN104135428A (zh) * 2007-09-28 2014-11-05 万特里克斯公司 多媒体内容调适通知的生成和传递
CN104536972A (zh) * 2014-12-03 2015-04-22 北京邮电大学 基于cdn的网页内容感知系统及方法
CN105912633A (zh) * 2016-04-11 2016-08-31 上海大学 面向稀疏样本的聚焦式Web信息抽取系统及方法
CN106446228A (zh) * 2016-10-08 2017-02-22 中国工商银行股份有限公司 一种web页面数据的采集分析方法及装置
US20170154314A1 (en) * 2015-11-30 2017-06-01 FAMA Technologies, Inc. System for searching and correlating online activity with individual classification factors
CN112597370A (zh) * 2020-12-22 2021-04-02 荆门汇易佳信息科技有限公司 指定需求范围的网页信息自主搜集筛选系统
CN112737963A (zh) * 2020-12-24 2021-04-30 百度在线网络技术(北京)有限公司 互联网分布式系统、控制方法、电子设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104135428A (zh) * 2007-09-28 2014-11-05 万特里克斯公司 多媒体内容调适通知的生成和传递
US20120143792A1 (en) * 2010-12-02 2012-06-07 Microsoft Corporation Page selection for indexing
CN104536972A (zh) * 2014-12-03 2015-04-22 北京邮电大学 基于cdn的网页内容感知系统及方法
US20170154314A1 (en) * 2015-11-30 2017-06-01 FAMA Technologies, Inc. System for searching and correlating online activity with individual classification factors
CN105912633A (zh) * 2016-04-11 2016-08-31 上海大学 面向稀疏样本的聚焦式Web信息抽取系统及方法
CN106446228A (zh) * 2016-10-08 2017-02-22 中国工商银行股份有限公司 一种web页面数据的采集分析方法及装置
CN112597370A (zh) * 2020-12-22 2021-04-02 荆门汇易佳信息科技有限公司 指定需求范围的网页信息自主搜集筛选系统
CN112737963A (zh) * 2020-12-24 2021-04-30 百度在线网络技术(北京)有限公司 互联网分布式系统、控制方法、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
钱汉伟;袁明;吉文元;: "基于社交网络大数据线索分析平台研究及应用", 中国人民公安大学学报(自然科学版), no. 02, 15 May 2018 (2018-05-15) *

Also Published As

Publication number Publication date
CN113190753B (zh) 2024-04-23

Similar Documents

Publication Publication Date Title
JP6488508B2 (ja) ウェブページのアクセス方法、装置、デバイス及びプログラム
JP5802745B2 (ja) インテリジェントナビゲーションの方法、装置、およびシステム
TW201514845A (zh) 從網頁擷取標題及主體
CN106844640B (zh) 一种网页数据分析处理方法
CN108874812B (zh) 一种数据处理方法及服务器、计算机存储介质
CN111460289B (zh) 新闻资讯的推送方法和装置
CN111259220B (zh) 一种基于大数据的数据采集方法和系统
CN112699295A (zh) 一种网页内容推荐方法、装置和计算机可读存储介质
CN106874502A (zh) 一种视频搜索的方法、装置及终端
CN110020273A (zh) 用于生成热力图的方法、装置以及系统
CN110309463A (zh) 落地页优化方法、装置、计算机存储介质及网络设备
CN109471974A (zh) 过滤第三方网页广告的方法、装置、电子设备及存储介质
CN104376066B (zh) 一种网络特定内容挖掘方法和装置、及一种电子设备
CN113806660A (zh) 数据评估方法、训练方法、装置、电子设备以及存储介质
US20230259568A1 (en) Webpage history display method and apparatus, and storage medium
CN116226494A (zh) 一种用于信息搜索的爬虫系统及方法
CN108268488A (zh) 网页主图识别方法和装置
CN113190753B (zh) 数据采集方法和装置、电子设备、计算机可读介质
CN113407678B (zh) 知识图谱构建方法、装置和设备
CN106991144B (zh) 一种定制数据爬取工作流的方法及系统
US20130311449A1 (en) Identifying Referred Documents Based on a Search Result
CN113743432A (zh) 一种图像实体信息获取方法、设备、电子设备和存储介质
CN107463570B (zh) 一种文献检索/分析方法和装置
CN110516174A (zh) 基于简易信息聚合获取正文的方法、装置及存储介质
CN102890715A (zh) 一种特定领域信息自动化组织的装置及其方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant