CN103714149A - 一种自适应增量式的深层网络数据源发现方法 - Google Patents

一种自适应增量式的深层网络数据源发现方法 Download PDF

Info

Publication number
CN103714149A
CN103714149A CN201310733599.5A CN201310733599A CN103714149A CN 103714149 A CN103714149 A CN 103714149A CN 201310733599 A CN201310733599 A CN 201310733599A CN 103714149 A CN103714149 A CN 103714149A
Authority
CN
China
Prior art keywords
website
link
list
deep layer
queue
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310733599.5A
Other languages
English (en)
Other versions
CN103714149B (zh
Inventor
赵峰
金海�
聂昶
陈恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201310733599.5A priority Critical patent/CN103714149B/zh
Publication of CN103714149A publication Critical patent/CN103714149A/zh
Application granted granted Critical
Publication of CN103714149B publication Critical patent/CN103714149B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种自适应增量式的深网数据源发现方法,将深层网络数据源发现过程分为站点定位和站内搜索两个阶段,在站点定位阶段引进站点发现机制可以高效扩充站点数据以提高爬行效率;在站点和站内链接选取采用自适应的排序机制,能够更快的发现深层网络站点和可查询表单。本方法实现了增量自动高效采集深网数据源,可用于深层网络数据集成和暗网爬虫,同时也适用于构建在线数据库目录站点。

Description

一种自适应增量式的深层网络数据源发现方法
技术领域
本发明属于计算机领域的信息检索和数据挖掘,具体涉及一种自适应增量式的深层网络数据源发现方法,可以自动并高效按照领域发现深层网络数据源。
背景技术
随着互联网数据爆炸式增长,越来越多网站站点采用网络数据库技术,互联网上大量的页面由数据库动态生成,这些信息不能通过静态链接爬取,必须通过提交查询来获得。由于搜索引擎的爬虫不具备自动填写表单的能力,因此这部分数据不能被搜索引擎索引,隐藏在网络数据库背后,这部分数据被称为深层网络或者暗网。
BrightPlanet在2001发布的深层网络白皮书,对深层网络进行了一次较为全面的宏观统计,白皮书中指出深层网络蕴含的信息量是浅层网络的400-550倍,深层网络信息高度领域相关,其信息质量是浅层网络的1000-2000倍。为了挖掘深层网络中的数据,现有的技术包括数据集成、暗网爬虫和采样等,然而这些技术第一步就是获取深层网络数据源。由于深层网络数据源呈稀疏分布的特性,而且经常变化和更新,不断有新的数据源加入和旧的数据源撤出,因此自动定位这些数据源颇具挑战。此外现有的深层网络目录站点大都是手动或半自动化方法,而且这些目录站点覆盖率低。例如最大的在线数据库目录站点completePlane,收录了70,000个在线数据库仅占整体的15.6%。
现有的数据源发现机制主要可以分为两类:通用爬虫和主题爬虫,其中通用爬虫一般采用穷尽的方式进行爬行,会下载大量无关的页面导致效率低下;主题爬虫方式按照领域进行爬取,通过页面分类器过滤掉主题无关页面,再通过链接分类器对链接筛选来加快爬行过程,但由于存在主题漂移和链接分类器精度等因素,会降低爬行的效率;此外由于数据源稀疏分布,主题爬虫通过设置终止条件来加快爬行过程会导致大量页面没有机会访问,页面分类器和链接分类器也会过滤掉很多页面和链接,因此难以保证高的覆盖率。
发明内容
鉴于此,本发明的目的在于提供一种自适应增量式的深层网络数据源发现方法,该方法可以按照领域自动高效发现深层网络数据源。
为实现以上发明目的,本发明采用以下技术方案:
一种自适应增量式的深层网络数据源发现方法,包括站点定位和站内搜索两个阶段,其中,所述站点定位阶段包括站点收集、站点排序和站点分类,所述站内搜索阶段包括页面抓取、链接选取和表单分类,
所述站点收集用于发现新的站点,保证爬行过程中站点队列中有充足的站点链接供选取;
所述站点排序用于给站点评分并选取相关度最高的站点链接;
所述站点分类用于判断站点是否领域相关;
所述页面抓取用于按照宽度优先策略访问到指定深度,其中,在每层爬行过程中,从存储当前深度的链接的工作队列中抽取链接,把页面中站内链接抽取到候选队列中用于下一个深度的爬取,将外部站点链接存储到站点数据库和站点队列中;
所述链接选取用于在访问站点每层之前对候选队列中的链接进行筛选和排序;
所述表单分类用于通过通用表单分类器和领域表单分类器判定表单是否为领域相关的查询表单,从而对表单进行过滤。
与现有技术相比,本发明具有以下有益效果:
(1)自适应性。通过在线构建深层网络站点特征空间和表单路径特征空间,可以学习到新的特征,用以优化站点和站内链接的选取,可以尽早发现潜在深层网络站点和查询表单。
(2)增量式爬取。采用两阶段式数据源发现机制,只需要以较小的代价记录站点访问状态和含有表单的链接实现增量式爬取,每次爬行可以在原有基础上继续进行。
(3)覆盖率高。将深层网络数据源发现过程分为站点定位和站内搜索两阶段,首先通过站点分类器避免无关站点的访问,其次引入站点收集机制,借助搜索引擎反向爬行可以有效扩充站点,增加站点覆盖范围。
(4)效率高。在站点定位阶段通过优先选取高相关度的站点,来尽早的访问深层网络站点;同时在站点内搜索阶段,采用一系列精细的终止条件,在访问每层链接时,利用链接树分析避免访问偏差以及对链接相关度进行排序,保证爬虫在访问尽可能少的页面,同时覆盖站点内尽可能多目录下的链接以及相关度高的链接优先访问,从而显著的提高了爬虫的效率。
附图说明
图1为本发明自适应增量式的深网数据源发现方法结构图;
图2为本发明的站点定位阶段中站点收集的处理流程图;
图3为本发明的站点定位阶段中站点排序的处理流程图;
图4为本发明的站内搜索阶段中页面抓取的处理流程图;
图5为本发明的站内搜索阶段中链接选取的处理流程图;
图6为本发明的站内搜索阶段中表单分类的处理流程图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步说明。
如图1所示,本发明实施例的自适应增量式的深层网络数据源发现方法,包站点定位阶段和站内搜索阶段。
(1)站点定位阶段包括站点收集、站点排序和站点分类。
站点收集用于发现新的站点,保证爬行过程中站点队列中有充足的站点链接供选取。如图2所示,站点收集包括以下步骤:
(1-1)判断站点队列大小是否小于预定义的阈值,若满足条件,则转入步骤(1-2);否则,直接结束;
(1-2)将已发现的深层网络站点作为输入,提交给搜索引擎进行反向搜索,然后抽取搜索结果页面中的链接,并下载这些链接所对应的页面;
(1-3)根据启发规则分析下载的页面是否是中心页面,若是,则转入步骤(1-4);否则,返回步骤(1-1);
(1-4)抽取中心页面中的外向站点链接并存入到站点数据库和站点队列中。
在本实施例中,所述搜索引擎进行反向搜索可以使用Google的link工具。
站点排序用于给站点评分并选取相关度最高的站点链接。如图3所示,包括以下步骤:
(2-1)判断新发现的深层网络站点数目是否达到预定阈值,若是,则转入步骤(2-2);否则进入步骤(2-4);
(2-2)抽取深层网络站点特征,更新深层网络站点特征空间,所述深层网络站点特征包括URL、锚文本、链接附近文本,所述深层网络站点特征空间由所有已知深层网络站点特征的高频词组成;
(2-3)计算站点队列中站点与更新后的深层网络站点特征空间的相似度,按照相似度由高到低对站点队列中的站点重新排序。其中,将站点和深层网络站点特征空间都规约成由词组成的向量,所述相似度通过计算向量的余弦相似度得到。
(2-4)判断是否达到最大页面访问数,若是,则直接结束;否则转入步骤(2-5);
(2-5)从站点队列中选取相似度最高的站点;
(2-6)根据站点根页面内容判断站点是否领域相关,若是则转入步骤(2-7),否则返回步骤(2-4);
(2-7)完成站内搜索后,判断站点内是否含有相关查询表单,若是,则令深层网络站点数目加1,并返回步骤(2-1);否则返回步骤(2-4)。
可以看到,站内搜索的结果会影响站点排序,使得整个排序过程具有自适应性。随着不断进行站内搜索,新发现的深层网络站点增加到一定阈值的时候,会自动更新深层网络站点特征空间,并对站点队列中站点重新进行排序。
站点分类用于判断站点是否领域相关。具体包括以下步骤:
(3-1)从站点队列中选取和深层网络站点特征空间相似度最高的站点;
(3-2)抽取站点根页面内容作为分类依据,对根页面内容进行分词、去停用词和词根规约,利用训练好的站点分类器判断是否领域相关,若是,则进入站内搜索阶段,否则返回步骤(3-1)。
在本实施例中,采用贝叶斯分类方法,将某个领域作为正例,其他领域作为反例来构建二元分类器,贝叶斯分类器通过采用开源数据挖掘工具weka训练得到。
(2)站内搜索阶段包括页面抓取、链接选取和表单分类。
页面抓取用于按照宽度优先策略访问到指定深度,其中使用工作队列和候选队列,工作队列用于存储当前深度的链接,在每层爬行过程中,从工作队列中抽取链接,把页面中站内链接抽取到候选队列中用于下一个深度的爬取,将外部站点链接存储到站点数据库和站点队列中。同时,若页面中有表单,则把表单提交给表单分类器进行过滤,判断是否含有相关的查询表单。
在站内搜索过程中,通过设置如下精细的终止条件,用于加快搜索过程和提高爬行效率:
终止条件1:最大爬行深度;
终止条件2:每层最多爬行页面数目;
终止条件3:每层最多收获表单数目;
终止条件4:每层连续访问指定页面数没有发现新表单,直接进入下一层;
终止条件5:若站点爬虫连续访问指定页面数目没有发现新的查询表单,则结束当前站内搜索。
其中,终止条件1和5为站内搜索的退出条件,若满足其中任何一个,即达到最大爬行深度或连续访问指定页面数后,没有发现新的查询表单,则直接退出站内搜索;终止条件2,3,4为深度终止条件,若满足其中任何一个,则结束当前深度,直接进入下一个深度。
如图4所示,页面抓取具体包括以下步骤:
(4-1)访问每个深度之前判断是否满足退出条件(即上述终止条件1或5),若不满足,则转入步骤(4-2);否则直接结束;
(4-2)判断工作队列是否为空或当前深度终止条件是否满足(即上述终止条件2,3或4),若满足则进入步骤(4-3),否则进入步骤(4-4);
(4-3)按照链接选取策略选取候选队列中的链接至工作队列,并清空候选队列,访问深度加1,并返回步骤(4-1);
(4-4)从工作队列弹出一个链接,下载并解析链接指向的页面,抽取站内链接至候选队列,站外链接至站点队列,判断页面中是否含有相关表单,若有则进入步骤(4-5),否则返回步骤(4-2);
(4-5)抽取并存储相关表单,并返回到步骤(4-2)。
链接选取用于在访问站点每层之前对候选队列中的链接进行筛选和排序,对应上述步骤(4-3)中所述的链接选取策略。如图5所示,包括以下步骤:
(5-1)计算候选队列中链接评分并进行排序。其评分计算过程和站点排序类似,通过在线收集表单路径的特征,并构建表单路径特征空间,计算站内链接与特征空间的相似度作为评分,所述表单路径为直接指向含查询表单页面的站点内部链接;
(5-2)判断候选队列中链接数目是否大于该深度限定的最大访问页面数,若是,则转入步骤(5-3);否则直接结束;
(5-3)根据链接路径构建链接树,按照比例分配每个路径下的待访问页面数;
(5-4)选取每个路径下评分最高的待访问数量的链接,并对这些链接按照评分重新排序;
(5-5)将选取的链接加入工作队列开始下一个深度的访问。
表单分类用于判定表单是否为领域相关的查询表单,从而对表单进行过滤。如图6所示,表单分类的过程由通用表单分类器和领域表单分类器完成。其中,通用表单分类器可以通过表单的结构特征如文本输入框个数、表单提交方式等来判断表单是否属于可查询表单,采用决策树的分类方法来训练二元分类器;领域表单分类器可以利用表单文本特征,例如<form>标签之间的文本,采用文本分类中SVM算法来判断表单是否领域相关。
具体包括以下步骤:首先抽取表单结构特征和表单文本特征,通用表单分类器根据表单结构特征,利用决策树分类模型判断表单是否属于可查询表单,若满足条件,则领域表单分类器根据表单文本特征判断表单是否领域相关,若满足条件,则将表单存入到表单数据库中。
应当理解,以上所述仅为本发明的一种具体实现方式,本发明的实现方法并不局限于此,任何在本发明领域内不脱离本发明精神下的改变,都应属于本发明所附权利要求的保护范围。

Claims (10)

1.一种自适应增量式的深层网络数据源发现方法,包括站点定位和站内搜索两个阶段,其中,所述站点定位阶段包括站点收集、站点排序和站点分类,所述站内搜索阶段包括页面抓取、链接选取和表单分类,
所述站点收集用于发现新的站点,保证爬行过程中站点队列中有充足的站点链接供选取;
所述站点排序用于给站点评分并选取相关度最高的站点链接;
所述站点分类用于判断站点是否领域相关;
所述页面抓取用于按照宽度优先策略访问到指定深度,其中,在每层爬行过程中,从存储当前深度的链接的工作队列中抽取链接,把页面中站内链接抽取到候选队列中用于下一个深度的爬取,将外部站点链接存储到站点数据库和站点队列中;
所述链接选取用于在访问站点每层之前对候选队列中的链接进行筛选和排序;
所述表单分类用于通过通用表单分类器和领域表单分类器判定表单是否为领域相关的查询表单,从而对表单进行过滤。
2.根据权利要求1所述的自适应增量式的深层网络数据源发现方法,其中,所述站点收集具体包括以下步骤:
(1-1)判断站点队列大小是否小于预定义的阈值,若满足条件,则转入步骤(1-2);否则,直接结束;
(1-2)将已发现的深层网络站点作为输入,提交给搜索引擎进行反向搜索,然后抽取搜索结果页面中的链接,并下载这些链接所对应的页面;
(1-3)根据启发规则分析下载的页面是否是中心页面,若是,则转入步骤(1-4);否则,返回步骤(1-1);
(1-4)抽取中心页面中的外向站点链接并存入到站点数据库和站点队列中。
3.根据权利要求2所述的自适应增量式的深层网络数据源发现方法,其中,所述搜索引擎进行反向搜索使用Google的link工具。
4.根据权利要求1所述的自适应增量式的深层网络数据源发现方法,其中,所述站点排序具体包括以下步骤:
(2-1)判断新发现的深层网络站点数目是否达到预定阈值,若是,则转入步骤(2-2);否则进入步骤(2-4);
(2-2)抽取深层网络站点特征,更新深层网络站点特征空间,所述深层网络站点特征包括URL、锚文本、链接附近文本,所述深层网络站点特征空间由所有已知深层网络站点特征的高频词组成;
(2-3)计算站点队列中站点与更新后的深层网络站点特征空间的相似度,按照相似度由高到低对站点队列中的站点重新排序;
(2-4)判断是否达到最大页面访问数,若是,则直接结束;否则转入步骤(2-5);
(2-5)从站点队列中选取相似度最高的站点;
(2-6)根据站点根页面内容判断站点是否领域相关,若是则转入步骤(2-7),否则返回步骤(2-4);
(2-7)完成站内搜索后,判断站点内是否含有相关查询表单,若是,则令深层网络站点数目加1,并返回步骤(2-1);否则返回步骤(2-4)。
5.根据权利要求1所述的自适应增量式的深层网络数据源发现方法,其中,所述站点分类具体包括以下步骤:
(3-1)从站点队列中选取和深层网络站点特征空间相似度最高的站点;
(3-2)抽取站点根页面内容作为分类依据,对根页面内容进行分词、去停用词和词根规约,利用训练好的站点分类器判断是否领域相关,若是,则进入站内搜索阶段,否则返回步骤(3-1)。
6.根据权利要求1所述的自适应增量式的深层网络数据源发现方法,其中,在站内搜索过程中,设置以下终止条件:
终止条件1:最大爬行深度;
终止条件2:每层最多爬行页面数目;
终止条件3:每层最多收获表单数目;
终止条件4:每层连续访问指定页面数没有发现新表单,直接进入下一层;
终止条件5:若站点爬虫连续访问指定页面数目没有发现新的查询表单,则结束当前站内搜索。
其中,终止条件1和5为站内搜索的退出条件,若满足其中任何一个,即达到最大爬行深度或连续访问指定页面数后,没有发现新的查询表单,则直接退出站内搜索;终止条件2,3,4为深度终止条件,若满足其中任何一个,则结束当前深度,直接进入下一个深度。
7.根据权利要求1所述的自适应增量式的深层网络数据源发现方法,其中,所述页面抓取具体包括以下步骤:
(4-1)访问每个深度之前判断是否满足退出条件(即上述终止条件1或5),若不满足,则转入步骤(4-2);否则直接结束;
(4-2)判断工作队列是否为空或当前深度终止条件是否满足(即上述终止条件2,3或4),若满足则进入步骤(4-3),否则进入步骤(4-4);
(4-3)按照链接选取策略选取候选队列中的链接至工作队列,并清空候选队列,访问深度加1,并返回步骤(4-1);
(4-4)从工作队列弹出一个链接,并下载并解析链接指向的页面,抽取站内链接至候选队列,抽取站外链接至站点队列,判断页面中是否含有相关表单,若有则进入步骤(4-5),否则返回步骤(4-2);
(4-5)抽取并存储相关表单,并返回到步骤(4-2)。
8.根据权利要求1所述的自适应增量式的深层网络数据源发现方法,其中,所述链接选取具体包括以下步骤:
(5-1)计算候选队列中链接评分并进行排序;
(5-2)判断候选队列中链接数目是否大于该深度限定的最大访问页面数,若是,则转入步骤(5-3);否则直接结束;
(5-3)根据链接路径构建链接树,按照比例分配每个路径下的待访问页面数;
(5-4)选取每个路径下评分最高的待访问数量的链接,并对这些链接按照评分重新排序;
(5-5)将选取的链接加入工作队列开始下一个深度的访问。
9.根据权利要求8所述的自适应增量式的深层网络数据源发现,步骤(5-1)中,评分计算为:在线收集表单路径的特征,构建表单路径特征空间,计算站内链接与特征空间的相似度作为评分,所述表单路径为直接指向含查询表单页面的站点内部链接。
10.根据权利要求1所述的自适应增量式的深层网络数据源发现方法,其中,所述表单分类具体包括以下步骤:
抽取表单结构特征和表单文本特征,通用表单分类器根据表单结构特征,利用决策树分类模型判断表单是否属于可查询表单,若满足条件,则领域表单分类器根据表单文本特征判断表单是否领域相关,若满足条件,则将表单存入到表单数据库中。
CN201310733599.5A 2013-12-26 2013-12-26 一种自适应增量式的深层网络数据源发现方法 Active CN103714149B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310733599.5A CN103714149B (zh) 2013-12-26 2013-12-26 一种自适应增量式的深层网络数据源发现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310733599.5A CN103714149B (zh) 2013-12-26 2013-12-26 一种自适应增量式的深层网络数据源发现方法

Publications (2)

Publication Number Publication Date
CN103714149A true CN103714149A (zh) 2014-04-09
CN103714149B CN103714149B (zh) 2017-04-19

Family

ID=50407124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310733599.5A Active CN103714149B (zh) 2013-12-26 2013-12-26 一种自适应增量式的深层网络数据源发现方法

Country Status (1)

Country Link
CN (1) CN103714149B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843965A (zh) * 2016-04-20 2016-08-10 广州精点计算机科技有限公司 一种基于url主题分类的深层网络爬虫表单填充方法和装置
CN106066875A (zh) * 2016-05-30 2016-11-02 深圳市华傲数据技术有限公司 一种基于深网爬虫的高效数据采集方法及系统
CN103955425B (zh) * 2014-04-16 2017-02-15 中国工商银行股份有限公司 网页web探索测试装置及方法
CN106446160A (zh) * 2016-09-26 2017-02-22 南京邮电大学 一种面向移动互联网自适应增量的内容聚合方法及系统
CN107025296A (zh) * 2017-04-17 2017-08-08 山东辰华科技信息有限公司 基于科技服务信息智能抓取系统数据收集方法
CN108763537A (zh) * 2018-05-31 2018-11-06 河南科技大学 一种基于时间感知的增量机器爬虫方法
CN108804540A (zh) * 2018-05-08 2018-11-13 苏州闻道网络科技股份有限公司 搜索引擎链接分析系统及分析方法
CN109614550A (zh) * 2018-12-11 2019-04-12 平安科技(深圳)有限公司 舆情监控方法、装置、计算机设备及存储介质
CN109977285A (zh) * 2019-03-21 2019-07-05 中南大学 一种面向Deep Web的自适应增量数据采集方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090204610A1 (en) * 2008-02-11 2009-08-13 Hellstrom Benjamin J Deep web miner
CN101916272A (zh) * 2010-08-10 2010-12-15 南京信息工程大学 用于深层网数据集成的数据源选择方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090204610A1 (en) * 2008-02-11 2009-08-13 Hellstrom Benjamin J Deep web miner
CN101916272A (zh) * 2010-08-10 2010-12-15 南京信息工程大学 用于深层网数据集成的数据源选择方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
盛钰: "深层网络数据源发现与查询结果抽取研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955425B (zh) * 2014-04-16 2017-02-15 中国工商银行股份有限公司 网页web探索测试装置及方法
CN105843965B (zh) * 2016-04-20 2019-06-04 广东精点数据科技股份有限公司 一种基于url主题分类的深层网络爬虫表单填充方法和装置
CN105843965A (zh) * 2016-04-20 2016-08-10 广州精点计算机科技有限公司 一种基于url主题分类的深层网络爬虫表单填充方法和装置
CN106066875A (zh) * 2016-05-30 2016-11-02 深圳市华傲数据技术有限公司 一种基于深网爬虫的高效数据采集方法及系统
CN106066875B (zh) * 2016-05-30 2019-08-16 深圳市华傲数据技术有限公司 一种基于深网爬虫的高效数据采集方法及系统
CN106446160A (zh) * 2016-09-26 2017-02-22 南京邮电大学 一种面向移动互联网自适应增量的内容聚合方法及系统
CN107025296B (zh) * 2017-04-17 2018-11-06 山东辰华科技信息有限公司 基于科技服务信息智能抓取系统数据收集方法
CN107025296A (zh) * 2017-04-17 2017-08-08 山东辰华科技信息有限公司 基于科技服务信息智能抓取系统数据收集方法
CN108804540A (zh) * 2018-05-08 2018-11-13 苏州闻道网络科技股份有限公司 搜索引擎链接分析系统及分析方法
CN108804540B (zh) * 2018-05-08 2020-12-22 苏州闻道网络科技股份有限公司 搜索引擎链接分析系统及分析方法
CN108763537A (zh) * 2018-05-31 2018-11-06 河南科技大学 一种基于时间感知的增量机器爬虫方法
CN108763537B (zh) * 2018-05-31 2021-05-18 河南科技大学 一种基于时间感知的增量机器爬虫方法
CN109614550A (zh) * 2018-12-11 2019-04-12 平安科技(深圳)有限公司 舆情监控方法、装置、计算机设备及存储介质
CN109977285A (zh) * 2019-03-21 2019-07-05 中南大学 一种面向Deep Web的自适应增量数据采集方法
CN109977285B (zh) * 2019-03-21 2023-03-10 中南大学 一种面向Deep Web的自适应增量数据采集方法

Also Published As

Publication number Publication date
CN103714149B (zh) 2017-04-19

Similar Documents

Publication Publication Date Title
CN103714149A (zh) 一种自适应增量式的深层网络数据源发现方法
CN100498790C (zh) 一种搜索方法和系统
CN102012900B (zh) 信息检索方法和系统
CN100452054C (zh) 用于深层网页数据源集成的数据源发现方法
CN106815263B (zh) 法律条文的搜索方法及装置
CN102760138B (zh) 用户网络行为的分类方法和装置及对应的搜索方法和装置
JP5092165B2 (ja) データ構築方法とシステム
US20100030768A1 (en) Classifying documents using implicit feedback and query patterns
CN101452463A (zh) 定向抓取页面资源的方法和装置
CN101477554A (zh) 基于用户兴趣的个性化元搜索引擎及搜索结果处理方法
CN103605665A (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN102456016B (zh) 一种对搜索结果进行排序的方法及装置
CN102591948B (zh) 一种基于用户行为分析的搜索结果改进的方法及其系统
CN102004782A (zh) 一种搜索结果排序方法和搜索结果排序器
CN103049542A (zh) 一种面向领域的网络信息搜索方法
CN103902597A (zh) 确定目标关键词所对应的搜索相关性类别的方法和设备
CN101908071A (zh) 一种提高搜索引擎搜索效率的方法及其系统
US20110208715A1 (en) Automatically mining intents of a group of queries
CN102760151A (zh) 开源软件获取与搜索系统的实现方法
CN111522905A (zh) 一种基于数据库的文档搜索方法和装置
CN106227788A (zh) 一种以Lucene为基础的数据库查询方法
CN103942268A (zh) 搜索与应用相结合的方法、设备以及应用接口
CN102955812A (zh) 一种构建索引库的方法、装置及查询方法和装置
CN107133321B (zh) 页面的搜索特性的分析方法和分析装置
CN112597370A (zh) 指定需求范围的网页信息自主搜集筛选系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant