CN102968510A

CN102968510A - 互联网人物信息的搜索方法及系统

Info

Publication number: CN102968510A
Application number: CN2012105600629A
Authority: CN
Inventors: 王慧昌; 杨宏辉; 林胜通; 郑汉军
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2012-12-21
Filing date: 2012-12-21
Publication date: 2013-03-13
Anticipated expiration: 2032-12-21
Also published as: CN102968510B

Abstract

本发明提供了一种互联网人物信息的搜索方法及系统，其中上述方法包括：获取目标人物信息的查询关键词；将查询关键词处理成元搜索系统所需的搜索请求参数；启动元搜索系统集成的搜索引擎进行搜索；提取搜索结果集合的摘要线索；下载搜索结果集合的相关页面；提取下载页面的正文线索；优选由摘要线索和正文线索组成的线索集合；将优选线索集合作为下一轮搜索的入口参数,重复上述步骤，进行迭代搜索、线索收集；对经过多次迭代搜索、优选后的线索集合进行关联分析，生成虚拟人物的身份信息。本发明提供的基于迭代搜索和关联分析的互联网人物信息搜索方法，能充分利用公共搜索引擎的强大数据收集能力，扩大有效数据的覆盖面，得到准确虚拟人物信息。

Description

互联网人物信息的搜索方法及系统

技术领域

本发明涉及互联网信息检索领域，特别地，涉及一种互联网人物信息的搜索方法及系统。

背景技术

随着互联网的高速发展和Web技术的不断改进，网络应用及信息传播途径日益多样化和便利，任何一个可以接触互联网的人都能够成为信息内容的生产者，每天新生成的网页数量不断上涨，互联网已经成为了一个巨大的可共享的“信息仓库”。由于网络的开放性、不确定性、虚拟性和超越时空性等特点，人们在网络活动中不需要任何信息验证，完全匿名，往往会在不同的时间地点产生很多不同的虚拟身份。如何在浩如烟海的充斥着大量的广告、导航及版本声明等信息的网页中寻找与搜索目标人物有关的、有价值的网页，从中提取网络用户的身份及活动相关的线索信息，并将人物线索信息进行归纳汇总后得到虚拟人物身份与现实身份的映射关系，方便网络用户相互间的联系、沟通和发现，成为摆在人们面前的一个需要解决的重要问题。

目前，互联网信息检索的主要方法是通过搜索引擎技术进行初步信息检索，结合web信息抽取技术进行特定信息的提取后生成固定格式的检索结果，其最终仍需要用户来人工进行最终的确认和分析。公共搜索引擎因其普适性，和查全率真等因素的影响，对于专门的人物检索需求效果并不理想，因此需要专门的应用系统来解决目前人物搜索面临的难题。人物搜索系统就是解决互联网人物搜索难题的专用搜索系统，通过人物搜索系统可以获得待搜索人物的相关信息，以及与之相关联的其它人物的信息及其人物间的相互关系，极大的降低了人工检索时的耗时，提高检索效率。现有的人物搜索系统基本上可以分为三大类：通用的知名人物搜索系统、特定网站的专有人物搜索系统、百科式的人物搜索系统。

现有的人物搜索系统基本上以网页搜索为基础，结合传统搜索的信息挖掘技术，将人物之间的关系提取出来，给出与人物有关的包括人物简介、人物关系等丰富信息，其中，百科式的人物搜索系统主要由用户手工编辑相关人物信息。虽然现有的人物搜索系统都表现出一定的实用价值，但是其应用的局限性也相当明显。对于非知名的普通现实人物和网络虚拟人物、只有网络呢称的网络人物、非特定网站和特定领域的人物等人物信息搜索需求，如果要检索出目标人物的详细的网络身份信息和并与现实人物进行映射，现有的人物搜索系统已经不能很好的满足应用需求。

总之，需要本领域技术人员迫切解决的一个技术问题就是：如何能够从海量的互联网数据中快速有效地搜索出目标人物的信息。

发明内容

本发明所要解决的技术问题是提供一种互联网人物信息的搜索方法及系统，能够既节约用户的存储成本，又能快速准确地检索出目标人物的身份信息。

为了解决上述问题，一方面提供了一种互联网人物信息的搜索方法，包括：获取目标人物信息的查询关键词；将上述查询关键词处理成元搜索系统所需的搜索请求参数；启动元搜索系统集成的搜索引擎进行搜索；提取搜索结果集合的摘要线索；下载上述搜索结果集合的相关页面；提取下载页面的正文线索；优选由上述摘要线索和上述正文线索组成的线索集合；将优选线索集合作为下一轮搜索的入口参数,重复上述步骤，进行迭代搜索、线索收集；对经过多次迭代搜索、优选后的线索集合进行关联分析，生成虚拟人物的身份信息。

优选的，上述互联网人物信息的搜索方法还包括：对搜索结果进行排重和优选处理。

优选的，上述优选由上述摘要线索和上述正文线索组成的线索集合的步骤，进一步为：优选由上述摘要线索和上述正文线索组成的线索集合以及外部接口提供的人物资源线索数据库。

优选的，上述对经过多次迭代搜索、优选后的线索集合进行关联分析，生成虚拟人物的身份信息的步骤，进一步为：

对经过多次迭代搜索、优选后的线索集合，结合外部接口提供的人物资源库线索数据进行关联分析，生成虚拟人物的身份信息。

优选的，上述搜索结果的记录格式为：Record（RID，title，url，urlID，inTime，docTime，docSummary）。

另一方面，本发明还提供了一种互联网人物信息的搜索系统，包括：系统参数配置管理模块、页面信息收集模块、线索搜集模块、关联分析模块；其中，

上述系统参数配置管理模块，用于提供可定制的参数管理，为其它模块提供参数接口服务；

上述页面信息收集模块具体包括：关键词管理单元，用于获取和管理搜索关键词；关键词处理单元，用于将上述搜索关键词处理成元搜索系统所需的搜索请求参数；搜索单元，用于启动元搜索系统集成的搜索引擎进行搜索；搜索结果存储单元，用于存储搜索结果；

上述线索搜集模块具体包括：第一提取单元，用于提取搜索结果集合的摘要线索；页面下载单元，用于下载上述搜索结果集合的相关页面；第二提取单元，用于提取下载页面的正文线索；线索优化单元，用于优选由上述摘要线索和上述正文线索组成的线索集合；线索存储单元，用于存储优化线索集合；迭代搜索请求单元，用于将上述优化线索集合作为下一轮搜索的入口参数,请求上述页面信息收集模块进行迭代搜索；

上述关联分析模块，用于对经过多次迭代搜索、优选后的线索集合进行关联分析，生成虚拟人物的身份信息。

优选的，上述互联网人物信息的搜索系统还包括：插件接口模块，用于为外部资源系统的调用提供接口。

优选的，上述页面信息收集模块还包括：搜索结果优化单元，用于对上述搜索结果进行排重和优选处理，得到优化的搜索结果。

优选的，上述线索收集模块的线索优化单元进一步为：用于对上述摘要线索和上述正文线索组成的线索集合以及外部接口提供的人物资源线索数据库进行优选，得到优先线索集合。

优选的，上述关联分析模块进一步为：用于对经过多次迭代搜索、优选后的线索集合，结合外部接口提供的人物资源库线索数据进行关联分析，生成虚拟人物的身份信息。

优选的，上述搜索单元获取的搜索结果的记录格式为：Record（RID，title，url，urlID，inTime，docTime，docSummary）。

优选的，上述关联分析模块采用基于FP-Tree（频繁模式树）增长算法的关联规则对线索集合进行关联分析。

与现有技术相比，上述技术方案中的一个技术方案具有以下优点：

本发明提供了一种互联网人物搜索方法，利用智能优选的迭代搜索技术和可定制关联分析技术，通过元搜索系统集成的网络公用搜索引擎和各类站内搜索引擎进行多重的检索和分析，并结合各种资源库进行多维度关联分析，最终有效提取线索之间的关系，勾画出目标人物的多方位信息。在每轮的迭代过程中，可以由用户进行线索的优选和加入有价值的新线索，也可以由系统自动进行迭代，同时可方便地集成外部人物身份数据库和使用系统建立的线索库，降低复杂度，提高效率。

附图说明

图1是本发明互联网人物信息的搜索方法实施例一的流程图；

图2是本发明互联网人物信息的搜索方法实施例二的流程图；

图3是本发明互联网人物信息的搜索方法实施例三的流程图；

图4是本发明互联网人物信息的搜索系统实施例一的结构框图；

图5是本发明互联网人物信息的搜索系统实施例二的结构框图；

图6是本发明页面信息收集模块实施例一的结构框图；

图7是本发明页面信息收集模块实施例二的结构框图；

图8是本发明线索搜集模块实施例的结构框图；

图9是本发明实施例得到的与首次搜索关键词相关的线索集合。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1，示出了本发明一种互联网人物信息的搜索方法实施例一的流程图，可以包括以下步骤：

步骤11、获取目标人物信息的查询关键词；

该步骤11中，初始执行搜索任务时，上述查询关键词可以是由用户输入的与目标人物相关的已知信息。对于后续的迭代搜索，可以将经过一轮搜索与线索收集得到的优选线索集合作为查询关键词，也可以将经过一轮搜索和线索收集后得到的优选线索集合与外部提供的人物线索相关的资源库结合的优化线索库作为新一轮迭代搜索的查询关键词。

步骤13、将所述查询关键词处理成元搜索系统所需的搜索请求参数；

由于元搜索系统采用参数化配置管理方式集成了各个公共搜索引擎和定制的站内搜索引擎，而不同搜索引擎需要的搜索条件不一样，所以需将查询关键词处理成适应各搜索引擎的搜索请求参数。例如，对用户的请求进行自然语言处理。具体处理过程可以通过语法分析，结合搜索时间范围、站内搜索、关键词逻辑等参数，生成各个搜索引擎的搜索请求参数，对搜索引擎进行初始化。

步骤15、启动元搜索系统集成的搜索引擎进行搜索；

具体为启动元搜索系统以系统服务模式运行，进行与上述关键词相关的信息收集，得到搜索结果集合。

步骤15的具体实施方式可以是：

启动各个搜索引擎爬虫，爬虫以多线程的方式模拟浏览器对搜索引擎进行请求。每个搜索引擎由首页开始请求，每次请求先判断请求的当前页是否超出的分页总数。如果当前页小于分页总数，则搜索引擎下载当前页，否则该搜索引擎的搜索任务结束。其中，上述分页总数是根据关键词相关度可以人为设置的经验值，设置分页总数可以避免搜索分页的过量下载，提高检索效率。

各搜索引擎对下载分页进行解析，提取并格式化搜索结果。其中，搜索结果可以但不限于采用以下记录格式：Record（RID，title，url，urlID，inTime，docTime，docSummary）。其中，RID代表一条搜索结果的记录编号，Title代表上述搜索结果的标题，url代表搜索结果的统一资源定位符，urlID代表上述统一资源定位符的唯一编号，docTime代表文档的发布时间，docSummary代表文档的内容摘要。

对搜索引擎下载分页的解析结果，经过URL排重分析、排除广告等无关内容等优化选择处理后保存于数据库中。搜索引擎开始进行下一页的请求。

步骤17、提取搜索结果集合的摘要线索；该步骤优选采用并行方式对搜索结果集合进行摘要提取，得到摘要线索。

步骤19、下载所述搜索结果集合的相关页面；该步骤可以具体采用并行方式下载搜索结果集合的相关页面，得到每条搜索结果的全文信息。

步骤111、提取下载页面的正文线索；

具体为：从步骤19下载的全文信息中解析出与目标人物身份信息相关的线索，得到正文线索。

具体实施方式可以是：对下载的网页经过去除Javascript、css、导航、版权、广告等噪声处理后，使用语义分析和规则匹配的技术方法获取正文线索信息。

步骤113、优选由所述摘要线索和所述正文线索组成的线索集合；

该步骤113具体为：对步骤17得到的摘要线索集合和步骤111提取的正文线索集合综合得到的线索集合进行权值计算、统计分析、优化选择，得到优选线索集合，存入线索库。

步骤115、将优选线索集合作为下一轮搜索的入口参数,重复执行步骤11至113，进行迭代搜索；

步骤117、对经过多次迭代搜索、优选后的线索集合进行关联分析，生成虚拟人物的身份信息。

在本发明互联网人物信息的搜索方法实施例一的基础上，本发明还提供了另外一实施例，参照图2，示出了本发明一种互联网人物信息的搜索方法实施例二的流程图，在图1所示实施例一的基础上，增加了步骤16、对搜索结果进行排重和优选处理。其余步骤与实施例一相同或相似，相互参见即可。

如果将步骤15得到的搜索结果集合称为原始搜索结果集合，那么，步骤16具体为：对步骤15得到的原始搜索结果进行排重和优选处理，得到优化搜索结果。

对应的，后续线索收集步骤17、111、113均是在步骤16得到的优化搜索结果的基础上进行的。

本实施例增加的步骤16，可以有效减少后续线索收集步骤的工作量和复杂度，能够有效提高系统的工作效率。

此外，本发明还提供了一种互联网人物信息的搜索方法优选实施例，参照图3。图3示出了本发明一种互联网人物信息的搜索方法实施例三的流程图，包括以下步骤：

步骤31、获取目标人物信息的查询关键词；

步骤33、将所述查询关键词处理成元搜索系统所需的搜索请求参数；

步骤35、启动元搜索系统集成的搜索引擎进行搜索；

步骤36、对搜索结果进行排重和优选处理。

步骤37、提取搜索结果集合的摘要线索；

步骤39、下载所述搜索结果集合的相关页面；

步骤311、提取下载页面的正文线索；

上述步骤31至311与上述实施例二中的步骤11至111相似，此处不再赘述。

步骤313、优选由所述摘要线索和所述正文线索组成的线索集合以及外部接口提供的人物资源线索数据库，得到优选线索集合；

步骤313即对所述摘要线索和所述正文线索组成的线索集合进行优选，并结合外部接口提供的人物资源线索数据库，得到优先线索集合。该优选线索集合可以作为下一轮迭代搜索的入口参数值。步骤313中增加了外部接口提供的人物资源线索数据库作为优选线索的基础，方便用户加入有价值的新线索，使系统进行更全面、更有价值的搜索。

步骤315、将优选线索集合作为下一轮搜索的入口参数,重复执行步骤31至313，进行迭代搜索、线索收集；

步骤317、对经过多次迭代搜索、优选后的线索集合，结合外部接口提供的人物资源库线索数据进行关联分析，生成虚拟人物的身份信息。

本实施例中对经过多次迭代搜索分析、智能优化选择后的所有线索，结合外部接口提供的人物线索相关的资源库进行关联分析，生成虚拟人物的身份信息。在每轮的迭代过程中，可以由用户进行线索的优选和加入有价值的新线索，也可以由系统自动进行迭代，同时可方便的集成外部人物身份数据库和使用系统建立的线索库，降低复杂度，提高效率。

在步骤117或317中可以采用基于FP-Tree（频繁模式树）增长算法的关联规则对线索集合进行关联分析。

对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

对应上述各实施例提供的网络人物信息的搜索方法，本发明还提供了一种互联网人物信息的搜索系统。下面结合图4~7对本发明互联网人物信息的搜索系统实施例进行详细说明。

参照图4，示出了本发明互联网人物信息的搜索系统实施例一的结构框图，包括：系统参数配置管理模块41、页面信息收集模块42、线索搜集模块43、关联分析模块44。

其中，系统参数配置管理模块41，用于提供可定制的参数管理，为其它模块提供参数接口服务。

页面信息收集模块42，主要用于关键词搜索。参照图6所示的页面信息收集模块实施例的结构框图，具体包括：

关键词管理单元61，用于获取和管理搜索关键词。

关键词处理单元63，用于将关键词管理单元61获取的搜索关键词处理成元搜索系统所需的搜索请求参数。

搜索单元65，用于启动元搜索系统集成的搜索引擎进行搜索，得到搜索结果。

其中，搜索单元65获取的搜索结果可以但不限于采用以下记录格式：Record（RID，title，url，urlID，inTime，docTime，docSummary）。

搜索结果存储单元67，用于存储搜索结果。

参照图7所示的页面信息收集模块实施例二的结构框图。优选的，页面信息收集模块42还可以包括：

搜索结果优化单元66，用于对搜索单元65获得的搜索结果进行排重和优选处理，得到优化的搜索结果。

线索搜集模块43，主要用于从页面信息收集模块42获得的搜索结果中进行线索搜索。参见图8所示的线索搜集模块实施例的结构框图，具体包括：

第一提取单元71，用于提取搜索结果集合的摘要线索；

页面下载单元72，用于下载搜索结果集合的相关页面；

第二提取单元73，用于提取下载页面的正文线索；

线索优化单元74，用于优选由所述摘要线索和所述正文线索组成的线索集合；

优选的，线索优化单元74进一步为：用于对摘要线索和正文线索组成的线索集合以及外部接口提供的人物资源线索数据库进行优选，得到优先线索集合。

线索存储单元75，用于存储优化线索集合；

迭代搜索请求单元76，用于将优化线索集合作为下一轮搜索的入口参数,请求页面信息收集模块42进行迭代搜索。

在本发明实施例提供的互联网人物信息的搜索系统中，线索是一个核心概念，正是通过人物线索之间的相互联系勾画出一个虚拟人物的多方位身份信息。人物线索特指电话号码、QQ号码、电子邮箱、网络账号等可识别虚拟人物身份的关键属性及URL（Uniform / Universal Resource Locator，URL，同一资源定位符，也称网页地址）、时间、地址等辅助定位用的属性。比如：2011年10月10号mop论坛ID为“疯狂的石头”的用户发表的一个帖子中提到自己的QQ号码是860**322，这就是 “疯狂的石头”这个虚拟人物的一个线索。在系统中人物线索以结构化的形式表示并存储在数据库表中。

关联分析模块44，用于对经过多次迭代搜索、优选后的线索集合进行关联分析，生成虚拟人物的身份信息。

在本发明互联网人物信息的搜索系统优选实施例中，关联分析模块44进一步用于对经过多次迭代搜索、优选后的线索集合结合外部接口提供的人物线索合进行关联分析，生成虚拟人物的身份信息。

在本发明实施例中，关联分析模块44可以但不限于采用基于FP-Tree（频繁模式树）增长算法的关联规则对线索集合进行关联分析。

图5示出了本发明互联网人物信息的搜索系统实施例二的结构框图，在图4所示互联网人物信息的搜索系统实施例一的基础上，还包括：

插件接口模块45，用于为外部资源系统的调用提供接口。

本发明提供的互联网人物信息的搜索系统实施例中，线索搜集模块43的关键技术在于线索的抽取、优化与多轮迭代搜索。技术人员在长期的人工排查过程中，通过模拟人的行为模式，发现有些线索呈现的形式是有规律、可复制、可直接利用的。例如邮箱，此类信息呈现形式有关联能直接利用。有些个人从实战当中发现的一些固定的检索技巧等，系统通过可定制的关联策略，跟线索关联识别技术合并。更好的把个人实战当中得到的检索技巧合成到系统中，让识别更贴近实际所需线索。

系统中线索抽取采用基于预定义抽取规则模式的Web包装器技术实现，通过解析规则配置文件来完成线索定位与线索提取，即线索识别可定制，同时总结出一些可以通过程序实现的优选技术：基本统计模式排除广告版权等无关内容自动抽取网页正文，进行上下文关联分析，相似线索统计等为线索设定优先级，根据优先级选出最好的线索集。

由关键词搜索、收集线索是个呈现无限扩展的趋势，可以从一条线索无限扩展出无数不同的线索线路，本发明提供的互网络人物信息的搜索系统经过多轮的迭代搜索和线索收集后，会形成如图9所示的与首次搜索关键词相关的线索集合。由图9可以看出，线索集合是一个带环的有向图，尽管已经进行了线索优化选择，集合中仍然可能存着与虚拟人物真实身份信息无关的线索或者过期的线索，此时需要系统通过关联分析模块完成对迭代搜索线索收集之后的线索集合，结合外部人物资源库线索数据，采用基于FP-Tree（频繁模式树）增长算法的关联规则进行关联规则分析，挖掘出杂乱数据中真实有效的线索，形成一个清晰准确的虚拟人物身份。

综上，本发明互联网人物信息的搜索方法和系统实施例使用元搜索技术可以充分利用公共搜索引擎的强大数据收集能力，尽可能的扩大有效数据来源的覆盖面，同时降低用户的存储成本。迭代技术的应用使用户即使知道的信息有限也可以进行人物的搜索发现，从中一步步挖掘出有效的数据进行下一步迭代，最终得出准确有效的人物信息。关联分析、优化技术、可定制线索识别技术可以帮助用户获取更加丰富的人物线索信息，同时去除大量的噪声信息，极大的降低了用户的使用难度，节约用户时间。系统对搜索结果及线索结果进行存储，通过增量搜索技术使得可以得到最新的新出现的线索信息，同时对过期失效的线索进行处理，得到人物信息的变化状态，插件式接口及参数化配置管理，使集成外部人物资源库十分方便，可充分利用现有资源，不仅降低用户的成本，同时也可以提高系统效率。

另外，本系统所需资源较少，可以进行即时搜索获取人物信息，同时方便外部资源接入，可定制化的线索识别让用户的人物信息更丰富多样化。对于检索网络人物的丰富信息，或者搜索现实人物在网络上的活动情况都有极大的实用性。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本发明所提供的一种互联网人物信息的搜索方法以及一种互联网人物信息的搜索系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种互联网人物信息的搜索方法，其特征在于，包括：

获取目标人物信息的查询关键词；

将所述查询关键词处理成元搜索系统所需的搜索请求参数；

启动元搜索系统集成的搜索引擎进行搜索；

提取搜索结果集合的摘要线索；

下载所述搜索结果集合的相关页面；

提取下载页面的正文线索；

优选由所述摘要线索和所述正文线索组成的线索集合；

将优选线索集合作为下一轮搜索的入口参数,重复上述步骤，进行迭代搜索、线索收集；

对经过多次迭代搜索、优选后的线索集合进行关联分析，生成虚拟人物的身份信息。

2.根据权利要求1所述的互联网人物信息的搜索方法，其特征在于，还包括：对搜索结果进行排重和优选处理。

3.根据权利要求1所述的互联网人物信息的搜索方法，其特征在于，所述优选由所述摘要线索和所述正文线索组成的线索集合的步骤，进一步为：

优选由所述摘要线索和所述正文线索组成的线索集合以及外部接口提供的人物资源线索数据库。

4.根据权利要求1所述的互联网人物信息的搜索方法，其特征在于，所述对经过多次迭代搜索、优选后的线索集合进行关联分析，生成虚拟人物的身份信息的步骤，进一步为：

5.根据权利要求1所述的互联网人物信息的搜索方法，其特征在于，所述搜索结果的记录格式为：Record（RID，title，url，urlID，inTime，docTime，docSummary）。

6.一种互联网人物信息的搜索系统，其特征在于，包括：系统参数配置管理模块、页面信息收集模块、线索搜集模块、关联分析模块；其中，

所述系统参数配置管理模块，用于提供可定制的参数管理，为其它模块提供参数接口服务；

所述页面信息收集模块具体包括：

关键词管理单元，用于获取和管理搜索关键词；

关键词处理单元，用于将所述搜索关键词处理成元搜索系统所需的搜索请求参数；

搜索单元，用于启动元搜索系统集成的搜索引擎进行搜索；

搜索结果存储单元，用于存储搜索结果；

所述线索搜集模块具体包括：

第一提取单元，用于提取搜索结果集合的摘要线索；

页面下载单元，用于下载所述搜索结果集合的相关页面；

第二提取单元，用于提取下载页面的正文线索；

线索优化单元，用于优选由所述摘要线索和所述正文线索组成的线索集合；

线索存储单元，用于存储优化线索集合；

迭代搜索请求单元，用于将所述优化线索集合作为下一轮搜索的入口参数,请求所述页面信息收集模块进行迭代搜索；

所述关联分析模块，用于对经过多次迭代搜索、优选后的线索集合进行关联分析，生成虚拟人物的身份信息。

7.根据权利要求6所述的互联网人物信息的搜索系统，其特征在于，还包括：

插件接口模块，用于为外部资源系统的调用提供接口。

8.根据权利要求6所述的互联网人物信息的搜索系统，其特征在于，所述页面信息收集模块还包括：

搜索结果优化单元，用于对所述搜索结果进行排重和优选处理，得到优化的搜索结果。

9.根据权利要求6所述的互联网人物信息的搜索系统，其特征在于，所述线索收集模块的线索优化单元进一步为：用于对所述摘要线索和所述正文线索组成的线索集合以及外部接口提供的人物资源线索数据库进行优选，得到优先线索集合。

10.根据权利要求6所述的互联网人物信息的搜索系统，其特征在于，所述关联分析模块进一步为：用于对经过多次迭代搜索、优选后的线索集合，结合外部接口提供的人物资源库线索数据进行关联分析，生成虚拟人物的身份信息。

11.根据权利要求6所述的互联网人物信息的搜索系统，其特征在于，所述搜索单元获取的搜索结果的记录格式为：Record（RID，title，url，urlID，inTime，docTime，docSummary）。

12.根据权利要求6所述的互联网人物信息的搜索系统，其特征在于，所述关联分析模块采用基于频繁模式树增长算法的关联规则对线索集合进行关联分析。