CN103294715A - 一种暗网数据搜索方法及搜索引擎 - Google Patents

一种暗网数据搜索方法及搜索引擎 Download PDF

Info

Publication number
CN103294715A
CN103294715A CN 201210049279 CN201210049279A CN103294715A CN 103294715 A CN103294715 A CN 103294715A CN 201210049279 CN201210049279 CN 201210049279 CN 201210049279 A CN201210049279 A CN 201210049279A CN 103294715 A CN103294715 A CN 103294715A
Authority
CN
China
Prior art keywords
search
darknet
data
configuration
data structure
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201210049279
Other languages
English (en)
Inventor
王卫波
潘树燊
黄同同
郝志新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN 201210049279 priority Critical patent/CN103294715A/zh
Publication of CN103294715A publication Critical patent/CN103294715A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种暗网数据搜索方法,所述方法包括:从暗网上获取暗网数据;根据预配置搜索使用的数据结构转换规则,将所述暗网数据的数据结构转换为搜索通用的数据结构,生成暗网数据检索库;基于所述暗网数据检索库进行暗网数据的搜索处理。相应的,本发明还公开了一种暗网数据搜索引擎,提供了灵活可定制的暗网数据搜索方式,并可以对暗网数据进行多字段检索、过滤、统计、标红、排重和排序等搜索处理,能够为用户的搜索需求提供丰富的暗网数据作为搜索结果,提高了暗网数据搜索的灵活性,实现了暗网数据搜索方式的可配置性,并且提升了用户体验。

Description

一种暗网数据搜索方法及搜索引擎
技术领域
本发明涉及网络搜索技术,尤其涉及一种暗网数据搜索方法及搜索引擎。
背景技术
暗网(Hidden Web)是指网络上不能通过静态链接获取其内容的web页面,如各网站通过用输入关键词才能获得表单内容的页面,需要登录才能获取的页面等,这些页面是目前搜索引擎所无法抓取的网页、不能直接进行检索的网页,即“看不见”的网站。
2000年由Bright Planet公司发布的一个名为《The Deep Web-Surfacing TheHidden Value》白皮书中提供的数据,“暗网”包含100亿个不重复的表单,其包含的信息量是“非暗网”的40倍,有效高质内容总量至少是后者的1000倍到2000倍。而此比率随着时间推移正在越来越大。发掘、索引和丰富展示更多的暗网数据,对各搜索引擎来说已经势在必行或者正在实施。
对于暗网数据的检索,目前搜索业界通行的策略是:由搜索引擎侧开放统一的API接口,各大暗网网站提交已经结构化的暗网数据,并设定好关键词和展示方式、位置。搜索引擎后台通过Key-Value的索引方式,对这些结构化的暗网数据进行索引,当用户输入的关键词(key)与暗网网站设定的索引相匹配时,展示既定的静态结果(value)给用户。这样的检索方法,只能按照暗网网站提供的检索词进行死板的检索、排序和展示,仅能够展示暗网提供的结构化暗网数据。
发明内容
有鉴于此,本发明的主要目的在于提供一种暗网数据搜索方法及搜索引擎,以解决暗网数据搜索不灵活的问题。
为达到上述目的,本发明的技术方案是这样实现的:
本发明提供了一种暗网数据搜索方法,所述方法包括:
从暗网上获取暗网数据;
根据预配置搜索使用的数据结构转换规则,将所述暗网数据的数据结构转换为搜索通用的数据结构,生成暗网数据检索库;
基于所述暗网数据检索库进行暗网数据的搜索处理。
在上述方案中,所述方法还包括:配置搜索使用的数据结构转换规则。
在上述方案中,所述配置搜索使用的数据结构转换规则,包括:基于接收到的搜索配置请求中包含的配置参数,配置搜索使用的数据结构转换规则。
在上述方案中,所述配置搜索使用的数据结构转换规则包括:配置用于标识暗网数据产品类型的暗网ID以及暗网数据各字段的搜索属性,将暗网数据作为索引的字段配置为该暗网数据的命中条件。
在上述方案中,所述基于所述暗网数据检索库进行暗网数据的搜索处理,包括:
获取搜索条件,从所述搜索条件中提取出进行搜索的关键字,以提取出的关键字作为暗网ID和命中条件,在所述暗网数据检索库中检索相匹配的暗网数据。
本发明还提供了一种暗网数据搜索引擎,所述搜索引擎包括:获取单元、转换单元和搜索处理单元;其中,
获取单元,用于从暗网上获取暗网数据;
转换单元,用于根据预配置搜索使用的数据结构转换规则,将所述获取单元所获取暗网数据的数据结构转换为搜索通用的数据结构,生成暗网数据检索库;
搜索处理单元,用于基于所述转换单元生成的暗网数据检索库进行暗网数据的搜索处理。
在上述方案中,所述搜索引擎还包括:配置单元,用于配置搜索使用的数据结构转换规则;
所述转换单元,具体用于根据所述配置单元预配置的数据结构转换规则,将所述获取单元所获取暗网数据的数据结构转换为搜索通用的数据结构,生成暗网数据检索库。
在上述方案中,所述配置单元,还用于基于接收到的搜索配置请求中包含的配置参数,配置搜索使用的数据结构转换规则。
在上述方案中,所述配置单元,具体用于配置用于标识暗网数据产品类型的暗网ID以及暗网数据各字段的搜索属性,将暗网数据作为索引的字段配置为该暗网数据的命中条件。。
在上述方案中,所述搜索处理单元,具体用于获取搜索条件,从所述搜索条件中提取出进行搜索的关键字,以提取出的关键字作为暗网ID和命中条件,在所述转换单元生成的暗网数据检索库中检索相匹配的暗网数据。
本发明提供的暗网数据搜索方法及搜索引擎,根据预配置搜索使用的数据结构转换规则,将暗网数据的数据结构转换为搜索通用的数据结构,生成暗网数据检索库;再基于所述暗网数据检索库进行暗网数据的搜索处理,提供了灵活可定制的暗网数据搜索方式,并可以对暗网数据进行多字段检索、过滤、统计、标红、排重和排序等搜索处理,能够为用户的搜索需求提供丰富的暗网数据作为搜索结果,此外,还可以为各暗网提供暗网数据搜索的定制化服务,从而提高了暗网数据搜索的灵活性,实现了暗网数据搜索方式的可配置性,并且提升了用户体验。
附图说明
图1为本发明暗网数据搜索方法的实现流程图;
图2为本发明实施例一中暗网数据搜索的流程图;
图3为本发明实施例二中暗网数据搜索的流程图。
具体实施方式
本发明提供的暗网数据搜索引擎及搜索方法,能够基于用户需求将暗网数据的数据结构转换为搜索需要的数据结构后,再进行暗网数据的搜索处理。
本发明的暗网数据搜索方法,参照图1所示,主要可以包括如下步骤:
步骤101:从暗网上获取暗网数据;
步骤102:根据预配置搜索使用的数据结构转换规则,将所述暗网数据的数据结构转换为搜索通用的数据结构,生成暗网数据检索库;
具体地,按照已配置的数据结构转换规则,对暗网数据进行解析处理,将所述暗网数据的数据结构转换为搜索通用的数据结构,生成相应数据结构下的暗网数据检索库。
步骤103:基于所述暗网数据检索库进行暗网数据的搜索处理。
这里,在步骤102之前,所述方法还包括:配置搜索使用的数据结构转换规则。具体地,包括配置用于标识暗网数据产品类型的暗网ID以及暗网数据各字段的搜索属性,将暗网数据作为索引的字段配置为该暗网数据的命中条件。例如,配置暗网数据各字段是否作为索引、是否过滤、是否标红、是否排重、是否统计等属性中的任意一种或多种。其中,可以基于接收到的搜索配置请求中包含的配置参数,配置搜索使用的数据结构转换规则;也可以采用人工静态配置的方式实现。
其中,步骤103中所述基于所述暗网数据检索库进行暗网数据的搜索处理,包括:获取搜索条件,从所述搜索条件中提取出进行搜索的关键字,以提取出的关键字作为暗网ID和命中条件在所述暗网数据检索库中检索相匹配的暗网数据。具体地,以提取出的关键字作为暗网ID和命中条件,得到多个暗网ID和命中条件的组合时,分别以每个暗网ID和命中条件的组合为检索条件,在所述暗网数据检索库中检索相匹配的暗网数据,得到的多组暗网数据,再提取多组暗网数据中共有的部分作为搜索结果。
相应的,本发明还提供了一种暗网数据搜索引擎,所述搜索引擎包括:获取单元、转换单元和搜索处理单元;其中,获取单元,用于从暗网上获取暗网数据;转换单元,用于根据预配置搜索使用的数据结构转换规则,将所述获取单元所获取暗网数据的数据结构转换为搜索通用的数据结构,生成暗网数据检索库;搜索处理单元,用于基于所述转换单元生成的暗网数据检索库进行暗网数据的搜索处理。
这里,所述搜索引擎还包括:配置单元,用于配置搜索使用的数据结构转换规则;所述转换单元,具体用于根据所述配置单元预配置的数据结构转换规则,将所述获取单元所获取暗网数据的数据结构转换为搜索通用的数据结构,生成暗网数据检索库。
其中,所述配置单元,还可以用于基于接收到的搜索配置请求中包含的配置参数,配置搜索使用的数据结构转换规则。具体地,所述配置单元用于配置用于标识暗网数据产品类型的暗网ID以及暗网数据各字段的搜索属性,将暗网数据作为索引的字段配置为该暗网数据的命中条件。
其中,所述搜索处理单元,具体用于获取搜索条件,从所述搜索条件中提取出进行搜索的关键字,以提取出的关键字作为暗网ID和命中条件在所述转换单元生成的暗网数据检索库中检索相匹配的暗网数据。
实施例一
如图2所示,本实施例中,暗网数据搜索引擎进行暗网数据搜索的流程可以包括如下步骤:
步骤201:在暗网数据搜索引擎上配置搜索所使用的数据结构转换规则,即配置用于标识暗网数据产品类型的暗网ID,并将暗网数据作为索引的字段配置为该暗网数据的命中条件;
这里,还可以配置暗网数据各字段的其他搜索属性,例如,可以设置所配置命中条件是否标红、是否排重、是否统计等属性;按照已配置的数据结构转换规则,对暗网数据进行解析处理,生成相应数据结构下的暗网数据检索库。如此,可以通过暗网ID区分不同类型的暗网数据,通过命中条件来唯一识别暗网数据。
实际应用中,可以采用人工静态配置的方式完成本步骤。
步骤202:暗网数据搜索引擎通过自身的数据同步API与暗网服务器进行交互,从暗网上获取暗网数据;
步骤203:基于已配置的数据结构转换规则,对所获取的暗网数据进行解析处理,生成相应数据结构下的暗网数据检索库。
步骤204:搜索暗网数据时,用户在搜索页面上输入搜索条件,搜索页面服务器生成数据搜索请求,并通过暗网数据搜索引擎提供的检索API发送给暗网数据搜索引擎;
步骤205:暗网数据搜索引擎接收数据搜索请求,获取搜索条件,并从所述搜索条件中提取出进行搜索的关键字,以提取出的关键字作为暗网ID和命中条件在所述暗网数据检索库中检索相匹配的暗网数据,并将检索到的暗网数据作为搜索结果显示在所述搜索页面上,返回给用户。
例如,用户在搜索页面上输入搜索条件“深圳卫视在2月28日的电视节目”,暗网数据搜索引擎从中提取出关键字“电视节目”、“深圳卫视”、“2月28日”、“电视节目”,并据此判定出该用户检索的暗网数据类型为电视节目预告(暗网ID)、电视台(命中条件)为“深圳卫视”,播放日期(命中条件)为“2月28日”的数据,再从所述暗网数据检索库中查询暗网ID为“电视节目预告”、电视台为“深圳卫视”、播放时间为“2月28日”的暗网数据,并提取基于三种条件查询的暗网数据中相同的部分作为搜索结果。这里,如果在步骤201中配置字段“电视台”的属性为“标红”,则在将所述搜索结果中的“深圳卫视”做标红处理,如果在步骤201中配置“节目类型”的属性为“统计”,则还可以对所述搜索结果中出现的“节目类型”做统计处理,并在所述搜索结果中增加统计处理的结果。
实施例二
实际应用中,用户也可以直接在暗网页面上实现暗网数据搜索。
如图3所示,本实施例中,进行暗网数据搜索的流程可以包括如下步骤:
步骤301:用户在暗网页面上输入搜索使用的配置参数,暗网服务器根据用户输入的配置参数,通过暗网数据搜索引擎的数据同步API向暗网数据搜索引擎发起搜索配置请求;
步骤302:暗网数据搜索引擎接收所述搜索配置请求,基于所述搜索配置请求中包含的配置参数,在本地配置搜索所使用的数据结构转换规则,即配置用于标识暗网数据产品类型的暗网ID,并将暗网数据作为索引的字段配置为该暗网数据的命中条件;
这里,还可以配置暗网数据各字段的其他搜索属性,例如,可以设置所配置命中条件是否标红、是否排重、是否统计等属性,也可以设置暗网数据的其他字段是否过滤、是否标红、是否排重、是否统计等属性;按照已配置的数据结构转换规则,对暗网数据进行解析处理,生成相应数据结构下的暗网数据检索库。
步骤303-304:与步骤202-203完全相同;
步骤305:暗网数据搜索引擎向暗网服务器返回配置成功的响应;
步骤306:暗网服务器在暗网页面上显示搜索框,用户在该搜索框中输入搜索条件,暗网服务器基于用户输入的搜索条件生成数据搜索请求,并通过暗网数据搜索引擎提供的检索API将所述数据搜索请求发送给暗网数据搜索引擎;
步骤307:暗网数据搜索引擎接收所述数据搜索请求,获取搜索条件,从所述搜索条件中提取出进行搜索的关键字,并以提取出的关键字作为暗网ID和命中条件在所述暗网数据检索库中检索相匹配的暗网数据,并将检索到的暗网数据作为搜索结果返回给暗网服务器。
这里,暗网数据搜索引擎进行数据检索的过程与步骤205相同,不再赘述。
步骤308:暗网服务器接收暗网数据搜索引擎返回的搜索结果,并将所述搜索结果显示在暗网页面上,返回给用户。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1.一种暗网数据搜索方法,其特征在于,所述方法包括:
从暗网上获取暗网数据;
根据预配置搜索使用的数据结构转换规则,将所述暗网数据的数据结构转换为搜索通用的数据结构,生成暗网数据检索库;
基于所述暗网数据检索库进行暗网数据的搜索处理。
2.根据权利要求1所述的暗网数据搜索方法,其特征在于,所述方法还包括:配置搜索使用的数据结构转换规则。
3.根据权利要求2所述的暗网数据搜索方法,其特征在于,所述配置搜索使用的数据结构转换规则,包括:基于接收到的搜索配置请求中包含的配置参数,配置搜索使用的数据结构转换规则。
4.根据权利要求2或3所述的暗网数据搜索方法,其特征在于,所述配置搜索使用的数据结构转换规则包括:配置用于标识暗网数据产品类型的暗网ID以及暗网数据各字段的搜索属性,将暗网数据作为索引的字段配置为该暗网数据的命中条件。
5.根据权利要求4所述的暗网数据搜索方法,其特征在于,所述基于所述暗网数据检索库进行暗网数据的搜索处理,包括:
获取搜索条件,从所述搜索条件中提取出进行搜索的关键字,以提取出的关键字作为暗网ID和命中条件,在所述暗网数据检索库中检索相匹配的暗网数据。
6.一种暗网数据搜索引擎,其特征在于,所述搜索引擎包括:获取单元、转换单元和搜索处理单元;其中,
获取单元,用于从暗网上获取暗网数据;
转换单元,用于根据预配置搜索使用的数据结构转换规则,将所述获取单元所获取暗网数据的数据结构转换为搜索通用的数据结构,生成暗网数据检索库;
搜索处理单元,用于基于所述转换单元生成的暗网数据检索库进行暗网数据的搜索处理。
7.根据权利要求6所述的暗网数据搜索引擎,其特征在于,所述搜索引擎还包括:配置单元,用于配置搜索使用的数据结构转换规则;
所述转换单元,具体用于根据所述配置单元预配置的数据结构转换规则,将所述获取单元所获取暗网数据的数据结构转换为搜索通用的数据结构,生成暗网数据检索库。
8.根据权利要求7所述的暗网数据搜索引擎,其特征在于,所述配置单元,还用于基于接收到的搜索配置请求中包含的配置参数,配置搜索使用的数据结构转换规则。
9.根据权利要求7或8所述的暗网数据搜索引擎,其特征在于,所述配置单元,具体用于配置用于标识暗网数据产品类型的暗网ID以及暗网数据各字段的搜索属性,将暗网数据作为索引的字段配置为该暗网数据的命中条件。
10.根据权利要求9所述的暗网数据搜索引擎,其特征在于,所述搜索处理单元,具体用于获取搜索条件,从所述搜索条件中提取出进行搜索的关键字,以提取出的关键字作为暗网ID和命中条件,在所述转换单元生成的暗网数据检索库中检索相匹配的暗网数据。
CN 201210049279 2012-02-29 2012-02-29 一种暗网数据搜索方法及搜索引擎 Pending CN103294715A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201210049279 CN103294715A (zh) 2012-02-29 2012-02-29 一种暗网数据搜索方法及搜索引擎

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201210049279 CN103294715A (zh) 2012-02-29 2012-02-29 一种暗网数据搜索方法及搜索引擎

Publications (1)

Publication Number Publication Date
CN103294715A true CN103294715A (zh) 2013-09-11

Family

ID=49095603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201210049279 Pending CN103294715A (zh) 2012-02-29 2012-02-29 一种暗网数据搜索方法及搜索引擎

Country Status (1)

Country Link
CN (1) CN103294715A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138561A (zh) * 2015-07-23 2015-12-09 中国测绘科学研究院 一种暗网空间数据采集方法及装置
CN105183884A (zh) * 2015-09-24 2015-12-23 西安未来国际信息股份有限公司 一种基于大数据技术的搜索引擎系统及搜索引擎方法
CN114928532A (zh) * 2022-05-17 2022-08-19 北京达佳互联信息技术有限公司 一种告警消息的生成方法、装置、设备及存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105138561A (zh) * 2015-07-23 2015-12-09 中国测绘科学研究院 一种暗网空间数据采集方法及装置
CN105138561B (zh) * 2015-07-23 2018-11-27 中国测绘科学研究院 一种暗网空间数据采集方法及装置
CN105183884A (zh) * 2015-09-24 2015-12-23 西安未来国际信息股份有限公司 一种基于大数据技术的搜索引擎系统及搜索引擎方法
CN114928532A (zh) * 2022-05-17 2022-08-19 北京达佳互联信息技术有限公司 一种告警消息的生成方法、装置、设备及存储介质
CN114928532B (zh) * 2022-05-17 2023-12-12 北京达佳互联信息技术有限公司 一种告警消息的生成方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN101408877B (zh) 树节点加载系统及其方法
EP2321745B1 (en) Providing posts to discussion threads in response to a search query
US20140089289A1 (en) Systems and methods for facilitating open source intelligence gathering
CN102760151B (zh) 开源软件获取与搜索系统的实现方法
CN104077415B (zh) 搜索方法及装置
CN108647276B (zh) 一种搜索方法
CN103984740B (zh) 基于组合标签的检索页显示的方法和系统
CN102402619A (zh) 一种搜索方法和装置
CN102982076A (zh) 基于语义标签库的多维度内容标注方法
CN104615627B (zh) 一种基于微博平台的事件舆情信息提取方法及系统
CN103631794A (zh) 一种用于对搜索结果进行排序的方法、装置与设备
CN103678668A (zh) 相关搜索结果的提示方法、服务器及系统
CN104835014A (zh) 一种企业科研信息服务平台
CN102722558A (zh) 一种为用户推荐提问的方法和装置
CN104503988B (zh) 搜索方法及装置
CN106682012A (zh) 商品对象信息搜索方法及装置
CN106682145A (zh) 一种企业信息的处理方法、服务器及客户端
CN106354860A (zh) 基于标签集的信息资源自动贴标签并自动推送的方法
CN102521321A (zh) 基于检索词歧义性和用户偏好的视频搜索方法
CN102122280A (zh) 一种智能提取内容对象的方法及系统
CN101241504A (zh) 一种基于内容的遥感图像数据智能搜索方法
CN103778124A (zh) 一种树形结构查询方法及装置
CN100477593C (zh) 网络社区中相关讨论区的选取方法及选取装置
CN103914486B (zh) 文档的搜索及展现的系统
CN103914488A (zh) 文档的采集、标识、关联、搜索及展现的系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131016

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20131016

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130911