CN113157850A - 海量数据多维快速智能搜索方法 - Google Patents
海量数据多维快速智能搜索方法 Download PDFInfo
- Publication number
- CN113157850A CN113157850A CN202011233434.8A CN202011233434A CN113157850A CN 113157850 A CN113157850 A CN 113157850A CN 202011233434 A CN202011233434 A CN 202011233434A CN 113157850 A CN113157850 A CN 113157850A
- Authority
- CN
- China
- Prior art keywords
- data
- retrieval
- searching
- search
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 17
- 238000012163 sequencing technique Methods 0.000 claims abstract description 10
- 230000011218 segmentation Effects 0.000 claims abstract description 7
- 238000012795 verification Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 5
- 230000000694 effects Effects 0.000 abstract description 3
- 238000012797 qualification Methods 0.000 abstract description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及海量数据多维快速智能搜索方法,通过Solr快速索引、IK分词、TF‑IDF排序等多种技术极大的提高了搜索的效率,并且应用多种查询方式,使得查询能够保质保量高效进行。本发明还可以通过部门、人员的搜索权限设置大大提高公安大数据的安全性。本发明与现有系统相比,在数据检索速度上大幅提升,其次本系统的准确度、难易度都能达到现有大数据搜索系统的最优效果。也可以通过对系统后台的配置,进行更加精准严密的资格权限划分,使得信息更加安全,其中后台配置中档案及概览的配置可以将不同维度的数据进行快速整合,将会节约大量的搜索资源与人力资源。
Description
技术领域
本发明涉及大数据技术领域,具体是海量数据多维快速智能搜索方法。
背景技术
随着大数据技术的不断发展,已经进入到各个领域开始提供相应的辅助服务工作,但是相较于以往的大数据搜索系统来说,依旧存在着大量的数据无法被有效合理的应用,且应用人随着年龄的增长无法有效掌握新技术的发展。
发明内容
有鉴于此,本发明的目的是提供海量数据多维快速智能搜索方法,能够简化搜索流程,整合数据源,统一配置、统一管理,并且自动整理所搜索出的数据。
本发明的海量数据多维快速智能搜索方法,包括步骤
创建空白数据库,通过数据接口接入多个源数据库,并将多个源数据库的数据导入至空白数据库中生成数据源;
对数据源中的数据进行创建Solr索引、IK分词和TF-IDF排序;
数据源接入至检索系统中,并对检索系统进行检索权限配置,数据源根据用户的检索主题给出对应的符合权限的数据,如果数据源中没有对应的数据,则对该主题进行记录;
数据接口根据用户的检索主题,将不同的实体数据加入至数据源中;
不同的实体数据加入至数据源中时,需要按照创建Solr索引、IK分词和 TF-IDF排序的方式加入数据源中。
进一步地,所述检索系统包括注册和登录验证模块,注册和登录验证模块用于为用户分配账户,检索权限分配在账户中。
进一步地,所述检索系统包括预览模块、检索项配置模块和档案配置模块,预览模块用于对用户在检索时对数据进行预览,检索项配置模块用于配置用于检索时的标准格式,档案配置模块用于选择数据接口接入的源数据库。
进一步地,用户检索完毕后,所述检索系统对检索记录进行保存,并将检索记录中检索数量超过阈值的对相应的检索主题放入至高频检索库中,下一次检索时,优先在高频检索库中进行检索。
本发明的有益效果是:本发明的海量数据多维快速智能搜索方法,通过Solr 快速索引、IK分词、TF-IDF排序等多种技术极大的提高了搜索的效率,并且应用多种查询方式,使得查询能够保质保量高效进行。其次,本发明自由灵活的后台配置可以满足各种用户、各种单位的搜索需求与展示需求,包括概览配置,搜索项配置,档案配置等等。最后,本发明还可以通过部门、人员的搜索权限设置大大提高公安大数据的安全性。本发明与现有系统相比,在数据检索速度上大幅提升,其次本系统的准确度、难易度都能达到现有大数据搜索系统的最优效果。也可以通过对系统后台的配置,进行更加精准严密的资格权限划分,使得信息更加安全,其中后台配置中档案及概览的配置可以将不同维度的数据进行快速整合,将会节约大量的搜索资源与人力资源。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1为本发明的搜索数据流向示意图;
图2为本发明的内容新增的过程示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
如图1所示:本实施例的海量数据多维快速智能搜索方法,包括步骤
创建空白数据库,通过数据接口接入多个源数据库,并将多个源数据库的数据导入至空白数据库中生成数据源;
对数据源中的数据进行创建Solr索引、IK分词和TF-IDF排序;
数据源接入至检索系统中,并对检索系统进行检索权限配置,数据源根据用户的检索主题给出对应的符合权限的数据,如果数据源中没有对应的数据,则对该主题进行记录;
数据接口根据用户的检索主题,将不同的实体数据加入至数据源中;
不同的实体数据加入至数据源中时,需要按照创建Solr索引、IK分词和 TF-IDF排序的方式加入数据源中。
本实施例中,检索系统包括注册和登录验证模块,注册和登录验证模块用于为用户分配账户,检索权限分配在账户中。
本实施例中,检索系统包括预览模块、检索项配置模块和档案配置模块,预览模块用于对用户在检索时对数据进行预览,检索项配置模块用于配置用于检索时的标准格式,档案配置模块用于选择数据接口接入的源数据库。
本实施例中,用户检索完毕后,检索系统对检索记录进行保存,并将检索记录中检索数量超过阈值的对相应的检索主题放入至高频检索库中,下一次检索时,优先在高频检索库中进行检索。
本发明的数据源将由公安系统内部不同来源的源数据库及接口等多接入方式进行接入,该部分数据经过创建Solr索引、IK分词和TF-IDF排序等数据治理后统一接入至数据源,数据通过接口取数进入实体后,会根据用户的搜索选项最终显示在搜索界面中。
后续搜索过程如图2,本发明中的检索系统以及检索方法将从后台配置以及前台呈现两个模块进行设计。
后台配置:
1、通过新建实体及实体任务的方式将底层数据筛选所需字段进行取数进行数据的初步提取整合。
2、针对不同实体可以设置可搜索字段、概览显示字段、详情展示字段等。为前台搜索界面功能提供支撑。
3、根据不同搜索主题的需求,将不同的实体数据加入主题搜索内容中。
4、根据部门、人员级别设置能够搜索的数据字段权限和查看权限。
前台呈现:使用者在主界面针对相关主题进行一键搜索(也可以多选主题或者全量数据搜索),显示界面中将显示后台配置中涉及的概览、档案界面等字段信息,还可以进行相关搜索数据收藏,根据索引路线进行搜索定位,调取搜索数据的相关档案等。
本发明的海量数据多维快速智能搜索方法,通过Solr快速索引、IK分词、 TF-IDF排序等多种技术极大的提高了搜索的效率,并且应用多种查询方式,使得查询能够保质保量高效进行。其次,本发明自由灵活的后台配置可以满足各种用户、各种单位的搜索需求与展示需求,包括概览配置,搜索项配置,档案配置等等。最后,本发明还可以通过部门、人员的搜索权限设置大大提高公安大数据的安全性。本发明与现有系统相比,在数据检索速度上大幅提升,其次本系统的准确度、难易度都能达到现有大数据搜索系统的最优效果。也可以通过对系统后台的配置,进行更加精准严密的资格权限划分,使得信息更加安全,其中后台配置中档案及概览的配置可以将不同维度的数据进行快速整合,将会节约大量的搜索资源与人力资源。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (4)
1.海量数据多维快速智能搜索方法,其特征在于:包括步骤
创建空白数据库,通过数据接口接入多个源数据库,并将多个源数据库的数据导入至空白数据库中生成数据源;
对数据源中的数据进行创建Solr索引、IK分词和TF-IDF排序;
数据源接入至检索系统中,并对检索系统进行检索权限配置,数据源根据用户的检索主题给出对应的符合权限的数据,如果数据源中没有对应的数据,则对该主题进行记录;
数据接口根据用户的检索主题,将不同的实体数据加入至数据源中;
不同的实体数据加入至数据源中时,需要按照创建Solr索引、IK分词和TF-IDF排序的方式加入数据源中。
2.根据权利要求1所述的海量数据多维快速智能搜索方法,其特征在于:所述检索系统包括注册和登录验证模块,注册和登录验证模块用于为用户分配账户,检索权限分配在账户中。
3.根据权利要求1所述的海量数据多维快速智能搜索方法,其特征在于:所述检索系统包括预览模块、检索项配置模块和档案配置模块,预览模块用于对用户在检索时对数据进行预览,检索项配置模块用于配置用于检索时的标准格式,档案配置模块用于选择数据接口接入的源数据库。
4.根据权利要求1所述的海量数据多维快速智能搜索方法,其特征在于:用户检索完毕后,所述检索系统对检索记录进行保存,并将检索记录中检索数量超过阈值的对相应的检索主题放入至高频检索库中,下一次检索时,优先在高频检索库中进行检索。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011233434.8A CN113157850A (zh) | 2020-11-06 | 2020-11-06 | 海量数据多维快速智能搜索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011233434.8A CN113157850A (zh) | 2020-11-06 | 2020-11-06 | 海量数据多维快速智能搜索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113157850A true CN113157850A (zh) | 2021-07-23 |
Family
ID=76882352
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011233434.8A Pending CN113157850A (zh) | 2020-11-06 | 2020-11-06 | 海量数据多维快速智能搜索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113157850A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5963940A (en) * | 1995-08-16 | 1999-10-05 | Syracuse University | Natural language information retrieval system and method |
CN101561815A (zh) * | 2009-05-19 | 2009-10-21 | 华中科技大学 | 分布式密文全文检索系统 |
CN102968495A (zh) * | 2012-11-29 | 2013-03-13 | 河海大学 | 搜索对比关联购物信息的垂直搜索引擎及方法 |
CN103412933A (zh) * | 2013-08-20 | 2013-11-27 | 南京物联网应用研究院有限公司 | 一种云搜索平台 |
CN106599153A (zh) * | 2016-12-07 | 2017-04-26 | 河北中废通网络技术有限公司 | 一种基于多个数据源的废旧行业搜索系统以及其方法 |
CN108073630A (zh) * | 2016-11-16 | 2018-05-25 | 北京京东尚科信息技术有限公司 | 一种基于动态化配置的业务搜索接入管理方法及系统 |
CN110858208A (zh) * | 2018-08-22 | 2020-03-03 | 北京航天长峰科技工业集团有限公司 | 一种集成式跨平台信息检索系统 |
-
2020
- 2020-11-06 CN CN202011233434.8A patent/CN113157850A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5963940A (en) * | 1995-08-16 | 1999-10-05 | Syracuse University | Natural language information retrieval system and method |
CN101561815A (zh) * | 2009-05-19 | 2009-10-21 | 华中科技大学 | 分布式密文全文检索系统 |
CN102968495A (zh) * | 2012-11-29 | 2013-03-13 | 河海大学 | 搜索对比关联购物信息的垂直搜索引擎及方法 |
CN103412933A (zh) * | 2013-08-20 | 2013-11-27 | 南京物联网应用研究院有限公司 | 一种云搜索平台 |
CN108073630A (zh) * | 2016-11-16 | 2018-05-25 | 北京京东尚科信息技术有限公司 | 一种基于动态化配置的业务搜索接入管理方法及系统 |
CN106599153A (zh) * | 2016-12-07 | 2017-04-26 | 河北中废通网络技术有限公司 | 一种基于多个数据源的废旧行业搜索系统以及其方法 |
CN110858208A (zh) * | 2018-08-22 | 2020-03-03 | 北京航天长峰科技工业集团有限公司 | 一种集成式跨平台信息检索系统 |
Non-Patent Citations (1)
Title |
---|
领头兵知识联盟: "跟着审查员学检索|宅在家也能用的S系统——PSS", pages 1 - 8, Retrieved from the Internet <URL:https://baijiahao.baidu.com/s?id=1657891970141931489&wfr=spider&for=pc> * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108257043B (zh) | 一种政务信息资源梳理及目录管理系统和方法 | |
CN107819824B (zh) | 一种城市数据开放与信息服务系统及服务方法 | |
US9230083B2 (en) | Securing application information in system-wide search engines | |
CN111382226B (zh) | 一种数据库查询检索方法、装置和电子设备 | |
CN110674228A (zh) | 数据仓库模型构建和数据查询方法、装置及设备 | |
US20150012529A1 (en) | Pivot facets for text mining and search | |
CN111767303A (zh) | 一种数据查询方法、装置、服务器及可读存储介质 | |
KR101573561B1 (ko) | X500 데이터 모델을 관계형 데이터베이스에 매핑하는 방법 | |
CN113190687B (zh) | 知识图谱的确定方法、装置、计算机设备及存储介质 | |
CN104699849A (zh) | 数字图书馆资源统一检索系统 | |
CN111966866A (zh) | 一种数据资产管理的方法和装置 | |
JP2001350656A (ja) | 異種データソース統合アクセス方法 | |
CN105095436A (zh) | 数据源数据自动建模方法 | |
CN111897836A (zh) | 一种搜索系统、方法及存储介质 | |
CN109947832A (zh) | 将excel数据表生成sql文件的方法、装置、终端及存储介质 | |
US8204895B2 (en) | Apparatus and method for receiving a report | |
CN110019542B (zh) | 企业关系的生成、生成组织成员数据库及识别同名成员 | |
CN108985567B (zh) | 基于自定义指标标签动态生成指标分析标签的方法和系统 | |
CN114003634A (zh) | 基于es技术的大数据分析检索系统及方法 | |
CN115936017B (zh) | 一种支持界面多语言和数据多语言的主数据管理方法 | |
CN111190965A (zh) | 基于文本数据的即席关系分析系统及方法 | |
CN113157850A (zh) | 海量数据多维快速智能搜索方法 | |
CN110096586B (zh) | 云平台数据管理系统 | |
US11556515B2 (en) | Artificially-intelligent, continuously-updating, centralized-database-identifier repository system | |
CN111143329B (zh) | 一种数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |