CN106844755A - 一种基于搜索引擎的数据资产快速检索方法 - Google Patents
一种基于搜索引擎的数据资产快速检索方法 Download PDFInfo
- Publication number
- CN106844755A CN106844755A CN201710086210.0A CN201710086210A CN106844755A CN 106844755 A CN106844755 A CN 106844755A CN 201710086210 A CN201710086210 A CN 201710086210A CN 106844755 A CN106844755 A CN 106844755A
- Authority
- CN
- China
- Prior art keywords
- data
- assets
- search
- data assets
- retrieval
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/156—Query results presentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于搜索引擎的数据资产快速检索方法,属于搜索引擎技术领域,本发明通过引入大数据搜索引擎和智能推荐引擎,实现对大数据平台内所管辖的所有数据资产信息的一站式检索及用户检索信息的智能推荐。解决大数据平台数据资产检索入口多、检索条件不灵活、检索结果单一无用户行为的智能推荐的问题,实现了对大数据平台内数据资产的检索。
Description
技术领域
本发明涉及搜索引擎技术,尤其涉及一种基于搜索引擎的数据资产快速检索方法。
背景技术
随移动互联网、大数据技术的普及,数字化时代已经到了,随着大数据平台的不断建设积累,大数据平台的数据资产规模在迅速膨胀,但当前对数据资产的检索方式还局限于传统手段,无法满足当前数据资产快速检索,快速应用的需求。
当前对数据资产的检索手段都是通过数据库技术,基于SQL语句实现,无法满足用户越来越灵活及智能的数据资产检索需求,主要体现在:
1、数据资产种类多,查询入口多,检索不方面
2、基于传统数据库方式的检索条件比较固定,检索方式不灵够灵活
3、数据资产的检索行为未被有效记录,热点数据分析、协同搜索推荐等支撑数据不足。
发明内容
为了解决该问题,本发明提出了一种基于搜索引擎的数据资产快速检索方法。主要解决大数据平台数据资产检索入口多、检索条件不灵活、检索结果单一无用户行为的智能推荐的问题,实现了对大数据平台内数据资产的检索。
本发明通过引入大数据搜索引擎和智能推荐引擎,实现对大数据平台内所管辖的所有数据资产信息的一站式检索及用户检索信息的智能推荐。
一种基于搜索引擎的数据资产快速检索方法,包括
数据资产
数据资产信息除包含大数据平台内基本的数据源接口、数据模型、数据加工任务、共享服务、关键指标外,还将检索行为数据纳入数据资产进行管理,作为为用户进行智能推荐时的依据;
数据源接口:大数据平台内数据的来源接口;
数据模型:大数据平台内的各类数据模型;
数据加工任务:大数据平台内的各类数据采集、加工处理任务;
共享服务:大数据平台内所有对外提供数据的共享服务内容;
关键指标:大数据平台内的关键指标数据。
检索行为数据:大数据平台用户所有的数据资产检索行为数据。
大数据搜索/推荐引擎
通过使用solr搜索引擎及mllib中的智能推荐算法实现大数据搜索引擎及推荐引擎的构建;
在该引擎中对数据资产的处理主要包括数据导入、建立分词、建立索引等步骤,实现对数据资产的进一步处理。
数据导入:将数据资产的各类数据从传统的数据库、文件系统中导入到大数据搜索引擎中进行存储,并提供定时更新处理能力;
建立分词:针对每一类的数据资产对其全量信息建立分词,针对不同的字段内容采用不同的分词器及分词方法;
建立索引:针对每一类的数据资产全量字段信息建立索引;
对处理过后的数据资产数据统一存放在Hadoop的hdfs文件系统中;
基于处理过后的数据资产数据对外提供搜索、推荐两种数据资产服务:
搜索:提供针对数据资产信息的检索服务,通过HTTP服务方式将用户检索结果返回前端呈现;
聚合:根据用户搜索信息,聚合呈现搜索对象的全貌信息;。
推荐:提供对用户检索信息的智能推荐,根据用户、历史检索行为、其他用户相关检索行为为用户推荐与该检索相似搜索内容。
数据资产一站式检索
主要包括数据资产检索、数据资产信息聚合、数据资产智能推荐。
其中,数据资产检索,是使用大数据搜索引擎对数据资产建立索引提供检索;
数据资产信息聚合,是使用大数据搜索引擎聚合数据资产的全貌信息;
数据资产信息推荐,是使用大数据推荐引擎提供对检索内容的智能推荐。
数据资产检索:对外提供统一的访问入口,提供对数据资产、关键性能数据、检索行为数据等的快速检索,并提供个人关注热点内容的收藏功能;
数据资产信息聚合:根据搜索结果对象聚合全貌信息,包括影响分析、血缘分析、数据处理过程、指标算法及快速数据查询;
数据资产智能推荐:基于用户的检索行为数据及数据的语义分析、相似性等,通过协同推荐引擎为用户推荐相近搜索内容。
本发明的有益效果是
通过引入大数据搜索/推荐引擎等相关技术,简化了数据资产检索的使用操作方式,提升了数据资产的检索速度,挖掘数据间关系,使数据价值利用最大化。
1.检索效率提升:基于搜索引擎技术,针对大多数的场景,海量数据检索效率提升到当前的1~3S。
2.检索步骤简化:数据检索从原有的多次/多步操作简化为当前的一键式搜索,大大提升了工作效率,降低了使用复杂度。
3.功能快速到达:离散的应用,通过一个入口快速到达,在不太熟悉系统的情况下,快速找到自己需要的应用和数据。
4.数据关系挖掘:基于协同过滤/推荐算法,实现数据之间弱关联关系的挖掘分析。
附图说明
图1是数据资产实现原理示意图。
具体实施方式
下面对本发明的内容进行更加详细的阐述:
数据资产
本发明中数据资产信息除包含大数据平台内基本的数据源接口、数据模型、数据加工任务、共享服务、关键指标外,还将检索行为数据纳入数据资产进行管理,作为为用户进行智能推荐时的依据。
1.数据源接口:大数据平台内数据的来源接口。
2.数据模型:大数据平台内的各类数据模型,包括物理模型、分析模型、挖掘模型等等。
3.数据加工任务:大数据平台内的各类数据采集、加工处理任务。
4.共享服务:大数据平台内所有对外提供数据的共享服务内容。
5.关键指标:大数据平台内的关键指标数据。
6.检索行为数据:大数据平台用户所有的数据资产检索行为数据。
大数据搜索/推荐引擎
本发明中通过使用solr搜索引擎及mllib中的智能推荐算法实现大数据搜索引擎及推荐引擎的构建。
在该引擎中对数据资产的处理主要包括数据导入、建立分词、建立索引等步骤,实现对数据资产的进一步处理。
1.数据导入:将数据资产的各类数据从传统的数据库、文件系统中导入到大数据搜索引擎中进行存储,并提供定时更新处理能力。
2.建立分词:针对每一类的数据资产对其全量信息建立分词,针对不同的字段内容采用不同的分词器及分词方法,提升分词的准确性。
3.建立索引:针对每一类的数据资产全量字段信息建立索引。
对处理过后的数据资产数据统一存放在Hadoop的hdfs文件系统中,实现分布式的数据资产存储,保障随数据资产规模的不断扩展具备良好的可扩展性。
基于处理过后的数据资产数据对外提供搜索、推荐两种数据资产服务:
1)搜索:提供针对数据资产信息的检索服务,通过HTTP服务方式将用户检索结果返回前端呈现
2)聚合:根据用户搜索信息,聚合呈现搜索对象的全貌信息,包括算法、模型信息、数据加工任务过程信息及血缘分析、影响分析、数据查询工具等;
3)推荐:提供对用户检索信息的智能推荐,根据用户、历史检索行为、其他用户相关检索行为为用户推荐与该检索相似搜索内容,推荐内容包括相似搜索信息、报表工具、多维分析、应用专题等。
数据资产一站式检索
基于大数据搜索/推进引擎,本发明提供一站式的数据资产检索功能,主要包括数据资产检索、数据资产信息聚合、数据资产智能推荐。
1.数据资产检索:对外提供统一的访问入口,提供对数据资产、关键性能数据、检索行为数据等的快速检索,并提供个人关注热点内容的收藏功能。
2.数据资产信息聚合:根据搜索结果对象聚合全貌信息,包括影响分析、血缘分析、数据处理过程、指标算法及快速数据查询等。
3. 数据资产智能推荐:基于用户的检索行为数据及数据的语义分析、相似性等,通过协同推荐引擎为用户推荐相近搜索内容。
Claims (4)
1.一种基于搜索引擎的数据资产快速检索方法,其特征在于,包括
数据资产
数据资产信息除包含大数据平台内基本的数据源接口、数据模型、数据加工任务、共享服务、关键指标外,还将检索行为数据纳入数据资产进行管理,作为为用户进行智能推荐时的依据;
大数据搜索/推荐引擎
通过使用solr搜索引擎及mllib中的智能推荐算法实现大数据搜索引擎及推荐引擎的构建;
在该引擎中对数据资产的处理主要包括数据导入、建立分词、建立索引等步骤,实现对数据资产的进一步处理;
数据资产一站式检索
主要包括数据资产检索、数据资产信息聚合、数据资产智能推荐。
2.根据权利要求1所述的方法,其特征在于,
数据源接口:大数据平台内数据的来源接口;
数据模型:大数据平台内的各类数据模型;
数据加工任务:大数据平台内的各类数据采集、加工处理任务;
共享服务:大数据平台内所有对外提供数据的共享服务内容;
关键指标:大数据平台内的关键指标数据;
检索行为数据:大数据平台用户所有的数据资产检索行为数据。
3.根据权利要求1所述的方法,其特征在于,
大数据搜索/推荐引擎,包括
数据导入:将数据资产的各类数据从传统的数据库、文件系统中导入到大数据搜索引擎中进行存储,并提供定时更新处理能力;
建立分词:针对每一类的数据资产对其全量信息建立分词,针对不同的字段内容采用不同的分词器及分词方法;
建立索引:针对每一类的数据资产全量字段信息建立索引;
对处理过后的数据资产数据统一存放在Hadoop的hdfs文件系统中;
基于处理过后的数据资产数据对外提供搜索、推荐两种数据资产服务:
搜索:提供针对数据资产信息的检索服务,通过HTTP服务方式将用户检索结果返回前端呈现;
聚合:根据用户搜索信息,聚合呈现搜索对象的全貌信息;
推荐:提供对用户检索信息的智能推荐,根据用户、历史检索行为、其他用户相关检索行为为用户推荐与该检索相似搜索内容。
4.根据权利要求1所述的方法,其特征在于,
数据资产检索:对外提供统一的访问入口,提供对数据资产、关键性能数据、检索行为数据等的快速检索,并提供个人关注热点内容的收藏功能;
数据资产信息聚合:根据搜索结果对象聚合全貌信息,包括影响分析、血缘分析、数据处理过程、指标算法及快速数据查询;
数据资产智能推荐:基于用户的检索行为数据及数据的语义分析、相似性等,通过协同推荐引擎为用户推荐相近搜索内容。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710086210.0A CN106844755A (zh) | 2017-02-17 | 2017-02-17 | 一种基于搜索引擎的数据资产快速检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710086210.0A CN106844755A (zh) | 2017-02-17 | 2017-02-17 | 一种基于搜索引擎的数据资产快速检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106844755A true CN106844755A (zh) | 2017-06-13 |
Family
ID=59128608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710086210.0A Pending CN106844755A (zh) | 2017-02-17 | 2017-02-17 | 一种基于搜索引擎的数据资产快速检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106844755A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273515A (zh) * | 2017-06-21 | 2017-10-20 | 国网内蒙古东部电力有限公司信息通信分公司 | 基于多形态数据索引技术的电网数据资产资源检索及展示 |
CN109558463A (zh) * | 2018-11-15 | 2019-04-02 | 广东港鑫科技有限公司 | 一种智能报表的数据处理方法、装置及存储介质 |
CN111090668A (zh) * | 2019-12-09 | 2020-05-01 | 北京海益同展信息科技有限公司 | 数据检索方法及装置、电子设备和计算机可读存储介质 |
CN113779417A (zh) * | 2021-11-12 | 2021-12-10 | 中国信息通信研究院 | 数字资产对象搜索方法、装置、电子设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101789006A (zh) * | 2010-01-29 | 2010-07-28 | 华东电网有限公司 | 基于智能搜索的电网企业信息集成系统的快速检索方法 |
CN103164449A (zh) * | 2011-12-15 | 2013-06-19 | 腾讯科技(深圳)有限公司 | 一种搜索结果的展现方法与装置 |
CN105183884A (zh) * | 2015-09-24 | 2015-12-23 | 西安未来国际信息股份有限公司 | 一种基于大数据技术的搜索引擎系统及搜索引擎方法 |
-
2017
- 2017-02-17 CN CN201710086210.0A patent/CN106844755A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101789006A (zh) * | 2010-01-29 | 2010-07-28 | 华东电网有限公司 | 基于智能搜索的电网企业信息集成系统的快速检索方法 |
CN103164449A (zh) * | 2011-12-15 | 2013-06-19 | 腾讯科技(深圳)有限公司 | 一种搜索结果的展现方法与装置 |
CN105183884A (zh) * | 2015-09-24 | 2015-12-23 | 西安未来国际信息股份有限公司 | 一种基于大数据技术的搜索引擎系统及搜索引擎方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107273515A (zh) * | 2017-06-21 | 2017-10-20 | 国网内蒙古东部电力有限公司信息通信分公司 | 基于多形态数据索引技术的电网数据资产资源检索及展示 |
CN109558463A (zh) * | 2018-11-15 | 2019-04-02 | 广东港鑫科技有限公司 | 一种智能报表的数据处理方法、装置及存储介质 |
CN109558463B (zh) * | 2018-11-15 | 2023-01-03 | 广东港鑫科技有限公司 | 一种智能报表的数据处理方法、装置及存储介质 |
CN111090668A (zh) * | 2019-12-09 | 2020-05-01 | 北京海益同展信息科技有限公司 | 数据检索方法及装置、电子设备和计算机可读存储介质 |
CN111090668B (zh) * | 2019-12-09 | 2023-09-26 | 京东科技信息技术有限公司 | 数据检索方法及装置、电子设备和计算机可读存储介质 |
CN113779417A (zh) * | 2021-11-12 | 2021-12-10 | 中国信息通信研究院 | 数字资产对象搜索方法、装置、电子设备和存储介质 |
CN113779417B (zh) * | 2021-11-12 | 2022-04-01 | 中国信息通信研究院 | 数字资产对象搜索方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110941612B (zh) | 基于关联数据的自治数据湖构建系统及方法 | |
US20150339324A1 (en) | System and Method for Imagery Warehousing and Collaborative Search Processing | |
Jun | IPC code analysis of patent documents using association rules and maps–patent analysis of database technology | |
CN106844755A (zh) | 一种基于搜索引擎的数据资产快速检索方法 | |
Bhardwaj et al. | Implementation of ID3 algorithm | |
US20120023109A1 (en) | Contextual processing of data objects in a multi-dimensional information space | |
US20150154306A1 (en) | Method for searching related entities through entity co-occurrence | |
US20170249388A1 (en) | Expert Detection in Social Networks | |
US9535921B2 (en) | Automatic media naming using facial recognization and/or voice based identification of people within the named media content | |
CN110309251B (zh) | 文本数据的处理方法、装置和计算机可读存储介质 | |
Scannapieco et al. | Placing big data in official statistics: a big challenge | |
CN110909120B (zh) | 简历搜索/投递方法、装置、系统及电子设备 | |
CN105556517A (zh) | 智能搜索精细化 | |
CN109739992B (zh) | 一种获取关联信息的方法及终端 | |
CN112000790B (zh) | 一种法律文本精确检索方法、终端系统和可读存储介质 | |
CN111723256A (zh) | 一种基于信息资源库的政务用户画像构建方法及其系统 | |
Al-Najran et al. | A requirements specification framework for big data collection and capture | |
Alsubaiee et al. | Asterix: scalable warehouse-style web data integration | |
CN110442614B (zh) | 元数据的搜索方法及装置、电子设备、存储介质 | |
US9639584B2 (en) | System and method for data processing, storage and retrieval using data folding technique | |
Cogburn | Analyzing trends and topics in internet governance and cybersecurity debates found in twelve years of IGF transcripts | |
CN111241142A (zh) | 一种科技成果转化推送系统及方法 | |
CN112136121A (zh) | 推荐安全内容 | |
EP4002152A1 (en) | Data tagging and synchronisation system | |
Assélé Kama et al. | An ontological approach for the exploitation of clinical data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170613 |
|
RJ01 | Rejection of invention patent application after publication |