CN112783977A - 一种基于大数据的海量数据搜索的实现方法 - Google Patents

一种基于大数据的海量数据搜索的实现方法 Download PDF

Info

Publication number
CN112783977A
CN112783977A CN202110101717.5A CN202110101717A CN112783977A CN 112783977 A CN112783977 A CN 112783977A CN 202110101717 A CN202110101717 A CN 202110101717A CN 112783977 A CN112783977 A CN 112783977A
Authority
CN
China
Prior art keywords
data
commodity
standardized
database
big
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202110101717.5A
Other languages
English (en)
Inventor
李赛赛
康子光
张洪超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Original Assignee
Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chaozhou Zhuoshu Big Data Industry Development Co Ltd filed Critical Chaozhou Zhuoshu Big Data Industry Development Co Ltd
Priority to CN202110101717.5A priority Critical patent/CN112783977A/zh
Publication of CN112783977A publication Critical patent/CN112783977A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的海量数据搜索的实现方法,属于大数据技术领域。本发明的基于大数据的海量数据搜索的实现方法,该方法采集各个网上平台商品数据,对商品数据进行处理,将数据标准化后存入库,将标准化商品数据存入数据库,同时将标准化商品数据存入搭建好的分布式搜索引擎,用户对分布式搜索引擎中的数据进行检索查询,根据查询到的商品数据向数据库请求详细的历史数据。该发明的基于大数据的海量数据搜索的实现方法能,具有很好的推广应用价值。

Description

一种基于大数据的海量数据搜索的实现方法
技术领域
本发明涉及大数据技术领域,具体提供一种基于大数据的海量数据搜索的实现方法。
背景技术
互联网技术的发展给人们的生活带来了极大的便利,在大数据的时代背景下,各行各业百花齐放,百家争鸣,产业门户也来越多,数据的产生随之增加,如何在海量数据面前迅速抓住用户所需要的信息,逐渐被推到科技互联网公司的面前,同时随着公司业务的高速发展以及数据爆炸式的增长,当前公司各平台都有关于搜索方面的需求,但是以前的搜索服务系统由于架构与业务上的设计,不能很好的满足各个业务线的期望。同时,在大数据时代,数据的检索问题,随着数据量的日渐增多,已经是各平台面临的重难点问题,如何在众多历史数据,海量数据面前迅速查询出所需的数据刻不容缓,不能支持对语句级别的搜索,大量业务相关的属性根本无法实现,没有任何搜索相关的指标评价体系,扩展性与维护性特别差,不能保证数据的低冗余,也不能保证检索效率和用户体验。
发明内容
本发明的技术任务是针对上述存在的问题,提供一种能够保证数据的低冗余,保持数据的一致性,提升检索效率和用户体验的基于大数据的海量数据搜索的实现方法。
为实现上述目的,本发明提供了如下技术方案:
一种基于大数据的海量数据搜索的实现方法,该方法采集各个网上平台商品数据,对商品数据进行处理,将数据标准化后存入库,将标准化商品数据存入数据库,同时将标准化商品数据存入搭建好的分布式搜索引擎,用户对分布式搜索引擎中的数据进行检索查询,根据查询到的商品数据向数据库请求详细的历史数据。
作为优选,该所述的基于大数据的海量数据搜索的实现方法具体包括以下步骤:
S1、采集商品数据,对采集到的商品数据进行处理;
S2、将商品数据进行标准化入库;
S3、将标准化商品数据存入数据库中;
S4、将标准化商品数据存入搭建好的分布式搜索引擎;
S5、向分布式搜索引擎进行检索查询;
S6、根据查询到的商品数据向数据库查询出详细数据。
作为优选,步骤S1中,对商品数据进行清洗、加工。
通过大数据基本的数据处理基本方法,大数据数据质量和数据管理方法,对商品数据进行清洗,加工,然后进行标准化存入库,将我们拿到的数据进行字段创建映射,将数据按照映射字段结构化、标准化处理之后保存到系统数据以便于程序分析处理。
作为优选,步骤S2中,自定义生成商品唯一ID后,将商品数据标准化入库。
将标准的数据自定义生成商品唯一RowKey(ID)存入HBase,同时通过Observer同步进入ES索引库,通过系统展示给用户群体使用,用户通过输入检索条件在ES数据库中查询出多条符合条件的数据,这些数据都是经过系统框架处理过的,利用Observer同步进入ES索引库的非全部数据,为将来用户在Hbase查询海量数据做准备。
作为优选,步骤S3中,将标准化商品数据存入Hbase数据库中,其中Hbase存储详情的商品数据。
作为优选,步骤S4中,通过LOGSTAH数据转储工具,将标准化商品数据存入搭建好的分布式搜索引擎,其中分布式搜索引擎只存储数据检索条件对应的字段。
作为优选,步骤S5中,用户输入查询条件,携带查询条件到分布式搜索引擎中查找所需数据列表的ID。
作为优选,步骤S6中,携带数据列表的ID从Hbase数据库中,查询出详细数据。
ES中只存储数据检索条件对应的字段,尽量保证ES的数据量大但存储空间占用小,Hbase存储详情的数据,这样就获得了海量数据检索数据库和存储数据库。将用户可视化展示页面融合成一个系统商品检索系统,用户在输入查询条件时,系统获取条件然后携带条件到ES数据库中快速查找出所需数据列表的RowKey,同时携带RowKey到我们上面一直提到的Hbase数据库中,查询出详细数据,通过数据检索系统,可视化处理之后展示到用户面前,至此实现用户快速检索需求。
该基于大数据的海量数据搜索的实现方法采集各个网上平台商品数据,通过大数据基本的数据处理基本方法,对商品数据进行清洗,加工,自定义生成商品唯一RowKey(ID)然后进行标准化存入库,然后通过LOGSTAH数据转储工具,将标准化商品数据,存入搭建好的分布式搜索引擎ElasticSearch,同时标准化商品数据存入HBASE数据库,用户通过本系统,实现对ElasticSearch内商品数据进行检索查询功能,本系统根据查询到的商品数据再次像HBASE请求详细的历史数据。在此基础上,实现在传统数据库中亿级商品查询速度慢的问题,提升查询速度,优化用户检索体验。
与现有技术相比,本发明的基于大数据的海量数据搜索的实现方法具有以下突出的有益效果:通过所述基于大数据的海量数据搜索的实现方法能够保证数据的低冗余,保持数据的一致性的基础上,整合出一套适合海量数据检索的平台系统架构,实现海量数据检索,提升平台检索效率和用户体验,具有良好的推广应用价值。
附图说明
图1是本发明所述基于大数据的海量数据搜索的实现方法的的流程图。
具体实施方式
下面将结合附图和实施例,对本发明的基于大数据的海量数据搜索的实现方法作进一步详细说明。
实施例
本发明的基于大数据的海量数据搜索的实现方法采集各个网上平台商品数据,对商品数据进行处理,将数据标准化后存入库,将标准化商品数据存入搭建好的分布式搜索引擎,同时存入数据库中,用户对分布式搜索引擎中的数据进行检索查询,根据查询到的商品数据向数据库请求详细的历史数据。具体包括以下步骤:
S1、采集商品数据,对采集到的商品数据进行处理。
其中对商品数据进行处理包括对商品数据进行清洗和加工。通过大数据基本的数据处理基本方法,大数据数据质量和数据管理方法,对商品数据进行清洗,加工,然后进行标准化存入库,将我们拿到的数据进行字段创建映射,将数据按照映射字段结构化、标准化处理之后保存到系统数据以便于程序分析处理。
S2、将商品数据进行标准化入库。
自定义生成商品唯一ID后,将商品数据标准化入库。将标准的数据自定义生成商品唯一RowKey(ID)存入HBase,同时通过Observer同步进入ES索引库,通过系统展示给用户群体使用,用户通过输入检索条件在ES数据库中查询出多条符合条件的数据,这些数据都是经过系统框架处理过的,利用Observer同步进入ES索引库的非全部数据,为将来用户在Hbase查询海量数据做准备。
S3、将标准化商品数据存入数据库中。将标准化商品数据存入Hbase数据库中,其中Hbase存储详情的商品数据。
S4、将标准化商品数据存入搭建好的分布式搜索引擎。
通过LOGSTAH数据转储工具,将标准化商品数据存入搭建好的分布式搜索引擎,其中分布式搜索引擎只存储数据检索条件对应的字段。
S5、向分布式搜索引擎进行检索查询。用户输入查询条件,携带查询条件到分布式搜索引擎中查找所需数据列表的ID。
S6、根据查询到的商品数据向数据库查询出详细数据。携带数据列表的ID从Hbase数据库中,查询出详细数据。
ES中只存储数据检索条件对应的字段,尽量保证ES的数据量大但存储空间占用小,Hbase存储详情的数据,这样就获得了海量数据检索数据库和存储数据库。将用户可视化展示页面融合成一个系统商品检索系统,用户在输入查询条件时,系统获取条件然后携带条件到ES数据库中快速查找出所需数据列表的RowKey,同时携带RowKey到我们上面一直提到的Hbase数据库中,查询出详细数据,通过数据检索系统,可视化处理之后展示到用户面前,至此实现用户快速检索需求。
该基于大数据的海量数据搜索的实现方法采集各个网上平台商品数据,通过大数据基本的数据处理基本方法,对商品数据进行清洗,加工,自定义生成商品唯一RowKey(ID)然后进行标准化存入库,然后通过LOGSTAH数据转储工具,将标准化商品数据,存入搭建好的分布式搜索引擎ElasticSearch,同时标准化商品数据存入HBASE数据库,用户通过本系统,实现对ElasticSearch内商品数据进行检索查询功能,本系统根据查询到的商品数据再次像HBASE请求详细的历史数据。在此基础上,实现在传统数据库中亿级商品查询速度慢的问题,提升查询速度,优化用户检索体验。
如图1所示,本发明的基于大数据的海量数据搜索的实现方法在具体实施过程中:将采集到的商品原始数据进行清洗加工处理成标准化数据,将标准数据自定义生成商品唯一RowKey(ID)存入HBase数据库,同时通过Observer同步进入ES数据库。用户向数据搜索平台输入搜索条件,数据搜索平台携带List(RowKey)到Hbase数据库精确查询,同时携带搜索条件到ES数据库查询。HB ase数据库向数据搜索平台返回详细列表数据,ES数据库向数据搜索平台返回List(RowKey),数据搜索平台通过客户端返回给用户。
以上所述的实施例,只是本发明较优选的具体实施方式,本领域的技术人员在本发明技术方案范围内进行的通常变化和替换都应包含在本发明的保护范围内。

Claims (8)

1.一种基于大数据的海量数据搜索的实现方法,其特征在于:该方法采集各个网上平台商品数据,对商品数据进行处理,将数据标准化后存入库,将标准化商品数据存入数据库,同时将标准化商品数据存入搭建好的分布式搜索引擎,用户对分布式搜索引擎中的数据进行检索查询,根据查询到的商品数据向数据库请求详细的历史数据。
2.根据权利要求1所述的基于大数据的海量数据搜索的实现方法,其特征在于:具体包括以下步骤:
S1、采集商品数据,对采集到的商品数据进行处理;
S2、将商品数据进行标准化入库;
S3、将标准化商品数据存入数据库中;
S4、将标准化商品数据存入搭建好的分布式搜索引擎;
S5、向分布式搜索引擎进行检索查询;
S6、根据查询到的商品数据向数据库查询出详细数据。
3.根据权利要求2所述的基于大数据的海量数据搜索的实现方法,其特征在于:步骤S1中,对商品数据进行清洗、加工。
4.根据权利要求3所述的基于大数据的海量数据搜索的实现方法,其特征在于:步骤S2中,自定义生成商品唯一ID后,将商品数据标准化入库。
5.根据权利要求4所述的基于大数据的海量数据搜索的实现方法,其特征在于:步骤S3中,将标准化商品数据存入Hbase数据库中,其中Hbase存储详情的商品数据。
6.根据权利要求5所述的基于大数据的海量数据搜索的实现方法,其特征在于:步骤S4中,通过LOGSTAH数据转储工具,将标准化商品数据存入搭建好的分布式搜索引擎,其中分布式搜索引擎只存储数据检索条件对应的字段。
7.根据权利要求6所述的基于大数据的海量数据搜索的实现方法,其特征在于:步骤S5中,用户输入查询条件,携带查询条件到分布式搜索引擎中查找所需数据列表的ID。
8.根据权利要求7所述的基于大数据的海量数据搜索的实现方法,其特征在于:步骤S6中,携带数据列表的ID从Hbase数据库中,查询出详细数据。
CN202110101717.5A 2021-01-26 2021-01-26 一种基于大数据的海量数据搜索的实现方法 Withdrawn CN112783977A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110101717.5A CN112783977A (zh) 2021-01-26 2021-01-26 一种基于大数据的海量数据搜索的实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110101717.5A CN112783977A (zh) 2021-01-26 2021-01-26 一种基于大数据的海量数据搜索的实现方法

Publications (1)

Publication Number Publication Date
CN112783977A true CN112783977A (zh) 2021-05-11

Family

ID=75757661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110101717.5A Withdrawn CN112783977A (zh) 2021-01-26 2021-01-26 一种基于大数据的海量数据搜索的实现方法

Country Status (1)

Country Link
CN (1) CN112783977A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806618A (zh) * 2021-09-22 2021-12-17 汉唐信通(北京)咨询股份有限公司 一种商标大数据治理方法、系统和计算机设备
CN114969162A (zh) * 2022-06-27 2022-08-30 平安银行股份有限公司 一种金融数据查询的处理方法、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806618A (zh) * 2021-09-22 2021-12-17 汉唐信通(北京)咨询股份有限公司 一种商标大数据治理方法、系统和计算机设备
CN114969162A (zh) * 2022-06-27 2022-08-30 平安银行股份有限公司 一种金融数据查询的处理方法、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
US11663254B2 (en) System and engine for seeded clustering of news events
US20170140038A1 (en) Method and system for hybrid information query
CN106126630A (zh) 一种业务对象的收藏、搜索方法和装置
KR102249466B1 (ko) 인공지능 추천 모델을 사용하여 추천 정보를 제공하는 데이터 카탈로그 제공 방법 및 시스템
CN112783977A (zh) 一种基于大数据的海量数据搜索的实现方法
CN109241259A (zh) 基于er模型的自然语言查询方法、装置及系统
US20170300531A1 (en) Tag based searching in data analytics
CA2956627A1 (en) System and engine for seeded clustering of news events
CN112825182A (zh) 一种确定推荐商品的方法和装置
CN111159559A (zh) 根据用户需求和用户行为构建推荐引擎的方法
CN114090877A (zh) 职位信息推荐方法、装置、电子设备及存储介质
CN114706996A (zh) 一种基于多元异构数据挖掘的供应链在线知识图谱构建方法
CN116150436B (zh) 一种基于节点树的数据展示方法与系统
CN111859055A (zh) 一种基于大数据的数据智能检索匹配系统
CN111078988A (zh) 一种电力服务信息热点检索方法、装置和电子设备
KR101592670B1 (ko) 인덱스를 이용하는 데이터 검색 장치 및 이를 이용하는 방법
CN115934923A (zh) 一种基于大数据的电商回复方法及系统
Peng et al. Design and implementation of an intelligent recommendation system for product information on an e-commerce platform based on machine learning
CN116630052A (zh) 一种金融数据ai分析系统及方法
Gledson et al. A smart city dashboard for combining and analysing multi-source data streams
US20170075911A1 (en) Sorting method of data documents and display method for sorting landmark data
CN113342844A (zh) 工业智能搜索系统
CN113918728A (zh) 一种工业互联网后服务知识图谱分析平台
CN113868322A (zh) 一种语义结构解析方法、装置、设备及虚拟化系统、介质
TWI605351B (zh) Query method, system and device based on vertical search

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210511

WW01 Invention patent application withdrawn after publication