CN106446273A - 基于rpc实现的ES全局数据消重方法 - Google Patents

基于rpc实现的ES全局数据消重方法 Download PDF

Info

Publication number
CN106446273A
CN106446273A CN201610919724.5A CN201610919724A CN106446273A CN 106446273 A CN106446273 A CN 106446273A CN 201610919724 A CN201610919724 A CN 201610919724A CN 106446273 A CN106446273 A CN 106446273A
Authority
CN
China
Prior art keywords
deduplication
data
disappears
rpc
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610919724.5A
Other languages
English (en)
Inventor
单文榜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Mass Information Technology Ltd By Share Ltd
Original Assignee
Tianjin Mass Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Mass Information Technology Ltd By Share Ltd filed Critical Tianjin Mass Information Technology Ltd By Share Ltd
Priority to CN201610919724.5A priority Critical patent/CN106446273A/zh
Publication of CN106446273A publication Critical patent/CN106446273A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/547Remote procedure calls [RPC]; Web services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于rpc实现的ES全局数据消重方法,消重步骤如下:第一步:用户向客户端发起请求;第二步:新增消重节点,加入已有ES集群,消重节点与集群间用rpc进行通信;第三步:添加ES查询过滤器,在过滤器中调用lucene API进行数据查询,对消重字段值取crc操作,收集各分片下数据结果集;第四步:以请求session为维度,对需要消重数据进行哈希路由,均衡的发往消重服务器节点,并行高效的进行数据消重。通过开发ES的插件,改变ES数据查询的流程,增加全局消重步骤,实现按指定字段进行数据消重。

Description

基于rpc实现的ES全局数据消重方法
技术领域
本发明属于互联网数据消重方法技术领域,尤其涉及一种基于rpc实现的ES全局数据消重方法。
背景技术
随着互联网数据的急剧增长,挖掘数据的价值成为时下热门的话题和研究方向。ElasticSearch以其开源、稳定、可靠、快速的特性,成为大数据实时搜索的利器。为了保证ES的搜索速度,路由和分库成为必要的设计。在分库的环境下能否返回按指定字段消重后的结果,越来越成为提高数据质量的重要指标。
发明内容
本发明提供一种基于rpc实现的ES全局数据消重方法,以解决上述背景技术中提出的问题。
本发明所解决的技术问题采用以下技术方案来实现:本发明提供一种基于rpc实现的ES全局数据消重方法,消重的步骤如下:
第一步:用户向客户端发起请求;
第二步:新增消重节点,加入已有ES集群,消重节点与集群间用rpc进行通信;
第三步:添加ES查询过滤器,在过滤器中调用Iucene API进行数据查询,对消重字段值取crc操作,收集各分片下数据结果集;
第四步:以请求session为维度,对需要消重数据进行哈希路由,均衡的发往消重服务器节点,并行高效的进行数据消重。
本发明的有益效果为:通过开发ES的插件,改变ES数据查询的流程,增加全局消重步骤,实现按指定字段进行数据消重。
附图说明
图1是本发明的系统流程图。
具体实施方式
以下结合附图对本发明做进一步描述:一种基于rpc实现的ES全局数据消重方法,消重的步骤如下:
第一步:用户向客户端发起请求;
第二步:新增消重节点,加入已有ES集群,消重节点与集群间用rpc进行通信;
第三步:添加ES查询过滤器,在过滤器中调用Iucene API进行数据查询,对消重字段值取crc操作,收集各分片下数据结果集;
第四步:以请求session为维度,对需要消重数据进行哈希路由,均衡的发往消重服务器节点,并行高效的进行数据消重。
通过开发ES的插件,改变ES数据查询的流程,增加全局消重步骤,实现按指定字段进行数据消重。
最后说明的是,选取上述实施例并对其进行了详细的说明和描述是为了更好的说明本发明专利的技术方案,并不是想要局限于所示的细节。本领域的技术人员对本发明的技术方案进行修改或同等替换,而不脱离本发明技术方案的宗旨和范围的,均应涵盖在本发明的权利要求范围当中。

Claims (1)

1.一种基于rpc实现的ES全局数据消重方法,其特征在于:消重步骤如下:
第一步:用户向客户端发起请求;
第二步:新增消重节点,加入已有ES集群,消重节点与集群间用rpc进行通信;
第三步:添加ES查询过滤器,在过滤器中调用Iucene API进行数据查询,对消重字段值取crc操作,收集各分片下数据结果集;
第四步:以请求session为维度,对需要消重数据进行哈希路由,均衡的发往消重服务器节点,并行高效的进行数据消重。
CN201610919724.5A 2016-10-21 2016-10-21 基于rpc实现的ES全局数据消重方法 Pending CN106446273A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610919724.5A CN106446273A (zh) 2016-10-21 2016-10-21 基于rpc实现的ES全局数据消重方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610919724.5A CN106446273A (zh) 2016-10-21 2016-10-21 基于rpc实现的ES全局数据消重方法

Publications (1)

Publication Number Publication Date
CN106446273A true CN106446273A (zh) 2017-02-22

Family

ID=58176823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610919724.5A Pending CN106446273A (zh) 2016-10-21 2016-10-21 基于rpc实现的ES全局数据消重方法

Country Status (1)

Country Link
CN (1) CN106446273A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107066237A (zh) * 2017-04-17 2017-08-18 东软集团股份有限公司 一种数据处理方法及装置
CN108509437A (zh) * 2017-02-24 2018-09-07 南京烽火星空通信发展有限公司 一种ElasticSearch查询加速方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050069289A1 (en) * 2003-09-30 2005-03-31 Kabushiki Kaisha Toshiba Transport stream recording/editing device and recording/editing method
CN102314506A (zh) * 2011-09-07 2012-01-11 北京人大金仓信息技术股份有限公司 基于动态索引的分布式缓冲区管理方法
CN105653629A (zh) * 2015-12-28 2016-06-08 湖南蚁坊软件有限公司 一种基于哈希环的分布式数据过滤方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050069289A1 (en) * 2003-09-30 2005-03-31 Kabushiki Kaisha Toshiba Transport stream recording/editing device and recording/editing method
CN102314506A (zh) * 2011-09-07 2012-01-11 北京人大金仓信息技术股份有限公司 基于动态索引的分布式缓冲区管理方法
CN105653629A (zh) * 2015-12-28 2016-06-08 湖南蚁坊软件有限公司 一种基于哈希环的分布式数据过滤方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509437A (zh) * 2017-02-24 2018-09-07 南京烽火星空通信发展有限公司 一种ElasticSearch查询加速方法
CN108509437B (zh) * 2017-02-24 2021-09-17 南京烽火星空通信发展有限公司 一种ElasticSearch查询加速方法
CN107066237A (zh) * 2017-04-17 2017-08-18 东软集团股份有限公司 一种数据处理方法及装置
CN107066237B (zh) * 2017-04-17 2020-04-03 东软集团股份有限公司 一种数据处理方法及装置

Similar Documents

Publication Publication Date Title
US20170140038A1 (en) Method and system for hybrid information query
CN104298767B (zh) 一种微博网络中用户影响力度量的方法
CN103248645B (zh) Bt离线数据下载系统及方法
WO2019101241A3 (en) System and method for ending view change protocol
TW201717071A (zh) 推薦方法及裝置
US9712612B2 (en) Method for improving mobile network performance via ad-hoc peer-to-peer request partitioning
CN106815254B (zh) 一种数据处理方法和装置
CN104601672B (zh) 基于不同应用客户端的分享网络资源的方法和装置
US8489694B2 (en) Peer-to-peer collaboration of publishers in a publish-subscription environment
CN108452526B (zh) 游戏故障原因的查询方法和装置、存储介质、电子装置
US9275156B2 (en) Trending topic identification from social communications
CN108270860A (zh) 环境质量在线监测数据的采集系统及方法
AU2013397053B2 (en) Content sharing method and social synchronization apparatus
CN104063501B (zh) 基于hdfs的副本平衡方法
Tao et al. Twinder: a search engine for twitter streams
US20160170783A1 (en) Near cache distribution in in-memory data grid (imdg)(no-sql) environments
KR101521866B1 (ko) 마이크로블로그 토픽 표시 방법 및 시스템
US8725814B2 (en) Broker facilitated peer-to-peer publisher collaboration in a publish-subscription environment
CN106446273A (zh) 基于rpc实现的ES全局数据消重方法
CN117131281B (zh) 舆情事件处理方法、装置、电子设备和计算机可读介质
CN106789147A (zh) 一种流量分析方法及装置
CN110909072B (zh) 一种数据表建立方法、装置及设备
CN105608201A (zh) 一种支持多关键词表达式的文本匹配方法
US11068647B2 (en) Measuring transitions between visualizations
CN107480184A (zh) 一种数据访问方法及设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170222