CN106446273A - 基于rpc实现的ES全局数据消重方法 - Google Patents
基于rpc实现的ES全局数据消重方法 Download PDFInfo
- Publication number
- CN106446273A CN106446273A CN201610919724.5A CN201610919724A CN106446273A CN 106446273 A CN106446273 A CN 106446273A CN 201610919724 A CN201610919724 A CN 201610919724A CN 106446273 A CN106446273 A CN 106446273A
- Authority
- CN
- China
- Prior art keywords
- deduplication
- data
- disappears
- rpc
- cluster
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
- G06F9/547—Remote procedure calls [RPC]; Web services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于rpc实现的ES全局数据消重方法,消重步骤如下:第一步:用户向客户端发起请求;第二步:新增消重节点,加入已有ES集群,消重节点与集群间用rpc进行通信;第三步:添加ES查询过滤器,在过滤器中调用lucene API进行数据查询,对消重字段值取crc操作,收集各分片下数据结果集;第四步:以请求session为维度,对需要消重数据进行哈希路由,均衡的发往消重服务器节点,并行高效的进行数据消重。通过开发ES的插件,改变ES数据查询的流程,增加全局消重步骤,实现按指定字段进行数据消重。
Description
技术领域
本发明属于互联网数据消重方法技术领域,尤其涉及一种基于rpc实现的ES全局数据消重方法。
背景技术
随着互联网数据的急剧增长,挖掘数据的价值成为时下热门的话题和研究方向。ElasticSearch以其开源、稳定、可靠、快速的特性,成为大数据实时搜索的利器。为了保证ES的搜索速度,路由和分库成为必要的设计。在分库的环境下能否返回按指定字段消重后的结果,越来越成为提高数据质量的重要指标。
发明内容
本发明提供一种基于rpc实现的ES全局数据消重方法,以解决上述背景技术中提出的问题。
本发明所解决的技术问题采用以下技术方案来实现:本发明提供一种基于rpc实现的ES全局数据消重方法,消重的步骤如下:
第一步:用户向客户端发起请求;
第二步:新增消重节点,加入已有ES集群,消重节点与集群间用rpc进行通信;
第三步:添加ES查询过滤器,在过滤器中调用Iucene API进行数据查询,对消重字段值取crc操作,收集各分片下数据结果集;
第四步:以请求session为维度,对需要消重数据进行哈希路由,均衡的发往消重服务器节点,并行高效的进行数据消重。
本发明的有益效果为:通过开发ES的插件,改变ES数据查询的流程,增加全局消重步骤,实现按指定字段进行数据消重。
附图说明
图1是本发明的系统流程图。
具体实施方式
以下结合附图对本发明做进一步描述:一种基于rpc实现的ES全局数据消重方法,消重的步骤如下:
第一步:用户向客户端发起请求;
第二步:新增消重节点,加入已有ES集群,消重节点与集群间用rpc进行通信;
第三步:添加ES查询过滤器,在过滤器中调用Iucene API进行数据查询,对消重字段值取crc操作,收集各分片下数据结果集;
第四步:以请求session为维度,对需要消重数据进行哈希路由,均衡的发往消重服务器节点,并行高效的进行数据消重。
通过开发ES的插件,改变ES数据查询的流程,增加全局消重步骤,实现按指定字段进行数据消重。
最后说明的是,选取上述实施例并对其进行了详细的说明和描述是为了更好的说明本发明专利的技术方案,并不是想要局限于所示的细节。本领域的技术人员对本发明的技术方案进行修改或同等替换,而不脱离本发明技术方案的宗旨和范围的,均应涵盖在本发明的权利要求范围当中。
Claims (1)
1.一种基于rpc实现的ES全局数据消重方法,其特征在于:消重步骤如下:
第一步:用户向客户端发起请求;
第二步:新增消重节点,加入已有ES集群,消重节点与集群间用rpc进行通信;
第三步:添加ES查询过滤器,在过滤器中调用Iucene API进行数据查询,对消重字段值取crc操作,收集各分片下数据结果集;
第四步:以请求session为维度,对需要消重数据进行哈希路由,均衡的发往消重服务器节点,并行高效的进行数据消重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610919724.5A CN106446273A (zh) | 2016-10-21 | 2016-10-21 | 基于rpc实现的ES全局数据消重方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610919724.5A CN106446273A (zh) | 2016-10-21 | 2016-10-21 | 基于rpc实现的ES全局数据消重方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106446273A true CN106446273A (zh) | 2017-02-22 |
Family
ID=58176823
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610919724.5A Pending CN106446273A (zh) | 2016-10-21 | 2016-10-21 | 基于rpc实现的ES全局数据消重方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106446273A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066237A (zh) * | 2017-04-17 | 2017-08-18 | 东软集团股份有限公司 | 一种数据处理方法及装置 |
CN108509437A (zh) * | 2017-02-24 | 2018-09-07 | 南京烽火星空通信发展有限公司 | 一种ElasticSearch查询加速方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050069289A1 (en) * | 2003-09-30 | 2005-03-31 | Kabushiki Kaisha Toshiba | Transport stream recording/editing device and recording/editing method |
CN102314506A (zh) * | 2011-09-07 | 2012-01-11 | 北京人大金仓信息技术股份有限公司 | 基于动态索引的分布式缓冲区管理方法 |
CN105653629A (zh) * | 2015-12-28 | 2016-06-08 | 湖南蚁坊软件有限公司 | 一种基于哈希环的分布式数据过滤方法 |
-
2016
- 2016-10-21 CN CN201610919724.5A patent/CN106446273A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050069289A1 (en) * | 2003-09-30 | 2005-03-31 | Kabushiki Kaisha Toshiba | Transport stream recording/editing device and recording/editing method |
CN102314506A (zh) * | 2011-09-07 | 2012-01-11 | 北京人大金仓信息技术股份有限公司 | 基于动态索引的分布式缓冲区管理方法 |
CN105653629A (zh) * | 2015-12-28 | 2016-06-08 | 湖南蚁坊软件有限公司 | 一种基于哈希环的分布式数据过滤方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108509437A (zh) * | 2017-02-24 | 2018-09-07 | 南京烽火星空通信发展有限公司 | 一种ElasticSearch查询加速方法 |
CN108509437B (zh) * | 2017-02-24 | 2021-09-17 | 南京烽火星空通信发展有限公司 | 一种ElasticSearch查询加速方法 |
CN107066237A (zh) * | 2017-04-17 | 2017-08-18 | 东软集团股份有限公司 | 一种数据处理方法及装置 |
CN107066237B (zh) * | 2017-04-17 | 2020-04-03 | 东软集团股份有限公司 | 一种数据处理方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20170140038A1 (en) | Method and system for hybrid information query | |
CN104298767B (zh) | 一种微博网络中用户影响力度量的方法 | |
CN103248645B (zh) | Bt离线数据下载系统及方法 | |
WO2019101241A3 (en) | System and method for ending view change protocol | |
TW201717071A (zh) | 推薦方法及裝置 | |
US9712612B2 (en) | Method for improving mobile network performance via ad-hoc peer-to-peer request partitioning | |
CN106815254B (zh) | 一种数据处理方法和装置 | |
CN104601672B (zh) | 基于不同应用客户端的分享网络资源的方法和装置 | |
US8489694B2 (en) | Peer-to-peer collaboration of publishers in a publish-subscription environment | |
CN108452526B (zh) | 游戏故障原因的查询方法和装置、存储介质、电子装置 | |
US9275156B2 (en) | Trending topic identification from social communications | |
CN108270860A (zh) | 环境质量在线监测数据的采集系统及方法 | |
AU2013397053B2 (en) | Content sharing method and social synchronization apparatus | |
CN104063501B (zh) | 基于hdfs的副本平衡方法 | |
Tao et al. | Twinder: a search engine for twitter streams | |
US20160170783A1 (en) | Near cache distribution in in-memory data grid (imdg)(no-sql) environments | |
KR101521866B1 (ko) | 마이크로블로그 토픽 표시 방법 및 시스템 | |
US8725814B2 (en) | Broker facilitated peer-to-peer publisher collaboration in a publish-subscription environment | |
CN106446273A (zh) | 基于rpc实现的ES全局数据消重方法 | |
CN117131281B (zh) | 舆情事件处理方法、装置、电子设备和计算机可读介质 | |
CN106789147A (zh) | 一种流量分析方法及装置 | |
CN110909072B (zh) | 一种数据表建立方法、装置及设备 | |
CN105608201A (zh) | 一种支持多关键词表达式的文本匹配方法 | |
US11068647B2 (en) | Measuring transitions between visualizations | |
CN107480184A (zh) | 一种数据访问方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170222 |