CN107329846B - 基于大数据技术的大指数据比对方法 - Google Patents

基于大数据技术的大指数据比对方法 Download PDF

Info

Publication number
CN107329846B
CN107329846B CN201710559045.6A CN201710559045A CN107329846B CN 107329846 B CN107329846 B CN 107329846B CN 201710559045 A CN201710559045 A CN 201710559045A CN 107329846 B CN107329846 B CN 107329846B
Authority
CN
China
Prior art keywords
comparison
message
information
new
big
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710559045.6A
Other languages
English (en)
Other versions
CN107329846A (zh
Inventor
贾伟
洪启祥
高希
刘聪
蒋泽鑫
李革华
吴燕将
向刚
柳其明
许一君
许雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Radio & TV Xinyi Technology Co.,Ltd.
Original Assignee
Shenzhen Xinyi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Xinyi Technology Co Ltd filed Critical Shenzhen Xinyi Technology Co Ltd
Priority to CN201710559045.6A priority Critical patent/CN107329846B/zh
Publication of CN107329846A publication Critical patent/CN107329846A/zh
Application granted granted Critical
Publication of CN107329846B publication Critical patent/CN107329846B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/546Message passing systems or structures, e.g. queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/54Interprogram communication
    • G06F9/543User-generated data transfer, e.g. clipboards, dynamic data exchange [DDE], object linking and embedding [OLE]

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于大数据技术的大指数据比对方法,其在运行的时候能够在比对JOB中分别生成索引以及比对索引,当有新的第一分布式消息队列或者新的第二分布式消息队列的时候,新的消息直接与索引以及比对索引进行比较输出结果,由于索引以及比对索引中所包含的信息量较少所以整体比对速度能够得到大幅度提升,本发明尤其适用在数据比对量大,消息队列经常更新且需要即时反馈出比对结果的领域。

Description

基于大数据技术的大指数据比对方法
技术领域
本发明涉及一种数据对比方法,特别是指一种基于大数据技术的大批量数据对比方法。
背景技术
随着计算机技术的发展各种数据比对方法现在已经很普遍的应用在了数据比较、数据统计等领域中了,然而传统的数据比对方法虽然比对逻辑比较简单但是比对、运行速度比较慢,比对效率不高,具体描述如下。
第一种比较典型的数据比对方法其具体步骤为,首先在比对数据中提取一条比对数据,而后将比对数据分别逐一的与被比数据进行比对并逐一反馈比对结果,但是当被比数据的数据量非常庞大的时候此种比对方法的运算速度以及运算效率是非常低的。
第二种比较典型的数据比对方法其具体步骤为,首先在比对数据中提取一条比对数据并传输到内存中,而后从被比对数据中逐一提取被比对数据到内存中,在内存中比对数据与被比对数据进行比对并反馈比对结果,此种方式通过加入内存能够提升比对速度,但是当数据量非常庞大的时候其也需要很长的运算时间。
在大数据时代来临的背景下上述传统的数据比对方法已经完全不能够满足人们大数据、快速比对的要求,而此是为传统技术的主要缺点。
发明内容
本发明提供一种基于大数据技术的大指数据比对方法,其适用在数据比对量大,消息队列经常更新且需要即时反馈出比对结果的领域,本发明的数据对比方法比对效率高,运算速度快能够快速即时反馈出比对结果,而此是为本发明的主要目的。
本发明所采用的技术方案为:基于大数据技术的大指数据比对方法,其包括如下步骤。
第一步、第一分布式消息队列传递给比对JOB,该第一分布式消息队列包括若干条消息,每一条该消息包括若干个字段信息,若干条该消息分别属于不同类型的消息,比如,第一条该消息为利用身份证在网吧上网的时间信息,第二条该消息为利用身份证在网吧上网的地点信息,第三条该消息为利用身份证在旅馆开房的时间信息,第二条该消息为利用身份证乘坐高铁的时间信息,等等。
第二步、在该比对JOB中按照分布式流式计算(SPARKSTREAMING)按时间顺序截取每一条该消息中的该字段信息,形成信息片段,该信息片段包括若干个该字段信息,在具体实施的时候,每五秒就截取每一条该消息中的该字段信息,形成该信息片段,或者根据需要每十秒就截取,每十五秒就截取等等。
第三步、在该比对JOB中配置比对信息,第二分布式消息队列传递给该比对JOB,该第二分布式消息队列包括若干条比对消息,每一条该比对消息包括若干个比对字段信息,若干条该比对消息分别属于不同类型的消息,比如,第一条该比对消息为逃犯逃跑时间,第二条该比对消息为逃犯逃跑地点,等等,第二步中的每一条该消息的该信息片段与一条该比对消息形成一个该比对信息,第二步中的每一条该消息的该信息片段与另外一条该比对消息形成另外一个该比对信息,如此类推。
第四步、在该比对JOB中对第三步中的该比对信息进行运算得到比对结果。
第五步、由该比对JOB提取每一条该消息的该信息片段中的关键字段形成索引。
在该比对JOB中按照分布式流式计算(SPARKSTREAMING)按时间顺序截取每一条该比对消息中的该比对字段信息,形成比对信息片段,该比对信息片段包括若干个该比对字段信息,由该比对JOB提取每一条该比对消息的该比对信息片段中的关键字段形成比对索引。上述第二步、第三步、第四步以及第五步同时进行。
第六步、新的第二分布式消息队列传递给该比对JOB时,在该比对JOB中按照分布式流式计算按时间顺序截取每一条新的比对消息中的新的比对字段信息,形成新的比对信息片段,该新的比对信息片段与第五步中的该索引进行对比并输出结果。
第七步、新的第一分布式消息队列传递给该比对JOB时,在该比对JOB中按照分布式流式计算按时间顺序截取每一条新的消息中的新的字段信息,形成新的信息片段,该新的比对信息片段与第五步中的该比对索引进行对比并输出结果。
第八步、第六步与第七步循环运行能够即时输出比对结果,在具体实施的时候,第五步中的该索引以及该比对索引输入到内存中,以提升比对速度。
本发明的有益效果为:本发明在运行的时候能够在比对JOB中分别生成索引以及比对索引,当有新的第一分布式消息队列或者新的第二分布式消息队列的时候,新的消息直接与索引以及比对索引进行比较输出结果,由于索引以及比对索引中所包含的信息量较少所以整体比对速度能够得到大幅度提升,本发明尤其适用在数据比对量大,消息队列经常更新且需要即时反馈出比对结果的领域。
附图说明
图1为本发明的原理方框示意图。
具体实施方式
如图1所示,基于大数据技术的大指数据比对方法,其包括如下步骤。
第一步、第一分布式消息队列10传递给比对JOB20。
该第一分布式消息队列10包括若干条消息11,每一条该消息11包括若干个字段信息12。
若干条该消息11分别属于不同类型的消息,比如,第一条该消息11为利用身份证在网吧上网的时间信息,第二条该消息11为利用身份证在网吧上网的地点信息,第三条该消息11为利用身份证在旅馆开房的时间信息,第二条该消息11为利用身份证乘坐高铁的时间信息,等等。
第二步、在该比对JOB20中按照分布式流式计算(SPARKSTREAMING)按时间顺序截取每一条该消息11中的该字段信息12,形成信息片段13。
该信息片段13包括若干个该字段信息12。
在具体实施的时候,每五秒就截取每一条该消息11中的该字段信息12,形成该信息片段13,或者根据需要每十秒就截取,每十五秒就截取等等。
第三步、在该比对JOB20中配置比对信息21。
第二分布式消息队列30传递给该比对JOB20。
该第二分布式消息队列30包括若干条比对消息31,每一条该比对消息31包括若干个比对字段信息32。
若干条该比对消息31分别属于不同类型的消息,比如,第一条该比对消息31为逃犯逃跑时间,第二条该比对消息31为逃犯逃跑地点,等等。
第二步中的每一条该消息11的该信息片段13与一条该比对消息31形成一个该比对信息21。
第二步中的每一条该消息11的该信息片段13与另外一条该比对消息31形成另外一个该比对信息21,如此类推。
第四步、在该比对JOB20中对第三步中的该比对信息21进行运算得到比对结果40。
第五步、由该比对JOB20提取每一条该消息11的该信息片段13中的关键字段形成索引50。
在该比对JOB20中按照分布式流式计算(SPARKSTREAMING)按时间顺序截取每一条该比对消息31中的该比对字段信息32,形成比对信息片段33,该比对信息片段33包括若干个该比对字段信息32,由该比对JOB20提取每一条该比对消息31的该比对信息片段33中的关键字段形成比对索引60。
上述第二步、第三步、第四步以及第五步同时进行。
第六步、新的第二分布式消息队列30传递给该比对JOB20时。
在该比对JOB20中按照分布式流式计算按时间顺序截取每一条新的比对消息31中的新的比对字段信息32,形成新的比对信息片段33。
该新的比对信息片段33与第五步中的该索引50进行对比并输出结果。
第七步、新的第一分布式消息队列10传递给该比对JOB20时。
在该比对JOB20中按照分布式流式计算按时间顺序截取每一条新的消息11中的新的字段信息12,形成新的信息片段13。
该新的比对信息片段13与第五步中的该比对索引60进行对比并输出结果。
第八步、第六步与第七步循环运行能够即时输出比对结果。
在具体实施的时候,第五步中的该索引50以及该比对索引60输入到内存中,以提升比对速度。
本发明在运行的时候能够在比对JOB中分别生成索引以及比对索引,当有新的第一分布式消息队列或者新的第二分布式消息队列的时候,新的消息直接与索引以及比对索引进行比较输出结果,由于索引以及比对索引中所包含的信息量较少所以整体比对速度能够得到大幅度提升,本发明尤其适用在数据比对量大,消息队列经常更新且需要即时反馈出比对结果的领域。

Claims (6)

1.基于大数据技术的大指数据比对方法,其特征在于:包括如下步骤:
第一步、第一分布式消息队列传递给比对JOB,该第一分布式消息队列包括若干条消息,每一条该消息包括若干个字段信息,
第二步、在该比对JOB中按照分布式流式计算按时间顺序截取每一条该消息中的该字段信息,形成信息片段,该信息片段包括若干个该字段信息,
第三步、在该比对JOB中配置比对信息,第二分布式消息队列传递给该比对JOB,该第二分布式消息队列包括若干条比对消息,每一条该比对消息包括若干个比对字段信息,第二步中的每一条该消息的该信息片段与一条该比对消息形成一个该比对信息,第二步中的每一条该消息的该信息片段与另外一条该比对消息形成另外一个该比对信息,如此类推,
第四步、在该比对JOB中对第三步中的该比对信息进行运算得到比对结果,
第五步、由该比对JOB提取每一条该消息的该信息片段中的关键字段形成索引,
在该比对JOB中按照分布式流式计算按时间顺序截取每一条该比对消息中的该比对字段信息,形成比对信息片段,该比对信息片段包括若干个该比对字段信息,由该比对JOB提取每一条该比对消息的该比对信息片段中的关键字段形成比对索引,
第六步、新的第二分布式消息队列传递给该比对JOB时,在该比对JOB中按照分布式流式计算按时间顺序截取每一条新的比对消息中的新的比对字段信息,形成新的比对信息片段,该新的比对信息片段与第五步中的该索引进行对比并输出结果,
第七步、新的第一分布式消息队列传递给该比对JOB时,在该比对JOB中按照分布式流式计算按时间顺序截取每一条新的消息中的新的字段信息,形成新的信息片段,该新的比对信息片段与第五步中的该比对索引进行对比并输出结果,
第八步、第六步与第七步循环运行能够即时输出比对结果。
2.如权利要求1所述的基于大数据技术的大指数据比对方法,其特征在于:若干条该消息分别属于不同类型的消息。
3.如权利要求1所述的基于大数据技术的大指数据比对方法,其特征在于:若干条该比对消息分别属于不同类型的消息。
4.如权利要求1所述的基于大数据技术的大指数据比对方法,其特征在于:每五秒就截取每一条该消息中的该字段信息,形成该信息片段。
5.如权利要求1所述的基于大数据技术的大指数据比对方法,其特征在于:第二步、第三步、第四步以及第五步同时进行。
6.如权利要求1所述的基于大数据技术的大指数据比对方法,其特征在于:第五步中的该索引以及该比对索引输入到内存中。
CN201710559045.6A 2017-07-11 2017-07-11 基于大数据技术的大指数据比对方法 Active CN107329846B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710559045.6A CN107329846B (zh) 2017-07-11 2017-07-11 基于大数据技术的大指数据比对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710559045.6A CN107329846B (zh) 2017-07-11 2017-07-11 基于大数据技术的大指数据比对方法

Publications (2)

Publication Number Publication Date
CN107329846A CN107329846A (zh) 2017-11-07
CN107329846B true CN107329846B (zh) 2020-06-12

Family

ID=60196909

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710559045.6A Active CN107329846B (zh) 2017-07-11 2017-07-11 基于大数据技术的大指数据比对方法

Country Status (1)

Country Link
CN (1) CN107329846B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109669967B (zh) * 2018-12-13 2022-04-15 深圳市信义科技有限公司 一种基于大数据技术的时空数据关联分析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582081A (zh) * 2009-05-25 2009-11-18 中兴通讯股份有限公司 一种数据比对的方法及装置
CN104123280A (zh) * 2013-04-24 2014-10-29 中国银联股份有限公司 文件比对方法和设备
CN105354246A (zh) * 2015-10-13 2016-02-24 华南理工大学 一种基于分布式内存计算的数据去重方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10262050B2 (en) * 2015-09-25 2019-04-16 Mongodb, Inc. Distributed database systems and methods with pluggable storage engines
WO2013179451A1 (ja) * 2012-05-31 2013-12-05 国立大学法人東京大学 並列データ処理システム、計算機および並列データ処理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101582081A (zh) * 2009-05-25 2009-11-18 中兴通讯股份有限公司 一种数据比对的方法及装置
CN104123280A (zh) * 2013-04-24 2014-10-29 中国银联股份有限公司 文件比对方法和设备
CN105354246A (zh) * 2015-10-13 2016-02-24 华南理工大学 一种基于分布式内存计算的数据去重方法

Also Published As

Publication number Publication date
CN107329846A (zh) 2017-11-07

Similar Documents

Publication Publication Date Title
US11663258B2 (en) Method and apparatus for processing dataset
US20210209416A1 (en) Method and apparatus for generating event theme
CN110457672B (zh) 关键词确定方法、装置、电子设备及存储介质
US11928563B2 (en) Model training, image processing method, device, storage medium, and program product
EP2991004B1 (en) Method and apparatus for labeling training samples
CN106202032A (zh) 一种面向微博短文本的情感分析方法及其系统
CN103279478A (zh) 一种基于分布式互信息文档特征提取方法
CN105630972A (zh) 数据处理方法及装置
CN103425639A (zh) 一种基于信息指纹的相似信息识别方法
CN105550253B (zh) 一种类型关系的获取方法及装置
CN114841274B (zh) 语言模型的训练方法、装置、电子设备和存储介质
CN112949973A (zh) 一种结合ai的机器人流程自动化rpa流程的生成方法
CN114282692A (zh) 一种纵向联邦学习的模型训练方法及系统
CN107329846B (zh) 基于大数据技术的大指数据比对方法
CN108614810A (zh) 投诉热点自动识别方法及装置
CN104036141B (zh) 一种基于OpenCL的红黑树加速方法
US20170039484A1 (en) Generating negative classifier data based on positive classifier data
CN110472385A (zh) 一种口令破解方法及装置
CN106372083A (zh) 一种有争议性新闻线索自动发现的方法及系统
CN115632866A (zh) 基于fpga实现的报文脱敏方法、装置、设备及介质
CN115495587A (zh) 一种基于知识图谱的告警分析方法及装置
Tang et al. An optimization algorithm of Chinese word segmentation based on dictionary
CN112598139A (zh) 类别编码方法、装置、设备、存储介质及程序产品
CN112508518A (zh) 结合rpa和ai的rpa流程的生成方法以及相应的设备、可读存储介质
CN105260467A (zh) 一种短信分类的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 518000 zone a, 4th floor, building r1-a, 021 Gaoxin industrial village, South 4th Road, Gaoxin, Nanshan District, Shenzhen City, Guangdong Province

Patentee after: Shenzhen Radio & TV Xinyi Technology Co.,Ltd.

Address before: 518000 zone a, 4th floor, building r1-a, 021 Gaoxin industrial village, South 4th Road, Gaoxin, Nanshan District, Shenzhen City, Guangdong Province

Patentee before: SHENZHEN XINYI TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder