CN109726237A - 一种针对多路实时流数据的关联补全方法 - Google Patents

一种针对多路实时流数据的关联补全方法 Download PDF

Info

Publication number
CN109726237A
CN109726237A CN201811528553.9A CN201811528553A CN109726237A CN 109726237 A CN109726237 A CN 109726237A CN 201811528553 A CN201811528553 A CN 201811528553A CN 109726237 A CN109726237 A CN 109726237A
Authority
CN
China
Prior art keywords
data
stream
association
key
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811528553.9A
Other languages
English (en)
Other versions
CN109726237B (zh
Inventor
李白
王新根
杨志强
王新宇
黄滔
鲁萍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Bangsheng Technology Co.,Ltd.
Original Assignee
Zhejiang Bang Sheng Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Bang Sheng Technology Co Ltd filed Critical Zhejiang Bang Sheng Technology Co Ltd
Priority to CN201811528553.9A priority Critical patent/CN109726237B/zh
Publication of CN109726237A publication Critical patent/CN109726237A/zh
Application granted granted Critical
Publication of CN109726237B publication Critical patent/CN109726237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种针对多路实时流数据的关联补全方法,该方法是在数据实时流动的过程中将待关联补全的辅数据暂存至外部KV存储,关联主键为Key,待补全的数据为Value。在主数据流动过程中通过关联匹配的Key从KV存储中获取辅数据进行补全。本发明适用于解决现有技术无法同时保证高质量、高效率实时关联数据的问题,是一种高效的数据关联补全方法,能够提升数据获取效率及质量,更好的支撑业务需求。

Description

一种针对多路实时流数据的关联补全方法
技术领域
本发明适用于金融反欺诈、实时营销、实时授信、实时网络机器人防控、实时运维场景领域,尤其涉及一种针对多路实时流数据的关联补全方法。
背景技术
在传统基于数据库、数据集市、数据仓库等批处理场景的实体关系分析中,常常需要针对多个实体进行关联补全,并基于得到的完整信息,来满足灵活多样的业务分析需求,这种方法在大数据量情况下性能非常差,且效率低下。例如在反欺诈场景中,对数据的完整性、时效性需求非常迫切,影响着系统识别风险是否及时和准确,现有开源的流处理框架对实时关联补全的支持并不完善,存在时间窗口错位,引发数据丢失,影响数据质量的问题。尤其是在金融反欺诈领域对于热数据的加工有着高时效性、高数据质量的要求下,满足这两点才能把数据价值发挥最大化。
发明内容
鉴于上述问题,本发明提出了一种针对多路实时流数据的关联补全方法,以提升数据获取效率及质量,更好的支撑业务需求。
本发明的目的是通过以下技术方案来实现的:一种针对多路实时流数据的关联补全方法,具体包括以下步骤:
(1)以计算机系统的数据库、文件、消息总线作为数据源,形成多路数据流,且数据流之间存在相关性,即存在某个数据流的一个字段的值或多个字段拼接的值与其他数据流一个字段的值或多个字段拼接的值相等的关系,记该值为主键,然后任选一路数据流作为主数据流,其他数据流为辅数据流;
(2)创建旁路输出任务Tout:为从步骤(1)中选择的辅数据流设置Tout任务,即把辅数据流的数据暂存到KV存储,首先将辅数据流的主键设置为缓存主键Key,然后选择若干字段作为暂存的实际数据字段Value,对暂存数据配置在KV存储中的存活时间;
(3)创建旁路输入任务Tin:为从步骤(1)中选择的主数据流设置Tin任务,将主数据流的主键设置为缓存主键Key,从KV存储中获取缓存主键Key相同的暂存数据,然后把暂存数据中的数据字段设置到主数据流对象需要填充的字段上,到此完成了多路数据流补全的任务。
进一步地,所述步骤(1)中,数据源可以是数据库的各个表,每一个文件,消息总线。
进一步地,所述步骤(1)中,比较每一条数据流对象的字段数量,取字段数量最多的为主数据流,其他为辅数据流。
进一步地,所述步骤(2)和步骤(3)中Tout数据对象暂存和Tin数据对象提取基于KV存储实现,包括进程内存、外存、分布式缓存、数据库、文件。
进一步地,所述步骤(2)中,配置暂存数据的有效时间,如果暂存数据过期被清除,主数据流通过缓存主键key无法获取暂存数据,则进行以下处理:
a.将辅数据流回流之后再进行关联补全重试;
b.由实际业务场景来决定,若对数据质量要求高,则进行如步骤a重试,让主数据流必须补全数据后再操作,若对数据质量要求低可进行通过机制,让主数据流在没有补全数据的情况下进行后续操作。
本发明的有益效果:本发明提供了一种针对多路实时流数据的关联补全方法,在多路数据实时流转的过程中进行关联补全,大幅提升了获取完整数据信息的时效性,使得热数据利用价值最大化。如在反欺诈场景中识别风险交易更加准确,降低用户资产损失,为保障账户安全提供支持。同时免去了后续以批式手段再次处理的负担,可较大程度的确保数据质量,提升数据治理效率。
附图说明
图1为本发明一种针对多路实时流数据的关联补全方法的实现原理图;
图2为本发明Tout旁路输出任务结构示意图;
图3为本发明Tin旁路输入任务结构示意图;
图4为本发明的应用实现方式详细说明。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
实施例1
如图1所示,本实施例提供一种针对多路实时流数据的关联补全方法,在多路数据的实时采集和流式处理中,不同数据流之间往往存在关联关系,需要将有着关联关系的多路流数据进行实时补全,实时得到完整数据;该方法具体包括以下步骤:
(1)以计算机系统的数据库、文件、消息总线作为数据源,形成多路数据流,数据源可以是数据库的各个表,每一个文件,消息总线(如kafka,jms)。
要使得数据流可以关联和补全,需要确定数据流之间存在相关性,即存在某个数据流的一个字段的值或多个字段拼接的值与其他数据流一个字段的值或多个字段拼接的值相等的关系,记该值为主键。以下为一示例:
主数据流A如下:
字段 字段值
a1 001
a2 hello
a3 123
... ...
辅数据流B如下:
字段 字段值
b1 001
b2 00
b3 1
b4 world
b5 1000
... ...
相关性选择如下:
1.a1=b1-->001=001(a1和b1的值相等);
2.a1=b2+b3-->001=00+1(加号为拼接,b2和b3拼接后的值为001,与a1的值相等)。
任选一路数据流作为主数据流,其他数据流为辅数据流;可以比较每一条数据流对象的字段数量,取字段数量最多的为主数据流,其他为辅数据流。
(2)创建旁路输出任务Tout:为从步骤(1)中选择的辅数据流设置Tout任务,即把辅数据流的数据暂存到KV存储,首先将辅数据流的主键设置为缓存主键Key,然后选择若干字段作为暂存的实际数据字段Value(可以包括主键,可以为除主键之外的所有字段,也可以是除主键之外的部分字段),可对暂存数据配置在KV存储中的存活时间,时间的长短取决于具体业务场景中对数据的使用要求(比如在交易场景中,数据的有效时间在5分钟内,因此将暂存数据的存活时间设置为5min),该做法可合理利用KV存储的空间;
配置暂存数据的有效时间,可合理利用KV存储的空间,避免暂存数据长期占用KV存储的空间,如果暂存数据过期被清除,主数据流通过缓存主键key无法获取暂存数据,则进行以下处理:
a.将辅数据流回流(即执行步骤(2))之后再进行关联补全重试(即重新执行步骤(3));
b.由实际业务场景来决定,若对数据质量要求高,则进行如步骤a重试,让主数据流必须补全数据后再操作,若对数据质量要求低可进行通过机制,让主数据流在没有补全数据的情况下进行后续操作。
(3)创建旁路输入任务Tin:为从步骤(1)中选择的主数据流设置Tin任务,将主数据流的主键设置为缓存主键Key,从KV存储中获取缓存主键Key相同的暂存数据,然后把暂存数据中的数据字段设置到主数据流对象需要填充的字段上,到此完成了多路数据流补全的任务。
步骤(2)和步骤(3)中Tout数据对象暂存和Tin数据对象提取是基于KV存储实现的,包括但不限于进程内存、外存、分布式缓存、数据库、文件等介质。
实施例2
步骤1:从计算机系统采集数据形成多路数据流A和B。A流是辅数据流,其数据对象包含uid、status两个字段;B流是主数据流,其数据对象包含orderId、userId、amt、createTime、chnl字段;
步骤2:创建Tout旁路输出任务,将辅数据流A暂存至KV存储,其中uid作为缓存主键(Key),status作为缓存数据字段(Value);
步骤3:创建Tin旁路输入任务,以主数据流B中数据对象的userId字段为缓存主键(Key)从KV存储中获取暂存的辅数据,并将辅数据中的status字段值填充到主数据流B的数据对象中;
步骤4:关联补全后得到的完整主数据流B’,包含了完整字段orderId、userId、amt、createTime、chnl、status,可实时流入下游系统。
实施例3
步骤0:在某一个计算机系统中存在数据库A和数据库B,如图4所示,数据库A中有交易状态表,数据库B中有交易信息表,现需要把这两张数据库表关联起来,并且把交易状态表中的状态字段值补充到交易信息表中,最终形成一张合并后的表的完整结构,用于监管系统分析;
步骤1:使用数据采集工具从数据库A的交易状态表中实时采集数据,形成数据流A;
步骤2:交易状态表数据采集过来后,创建Tout旁路输出任务对已采集的数据进行暂存到外部存储处理,其中使用交易状态表中的流水号字段作为主键,以便缓存中数据被查询到;
步骤3:在做步骤1的同时进行对数据库B的交易信息表做相同的实时采集操作,形成数据流B;
步骤4:创建Tin旁路输入任务,使用交易信息表中订单号作为外键从缓存中获取匹配的记录,即获取到订单号和流水号相同的交易状态表数据;
步骤5:把交易状态表和交易信息表数据进行合并处理,最终形成交易信息合并表,该表包含交易状态表和交易信息表两者所有字段。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (5)

1.一种针对多路实时流数据的关联补全方法,其特征在于,具体包括以下步骤:
(1)以计算机系统的数据库、文件、消息总线作为数据源,形成多路数据流,且数据流之间存在相关性,即存在某个数据流的一个字段的值或多个字段拼接的值与其他数据流一个字段的值或多个字段拼接的值相等的关系,记该值为主键,然后任选一路数据流作为主数据流,其他数据流为辅数据流;
(2)创建旁路输出任务Tout:为从步骤(1)中选择的辅数据流设置Tout任务,即把辅数据流的数据暂存到KV存储,首先将辅数据流的主键设置为缓存主键Key,然后选择若干字段作为暂存的实际数据字段Value,对暂存数据配置在KV存储中的存活时间;
(3)创建旁路输入任务Tin:为从步骤(1)中选择的主数据流设置Tin任务,将主数据流的主键设置为缓存主键Key,从KV存储中获取缓存主键Key相同的暂存数据,然后把暂存数据中的数据字段设置到主数据流对象需要填充的字段上,到此完成了多路数据流补全的任务。
2.根据权利要求1所述的一种针对多路实时流数据的关联补全方法,其特征在于,所述步骤(1)中,数据源可以是数据库的各个表,每一个文件,消息总线。
3.根据权利要求1所述的一种针对多路实时流数据的关联补全方法,其特征在于,所述步骤(1)中,比较每一条数据流对象的字段数量,取字段数量最多的为主数据流,其他为辅数据流。
4.根据权利要求1所述的一种针对多路实时流数据的关联补全方法,其特征在于,所述步骤(2)和步骤(3)中Tout数据对象暂存和Tin数据对象提取基于KV存储实现,包括进程内存、外存、分布式缓存、数据库、文件。
5.根据权利要求1所述的一种针对多路实时流数据的关联补全方法,其特征在于,所述步骤(2)中,配置暂存数据的有效时间,如果暂存数据过期被清除,主数据流通过缓存主键key无法获取暂存数据,则进行以下处理:
a.将辅数据流回流之后再进行关联补全重试;
b.由实际业务场景来决定,若对数据质量要求高,则进行如步骤a重试,让主数据流必须补全数据后再操作,若对数据质量要求低可进行通过机制,让主数据流在没有补全数据的情况下进行后续操作。
CN201811528553.9A 2018-12-13 2018-12-13 一种针对多路实时流数据的关联补全方法 Active CN109726237B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811528553.9A CN109726237B (zh) 2018-12-13 2018-12-13 一种针对多路实时流数据的关联补全方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811528553.9A CN109726237B (zh) 2018-12-13 2018-12-13 一种针对多路实时流数据的关联补全方法

Publications (2)

Publication Number Publication Date
CN109726237A true CN109726237A (zh) 2019-05-07
CN109726237B CN109726237B (zh) 2020-02-07

Family

ID=66296035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811528553.9A Active CN109726237B (zh) 2018-12-13 2018-12-13 一种针对多路实时流数据的关联补全方法

Country Status (1)

Country Link
CN (1) CN109726237B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112667686A (zh) * 2020-12-30 2021-04-16 中国农业银行股份有限公司 一种实时流数据拼接方法及装置
CN112685191A (zh) * 2019-10-18 2021-04-20 北京京东振世信息技术有限公司 一种消息处理方法和装置
CN113760979A (zh) * 2020-11-12 2021-12-07 北京沃东天骏信息技术有限公司 用于生成信息的方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101651678A (zh) * 2009-09-11 2010-02-17 北京锐安科技有限公司 网络中动态合并及分别执行合并pe文件的方法及其系统
CN104333818A (zh) * 2014-10-17 2015-02-04 中兴通讯股份有限公司 一种http实时流媒体分片的拼接方法及拼接系统
US20150302650A1 (en) * 2014-04-16 2015-10-22 Hazem M. Abdelmoati Methods and Systems for Providing Procedures in Real-Time
US20170071995A1 (en) * 2014-08-29 2017-03-16 Alejandro Mario Díaz Rebolledo Extracts of cyclanthera pedata and formulations and uses thereof
CN107943826A (zh) * 2017-10-19 2018-04-20 西安电子科技大学 一种适用于多类字段的高速数据流分类装置及方法
CN108924090A (zh) * 2018-06-04 2018-11-30 上海交通大学 一种基于卷积神经网络的shadowsocks流量检测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101651678A (zh) * 2009-09-11 2010-02-17 北京锐安科技有限公司 网络中动态合并及分别执行合并pe文件的方法及其系统
US20150302650A1 (en) * 2014-04-16 2015-10-22 Hazem M. Abdelmoati Methods and Systems for Providing Procedures in Real-Time
US20170071995A1 (en) * 2014-08-29 2017-03-16 Alejandro Mario Díaz Rebolledo Extracts of cyclanthera pedata and formulations and uses thereof
CN104333818A (zh) * 2014-10-17 2015-02-04 中兴通讯股份有限公司 一种http实时流媒体分片的拼接方法及拼接系统
CN107943826A (zh) * 2017-10-19 2018-04-20 西安电子科技大学 一种适用于多类字段的高速数据流分类装置及方法
CN108924090A (zh) * 2018-06-04 2018-11-30 上海交通大学 一种基于卷积神经网络的shadowsocks流量检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李飞等: "基于协作过滤的传感器数据补全方法", 《东北大学学报(自然科学版)》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112685191A (zh) * 2019-10-18 2021-04-20 北京京东振世信息技术有限公司 一种消息处理方法和装置
CN112685191B (zh) * 2019-10-18 2023-09-22 北京京东振世信息技术有限公司 一种消息处理方法和装置
CN113760979A (zh) * 2020-11-12 2021-12-07 北京沃东天骏信息技术有限公司 用于生成信息的方法和装置
CN112667686A (zh) * 2020-12-30 2021-04-16 中国农业银行股份有限公司 一种实时流数据拼接方法及装置

Also Published As

Publication number Publication date
CN109726237B (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
TWI690865B (zh) 交易量的預測方法及裝置
CN109726237A (zh) 一种针对多路实时流数据的关联补全方法
CN111192004A (zh) 用于当前待办任务和后续待办工作流程展示的方法
CN101216783A (zh) 一种针对多事务进行优化排序处理的方法
CN108304554A (zh) 文件拆分方法、装置、计算机设备和存储介质
CN104657808A (zh) 能够实现企业资金数据实时查询和管理的系统及方法
JP5070306B2 (ja) 取引中継方法および取引中継システム
CN109461066A (zh) 电力企业对账系统及其方法
CN109978502A (zh) 工程设计变更自动预算方法、系统及计算机存储介质
CN110471903A (zh) 异构系统节点信息汇总方法、数据库生成方法、数据生成方法和装置
CN101252451B (zh) 保证服务质量的Web服务器系统请求区分服务方法与中间件
CN105427030B (zh) 一种预警信息的差异化处理方法及系统
CN108876298A (zh) 一种收益分享管理方法及系统
CN110069565A (zh) 一种分布式数据库数据批量处理的方法及装置
CN104899725A (zh) 一种决策支持与事件反馈的智能工作流系统及其流转方法
CN113139870A (zh) 一种债券行情获取与交易方法、系统、存储介质及计算机设备
CN102761429A (zh) 一种异常话单处理方法与系统
CN106157137A (zh) 一种银行账户金额的控制方法及装置
CN105786945B (zh) 一种基于数据通道的用电信息数据高效处理方法
CN105069511A (zh) 在线专利撰写业务监控系统
CN110244096B (zh) 一种电能量计量系统中对电表满码自动发现与处理的方法
CN111552697B (zh) 一种解决银行核心系统热点账户的高并发处理方法
CN111274255B (zh) 业务数据监控方法及系统、监控架构、设备、存储介质
CN110288469A (zh) 一种代币自动分发方法、装置及计算机设备
CN111415263A (zh) 数据匹配方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Room ABCD, 17th floor, building D, Paradise Software Park, No.3 xidoumen Road, Xihu District, Hangzhou City, Zhejiang Province, 310012

Patentee after: Zhejiang Bangsheng Technology Co.,Ltd.

Address before: Room ABCD, 17th floor, building D, Paradise Software Park, No.3 xidoumen Road, Xihu District, Hangzhou City, Zhejiang Province, 310012

Patentee before: ZHEJIANG BANGSUN TECHNOLOGY Co.,Ltd.

CP01 Change in the name or title of a patent holder