CN112597157A - 一种报送信息存储管理方法和系统 - Google Patents

一种报送信息存储管理方法和系统 Download PDF

Info

Publication number
CN112597157A
CN112597157A CN202011493460.4A CN202011493460A CN112597157A CN 112597157 A CN112597157 A CN 112597157A CN 202011493460 A CN202011493460 A CN 202011493460A CN 112597157 A CN112597157 A CN 112597157A
Authority
CN
China
Prior art keywords
data
submission
delivery
storage unit
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011493460.4A
Other languages
English (en)
Other versions
CN112597157B (zh
Inventor
刘继勇
邓飞
苏志斌
王玉晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Everbright Xinglong Trust Co ltd
Original Assignee
Everbright Xinglong Trust Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Everbright Xinglong Trust Co ltd filed Critical Everbright Xinglong Trust Co ltd
Priority to CN202011493460.4A priority Critical patent/CN112597157B/zh
Publication of CN112597157A publication Critical patent/CN112597157A/zh
Application granted granted Critical
Publication of CN112597157B publication Critical patent/CN112597157B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种报送信息存储管理方法和系统,所述方法包括:步骤S1:报送存储单元接收采集前端发送的采集数据并将采集数据保存在数据存储单元中;步骤S2:报送单元获取报送数据,并将获取的报送数据发送给报送处理单元;步骤S3:报送处理单元接收报送数据并存储报送数据。本发明通过存储架构的优化和存储单元内部管理手段的优化提高了存储管理效率。

Description

一种报送信息存储管理方法和系统
【技术领域】
本发明属于数据处理技术领域,尤其涉及一种报送信息存储管理方法和系统。
【背景技术】
随着计算机处理能力的提高和应用层技术的多样化发展,萌生了各种类型的业务及其产生的业务数据,需要对这些数据进行报送管理;这就对报送信息的存储管理带来了很大的压力;常见的,现有的企业风险管理和软件技术一般是通过对现金流的管理来实现,通过对现金流的运作来实现企业经营,组织融资借债。但是对于具体到每个订单、每笔合同从交割完成时就如影随形的风险,这些业务数据如何能够被高效的存储和使用鲜有研究。从信息系统的发展和系统特点来看,由数据存储管理需要针对性优化的领域很多,例如:业务监管系统、经理信息系统、营销信息系统、制造信息系统、财务信息系统、人力资源信息系统、信息资源信息系统均需要进行报送信息的存储管理。如何针对报送系统的特点进行存储管理是最基本的问题。现有技术中往往是采用第三方存储服务器或者简单的设置较大的存储器来解决存储压力,对于如何从架构上进行报送数据的存储优化,具体的如何加快存取效率,对高效的对有效数据进行存储,如何针对报送特点进行同步式存储,均是需要解决的问题。针对现有技术中存在上述问题,本发明通过存储架构的优化和存储单元内部管理手段的优化提高了存储管理效率;具体为:(1)通过组合索引的方式加快存储速度并支撑了当前的保存方式;通过在数据存储过程中对数据属性做抽离,从而使得同样的数据因为属性的多样性可能能够满足多个不同的需求,提高了数据的复用度,使得数据能够为多项报送业务服务;(2)通过画像分析支持采用最节约的方式进行最符合当前采集对象的数据检验方法,通过采集对象细分,使得在可接受的正确率情况下支持各种大小的采集都能够进行最贴近的分析;(3)神经网络模型将对象数据的比较转化为独立的特征以及特征之间的关系,模型简单且不仅能够学习细节,而且学习到更广的特征,使得训练容易收敛;(4)提出集市和存储单元内部数据的量化同步方法,平衡了数据复用和访问效率之间的矛盾,通过重定向在保障数据一致性等报送需求的同时,大大提高了数据存储管理效率。
【发明内容】
为了解决现有技术中的上述问题,本发明提出了一种报送信息存储管理方法和系统,
所述方法包含:
步骤S1:报送存储单元接收采集前端发送的采集数据并将采集数据保存在数据存储单元中;
步骤S2:报送单元获取报送数据,并将获取的报送数据发送给报送处理单元;
步骤S3:报送处理单元接收报送数据并存储报送数据。
进一步的,报送存储单元接收采集前端发送的采集数据并将采集数据按照第一方式保存在数据存储单元中。
进一步的,第一方式为按照采集对象、采集对象和数据类型组合进行区分存储。
进一步的,所述步骤S2具体为:报送单元根据报送需求从集市存储单元中获取所需数据作为报送数据;检查获取的报送数据是否满足报送需求,如果是,则将获取的报送数据发送给报送处理单元。
进一步的,所述步骤S3具体为:报送处理单元接收报送数据,将报送数据放入缓存中;选择性的对缓存中的报送数据做查询统计分析和/或画像分析,将分析符合的报送数据保存到数据存储单元中等待报送处理。
进一步的,所述缓存为报送处理单元的存储区域且不同于数据存储单元的存储空间。
进一步的,所述方法还包括:集市存储单元和数据存储单元根据所存储的数据特性进行数据的同步和优化。
一种报送信息存储管理系统,包括:采集前端、集市存储单元、报送单元和报送处理单元;
所述采集前端为一个或多个,用于根据从源业务系统采集至集市存储单元;
所述集市存储单元用于存储采集前端采集的数据;
所述报送单元用于根据报送需求从集市存储单元获取满足报送需求的采集数据;
报送处理单元用于获取报送单元发送的报送数据并进行数据处理。
进一步的,其中:所述报送单元为一个多个。
进一步的,报送单元根据报送需求对报送数据进行处理。
本发明的有益效果包括:(1)通过组合索引的方式加快存储速度并支撑了当前的保存方式;通过在数据存储过程中对数据属性做抽离,从而使得同样的数据因为属性的多样性可能能够满足多个不同的需求,提高了数据的复用度,使得数据能够为多项报送业务服务;(2)通过画像分析支持采用最节约的方式进行最符合当前采集对象的数据检验方法,通过采集对象细分,使得在可接受的正确率情况下支持各种大小的采集都能够进行最贴近的分析;(3)神经网络模型将对象数据的比较转化为独立的特征以及特征之间的关系,模型简单且不仅能够学习细节,而且学习到更广的特征,使得训练容易收敛;(4)提出集市和存储单元内部数据的量化同步优化方法,平衡了数据复用和访问效率之间的矛盾,通过重定向在保障数据一致性等报送需求的同时,大大提高了数据存储管理效率。
【附图说明】
此处所说明的附图是用来提供对本发明的进一步理解,构成本申请的一部分,但并不构成对本发明的不当限定,在附图中:
图1为本发明的报送信息存储管理方法的示意图。
【具体实施方式】
下面将结合附图以及具体实施例来详细说明本发明,其中的示意性实施例以及说明仅用来解释本发明,但并不作为对本发明的限定。
下面对本发明所应用的一种报送信息存储管理方法和系统进行详细说明。
本发明所应用的一种报送信息存储管理系统,包括:采集前端、集市存储单元、报送单元和报送处理单元;
所述采集前端为一个或多个,用于根据从源业务系统采集至集市存储单元;例如:通过ETL工具定时从各业务系统采集数据;还有人工采集数据等;
所述集市存储单元用于存储采集前端采集的数据;集市存储单元相当于一个数据集市,能够支持多个报送单元并行报送;并接收多个采集前端的数据;当报送需求对一致性有要求时,就需要来自不同采集终端针对同一数据的多次采集来保障数据的外部一致性;
所述报送单元为一个多个,用于根据报送需求从集市存储单元获取满足报送需求的采集数据;
报送处理单元用于获取报送单元发送的报送数据并进行数据处理;报送单元能够根据报送需求对报送数据进行处理;报送处理单元可以下达报送需求给采集终端和/或报送单元;采集终端和/或报送单元应报送需求而发起采集和/或报送;
所述报送处理单元还包括数据存储单元,用于存储报送单元发送的报送数据;数据存储单元不同于采集存储单元;
接下来,对本发明的一种报送信息存储管理方法作介绍,所述方法包括:
步骤S1:报送存储单元接收采集前端发送的采集数据并将采集数据保存在数据存储单元中;
优选的:按照第一方式保存在数据存储单元中;第一方式为按照采集对象、采集对象和数据类型组合进行区分存储;具体的:数据存储单元按照采集对象存储采集数据;将将针对同一采集对象的采集数据保存在同一存储区域中;同一采集对象和数据类型组合对应的采集数据保存在同一数据表中;为采集对象创建第一索引,为采集对象和数据类型组合创建第二索引;
访问时,基于第一索引找到采集对象对应的存储区域,并基于第二索引定位采集对象和数据类型组合对应的数据表,抽取采集数据的数据属性并将采集数据按照数据属性插入到数据表中;本发明通过组合索引的方式加快存储速度并支撑了当前的存储方式;第一方式还能够通过在数据存储过程中对数据属性做抽离,从而使得同样的采集数据因为数据属性的多样性可能能够满足多个不同的需求,提高了数据的复用度,使得数据能够为多项报送业务服务;例如:采集对象为A业务,数据类型为附件;为业务A创建表格,为A业务和附件类型组合创建第二索引;附件的数据属性还包括音频附件、文本附件、甲方附件、乙方附件;获取附件的上述4个数据属性,并将相应部分的数据插入数据表中;
同一数据属性对应的数值对应相同或者不同的部分,在插入到数据表中时,将采集对象和数据类型组合中满足同一报送需求的数据值作为整体存储,该整体存储的数据值的每项数据属性对应的数据值采用指针和数据长度的方式存储;在插入的同时不增加存储开销;数据表根据待报送数据所具有的数据属性设置;
优选的:为采集数据设置属性标签,通过属性标签获取相应数据属性对应的数据值,并将所述数据值插入到数据表中和所述数据值对应的位置;
优选的:所述第二索引值为偏移地址值;所述偏移地址值为相对于存储区域头部地址偏移的相对地址值;
可替换的:数据属性的属性值通过采集前端在采集时根据当前的采集环境、采集上下文等方式获取,还可以是通过数据存储单元对采集数据的语义和组成等进行分析获取;;
优选的:集市存储单元设置有缓冲单元,采集前端将数据发送给集市存储单元而集市存储单元做后续的处理和具体的保存到数据表中的操作;
步骤S2:报送单元获取报送数据,并将获取的报送数据发送给报送处理单元;具体的:报送单元根据报送需求从集市存储单元中获取所需数据作为报送数据;检查获取的报送数据是否满足报送需求,如果是,则将获取的报送数据发送给报送处理单元;
从集市存储单元获取所需数据时,根据报送需求中的采集对象获取第一索引,基于第一索引定位存储区域,根据报送需求中的采集对象及数据类型的组合获取第二索引,基于第二索引定位数据表,根据报送需求填写数据表的相应数据属性,并基于所填写的数据属性构成查询条件查询数据表以获取所需数据,对于查询表中存在的数据属性而报送需求中不涉及的数据属性不参与构成查询条件;
检查获取的数据是否满足报送需求,具体为:检查数据是否符合报送需求的一致性要求,是否符合报送时机等;
步骤S3:报送处理单元接收报送数据并存储报送数据;具体的:报送处理单元接收报送数据,将报送数据放入缓存中;选择性的对缓存中的报送数据做查询统计分析和/或画像分析,将分析符合的报送数据保存到数据存储单元中等待报送处理;
在同时采用查询统计分析和画像分析时,如果两者均符合则确定分析符合,否则,不符合;
现有技术中在进行数据存储之前一般不进行数据的分析,仅仅做一些数据的预处理,例如:矛盾性分析等,但是这样显然会降低后续的存储管理效率,为此,本发明提出统计分析和画像分析相结合的存储前数据分析方法,两种分析方法都能够围绕一个逻辑数据体做分析,前者采用对象无关的快速分析,画像分析能够基于对象的特性做定制分析,但是速度都远远大于逐个bit位的分析或者基于语义的分析,从而大大的提高了数据存储效率;也就是说,通过画像分析方法和查询统计分析,能保障数据获取的准确性、公平性、安全性和一致性,同时还能保障数据处理效率;通过下述轻度分析方法保障了真正存储到数据存储单元中数据的有效性;
优选的:所述缓存为报送处理单元的存储区域且不同于数据存储单元;
所述选择性的对缓存中的报送数据做查询统计分析和/或画像分析,具体为:根据报送处理单元的繁忙程度,和集市存储单元和数据存储单元之间数据的同步频率选择采用查询统计分析或画像分析,或查询统计分析和画像分析;当报送处理单元不繁忙且同步频率高时,选择采用查询统计分析和画像分析;当报送处理单元不繁忙且同步频率低时,采用画像分析;其他情况采用查询统计分析;本发明提出还考虑通过繁忙程度来选择相对简单和相对复杂的分析方法,同时兼顾数据同步频率来限定数据存储进入门槛,恰当的进行数据的存储管理;
所述对缓存中的报送数据做查询统计分析,具体为包括如下步骤:报送处理单元单元对接收到的报送数据做查询统计分析,所述统计分析为非语义分析,查询统计分析为根据特定条件获取和所述特定条件对应的查询到的部分报送数据,对所述部分报送数据做数据统计,将部分数据的统计结果和历史数据作比较以判断是否一致;一致时判断为符合,否则,判断未不符合;例如:计算统计结果的平均值等;特定查询条件为对特定属性值的查询;
例如:获取通过年龄查询获取所有的年龄数据,判断年龄数据是否符合历史规律;特定条件为动态变化的针对采集对象的采集数据设置的特定查询条件;
为了进一步判断数据的历史统计符合情况,本发明提出基于数据组查询条件的查询统计分析,将特定条件限定为查询组合,其中查询组合包含第一元条件和第二元条件,采用第一元条件查询获取第一元条件符合的部分报送数据,获取部分报送数据中和第二元条件对应的数据条目,计算数据条目的统计结果,并将所述统计结果和历史数据作比较以判断是否一致;一致时判断为符合,否则,判断未不符合;这里的历史数据是根据大数据统计获取;可以由报送处理单元根据历史报送数据获取,还可以根据历史报送数据以及经济发展情况结合获取;该基于数据组查询条件的查询统计分析方法的实例是:查询张姓(第一元)的年龄,统计所有张姓数据第二元值-年龄的平均值,将所述平均值和历史数据比较判断是否一致;当然,也可以将数据组查询条件设置为多元;
所述对缓存中的报送数据做画像分析,具体为包括如下步骤:
步骤SA1:确定画像分析所针对的采集对象;具备包含如下步骤:
步骤SAA1:初始时,将报送需求对应的采集对象作为画像分析针对的采集对象;
步骤SAA2:判断所述采集对象的分析正确率是否高于正确率阈值,如果是,则进入步骤SA2对所述采集对象进行画像分析;如果否,则进入步骤SAA3;
分析正确率是指将画像分析的分析正确率和逐bit分析的结果做比较;其中,正确率阈值为预设值,例如:99.9%;
步骤SAA3:如果细分层次是否小于截止层次,则对采集对象进行细分,并对每个细分后的采集对象进入步骤SAA2作正确率阈值判断以及画像分析步骤;否则,确定采集对象的画像分析失败;并继续处理下一采集对象,针对下一采集对象进入步骤SAA2作正确率阈值判断以及画像分析步骤;
优选的:截止层次为2层;
优选的:在针对一采集对象的画像分析失败时,记录所述采集对象;根据采集对象所处的层次判断画像分析最低失败率,当最低失败率高于失败率阈值时,终止对缓存中的报送数据作画像分析并直接返回画像分析失败;由于细分时采用自上而下细分的方式,因此细分后的采集对象呈树状结构;根据当前采集对象在层次中所处的位置,能够在假设后续分析均成功的情况下计算得出最低失败率;通过该细分的方式,能够使得在可接受的正确率情况下支持各种大小的采集都能够进行最贴近的分析,
步骤SA2:对采集对象获取对象画像,对象画像包含一个或多个对象特征和对象特征之间的关联性;对象特征为根据报送数据获取;例如:直接将报送需求中的报送数据的典型数据值作为对象特征;典型数据值和报送数据中报送需求中指出的数据项对应;
步骤SA3:将对象画像输入基线模型以判断对象画像是否符合;
通过大数据训练基线模型,当对象画像符合基线模型时,输出符合的判决,否则输出不符合的判决;通过基线模型,判断采集对象报送数据所呈现出的概要情况是否符合大数据分析结果;例如:采集对象为女性用品的销售情况;当大数据呈现报送数据呈现为男性特征是判决为不符合;
优选的:所述基线模型为神经网络模型;通过大数据样本训练得到,输入为对象特征、对象特征之间的关联性,输出为判决结果;
优选的:所述基线模型为三层神经网络模型,第一层包含N个第一神经元,每个对象特征输入一个第一神经元,其中:N为输入对象特征的个数;第二层N个第二神经元;其中M个第二神经元的输入是相应对象特征的第一神经元输出、和关联性涉及的其他对象特征的第一神经元输出并经过关联性关系作用后的结果;不涉及关联性的对象特征对应的第一神经元的输出直接输出第三层;第三层包含1个第三神经元,第三神经元的输入为不涉及关联性的对象特征对应的第一神经元的输出,和M个第二神经元的输出;输出为判决结果;其中:M为对象特征的关联性所涉及的神经元个数;
可替换的:第一层包含N个第一神经元,每个对象特征输入一个第一神经元,其中:N为输入对象特征的个数;第二层N个第二神经元;其中:N-M个第二神经元中的每个第二神经元的输入是所有第一神经元的输出,M个第二神经元中每个第二神经元的输入是所有除了和其自身具有关联性的对象特征对应的第一神经元的输出、和与其产生关联性的其他对象特征的第一神经元输出经过关联性关系作用后的结果;第三层包含1个第三神经元,第三神经元的输入为,所有第二神经元的输出,输出为判决结果;其中:M为对象特征的关联性所涉及的神经元个数;;
例如:具有3个对象A1,A2,A3,A1和A2具有关联性f();则第二神经元的输入分别是,(N1(A1),f(N1(A2)),N1(A3)),(f(N1(A1)),N1(A2),N1(A3)),(N1(A1),N1(A2),N1(A3));
优选的:所述第一、第二、第三神经元为自编码神经元、卷积神经元、解卷积神经元、门控循环神经元、池化神经元、记忆神经元等;
优选的:第一神经元起到自编码作用,其训练旨在降噪,使得自编码机忽略学习细节,提起对象特征的宏观部分;
本发明通过三层神经网络模型去除每个对象特征的复杂性并引入了对关联性的数学反馈作用,将对象数据的比较转化为独立的特征以及特征之间的关系,模型简单且不仅能够学习细节,而且学习到更广的特征,从而保持了神经网络的动态平衡行,这样使得训练容易收敛;
步骤SA4:如果针对当前采集对象的画像分析符合,则返回步骤SA1继续下一采集对象的判断;具体是返回步骤SAA2;
步骤SA5:如果所有采集对象的画像分析完毕且画像分析符合,则确定画像分析符合,否则确定画像分析不符合;
可替换的:在所有采集对象均分析完毕后,根据分析不符合的采集对象及其所处的层次计算画像分析成功率,在成功率大于成功率阈值时确定整体画像分析符合;在引入成功率时,可以允许一定的误差率;
优选的:当分析不符合时:通知报送单元重新报送;
优选的:所述方法还包括如下步骤,如下步骤为集市存储单元和数据存储单元根据所存储的数据特性进行数据的同步和优化;上述同步和优化过程为周期性进行;
步骤SX1:集市存储单元计算数据的第一重复度和第一利用率,将重复度和利用率发送给数据存储单元;
所述计算数据的第一重复度,具体为:对每个数据单元,计算针对所述数据单元,集市存储单元中保存的数据份数;
所述计算数据的第一利用率,具体为:对每个数据单元,计算针对所述数据单元,预设时间内被报送单元访问的次数;
这里数据单元可以是针对同一采集对象或针对同一数据对象和数据类型组合等;也可以用报送需求中具体的参数类型来限定一个数据单元大小,将数据单元的大小限定在合适的范围内;
步骤SX2:基于第一重复度、第一利用率固化目标数据;发送目标数据标识给集市存储单元;
将第一重复度和第一利用率的乘积大于固化阈值的数据作为目标数据固化;固化为保存所述数据的时间长度较长,如:固化数据的保存时间大于非固化数据,可以用大于时间阈值的方式来设置,也可以设置为永久保存等;
优选的:所述固化阈值为预设值;
当数据存储单元为多个时,计算第二利用率,基于第一重复度、第一利用率、第一利用率固化目标数据;将第一重复度和第一利用率的乘积大于固化阈值的数据作为目标数据固化;将目标数据保存在第二利用率最高的数据存储单元中;对应的,发送目标数据标识和数据存储单元标识给集市存储单元;此时对应的数据存储单元可能也是多个,当然也可以采用一个报送处理单元对应多个数据存储单元情况;
所述计算第二利用率,具体为:计算针对一个数据存储单元的所述数据单元,预设时间内被报送处理单元访问的次数;通过该设置为支撑了并行处理和并行存储;
数据存储单元中保存的是经过一致性处理以及经过报送需求处理的数据,因此这里通常针对同一数据保存的份数为1份;
优选的:固化阈值为预设值;
优选的:目标数据标识为基于采集对象标识或数据对象和数据类型组合标识编码获取,所述标识为唯一的;
步骤SX3:集市存储单元对目标数据设置重定向,将针对所述目标数据的报送访问重定向到数据存储单元;
优选的:在为目标数据设置重定向后,在集市存储单元中删除所述目标数据;
由于集市存储单元采用第一方式保存数据使得针对单位数据的重定向成为可能,只需要将针对特定存储区域或者特定数据表的访问做逻辑映射的修改即可实现;
步骤SX4:报送单元在接收到针对目标数据的报送访问时,根据重定向地址为报送处理单元提供报送数据;
重定向使得针对目标数据的报送单元访问被定向到数据存储单元本身,存储单元本身基于目标数据的标识即可内部访问,大大的提高了数据的访问效率,避免了重复的采集和重复的报送;被固化的数据被认为是一致性等方面可信的,因此,无需进行再次的数据采集以及数据集市的数据积累;
本发明提出集市和存储单元内部数据的量化同步方法,平衡了数据复用和访问效率之间的矛盾,通过重定向在保障数据一致性等报送需求的同时,大大提高了数据存储管理效率;
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

Claims (10)

1.一种报送信息存储管理方法,其特征在于,所述方法包含:
步骤S1:报送存储单元接收采集前端发送的采集数据并将采集数据保存在数据存储单元中;
步骤S2:报送单元获取报送数据,并将获取的报送数据发送给报送处理单元;
步骤S3:报送处理单元接收报送数据并存储报送数据。
2.根据权利要求1所述的报送信息存储管理方法,其特征在于,报送存储单元接收采集前端发送的采集数据并将采集数据按照第一方式保存在数据存储单元中。
3.根据权利要求2所述的报送信息存储管理方法,其特征在于,第一方式为按照采集对象、采集对象和数据类型组合进行区分存储。
4.根据权利要求3所述的报送信息存储管理方法,其特征在于,所述步骤S2具体为:报送单元根据报送需求从集市存储单元中获取所需数据作为报送数据;检查获取的报送数据是否满足报送需求,如果是,则将获取的报送数据发送给报送处理单元。
5.根据权利要求4所述的报送信息存储管理方法,其特征在于,所述步骤S3具体为:报送处理单元接收报送数据,将报送数据放入缓存中;选择性的对缓存中的报送数据做查询统计分析和/或画像分析,将分析符合的报送数据保存到数据存储单元中等待报送处理。
6.根据权利要求5所述的报送信息存储管理方法,其特征在于,所述缓存为报送处理单元的存储区域且不同于数据存储单元的存储空间。
7.根据权利要求6所述的报送信息存储管理方法,其特征在于,所述方法还包括:集市存储单元和数据存储单元根据所存储的数据特性进行数据的同步和优化。
8.一种基于权利要求1-7中任一项所述报送信息存储管理方法的报送信息存储管理系统,包括:采集前端、集市存储单元、报送单元和报送处理单元;
所述采集前端为一个或多个,用于根据从源业务系统采集至集市存储单元;
所述集市存储单元用于存储采集前端采集的数据;
所述报送单元用于根据报送需求从集市存储单元获取满足报送需求的采集数据;
报送处理单元用于获取报送单元发送的报送数据并进行数据处理。
9.根据权利要求8所述的报送信息存储管理系统,其特征在于,其中:所述报送单元为一个多个。
10.根据权利要求9所述的报送信息存储管理系统,其特征在于,报送单元根据报送需求对报送数据进行处理。
CN202011493460.4A 2020-12-16 2020-12-16 一种报送信息存储管理方法和系统 Active CN112597157B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011493460.4A CN112597157B (zh) 2020-12-16 2020-12-16 一种报送信息存储管理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011493460.4A CN112597157B (zh) 2020-12-16 2020-12-16 一种报送信息存储管理方法和系统

Publications (2)

Publication Number Publication Date
CN112597157A true CN112597157A (zh) 2021-04-02
CN112597157B CN112597157B (zh) 2023-04-18

Family

ID=75196672

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011493460.4A Active CN112597157B (zh) 2020-12-16 2020-12-16 一种报送信息存储管理方法和系统

Country Status (1)

Country Link
CN (1) CN112597157B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080288522A1 (en) * 2007-01-26 2008-11-20 Herbert Dennis Hunt Creating and storing a data field alteration datum using an analytic platform
US20140289182A1 (en) * 2013-03-22 2014-09-25 Nanobi Data And Analytics Private Limited System and method for a neural metadata framework
CN107193967A (zh) * 2017-05-25 2017-09-22 南开大学 一种多源异构行业领域大数据处理全链路解决方案
CN107895026A (zh) * 2017-11-17 2018-04-10 联奕科技有限公司 一种校园用户画像的实现方法
CN108959356A (zh) * 2018-05-07 2018-12-07 国网上海市电力公司 一种智能配用电大数据应用系统数据集市建立方法
CN109033113A (zh) * 2017-06-12 2018-12-18 北京京东尚科信息技术有限公司 数据仓库和数据集市的管理方法及装置
CN110232098A (zh) * 2019-04-22 2019-09-13 汇通达网络股份有限公司 一种基于数据治理及血缘关系设计的数据仓库系统
CN111475509A (zh) * 2020-04-03 2020-07-31 李俊宏 一种基于大数据的用户画像和多维分析系统
CN111651425A (zh) * 2019-03-04 2020-09-11 北京沃东天骏信息技术有限公司 数据集市的数据提取方法、装置、终端及存储介质
CN111651442A (zh) * 2020-05-15 2020-09-11 京东数字科技控股有限公司 一种数据报送方法、装置、电子设备及存储介质
CN111859041A (zh) * 2020-07-24 2020-10-30 中国工商银行股份有限公司 数据报送方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080288522A1 (en) * 2007-01-26 2008-11-20 Herbert Dennis Hunt Creating and storing a data field alteration datum using an analytic platform
US20140289182A1 (en) * 2013-03-22 2014-09-25 Nanobi Data And Analytics Private Limited System and method for a neural metadata framework
CN107193967A (zh) * 2017-05-25 2017-09-22 南开大学 一种多源异构行业领域大数据处理全链路解决方案
CN109033113A (zh) * 2017-06-12 2018-12-18 北京京东尚科信息技术有限公司 数据仓库和数据集市的管理方法及装置
CN107895026A (zh) * 2017-11-17 2018-04-10 联奕科技有限公司 一种校园用户画像的实现方法
CN108959356A (zh) * 2018-05-07 2018-12-07 国网上海市电力公司 一种智能配用电大数据应用系统数据集市建立方法
CN111651425A (zh) * 2019-03-04 2020-09-11 北京沃东天骏信息技术有限公司 数据集市的数据提取方法、装置、终端及存储介质
CN110232098A (zh) * 2019-04-22 2019-09-13 汇通达网络股份有限公司 一种基于数据治理及血缘关系设计的数据仓库系统
CN111475509A (zh) * 2020-04-03 2020-07-31 李俊宏 一种基于大数据的用户画像和多维分析系统
CN111651442A (zh) * 2020-05-15 2020-09-11 京东数字科技控股有限公司 一种数据报送方法、装置、电子设备及存储介质
CN111859041A (zh) * 2020-07-24 2020-10-30 中国工商银行股份有限公司 数据报送方法及装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JUNMIN HU: "E-commerce big data computing platform system based on distributed computing logistics information", 《CLUSTER COMPUTING》 *
OLEH NAUM: "Intellectual System Design for Content Formation", 《2017 12TH INTERNATIONAL SCIENTIFIC AND TECHNICAL CONFERENCE ON COMPUTER SCIENCES AND INFORMATION TECHNOLOGIES》 *
王云锋: "基金公司数据中心的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
邢桂伟: "依托大数据技术构建商业银行智能风控体系", 《中国金融电脑》 *

Also Published As

Publication number Publication date
CN112597157B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN110347888B (zh) 订单数据的处理方法、装置及存储介质
CN106528683A (zh) 一种基于索引分片均衡的大数据云搜索平台及其方法
CN108984574B (zh) 数据处理方法及装置
CN107783985A (zh) 一种分布式数据库查询方法、装置及管理系统
CA2441406A1 (en) Web page annotation systems
CN109871527A (zh) 一种基于分词的语义识别方法
CN109885823A (zh) 一种金融行业的分布式语义识别方法及系统装置
CN110929032B (zh) 一种软件系统的用户需求处理系统及处理方法
CN113221570A (zh) 基于线上问诊信息的处理方法、装置、设备及存储介质
CN105786941B (zh) 一种信息挖掘方法和装置
CN116955538B (zh) 医疗字典数据匹配方法及装置、电子设备及存储介质
CN113377817A (zh) 数据处理方法、系统、设备及存储介质
CN112597157B (zh) 一种报送信息存储管理方法和系统
CN115062676B (zh) 数据处理方法、装置及计算机可读存储介质
CN116127400B (zh) 基于异构计算的敏感数据识别系统、方法及存储介质
CN112416904A (zh) 电力数据规范化处理方法及装置
CN116909751A (zh) 一种云计算系统中的资源分配方法
CN111913937A (zh) 数据库运维方法和装置
CN111752541A (zh) 一种基于Rete算法的支付路由方法
WO2024065776A1 (en) Method for data processing, apparatus for data processing, electronic device, and storage medium
CN116204428A (zh) 一种测试用例生成方法和装置
CN114610234A (zh) 一种存储系统参数推荐方法及相关装置
CN114331740A (zh) 产业图谱大数据分析及扫描的数字化投资价值管理方法
CN113177613A (zh) 系统资源数据分配方法及装置
CN111209284A (zh) 基于元数据的分表方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant