CN114996306B - 一种基于多维度的数据管理方法及系统 - Google Patents
一种基于多维度的数据管理方法及系统 Download PDFInfo
- Publication number
- CN114996306B CN114996306B CN202210929809.7A CN202210929809A CN114996306B CN 114996306 B CN114996306 B CN 114996306B CN 202210929809 A CN202210929809 A CN 202210929809A CN 114996306 B CN114996306 B CN 114996306B
- Authority
- CN
- China
- Prior art keywords
- data
- multidimensional
- target format
- log
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013523 data management Methods 0.000 title claims abstract description 31
- 238000006243 chemical reaction Methods 0.000 claims abstract description 31
- 238000004590 computer program Methods 0.000 claims description 2
- 238000013519 translation Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 description 17
- 238000004891 communication Methods 0.000 description 13
- 230000002354 daily effect Effects 0.000 description 10
- 238000013500 data storage Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000013475 authorization Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 101150012579 ADSL gene Proteins 0.000 description 1
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Water Supply & Treatment (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于多维度的数据管理方法及系统,获取业务日志相关的多维度数据;通过转化引擎,将多维度数据转化为目标格式数据,基于用户名和业务类型对多维度数据进行维护,并将多维度数据的时间字段由行数据转化为列数据,以获得目标格式数据;以时间字段作为目标格式数据的列名,时间字段对应的数据内容作为行级数据内容;其中,时间字段对应于一个自然日;将转化后的目标格式数据通过Elasticsearch存储至服务器上;基于业务需求查询请求,对存储至服务器上的所述目标格式数据进行查询,获得查询结果;通过本发明能够提高多维度数据的字段可扩展性,降低多维度数据占用的存储空间,同时提高查询效率。
Description
技术领域
本申请属于数据处理的研究领域,特别涉及一种基于多维度的数据管理方法及系统。
背景技术
固网宽带业务是通信运营商大力发展的主要业务之一;而静默用户是通信运营商在固网宽带业务运营过程中,非常关注的指标之一。静默用户指在固网宽带AAA(Authentication、Authorization、Accounting)系统中开户且状态正常、但是没有发生接入网络行为的用户,其中静默期根据时间相关,例如:日静默用户指当天没有发生接入网络行为的用户;月静默用户指当月没有发生接入网络行为的用户;季静默用户一个季度都没有发生接入网络行为的用户;以此类推。
随着网络的多元化、IP化、业务开放化等因素的不断演进,以及通信运营商运营精细化的需求,对静默用户详情信息的了解、特别是任意时间段的连续静默用户详情信息的了解,越来越迫切,并且查询频率不断增加、要求查询响应时间不断降低,对静默用户的提取维度组合不断灵活多变,对出具报表维度的复杂度不断增加,并且随着如今网络业务的拓展、用户数量与日俱增,存储的日静默用户详情单已成为常态化数据,因此无论连续静默用户详情单的存储还是分析都面临了更大的挑战。
针对上述问题,本申请提供一种基于多维度的数据管理方法及系统,提高静默用户相关数据的管理效率,同时降低静默用户相关数据占用的存储空间大小。
发明内容
为了解决所述现有技术的不足,本申请提供了一种基于多维度的数据管理方法,先获取业务日志相关的多维度数据;通过转化引擎,将所述多维度数据转化为目标格式数据;将转化后的所述目标格式数据存储至服务器上;以及,基于业务需求查询请求,对存储至服务器上的所述目标格式数据进行查询,获得查询结果,能够提高多维度数据的字段可扩展性,降低多维度数据占用的存储空间,同时提高查询效率。
本申请所要达到的技术效果通过以下方案实现:
第一方面,本发明实施例提供一种基于多维度的数据管理方法,包括:
获取业务日志相关的多维度数据,其中,所述多维度数据包括以下至少一项或多项:认证日志多维度数据;开销户日志多维度数据;原始话单日志多维度数据;
通过转化引擎,将所述多维度数据转化为目标格式数据,基于用户名和业务类型对多维度数据进行维护,并将所述多维度数据的时间字段由行数据转化为列数据,以获得所述目标格式数据;以所述时间字段作为所述目标格式数据的列名,所述时间字段对应的数据内容作为行级数据内容;其中,所述时间字段对应于一个自然日;
将转化后的所述目标格式数据通过Elasticsearch存储至服务器上;
基于业务需求查询请求,对存储至服务器上的所述目标格式数据进行查询,获得查询结果。
进一步地,所述转化引擎包括:kafka。
进一步地,所述获取业务日志相关的多维度数据,包括:
实时获取业务日志相关的所述多维度数据并进行实时分析。
进一步地, 所述基于业务需求查询请求,对存储至服务器上的所述目标格式数据进行查询,获得查询结果之后,还包括:
将所述查询结果返回至请求用户。
通过本发明实施例提供的上述基于多维度的数据管理方法,可以实现提高多维度数据的字段可扩展性,降低多维度数据占用的存储空间,同时提高查询效率的技术效果。
第二方面,本发明实施例提供一种基于多维度的数据管理系统,包括:
获取模块,用于获取业务日志相关的多维度数据,其中,所述多维度数据包括以下至少一项或多项:认证日志多维度数据;开销户日志多维度数据;原始话单日志多维度数据;
转化模块,用于通过转化引擎,将所述多维度数据转化为目标格式数据,基于用户名和业务类型对多维度数据进行维护,并将所述多维度数据的时间字段由行数据转化为列数据,以获得所述目标格式数据;以所述时间字段作为所述目标格式数据的列名,所述时间字段对应的数据内容作为行级数据内容;其中,所述时间字段对应于一个自然日;
存储模块,用于将转化后的所述目标格式数据通过Elasticsearch存储至服务器上;
查询模块,基于业务需求查询请求,对存储至服务器上的所述目标格式数据进行查询,获得查询结果。
进一步地,所述转化引擎包括:kafka。
进一步地, 所述获取模块,还执行如下操作包括:
用于实时获取业务日志相关的所述多维度数据并进行实时分析。
进一步地,还包括反馈模块:
所述反馈模块,用于将所述查询结果返回至请求用户。
另一个方面,还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的方法。
再一个方面,还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上所述的方法。
通过本发明实施例提供的上述基于多维度的数据管理方法及系统,可以实现提高多维度数据的字段可扩展性,降低多维度数据占用的存储空间,同时提高查询效率的技术效果。
附图说明
为了更清楚地说明本申请实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例中的基于多维度的数据管理方法的流程图;
图2为本申请一实施例中的基于多维度的数据管理方法的具体实现图;
图3为本申请一实施例中的基于多维度的数据管理系统的结构图;
图4为本申请一实施例中的电子设备的示意框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本申请的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,除非另外定义,本公开一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
相关技术中,尤其是通信领域,具体涉及固网宽带接入认证方向的技术;固网宽带即固定线路提供的宽带服务,比如光纤、电话线(ADSL,Asymmetric Digital SubscriberLine)、智能专线、互联网电视宽带等。AAA是认证(Authentication)、授权(Authorization)和计费(Accounting)的简称,是网络安全中进行访问控制的一种安全管理机制,提供认证、授权和计费的服务,通常采用RADIUS(Remote Authentication Dial In User Service)协议。
固网宽带业务主要采用的是PPPoE(Point-to-Point Protocol Over Ethernet)接入控制,使用RADIUS协议对接入网络的用户进行身份认证、业务授权(例如,带宽为100M或500M),并记录用户的话单信息(例如,上网时长、上行流量、下行流量、上网时间、下网时间等)。
相关技术中,处理静默用户数据存储的方法采用关系型数据库存储每日的用户清单记录,其数据表结构如下表所示(其中:字段nai+rattype+ptnum值为唯一索引):
表1 多维度数据存储表结构
如上表所示,通常来说,静默用户每日的用户清单记录都如上表,会记录用户的用户名、业务类型、MAC地址、日期等相关信息,随时间的累积增长,数据存储的数据量、存储空间均会以相当大的增长速率稳定增长,因此,容易造成数据库的存储空间不足,即使拥有较大的存储空间也不太能够满足每日的数据增长。另外,对于一个月或半年查看连续静默用户清单,每次查询时均需要将一月或半年时间内的用户保留去重后的用户清单记录,这不管是通过代码实现还是在数据库直接计算都需要消耗巨大的资源,且耗时很长,这样无疑给用户会带来了较差的体验感。
因此,需要采用本发明提供的基于多维度的数据管理方法及系统,来对静默用户每日的相关用户清单记录进行统一管理,从而实现提高多维度数据的字段可扩展性,降低多维度数据占用的存储空间,同时提高查询效率的技术效果。
下面结合附图,详细说明本申请的各种非限制性实施方式。
首先,参照图1,对发明的基于多维度的数据管理方法进行详细说明:
步骤100,获取业务日志相关的多维度数据,其中,所述多维度数据包括以下至少一项或多项:认证日志多维度数据;开销户日志多维度数据;原始话单日志多维度数据;
示例性地,获取业务日志相关的多维度数据,包括获取针对用户的多种类型的业务日志,其中用户可以包括但不局限于静默用户;
示例性地,多维度数据可以包括以下至少一项:
认证日志多维度数据;
开销户日志多维度数据;
原始话单日志多维度数据;
示例性地,该多维度数据可以是上述表1所示的数据,每条日志记录数据可以包括用户的用户名信息、业务类型信息、地址信息、时间信息等,此处为列举并非穷举,对于其他和用户相关的可扩展信息均可应用于此,此处并不做限定;具体地,时间信息可以以天为单位;
示例性地,对于其他可以应用于本发明的其他类型的数据均可应用于此,此处并非限制性的。
示例性地,实时获取业务日志相关的多维度数据并进行实时分析,这样可以动态完成数据的分析以及更新,以便后续能够及时地完成数据的处理以转化,提高效率。
示例性地,实时流处理框架采用Spark Streaming。
步骤101,通过转化引擎,将所述多维度数据转化为目标格式数据,基于用户名和业务类型对多维度数据进行维护,并将所述多维度数据的时间字段由行数据转化为列数据,以获得所述目标格式数据;以所述时间字段作为所述目标格式数据的列名,所述时间字段对应的数据内容作为行级数据内容;其中,所述时间字段对应于一个自然日;
示例一,针对认证日志多维度数据:
具体地,通过转化引擎,将多维度数据转化为目标格式数据,包括:
通过转化引擎(例如,该转化引擎可以是kafka等,其他具有此功能的插件均可以应用于此,并不做限定),将认证日志多维度数据转化为目标格式数据,首先对认证日志多维度数据进行解析,例如可以基于用户名+业务类型对用户记录信息进行维护,在业务类型的处理逻辑是认证成功的情况下,则维护用户记录信息,对该条用户记录信息对应的时间字段进行更新,具体更新的方式是:当前时间对应该年中的哪一天就更新该天对应的时间字段,例如当前时间为2022年的第30天,就将时间字段day30对应的数据内容更新1。
示例性地,上述在业务类型的处理逻辑是认证成功的情况下,可以设置认证的结果码来辅助判断,例如,当认证的结果码为000(此处并不限制,还可以是其他示例)的情况下,则说明认证成功,可以维护该用户记录信息,否则不对其进行操作。
示例二,针对开销户日志多维度数据:
通过转化引擎(例如,该转化引擎可以是kafka等,其他具有此功能的插件均可以应用于此,并不做限定),将开销户多维度数据转化为目标格式数据,首先对开销户多维度数据进行解析,例如可以基于用户名+业务类型对用户记录信息进行维护,在业务类型的处理逻辑是开户且成功开户的情况下,则在数据库中插入一条新的用户记录信息,该用户记录信息的dayx值默认为0;
示例性地,上述在业务类型的处理逻辑是开户且成功开户的情况下,可以设置认证的操作码来辅助判断,例如,当操作码为100(此处并不限制,还可以是其他示例)的情况下,则说明开户成功,可以进行用户记录信息的插入,否则不进行操作。
示例三,针对原始话单日志多维度数据:
通过转化引擎(例如,该转化引擎可以是kafka等,其他具有此功能的插件均可以应用于此,并不做限定),将原始话单日志多维度数据转化为目标格式数据,首先对原始话单日志多维度数据进行解析,例如可以基于用户名+业务类型对用户记录信息进行维护,在业务类型的处理逻辑是存在该用户记录信息,则维护该用户记录信息,对该条用户记录信息对应的时间字段进行更新,具体更新的方式是:当前时间对应该年中的哪一天就更新该天对应的时间字段,例如当前时间为2022年的第115天,就将时间字段day115对应的数据内容更新1。
示例性地,上述在业务类型的处理逻辑是存在该用户记录的情况下,可以设置认证的结果码来辅助判断,例如,当认证的结果码为101(此处并不限制,还可以是其他示例)的情况下,则说明存在该用户记录信息,可以维护该用户记录信息,否则不对其进行操作。
上述描述中,通过转化引擎,将多维度数据的时间字段由行数据转化为列数据,获得了目标格式数据;其中,目标格式数据以时间字段作为列名,以时间字段对应的数据内容作为行级数据内容;具体地,时间字段对应于一个自然日,时间字段也对应其他时间范围或者单位,此处为示例性地,并不是限制性的。
示例性地,针对每个用户,目标格式数据中包括转化前的用户记录信息中的每个字段的数据,并且根据实际的应用需求,也可以对字段进行扩展;目标格式数据中对于时间字段实时更新,具体地,如果2022年的前100天某一用户每天都有一条用户记录信息,则其对应的目标格式数据中包括100个时间字段,每一个时间字段对应上述前100天中的每一天,这样,仅针对业务类型对用户记录数据进行行列转化不仅能够提高多维度数据的字段可扩展性,降低多维度数据占用的存储空间,同时还能提高查询效率。
步骤102,将转化后的所述目标格式数据通过Elasticsearch存储至服务器上;
示例性地,可以将转化后的目标格式数据存储至服务器上,例如可以以Elasticsearch的方式进行存储;
步骤103,基于业务需求查询请求,对存储至服务器上的目标格式数据进行查询,获得查询结果。
示例性地,获取用户的业务查询请求,例如该业务查询需求可以是查询连续静默用户的连续时间达到30的用户数等,也可以是针对常规用户的其他查询,此处为示例性地。
根据业务查询请求进行相应的查询,获得查询结果。
获得查询结果之后,可以将查询结果反馈给用户,便于用户进行分析和应用。
采用本发明上述查询方式可以极大地提高查询的效率,提升用户体验感。
下面根据图2来对本发明的另一实施例进行详细描述:
参见图2,首先是获取业务日志相关的多维度数据,该多维度数据可以是以下一项或者多项:认证日志多维度数据、开销户日志多维度数据、原始话单日志多维度数据;本发明并不局限于静默用户,其他用户也适用。下面就不再对此进行赘述了。
然后进行业务日志相关的多维度数据的入库,将业务日志相关的多维度数据入库后进行转化处理,其中此处的转化处理可以由消息中间件来执行,具体的该消息中间件可以是kafka等;
具体地,将业务日志相关的多维度数据经过入库分析处理后写入消息中间件;
接下来,消息中间件会维护多维度数据到非关系型数据库,示例性地,可以采用如下操作:
(1)认证日志多维度数据的Streaming任务:解析认证日志多维度数据的topic,基于用户名+业务类型维护其用户记录信息,具体地用户记录信息可以是静默用户详情表,业务逻辑处理可以是:当用户认证成功(例如,结果码为000)则维护该静默用户详情表,若存在则更新当天对应该年的第几天,则对对应的dayx字段进行更新,具体地更新为1;
(2)开销户日志多维度数据的Streaming任务:解析开销户日志多维度数据的topic,基于用户名+业务类型维护其用户记录信息,具体地用户记录信息可以是静默用户详情表,业务逻辑处理可以是:若操作码是开户,且操作成功则查询业务oracle库并插入一条新的数据,dayx值均默认为0;
(3)原始话单日志多维度数据的Streaming任务:解析原始话单日志多维度数据的topic,基于用户名+业务类型维护其用户记录信息,具体地用户记录信息可以是静默用户详情表,业务逻辑处理可以是:该数据存在则计算当天对应该年的第几天,则对对应的dayx字段进行更新,具体地更新为1;
对转化后的静默用户详情表(即目标格式数据)进行存储,可以是采用Elasticsearch存储静默用户详情表:
具体地,其中静默用户详情表的内容可以包括用户的基本信息以及该用户每天一个状态标识。通过业务日志维护每天的状态标识,且用户的基本信息支持进行扩展,根据上述调整,将日清单由行转列,既可以节省表空间,整合为一张年表,同时增加索引条件,极大地提升了查询速率。
示例性地,转化后的静默用户详情表(即目标格式数据)如下表2所示:
其中:
1)字段nai+rattype值为唯一索引;
2)字段day1~day366代表天活跃或静默标识,其中值:1代表活跃,0代表静默。
表2 目标格式数据结构示例
基于用户的业务需求查询请求,对存储至服务器上的所述目标格式数据进行查询,获得查询结果;具体地址,可以通过API接口,根据用户需求完成相关数据查询。
API接口负责根据业务需求查询、聚合用户详情表进而组装数据并返回前端;
进一步地,还可以对行转列前后数据存储情况进行对比。
通常固网宽带电信运营商需要针对一年内的历史数据进行分析汇总需求,故而数据生命周期为1年;同理可扩展至2年、3年至N年。
根据相关的固网宽带存量用户数为600万用户,每日活跃用户范围为380万~410万用户区间内,每日静默用户大概在190万~220万区间内。
按200万每日静默用户计算,对于现有技术和本发明的对比表现,如下表3所示:
表3 相关技术与本发明的对比情况表
图表对比本发明的存储虽然单条数据增大了一倍,但全年总存储量相较于现有技术缩小了150倍。
同时在存储量大大减少的前提下,针对连续静默用户数的各维度清单以及地市统计数的需求原始数据复杂度降低,从而大大提高了数据被检索的效率。
总而言之,本发明全年的数据存储所占内存远远小于现有技术,并且对于相关数据的查询,本发明能够极大地提高查询速度,提升用户体验。
参照图3,下面对本发明的另一实施例所公开的基于多维度的数据管理系统进行详细描述;如图3所示,基于多维度的数据管理系统包括:
获取模块300,用于获取业务日志相关的多维度数据;
转化模块301,用于通过转化引擎,将多维度数据转化为目标格式数据;
存储模块302,将转化后的目标格式数据存储至服务器上;
查询模块303,基于业务需求查询请求,对存储至服务器上的目标格式数据进行查询,获得查询结果;
还包括反馈模块304:
反馈模块304,用于将查询结果返回至请求用户。
示例性地,多维度数据包括以下至少一项或多项:
认证日志多维度数据;
开销户日志多维度数据;
原始话单日志多维度数据。
示例性地,转化模块301,还执行如下操作:
将多维度数据的时间字段由行数据转化为列数据,以获得目标格式数据;
以所述时间字段作为所述目标格式数据的列名,所述时间字段对应的数据内容作为行级数据内容;
其中,所述时间字段对应于一个自然日。
示例性地,转化引擎包括:kafka。
示例性地, 获取模块300,还执行如下操作:
用于实时获取业务日志相关的多维度数据并进行实时分析。
本发明的基于多维度的数据管理方法及系统可以实现如下技术效果:
1.数据结构设计行转列,将时间轴扁平化到列中,极大程度的缩小存储空间,年存储数据在千万级别;
2.使用非关系型数据库作为存储媒介时,针对存储或者查询扩展用户维度基本属性时,能够灵活便捷;
3.时间轴扁平化到针对连续N天均可支持,灵活性更高,且聚合查询效率更高;
4.迎合各类运营商用户数据,例如静默用户数提取数据需求,全年数据存储量相较于现有存储模式数据量占比节约了150倍,且针对连续7天静默用户数统计查询时间占比提升了30倍、针对连续3/6月静默用户数占比提升了20倍。
需要说明的是,本发明一个或多个实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本发明一个或多个实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本发明特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本发明还公开了一种电子设备;
具体地,图4示出了本实施例所提供的一种基于多维度的数据管理的电子设备的硬件结构示意图,该设备可以包括:处理器410、存储器420、输入/输出接口430、通信接口440和总线 450。其中,处理器410、存储器420、输入/输出接口430和通信接口440通过总线450实现彼此之间在设备内部的通信连接。
处理器410可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本发明实施例所提供的技术方案。
存储器420可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备、动态存储设备等形式实现。存储器420可以存储操作系统和其他应用程序,在通过软件或者固件来实现本发明实施例所提供的技术方案时,相关的程序代码保存在存储器420中,并由处理器410来调用执行。
输入/输出接口430用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口440用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如,USB、网线等)实现通信,也可以通过无线方式(例如,移动网络、WIFI、蓝牙等)实现通信。
总线450包括一通路,在设备的各个组件(例如,处理器410、存储器420、输入/输出接口430和通信接口440)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器410、存储器420、输入/输出接口430、通信接口440以及总线450,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本发明实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的基于多维度的数据管理方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本发明一个或多个实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的基于多维度的数据管理方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体且可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的基于多维度的数据管理方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明一个或多个实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明一个或多个实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明一个或多个实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明一个或多个实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本发明一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于多维度的数据管理方法,其特征在于,所述方法包括:
获取业务日志相关的多维度数据,其中,所述多维度数据包括以下至少一项或多项:认证日志多维度数据;开销户日志多维度数据;原始话单日志多维度数据;
通过转化引擎,将所述多维度数据转化为目标格式数据,基于用户名和业务类型对多维度数据进行维护,并将所述多维度数据的时间字段由行数据转化为列数据,以获得所述目标格式数据;以所述时间字段作为所述目标格式数据的列名,所述时间字段对应的数据内容作为行级数据内容;其中,所述时间字段对应于一个自然日;
将转化后的所述目标格式数据通过Elasticsearch存储至服务器上;
基于业务需求查询请求,对存储至服务器上的所述目标格式数据进行查询,获得查询结果。
2.根据权利要求1所述的基于多维度的数据管理方法,其特征在于,所述转化引擎包括:kafka。
3.根据权利要求2所述的基于多维度的数据管理方法,其特征在于, 所述获取业务日志相关的多维度数据,包括:
实时获取业务日志相关的所述多维度数据并进行实时分析。
4.根据权利要求1所述的基于多维度的数据管理方法,其特征在于, 所述基于业务需求查询请求,对存储至服务器上的所述目标格式数据进行查询,获得查询结果之后,还包括:
将所述查询结果返回至请求用户。
5.一种基于多维度的数据管理系统,其特征在于,所述系统包括:
获取模块,用于获取业务日志相关的多维度数据,其中,所述多维度数据包括以下至少一项或多项:认证日志多维度数据;开销户日志多维度数据;原始话单日志多维度数据;
转化模块,用于通过转化引擎,将所述多维度数据转化为目标格式数据,基于用户名和业务类型对多维度数据进行维护,并将所述多维度数据的时间字段由行数据转化为列数据,以获得所述目标格式数据;以所述时间字段作为所述目标格式数据的列名,所述时间字段对应的数据内容作为行级数据内容;其中,所述时间字段对应于一个自然日;
存储模块,用于将转化后的所述目标格式数据通过Elasticsearch存储至服务器上;
查询模块,基于业务需求查询请求,对存储至服务器上的所述目标格式数据进行查询,获得查询结果。
6.根据权利要求5所述的基于多维度的数据管理系统,其特征在于,所述转化引擎包括:kafka。
7.根据权利要求6所述的基于多维度的数据管理系统,其特征在于, 所述获取模块,还执行如下操作包括:
用于实时获取业务日志相关的所述多维度数据并进行实时分析。
8.根据权利要求5所述的基于多维度的数据管理系统,其特征在于,还包括反馈模块:
所述反馈模块,用于将所述查询结果返回至请求用户。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4中任意一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如权利要求1至4中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210929809.7A CN114996306B (zh) | 2022-08-04 | 2022-08-04 | 一种基于多维度的数据管理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210929809.7A CN114996306B (zh) | 2022-08-04 | 2022-08-04 | 一种基于多维度的数据管理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114996306A CN114996306A (zh) | 2022-09-02 |
CN114996306B true CN114996306B (zh) | 2022-10-18 |
Family
ID=83022848
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210929809.7A Active CN114996306B (zh) | 2022-08-04 | 2022-08-04 | 一种基于多维度的数据管理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114996306B (zh) |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8060470B2 (en) * | 2008-12-23 | 2011-11-15 | Apple Inc. | Heterogeneous database management system |
US10095731B2 (en) * | 2015-06-02 | 2018-10-09 | Vmware, Inc. | Dynamically converting search-time fields to ingest-time fields |
CN110716910B (zh) * | 2019-10-14 | 2022-10-14 | 中国建设银行股份有限公司 | 一种日志管理方法、装置、设备和存储介质 |
CN111008182B (zh) * | 2019-11-07 | 2022-12-13 | 中国电信集团工会上海市委员会 | 一种可变字段日志型数据的查询方法及系统 |
WO2021164253A1 (zh) * | 2020-02-18 | 2021-08-26 | 平安科技(深圳)有限公司 | 用户行为实时多维度分析方法、装置及存储介质 |
CN112148674B (zh) * | 2020-10-12 | 2023-12-19 | 平安科技(深圳)有限公司 | 日志数据处理方法、装置、计算机设备和存储介质 |
CN114385668A (zh) * | 2022-01-13 | 2022-04-22 | 中国平安人寿保险股份有限公司 | 冷数据清理方法、装置、设备及存储介质 |
-
2022
- 2022-08-04 CN CN202210929809.7A patent/CN114996306B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114996306A (zh) | 2022-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10447772B2 (en) | Managed function execution for processing data streams in real time | |
US11392416B2 (en) | Automated reconfiguration of real time data stream processing | |
CN104252536B (zh) | 一种基于hbase的上网日志数据查询方法及装置 | |
TWI662426B (zh) | 分布式流式資料處理的方法和裝置 | |
US20160248837A1 (en) | Methods and apparatus for realizing short url service | |
CN108090064A (zh) | 一种数据查询方法、装置、数据存储服务器及系统 | |
US9069823B2 (en) | Method for managing a relational database of the SQL type | |
CN104104717A (zh) | 投放渠道数据统计方法及装置 | |
CN108228322B (zh) | 一种分布式链路跟踪、分析方法及服务器、全局调度器 | |
CN111629081A (zh) | 互联网协议ip地址数据处理方法、装置及电子设备 | |
US10649964B2 (en) | Incorporating external data into a database schema | |
CN112182004A (zh) | 实时查看数据方法、装置、计算机设备及存储介质 | |
CN109933595B (zh) | 一种物联网设备信息共享系统、装置及终端设备 | |
CN111046081A (zh) | 一种工业时序数据的访问方法及系统 | |
CN115168338A (zh) | 数据处理方法、电子设备及存储介质 | |
CN114579533A (zh) | 用户活跃度指标的获取方法、装置、电子设备及存储介质 | |
CN114443656A (zh) | 一种可定制的自动化数据模型分析工具及其使用方法 | |
CN114996306B (zh) | 一种基于多维度的数据管理方法及系统 | |
CN116680315A (zh) | 数据离线处理方法、装置、电子设备及存储介质 | |
CN111310076A (zh) | 地理位置查询方法、装置、介质及电子设备 | |
US10402391B2 (en) | Processing method, device and system for data of distributed storage system | |
CN112685451B (zh) | 数据查询处理方法、装置、计算机设备及存储介质 | |
CN115033646A (zh) | 一种基于Flink&Doris构建实时数仓系统的方法 | |
CN114090686A (zh) | 一种出账加速方法及装置 | |
CN112650777A (zh) | 数据仓库的制作方法、装置、终端设备及计算机存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |