CN109947838A

CN109947838A - 一种存储数据的方法及装置

Info

Publication number: CN109947838A
Application number: CN201910231410.XA
Authority: CN
Inventors: 许丹丹; 刘楠; 刘颖慧; 王笑
Original assignee: China United Network Communications Group Co Ltd
Current assignee: China United Network Communications Group Co Ltd
Priority date: 2019-03-26
Filing date: 2019-03-26
Publication date: 2019-06-28

Abstract

本发明实施例提出一种存储数据的方法和装置：确定包括至少两条信息的目标数据信息；将所述目标数据信息中的至少两条信息进行组合，得到至少一组组合信息，并将所述至少一组组合信息加入到组合数据库。在该方案中，由于预先将不同信息进行组合，将得到的组合信息存储在组合数据库中，这样，后续接收到查询请求时，直接从组合数据库中查询组合信息即可，不需要再去海量的目标数据信息中查找数据，目标数据信息的信息数量要远远大于组合数据库中的信息数量，因此，本方案可以提高查询效率，进而提高用户体验。

Description

一种存储数据的方法及装置

技术领域

本发明涉及数据存储技术领域，具体涉及一种存储数据的方法及装置。

背景技术

随着通信技术的快速发展和人们生活水平的不断提高，移动终端早已经广泛应用。随着移动终端的日益普及和广泛使用，移动终端的业务也越来越丰富，例如，目前的移动终端不仅具有短消息业务，还具有流量业务，还具有话费业务。

在实际应用中，随着业务的增多，用户的查询需求也越来越多，例如，需要查询话费业务中的漫游话费和剩余话费，或者需要查询话费业务中的国内话费和剩余话费，或者需要同时话费业务中的漫游话费、国内话费和剩余话费；又例如，用户需要查询话费和积分。

目前，无论针对同一业务下的不同子业务，还是不同的业务，需要同时查询时，服务器都是在接收到用户的请求后，从海量数据中查找相关的多个数据。由于在接收到查询请求之后才查找相关的多个数据，因此，存在效率较低和用户体验较差的缺陷。

发明内容

本发明实施例提供一种存储数据的方法和装置，用以解决现有技术中的查询效率较低和用户体验较差的缺陷。

为了实现上述目的，本发明实施例采用以下技术手段：

第一方面，本发明实施例提供一种存储数据的方法，其特征在于，包括：

确定包括至少两条信息的目标数据信息；

将所述目标数据信息中的至少两条信息进行组合，得到至少一组组合信息，并将所述至少一组组合信息加入到组合数据库。

第二方面，本发明实施例提供一种存储数据的装置，包括：

确定单元，用于确定包括至少两条信息的目标数据信息；

组合单元，用于将所述目标数据信息中的至少两条信息进行组合，得到至少一组组合信息，并将所述至少一组组合信息加入到组合数据库。

本发明实施例中，提出一种存储数据的方法，包括：确定包括至少两条信息的目标数据信息；将所述目标数据信息中的至少两条信息进行组合，得到至少一组组合信息，并将所述至少一组组合信息加入到组合数据库。在该方案中，由于预先将不同信息进行组合，将得到的组合信息存储在组合数据库中，这样，后续接收到查询请求时，直接从组合数据库中查询组合信息即可，不需要再去海量的目标数据信息中查找数据，目标数据信息的信息数量要远远大于组合数据库中的信息数量，因此，本方案可以提高查询效率，进而提高用户体验。

附图说明

图1A为本发明实施例提供的存储数据的方法示意图；

图1B为本发明实施例提供的用户信息表的示意图；

图1C为本发明实施例提供的创建hive表的代码示意图；

图2为本发明实施例提供的存储数据的装置示意图。

具体实施方式

为使本领域的技术人员更好地理解本发明的技术方案，下面结合附图对本发明提供的终端通信的方法、装置、硬件设备和计算机可读介质进行详细描述。

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其他特征、整体、步骤、操作、元件、组件和/或其群组。

本文所述实施例可借助本公开的理想示意图而参考平面图和/或截面图进行描述。因此，可根据制造技术和/或容限来修改示例图示。因此，实施例不限于附图中所示的实施例，而是包括基于制造工艺而形成的配置的修改。因此，附图中例示的区具有示意性属性，并且图中所示区的形状例示了元件的区的具体形状，但并不旨在是限制性的。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

参阅图1A所示，本发明的实施例中，提供一种存储数据的方法10，包括：

步骤100：确定包括至少两条信息的目标数据信息；

步骤110：将所述目标数据信息中的至少两条信息进行组合，得到至少一组组合信息，并将所述至少一组组合信息加入到组合数据库。

如，目标数据信息中包括A、B、C，得到组合信息AB、AC、BC、ABC。后续查询组合信息时，直接从得到的组合信息中查询即可，减少了即时计算的过程，提高了查询效率，进而提高用户体验。

方法10针对的是一个用户的信息，在实际应用中，数据库中一般包括多个用户的信息，如用户1、用户2、用户3、用户4等等。此时，在确定包括至少两条信息的目标数据信息时，可选地，

采用ICCID(Integrate circuit card identity，集成电路卡识别码)和/或账户标识从数据信息数据库中筛选出所述目标数据信息，当然，上述只是示例，并不限定于此，只要能够识别出某一个用户的信息即可。

其中，所述目标数据信息是hive表格式的信息。

可选地，确定包括至少两条信息的目标数据信息，包括：

获取HDFS格式的初始数据信息；

采用spark计算引擎调用map.split函数对所述HDFS格式的目标数据信息进行分割；

创建hive表，并将分割得到的数据信息导入到所述hive表中，得到包括至少两条信息的hive表格式的目标数据信息。

在实际应用中，HDFS格式文件为Hadoop分布式文件系统格式，一般包括有SIM(Subscriber Identification Module，用户身份识别卡)的基本信息、卡消费信息、订单信息、商机信息、公司信息、用户信息等，HDFS格式文件的单条记录以换行符标记，列记录以“|”分割。

由于Spark为Hadoop大数据分布式计算引擎，支持spark.sql等数据处理技术，具备与hive交互的接口，可实现hive表的创建、增删改查、存储等能力，因此，本发明实施例中，采用采用spark计算引擎调用map.split函数对所述HDFS格式的目标数据信息进行分割。

可选地，所述分割得到的数据信息包括至少两组数据信息，所述至少两组关联数据信息中的每一组关联数据信息包括至少一条信息；

此时，创建hive表，并将分割得到的数据信息导入到所述hive表中，包括：

创建数量大于或者等于所述数据信息组数的hive表；

将所述至少两组数据信息分别导入到不同的hive表中。

本发明实施例中，通过spark的并行处理架构，进行HDFS格式的信息读取、数据分割。以图1B中所示的已确定的用户信息表为例，HDFS源数据用户信息表中字段多于所需字段，CUST_NAME和WLW_NUMBER是比较重要的字段。在spark计算框架中，调用spark.sql模块，spark.sql模块利用map.split函数进行并行分割，得到5组rdd(弹性分布式数据集)格式的数据，之后再调用spark.sql.hive模块，直接在spark中创建相应的hive表，并将5组rdd格式的数据分别导入对应的hive表中，得到5张hive表，具体实现的代码如1C所示。

创建hive表的主要过程为：由于hive是单点安装，将hadoop集群主节点设备的hive的配置文件hive-site.xml拷贝到spark的安装路径下。spark进行海量数据处理时，集成hive，在新建SparkSession时选择enableHiveSupport()；进行新建hive表(createtable)或者新建hive视图(create view)，以匹配kylin实现高速数据导入所需格式。其中，hive表可以是星型结构，可选地，可以是一张事实表。

如下面是几个hive示例表，其中表1为流量信息表，表2为短信表，表3为通话信息表，表4为账户截图信息表，表5为用户信息表。

表1

表2

表3

表4

表5

本发明实施例中，不同组的信息分别导入hive表之前可以如表6所示。

表6

其中，表6中其中包括两部分数据，一部分数据是卡基本信息(第一行所示)，如ICCID(卡ID)、data_Rateplan_id(资费ID)、data_Ratezone_id(地区ID)、ust_name(公司名称)，另一部分数据是卡的消费信息，如包括连续7天的DataUsage_RawTotal，DataUsage_RawUplink，DataUsage_RawDownlink，DataUsage_RawRounded，JPO_ACCT_SMS_NUM，VoiceDuration_Raw，VoiceDuration_Rounded；这些信息对应的字段含义分别为总流量、上行流量、下行流量、本地流量、短信数量、语音通话主呼叫时长、语音通话被呼叫时长。

当有多个用户，且一个用户有多个hive表时，同一个用户的不同hive表可以采用Account_ID和/或ICCID进行关联。本发明实施例中，进行多表关联时，采用的是星型结构，主键表只能有一张，所以将数据维度最全、关联字段最全的表作为事实表。减少表间关联的复杂度。

在将多个hive表关联时，首先选择数据集索引及各个具体的数据字段，确定哪些字段是主键以及设置过滤表条件。

Hive表可以是单天的信息，也可以是多天的信息。例如，使用spark在Hadoop集群上针对20180601-20180607这七天的流量进行了相应字段数据的提取，并且生成了包括7天流量信息的hive表，同理方法可以得到7天短信的hive表、7天语音信息的hive表。

具体为，根据用户的Account_ID并且结合流量、短信、语音单天的表，根据ICCID建立关联，可以获得用户的单天的流量、短信、语音的使用情况。根据单天的表最终可以得到7天的表。其中，对于短信单天的表，可以根据每天收发短信的时间，对一个用户当天短信的使用信息进行加和得到。

可选地，在完成多表表间关联的基础上，需要进行sum\count\countdistinct\filter(求和\计数\去重计数\过滤)等常规聚合函数功能时，必须首先使用去重功能，最后使用filter功能。

在实际应用中，用户的信息并不是那么完善，可能有些信息缺失，或者不准确，进一步的，为了提高反馈至用户的信息的准确度，将所述目标数据信息中的至少两条信息进行组合之前，还包括：

根据数据字段缺失率、数据字段异常值占比、数据字段相关度、数据字段均值、中位数中的至少一种，对所述目标数据信息进行优化，得到优化的目标数据信息；

此时，可选地，将所述目标数据信息中的至少两条信息进行组合，包括：

将所述优化的目标数据信息中的至少两条信息进行组合。

这样，后续用户查询得到的信息是准确的，避免了获取到的信息不完善或者不准确。

以上述表1为了说明，流量包括的信息可能有多种，并不限于上述9种，但是有些信息可能不准确或者不完善，表1中只示例了9种信息，短信表中选择了5种信息，语音表中选择了7种信息，账户截图选择了2种信息，用户信息选择了2种信息。对于表1、表2、表3、表4、表5中的信息只是示例，还可能包括其他信息，在此不再详述。

本发明实施例中，在组合信息时，可以将所有的可能性进行排列组合，后续可以利用分布式的hive存储结构进行海量存储。如select*from Usage Detail-Data group byAccountID,SIMState,AssignedRatePlanID,AssignedRatingZoneID。

本发明实施例中，进一步的，将所述至少一组组合信息加入到组合数据库之后，还包括：

接收信息查询请求；

根据所述信息查询请求从所述组合数据库中查找组合信息；

将查找到的组合数据信息进行反馈。

可选地，所述目标数据信息包括用户基本信息和业务信息。

对于用户基本信息可能每一个业务功能模块都需要，现有技术中，每一个业务功能模块都存储用户基本信息，但是这部分信息是相同的，也就是说，每一个业务功能模块存储了一部分相同的信息，这样会存在资源浪费的情况，为了提高资源利用率，将用户基本信息存在一个区域，业务功能模块后续需要该信息的时候，从该存储区域获取用户基本信息即可，因此，可选地，确定包括至少两条信息的目标数据信息，包括：

从业务平台的公共功能模块中获取所述用户基本信息；

从对应的业务功能模块中获取所述业务信息；

根据所述用户基本信息和所述业务信息，确定出包括至少两条信息的目标数据信息。

在该方案中，由于预先将不同信息进行组合，将得到的组合信息存储在组合数据库中，这样，后续接收到查询请求时，直接从组合数据库中查询组合信息即可，不需要再去海量的目标数据信息中查找数据，目标数据信息的信息数量要远远大于组合数据库中的信息数量，因此，本方案可以提高查询效率，进而提高用户体验。

参阅图2所示，本发明实施例中，提出一种存储数据的装置20，包括：

确定单元200，用于确定包括至少两条信息的目标数据信息；

组合单元210，用于将所述目标数据信息中的至少两条信息进行组合，得到至少一组组合信息，并将所述至少一组组合信息加入到组合数据库。

方法10针对的是一个用户的信息，在实际应用中，数据库中一般包括多个用户的信息，如用户1、用户2、用户3、用户4等等。此时，所述确定单元200具体用于：

采用集成电路卡识别码ICCID和/或账户标识从数据信息数据库中筛选出所述目标数据信息。当然，上述只是示例，并不限定于此，只要能够识别出某一个用户的信息即可。

其中，所述目标数据信息是hive表格式的信息；

所述确定单元200具体用于：

获取HDFS格式的初始数据信息；

在实际应用中，HDFS格式文件为Hadoop分布式文件系统格式，一般包括有SIM的基本信息、卡消费信息、订单信息、商机信息、公司信息、用户信息等，HDFS格式文件的单条记录以换行符标记，列记录以“|”分割。

所述确定单元200具体用于：

创建数量大于或者等于所述数据信息组数的hive表；

将所述至少两组数据信息分别导入到不同的hive表中。

在实际应用中，用户的信息并不是那么完善，可能有些信息缺失，或者不准确，进一步的，为了提高反馈至用户的信息的准确度，

还包括优化单元220，用于根据数据字段缺失率、数据字段异常值占比、数据字段相关度、数据字段均值、中位数中的至少一种，对所述目标数据信息进行优化，得到优化的目标数据信息；

所述组合单元210具体用于：

将所述优化的目标数据信息中的至少两条信息进行组合。

进一步的，还包括接收单元230、查找单元240和反馈单元250，其中：

所述接收单元230，用于接收信息查询请求；

所述查找单元240，用于根据所述信息查询请求从所述组合数据库中查找组合信息；

所述反馈单元250，用于将查找到的组合数据信息进行反馈。

对于用户基本信息可能每一个业务功能模块都需要，现有技术中，每一个业务功能模块都存储用户基本信息，但是这部分信息是相同的，也就是说，每一个业务功能模块存储了一部分相同的信息，这样会存在资源浪费的情况，为了提高资源利用率，将用户基本信息存在一个区域，业务功能模块后续需要该信息的时候，从该存储区域获取用户基本信息即可，因此，可选地，

所述目标数据信息包括用户基本信息和业务信息；

所述确定单元200具体用于：

从业务平台的公共功能模块中获取所述用户基本信息；

从对应的业务功能模块中获取所述业务信息；

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其他实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种存储数据的方法，其特征在于，包括：

确定包括至少两条信息的目标数据信息；

2.如权利要求1所述的方法，其特征在于，确定包括至少两条信息的目标数据信息，包括：

采用集成电路卡识别码ICCID和/或账户标识从数据信息数据库中筛选出所述目标数据信息。

3.如权利要求1所述的方法，其特征在于，所述目标数据信息是hive表格式的信息；

确定包括至少两条信息的目标数据信息，包括：

获取HDFS格式的初始数据信息；

4.如权利要求3所述的方法，其特征在于，所述分割得到的数据信息包括至少两组数据信息，所述至少两组关联数据信息中的每一组关联数据信息包括至少一条信息；创建hive表，并将分割得到的数据信息导入到所述hive表中，包括：

创建数量大于或者等于所述数据信息组数的hive表；

将所述至少两组数据信息分别导入到不同的hive表中。

5.如权利要求1-4任一项所述的方法，其特征在于，将所述目标数据信息中的至少两条信息进行组合之前，还包括：

将所述目标数据信息中的至少两条信息进行组合，包括：

将所述优化的目标数据信息中的至少两条信息进行组合。

6.如权利要求1所述的方法，其特征在于，将所述至少一组组合信息加入到组合数据库之后，还包括：

接收信息查询请求；

根据所述信息查询请求从所述组合数据库中查找组合信息；

将查找到的组合数据信息进行反馈。

7.如权利要求1所述的方法，其特征在于，所述目标数据信息包括用户基本信息和业务信息；

确定包括至少两条信息的目标数据信息，包括：

从业务平台的公共功能模块中获取所述用户基本信息；

从对应的业务功能模块中获取所述业务信息；

8.一种存储数据的装置，其特征在于，包括：

确定单元，用于确定包括至少两条信息的目标数据信息；

9.如权利要求8所述的装置，其特征在于，所述确定单元具体用于：

10.如权利要求8所述的装置，其特征在于，所述目标数据信息是hive表格式的信息；

所述确定单元具体用于：

获取HDFS格式的初始数据信息；

11.如权利要求10所述的装置，其特征在于，所述分割得到的数据信息包括至少两组数据信息，所述至少两组关联数据信息中的每一组关联数据信息包括至少一条信息；

所述确定单元具体用于：

创建数量大于或者等于所述数据信息组数的hive表；

将所述至少两组数据信息分别导入到不同的hive表中。

12.如权利要求8-11任一项所述的装置，其特征在于，还包括优化单元，用于根据数据字段缺失率、数据字段异常值占比、数据字段相关度、数据字段均值、中位数中的至少一种，对所述目标数据信息进行优化，得到优化的目标数据信息；

所述组合单元具体用于：

将所述优化的目标数据信息中的至少两条信息进行组合。

13.如权利要求8所述的装置，其特征在于，还包括接收单元、查找单元和反馈单元，其中：

所述接收单元，用于接收信息查询请求；

所述查找单元，用于根据所述信息查询请求从所述组合数据库中查找组合信息；

所述反馈单元，用于将查找到的组合数据信息进行反馈。

14.如权利要求8所述的装置，其特征在于，所述目标数据信息包括用户基本信息和业务信息；

所述确定单元具体用于：

从业务平台的公共功能模块中获取所述用户基本信息；

从对应的业务功能模块中获取所述业务信息；