CN107622064A

CN107622064A - 一种数据读取方法及系统

Info

Publication number: CN107622064A
Application number: CN201610555173.9A
Authority: CN
Inventors: 钟全龙; 赵奇勇; 林星锦
Original assignee: China Mobile Group Chongqing Co Ltd
Current assignee: China Mobile Group Chongqing Co Ltd
Priority date: 2016-07-14
Filing date: 2016-07-14
Publication date: 2018-01-23

Abstract

本发明实施例公开了一种数据读取方法及系统，能够提高数据读取的效率，满足数据读取的实时性，方法包括利用分布式数据传输通道采集至少一个客户端存储的数据；将数据存储到分布式文件管理单元，分布式文件管理单元基于分布式数据库集群；在接收到读取指令时，读取分布式文件管理单元中存储的与读取指令对应的第一数据。

Description

一种数据读取方法及系统

技术领域

本发明涉及通信领域，尤其涉及一种数据读取方法及系统。

背景技术

随着大数据时代的到来，在各领域会产生大量的数据，例如，通信运营商的信令日志数据、日志文件的数据、分布式数据库集群产生的数据等，因此，需要对大量的数据进行实时的数据统计分析。

由于数据的产生大多是跨网元的，而各个网元产生的数据通常是不统一的，比如，信令系统的用户基站切换数据、通话信令通常是以国际移动用户识别码(IMSI，International Mobile Subscriber Identification Number)为基础进行分类记录；B域数据即业务域数据，例如，话单、客户资料、账单等数据是以电话号码为基础进行分类记录；数据网络的数据是以网络互连协议(IP，Internet Protocol)地址为基础进行分类记录，因此，在对数据进行统计分析时，需要将各个客户端产生的数据进行读取。

现有的数据读取方法包括：采用关系型数据库，例如，Oracle、DB2、MYSQL等，通过将来自各客户端的数据分别输入到对应的数据库表中，利用数据库读取操作的SQL语句对各个客户端的数据进行读取。

然而，由于SQL语句的执行过程是单次读取数据库，随着数据量的增长，采用现有的数据读取方法会降低数据读取的效率、无法满足数据读取的实时性。

发明内容

为解决上述技术问题，本发明实施例期望提供一种数据读取方法及系统，能够提高数据读取的效率，满足数据读取的实时性。

本发明的技术方案是这样实现的：

第一方面，本发明实施例提供一种数据读取方法，方法包括：

利用分布式数据传输通道采集至少一个客户端存储的数据；

将数据存储到分布式文件管理单元，分布式文件管理单元基于分布式数据库集群；

在接收到读取指令时，读取分布式文件管理单元中存储的与读取指令对应的第一数据。

进一步的，分布式数据传输通道包括至少一个数据传输链路，利用分布式数据传输通道采集至少一个客户端存储的数据，具体包括：

根据预设规则在分布式数据传输通道中确定至少一个第一数据传输链路；

利用至少一个第一数据传输链路采集对应的客户端存储的数据，第一数据传输链路与客户端一一对应。

进一步的，分布式数据库集群包括N个数据库节点，将数据存储到分布式文件管理单元中，具体包括：

根据分布式数据库集群的数据库节点个数N将数据进行分片处理，获得N个分片数据和与分片数据一一对应的N个数据标识；

根据N个数据标识将N个分片数据存储到对应的N个数据库节点，N个数据标识与N个数据库节点一一对应。

进一步的，在接收到读取指令时，读取分布式文件管理单元中存储的与读取指令对应的第一数据，具体包括：

在接收到读取指令时，对读取指令进行解析获得N个数据标识；

根据N个数据标识分别从N个数据库节点中读取N个分片数据；

根据N个数据标识将N个分片数据进行合并处理，获得第一数据。

进一步的，分布式文件管理单元包括Hadoop分布式文件管理单元HDFS，分布式数据库集群包括Redis集群。

第二方面，本发明实施例提供一种数据读取系统，包括：分布式采集装置、分布式文件管理单元和数据读取装置，其中：

分布式采集装置，用于利用分布式数据传输通道采集至少一个客户端存储的数据；

分布式文件管理单元，用于存储分布式采集装置采集的数据，分布式文件管理单元基于分布式数据库集群；

数据读取装置，用于在接收到读取指令时，读取分布式文件管理单元中存储的与读取指令对应的第一数据。

进一步的，分布式采集装置，具体用于：

根据预设规则在分布式数据传输通道中确定至少一个第一数据传输链路；利用至少一个第一数据传输链路采集对应的客户端存储的数据，第一数据传输链路与客户端一一对应。

进一步的，分布式数据库集群包括N个数据库节点，分布式文件管理单元，具体用于：

根据分布式数据库集群的数据库节点个数N将数据进行分片处理，获得N个分片数据和与分片数据一一对应的N个数据标识；根据N个数据标识将N个分片数据存储到对应的N个数据库节点，N个数据标识与N个数据库节点一一对应。

进一步的，数据读取装置具体用于：

在接收到读取指令时，对读取指令进行解析获得N个数据标识；根据N个数据标识分别从N个数据库节点中读取N个分片数据；根据N个数据标识将N个分片数据进行合并处理，获得第一数据。

本发明实施例提供了一种数据读取方法及系统，包括利用分布式数据传输通道采集至少一个客户端存储的数据；将数据存储到分布式文件管理单元，分布式文件管理单元基于分布式数据库集群；在接收到读取指令时，读取分布式文件管理单元中存储的与读取指令对应的第一数据。采用上述技术实现方案，由于利用分布式文件管理单元实现数据读入与读出，提高了数据读取的效率，也满足了数据读取的实时性。

附图说明

图1为本发明实施例提供的一种数据读取方法的流程示意图一；

图2为本发明实施例提供的一种数据读取方法的流程示意图二；

图3为本发明实施例提供的一种数据读取系统的结构示意图一；

图4为本发明实施例提供的一种分布式采集装置的结构示意图；

图5为本发明实施例提供的一种数据读取装置的逻辑运算层的示意图；

图6为本发明实施例提供的一种数据读取系统的结构示意图二；

图7为本发明实施例提供的一种分布式内存集群模块的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

实施例一

图1为本发明实施例提供的一种数据读取方法的流程示意图一，该方法应用于数据读取系统，数据读取方法包括：

步骤101：利用分布式数据传输通道采集至少一个客户端存储的数据；

其中，数据包括不同的客户端，即客户端系统存储的数据。其中，客户端系统可以包括信令系统、深度报文解析(DPI，deep packet inspection)系统、业务运营支撑系统(BOSS，Business&Operation Support System)等。其中，各客户端系统如信令系统、DPI、BOSS系统等构成异构数据库系统。

举例来说，BOSS系统产生的数据包括接口文件及信令消息等。实际中，获取BOSS系统产生的数据，具体可以通过对接口文件及信令消息等进行字段识别来获得IMSI信息、电话号码、客户资料等数据；

在实际应用中，由于数据是实时更新的，因此需要实时从各产生大数据的客户端系统采集包括信令、上网日志、及消息等数据。

需要说明的是，各个网元数据的流量如每天达到PB级数量(1024TB＝1PB)，那么采用现有技术中的利用单个服务器的单个数据传输链路采集数据是无法满足大量的数据传输的要求。因此，本发明实施例通过一个分布式的数据传输通道来实现高速海量数据的跨域传输。

具体的，分布式数据传输通道包括至少一个数据传输链路，步骤101具体包括：根据预设规则在分布式数据传输通道中确定至少一个第一数据传输链路；利用至少一个第一数据传输链路采集对应的客户端存储的数据，第一数据传输链路与客户端一一对应。

实际中，一个数据传输链路为一个数据传输进程，用于数据的检测、管理、错误重传、路由管理等功能。通过将至少一个数据传输链路构成分布式的数据传输通道，实现分布式处理数据的传输，增加数据的网络传送能力。

需要说明的是，分式数据传输通道包括至少一个数据传输链路，而数据读取系统采用多个数据传输链路采集客户端的数据，使得在单个数据传输链路出现故障时，可以通过其他的数据传输链路来采集数据，避免给整个数据读取系统带来故障。另外，各个客户端根据预设规则确定各自采用的第一数据传输链路，根据预设规则可以根据需要进行设置，本发明实施例对此不做具体限制。

实际应用中，数据读取系统可以通过自身设置的数据接收端实现数据的采集。举例来说，数据读取系统的数据接收端可以由Hadoop接口来实现，即通过Hadoop接口采集数据。

可理解的，利用分布式数据传输通道采集数据，避免了传统的利用文件传输协议(FTP，File Transfer Protocol)或者安全文件传送协议(SFTP，Secure File TransferProtocol)的点对点的数据传送方式，提高了数据传输效率，实现了海量数据的快速采集，提高了扩展性，实现了数据的快速传输，也避免了点对点的传送方式存在的单点故障问题，即一个第一数据传输链路的故障影响整个数据采集的问题。

步骤102：将数据存储到分布式文件管理单元，分布式文件管理单元基于分布式数据库集群；

需要说明的是，分布式文件管理单元包括Hadoop分布式文件管理单元(HDFS，Hadoop Distributed File System)，分布式数据库集群包括Redis集群。本发明实施例对分布式文件管理单元以及分布式数据库集群的类型不做具体限定。

在实际应用中，由于数据是实时更新的，因此，需要将实时更新的数据实时同步到分布式文件管理单元中。通过将数据存储到分布式文件管理单元中，使得后续可以从分布式文件管理单元读取数据。

具体的，分布式数据库集群包括N个数据库节点，步骤102包括：根据分布式数据库集群的数据库节点个数N将数据进行分片处理，获得N个分片数据和与分片数据一一对应的N个数据标识；根据N个数据标识将N个分片数据存储到对应的N个数据库节点，N个数据标识与N个数据库节点一一对应。

其中，数据库节点的个数N大于等于二，本发明实施例对数据库节点的个数N不做具体限制。

可理解的，分布式数据库集群包括N个具备快速查询能力的数据库服务器，用于存储关于用户的电话号码、归属地区、手机串号等数据信息。分布式数据库集群具有弹性扩展的能力，可以实现数据存储的安全性、高可用。

需要补充的是，分布式数据库集群通过分布式部署来构建，实现内存数据库的弹性扩展，且分布式部署的分布式数据库集群可以高速获取用户的相关信息并完成信息的补全和读取操作。

另外，分布式数据库集群的集群节点个数可以根据实际需要进行设置。

可理解的，分布式数据库集群中的各个数据库节点预设对应的各个数据标识，以便分布式数据库集群根据数据标识对相应数据进行分片存储。例如，分布式数据库集群的数据库节点个数为n，并依次包括0节点、1节点、2节点……(n-1)节点，以数据为IMSI信息为例进行说明，在IMSI信息按n取模后，获得n个分片数据和与n个分片数据一一对应的n个数据标识，数据标识指示一一对应的n个数据库节点，从而将n个分片数据根据n个数据标识存放在对应的0节点、1节点、2节点……(n-1)节点中。

另外，根据数据标识将对应的分片数据存储到对应的数据库节点，具体为根据数据标识将对应的分片数据存储到对应的数据库节点的哈希表HashMap中。其中，HashMap为数据读取系统中由加载程序开辟的内存空间块，用于存储数据。

需要说明的是，在将对应的分片数据存储到HashMap时，需要同时存入分片数据的带入时间戳，以便在顺序读取分片数据时避免重复读取。以数据为IMSI信息为例进行说明，HashMap的Key为IMSI，Value为对应的对象存放，如访问IP地址、访问端口、访问的统一资源定位符(URL，Uniform Resource Locator)、国际移动设备标识(IMEI，InternationalMobile Equipment Identity)等信息。

需要补充的是，分布式处理程序用于完成数据的读取、解析功能。

步骤103：在接收到读取指令时，读取分布式文件管理单元中存储的与读取指令对应的第一数据。

可理解的，读取指令用于指示希望从数据读取系统中读取的数据，例如，IMSI信息、电话号码、客户资料等数据。本发明实施例对读取指令不做具体限制。

具体的，在接收到读取指令时，对读取指令进行解析获得N个数据标识；根据N个数据标识分别从N个数据库节点中读取N个分片数据；根据N个数据标识将N个分片数据进行合并处理，获得第一数据。

实际应用中，根据至少两个数据标识分别从对应的数据库节点中读取对应的分片数据，可以通过启动多线程的程序，利用线性管道pipeline从分布式文件管理单元，例如，从基于Redis集群的HDFS管理单元中读取对应的分片数据，以便通过合并处理获得第一数据。具体的，采用管道的方法读取1-n个数据文件，并将1-n个数据文件标示为正在读取，将1-n个数据文件即分片数据通过合并处理获得第一数据。

可以理解的，通过合并处理获得的第一数据可以为批量数据，如一万个电话号码信息、小区信息、每用户平均收入(ARPU，ARPU-Average Revenue Per User)、谅解备忘录(MOU，Memorandum of Understanding)等数据。

可选的，参见图2上述，在步骤103之后，本发明实施例提供的一种数据读取方法还包括步骤104，其中：

步骤104：对第一数据进行存储，以便对第一数据进行数据操作。

实际应用中，可以通过分布式内存集群模块存储第一数据。由于网络日志、信令数据的特征是数据量大、流速快，因此单个数据库节点的读写能力无法满足实时存取数据的要求。庞大的数据量如果用传统的单一数据库处理则存在数据量过大导致数据入库、索引建立和外部查询效率低下的问题。因此，利用分布式内存集群模块存储第一数据。其中，分布式内存集群模块包括数据的路由信息表、存储单元和查询单元等，这样一来，通过查询数据的路由信息表实现快速获得数据信息，提高了分布式内存集群模块的运算速度。

本发明实施例提供了一种数据读取方法，实现了对跨域数据如信令数据、客户资料数据等数据的分布式存储；采用分布式文件管理单元处理数据，避免了由于单次处理数据带来的大量处理任务，并便于数据读取系统的数据扩容。

实施例二

图3为本发明实施例提供的一种数据读取系统的结构示意图一，分布式采集装置101、分布式文件管理单元102和数据读取装置103，其中：

分布式采集装置101，用于利用分布式数据传输通道采集至少一个客户端存储的数据；

分布式文件管理单元102，用于存储分布式采集装置101采集的数据，分布式文件管理单元102基于分布式数据库集群；

数据读取装置103，用于在接收到读取指令时，读取分布式文件管理单元102中存储的与读取指令对应的第一数据。

进一步的，分布式文件管理单元102包括Hadoop分布式文件管理单元HDFS，分布式数据库集群包括Redis集群。

其中，数据包括不同的客户端，即源端系统存储的数据。其中，客户端系统可以包括信令系统、DPI系统、BOSS系统等。其中，各客户端系统如信令系统、DPI、BOSS系统等构成异构数据库系统。

具体的，分布式采集装置101，用于根据预设规则在分布式数据传输通道中确定至少一个第一数据传输链路；利用至少一个第一数据传输链路采集对应的客户端存储的数据，第一数据传输链路与客户端一一对应。

实际应用中，分布式采集装置101的结构可以为分布式的，参见图4所示，该分布式的分布式采集装置101(参见图4中的虚线框)与至少一个客户端连接，通过自身的分布式采集控制装置利用至少一个接收进程，与分布式文件管理单元102连接，其中，一个接收进程可以为一个数据传输链路。需要说明的是，图4中仅以4个客户端为例进行说明，本发明实施例对客户端的数量不做具体限制。同样的，图4中仅以4个接收进程为例进行说明，分布式文件管理单元102连接接收进程可以是多个，本发明实施例对接收进程的数量不做具体限制。

其中，分布式文件管理单元102连接可以为hadoop集群。分布式采集装置101利用分布式数据传输通道采集数据，考虑了各个网元数据的流量，保证了PB级数据(1024TB＝1PB)的数据传输，避免了传统的利用FTP或者SFTP协议的点对点的数据传送方式，提高了数据传输效率，实现了海量数据的快速采集，提高了扩展性，实现了数据的快速传输，也避免了点对点的传送方式存在的单点故障问题，即一个第一数据传输链路的故障影响整个数据采集的问题。

需要说明的是，分布式采集装置101由于利用了至少一个数据传输链路，具体为至少一个接收进程来实现数据的采集、及健康管理功能。其中，接收进程是数据接收的应用进程，各个客户端可以软连接到各个接收进程，从而实现利用分布式的接收进程采集数据。接收进程接收到对应的客户端传输的数据后，将数据上传到分布式文件管理单元102，例如，HDFS管理单元。可以看出，本发明实施例提供的分布式采集装置101充分利用了分布式文件管理单元102的高数据处理能力。

需要补充的是，可以通过分布式采集控制装置来对至少一个数据传输链路进行控制和管理，确定客户端所对应的数据传输链路以便传输数据。

具体的，分布式数据库集群包括N个数据库节点，分布式文件管理单元102用于：根据分布式数据库集群的数据库节点个数N将数据进行分片处理，获得N个分片数据和与分片数据一一对应的N个数据标识；根据N个数据标识将N个分片数据存储到对应的N个数据库节点，N个数据标识与N个数据库节点一一对应。

具体的，数据读取装置103用于：在接收到读取指令时，对读取指令进行解析获得N个数据标识；根据N个数据标识分别从N个数据库节点中读取N个分片数据；根据N个数据标识将N个分片数据进行合并处理，获得第一数据。

可理解的，参见图5所示的数据读取装置103的逻辑运算层的示意图，数据读取装置103在接收到读取指令时，对读取指令进行解析可以由数据读取装置103的分布式解析层进行处理。分布式解析层为数据读取装置103的一个数据处理的逻辑处理层。数据读取装置103利用自身的补齐运算层，根据至少两个数据标识分别从对应的数据库节点中读取对应的分片数据，可以通过启动多线程的程序，利用线性管道pipeline从分布式文件管理单元102，例如，数据读取装置103利用多个节点的程序进程来处理分片数据，其中，每个节点的程序进程为均一个数据读取的程序，通过多个节点的程序进程实现从对应的数据库节点中读取1-n个数据文件，并将1-n个数据文件标示为正在读取，将1-n个数据文件即分片数据通过合并处理获得第一数据。

可以理解的，通过合并处理获得的第一数据可以为批量数据，如一万个电话号码信息、小区信息、ARPU信息、MOU信息等数据。

可选的，参见图6所示，数据读取系统还包括分布式内存集群模块104，用于对第一数据进行存储，以便对第一数据进行数据操作。

实际应用中，参见图7所示，分布式内存集群模块包括至少一个内存数据库，以及路由信息表，用于存储第一数据，其中，可以利用路由信息表对至少一个内存数据库进行数据存储或者数据查询处理。可以看出，由于网络日志、信令数据的特征是数据量大、流速快，因此单个数据库节点的读写能力无法满足实时存取数据的要求。庞大的数据量如果用传统的单一数据库处理则存在数据量过大导致数据入库、索引建立和外部查询效率低下的问题。因此，利用分布式内存集群模块存储第一数据。其中，分布式内存集群模块包括数据的路由信息表、存储单元和查询单元等，这样一来，通过查询数据的路由信息表实现快速获得数据信息，提高了分布式内存集群模块的运算速度。

本发明实施例提供了一种数据读取系统，实现了对跨域数据如信令数据、客户资料数据等数据的分布式存储；采用分布式文件管理单元处理数据，避免了由于单次处理数据带来的大量处理任务，并便于数据读取系统的数据扩容。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令的制造品，该指令实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

1.一种数据读取方法，其特征在于，所述方法包括：

利用分布式数据传输通道采集至少一个客户端存储的数据；

将所述数据存储到分布式文件管理单元，所述分布式文件管理单元基于分布式数据库集群；

在接收到读取指令时，读取所述分布式文件管理单元中存储的与所述读取指令对应的第一数据。

2.根据权利要求1所述的方法，其特征在于，所述分布式数据传输通道包括至少一个数据传输链路，所述利用分布式数据传输通道采集至少一个客户端存储的数据，具体包括：

根据预设规则在所述分布式数据传输通道中确定至少一个第一数据传输链路；

利用所述至少一个第一数据传输链路采集对应的客户端存储的数据，所述第一数据传输链路与所述客户端一一对应。

3.根据权利要求1所述的方法，其特征在于，所述分布式数据库集群包括N个数据库节点，所述N大于等于二，所述将所述数据存储到分布式文件管理单元中，具体包括：

根据所述分布式数据库集群的数据库节点个数N将所述数据进行分片处理，获得N个分片数据和与所述分片数据一一对应的N个数据标识；

根据所述N个数据标识将所述N个分片数据存储到对应的所述N个数据库节点，所述N个数据标识与所述N个数据库节点一一对应。

4.根据权利要求3所述的方法，其特征在于，所述在接收到读取指令时，读取所述分布式文件管理单元中存储的与所述读取指令对应的第一数据，具体包括：

在接收到读取指令时，对所述读取指令进行解析获得N个所述数据标识；

根据N个所述数据标识分别从N个数据库节点中读取N个分片数据；

根据N个所述数据标识将所述N个分片数据进行合并处理，获得第一数据。

5.根据权利要求1所述的方法，其特征在于，所述分布式文件管理单元包括Hadoop分布式文件管理单元HDFS，所述分布式数据库集群包括Redis集群。

6.一种数据读取系统，其特征在于，包括：分布式采集装置、分布式文件管理单元和数据读取装置，其中：

所述分布式采集装置，用于利用分布式数据传输通道采集至少一个客户端存储的数据；

所述分布式文件管理单元，用于存储所述分布式采集装置采集的数据，所述分布式文件管理单元基于分布式数据库集群；

所述数据读取装置，用于在接收到读取指令时，读取所述分布式文件管理单元中存储的与所述读取指令对应的第一数据。

7.根据权利要求6所述的数据读取系统，其特征在于，分布式采集装置，具体用于：

8.根据权利要求6所述的数据读取系统，其特征在于，所述分布式数据库集群包括N个数据库节点，所述N大于等于二，所述分布式文件管理单元，具体用于：

根据所述分布式数据库集群的数据库节点个数N将所述数据进行分片处理，获得N个分片数据和与所述分片数据一一对应的N个数据标识；根据所述N个数据标识将所述N个分片数据存储到对应的所述N个数据库节点，所述N个数据标识与所述N个数据库节点一一对应。

9.根据权利要求8所述的数据读取系统，其特征在于，数据读取装置具体用于：

在接收到读取指令时，对所述读取指令进行解析获得N个所述数据标识；根据N个所述数据标识分别从N个数据库节点中读取N个分片数据；根据N个所述数据标识将所述N个分片数据进行合并处理，获得第一数据。

10.根据权利要求6所述的数据读取系统，其特征在于，所述分布式文件管理单元包括Hadoop分布式文件管理单元HDFS，所述分布式数据库集群包括Redis集群。