CN105787597A

CN105787597A - 一种数据优化处理系统

Info

Publication number: CN105787597A
Application number: CN201610115318.3A
Authority: CN
Inventors: 朱喻; 朱林杰
Original assignee: Beijing Eoe Data Science And Technology Co Ltd
Current assignee: DALIAN EOE DATA TECHNOLOGY CO., LTD.
Priority date: 2016-01-20
Filing date: 2016-03-01
Publication date: 2016-07-20
Anticipated expiration: 2036-03-01
Also published as: CN105808361A; CN105808361B; CN105787597B

Abstract

本发明提供了一种数据优化处理系统，该系统包括：数据预处理模块，用于从待处理业务数据中选取用于进行优化处理的数据子集；通信模块，用于对所述数据预处理模块选取的数据子集进行MPS编码，得到MPS数据包，根据预设数据结构解析所述MPS数据包，得到符合优化处理的结构化数据，并将得到的结构化数据传输到计算模块；计算模块，用于利用智能优化算法对所述结构化数据进行优化处理。本发明提供的数据优化处理系统可以根据用户的需求，快速、准确的从海量的业务数据中找到基于事实的决策，提升业务的作业效率。

Description

一种数据优化处理系统

技术领域

本发明涉及数据技术领域，尤其涉及一种数据优化处理系统。

背景技术

在工程实践中，经常会接触到一些比较“新颖”的算法或理论，比如。这些算法或理论都有一些共同的特性(比如模拟自然过程)，通称为“智能优化算法”，如模拟退火，遗传算法，禁忌搜索，神经网络等。它们在解决一些复杂的工程问题时大有用武之地。智能优化算法要解决的一般是最优化问题。最优化问题可以分为(1)求解一个函数中，使得函数值最小的自变量取值的函数优化问题和(2)在一个解空间里面，寻找最优解，使目标函数值最小的组合优化问题。典型的组合优化问题有：旅行商问题(TravelingSalesmanProblem，TSP)，加工调度问题(SchedulingProblem)，0－1背包问题(KnapsackProblem)，以及装箱问题(BinPackingProblem)等。

但是，现有的智能优化算法在具体应用中，没有一个完整的数据优化平台，无法自动完成根据优化处理对应的优化数据模型对待处理业务数据进行数据选取，以及根据预设的优化数据模型对应的数据结构对选取的数据结构化处理，导致现有的智能优化算法对海量的业务数据进行数据优化处理的速度和效率很低，需要几个小时甚至更多。因此，如何提供一种可以根据用户的需求，快速、准确的从海量的业务数据中找到基于事实的决策的数据优化处理系统是当前急需解决的问题。

发明内容

鉴于上述问题，本发明提出了一种数据优化处理系统，有效地提高了数据优化处理的速度和效率，进而实现根据用户的需求，快速、准确的从海量的业务数据中找到基于事实的决策。

本发明提供的数据优化处理系统，包括：

数据预处理模块，用于从待处理业务数据中选取用于进行优化处理的数据子集；

通信模块，用于对所述数据预处理模块选取的数据子集进行MPS编码，得到MPS数据包，根据预设数据结构解析所述MPS数据包，得到符合优化处理的结构化数据，并将得到的结构化数据传输到计算模块；

计算模块，用于利用智能优化算法对所述结构化数据进行优化处理。

其中，所述数据预处理模块，还用于在从待处理业务数据中选取用于进行优化处理的数据子集之前，对所述待处理业务数据进行标准化处理，并根据待处理业务数据对应的业务规则，对标准化处理后的数据进行数据一致性检验。

其中，所述数据预处理模块，具体用于建立预设的数据优化处理模型与待处理业务数据之间的对应关系，根据所述对应关系从所述待处理业务数据中选取用于进行优化处理的数据子集。

其中，所述系统还包括：

数据验证模块，用于在所述通信模块对所述数据子集进行MPS编码之前，采用所述智能优化算法的原型算法对所述数据子集进行性能指标验证。

其中，所述通信模块包括：数据划分单元和并行的多个数据传输节点；

数据划分单元，用于根据预设条件对所述数据子集进行划分，得到多个数据块；

每一数据传输节点包括数据编码单元、数据解析单元以及数据传输单元；

数据编码单元，用于对每一数据块进行MPS编码，得到MPS数据包；

数据传输单元，用于传输编码后的MPS数据包；

数据解析单元，用于根据预设数据结构解析每一MPS数据包，得到每一MPS数据包对应的符合优化处理的结构化数据。

其中，所述通信模块还包括：

数据发布单元，用于将各个MPS数据包对应的符合优化处理的结构化数据向所述计算模块发布。

其中，所述预设数据结构为树形计算数据结构；

相应地，所述数据解析单元，具体用于根据数据内容将数据从每一MPS数据包中取出，并存放在对应的树形计算数据结构的相应节点上，得到每一MPS数据包对应的树。

其中，所述MPS数据包中包括所述智能优化算法中目标函数和约束矩阵对应的第一MPS数据和所述智能优化算法中右边项和路径对应的第二MPS数据；

相应地，所述数据解析单元，具体包括：第一解析子单元、第二解析子单元以及匹配单元；

第一解析子单元，用于根据数据内容将数据从第一MPS数据中取出，并存放在对应的树形计算数据结构的相应节点上；

第二解析子单元，用于根据数据内容将数据从第二MPS数据中取出，得到右边项数据和路径信息；

匹配单元，用于遍历所述树形计算数据结构，根据所述路径信息匹配所述右边项数据的节点，并将右边项数据存放在匹配的节点上。

其中，所述计算模块包括并行的多个计算节点；

每一所述计算节点，根据预设的任务分配信息从所述结构化数据中提取相应的结构化数据块，并用于利用智能优化算法对提取的结构化数据块进行优化处理。

其中，所述计算模块还包括：

任务调度单元，用于根据各个计算节点的忙闲状态动态调度每一计算节点的任务。

其中，所述计算节点，具体包括：

极值解确定单元，用于将所述结构化数据作为粒子群算法对应的粒子，确定粒子的初始个体极值pBest和初始全局极值gBest；

随机数生成单元，用于为每一粒子生成一个随机数，所述随机数处于预设数值范围；

处理单元，用于根据所述随机数的大小将对应的粒子更新为所述初始pBest或初始gBest，并对符合预设条件的粒子进行变异；

所述极值解确定单元，还用于根据变异后的粒子，更新所述初始pBest和初始gBest；

判断单元，用于判断更新后的pBest和gBest是否满足终止条件，当不满足终止条件时，所述随机数生成单元重新为各个变异后的粒子生成对应的随机数，所述处理单元根据生成的随机数的大小将对应的粒子更新为当前的pBest或gBest，并对符合预设条件的粒子进行再次变异，如此循环直至满足终止条件；

输出单元，用于当满足终止条件时，优化结束输出最优方案。

其中，所述处理单元，具体包括：

第一判断子单元，用于判断所述随机数是否小于预设的第一阈值；

变异子单元，用于当所述随机数小于所述第一阈值时，将所述随机数对应的粒子更新为所述初始pBest，并对其进行变异；

第二判断子单元，用于当所述随机数大于或等于所述第一阈值时，判断所述随机数是否小于预设的第二阈值；

所述变异子单元，还用于当所述随机数小于所述第二阈值时，将所述随机数对应的粒子更新为所述初始gBest，并对其进行变异；

第三判断子单元，用于当所述随机数大于或等于所述第二阈值时，判断所述随机数是否小于预设的第三阈值；

所述变异子单元，还用于当所述随机数小于所述第三阈值时，直接对所述随机数对应的粒子进行变异。

本发明的有益效果为：

本发明提供的数据优化处理系统，通过从待处理业务数据中选取用于进行优化处理的数据子集，并对所述数据预处理模块选取的数据子集进行MPS编码，得到MPS数据包，根据预设数据结构解析所述MPS数据包，得到符合优化处理的结构化数据，并将得到的结构化数据传输到计算模块，以使计算模块利用智能优化算法对所述结构化数据进行优化处理，本发明有效地提高了数据优化处理的速度和效率，进而实现根据用户的需求，快速、准确的从海量的业务数据中找到基于事实的决策。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明一个实施例提出的数据优化处理系统的结构示意图；

图2为本发明另一实施例提出的数据优化处理系统的实现流程图；

图3为本发明实施例提出的根据优化模板为数据优化处理模型指定数据源的实现原理图；

图4为本发明实施例提出的数据优化处理系统中数据传输节点的结构原理图；

图5为本发明实施例提出的树形计算数据结构的示意图；

图6为本发明实施例提出的数据优化处理系统中数据发布的实现原理图

图7为本发明实施例多个计算节点的任务分配示意图；

图8为本发明实施例中提出的任务动态调度的第一示意图；

图9为本发明实施例中提出的任务动态调度的第二示意图；

图10为本发明实施例提出的利用智能优化算法进行优化处理的流程图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

参照图1，本发明实施例提出的数据优化处理系统，具体包括数据预处理模块10、通信模块20以及计算模块30，其中：

所述的数据预处理模块10，用于从待处理业务数据中选取用于进行优化处理的数据子集；

所述的通信模块20，用于对所述数据预处理模块选取的数据子集进行MPS编码，得到MPS数据包，根据预设数据结构解析所述MPS数据包，得到符合优化处理的结构化数据，并将得到的结构化数据传输到计算模块；

所述的计算模块30，用于利用智能优化算法对所述结构化数据进行优化处理。

本发明实施例提供的数据优化处理系统，可以有效地提高了数据优化处理的速度和效率，进而实现根据用户的需求，快速、准确的从海量的业务数据中找到基于事实的决策。

在本发明的一个优选实施例中，所述数据预处理模块10，进一步还用于在从待处理业务数据中选取用于进行优化处理的数据子集之前，对所述待处理业务数据进行标准化处理，并根据待处理业务数据对应的业务规则，对标准化处理后的数据进行数据一致性检验。

需要说明的是，标准化处理，具体为对待处理业务数据中因来源多样化造成的不标准或不规范的数据进行标准化处理，包括标识符统一编码与统一命名等。在实际应用中，由于业务本身复杂、近似，基础表不准确、不全，业务表填写的五花八门或空值或填错，仅字面无法判断是新的业务对象或是基础表已有的某个对象。而且，数据来源多样，不同表、同一加油站的编码不同，同一表、同一加油站的编码也不同。无法根据编码来确定加油站名称，仅能依靠销售单位和不规范的名称进行比对，例如，抚顺石化有三个炼厂，抚顺石化公司石油二厂、石油三厂、储运厂，其实都是一个炼油厂。

数据一致性检验，即为业务校验，是在标准化与业务对象信息完整性基础上对数据进行的针对业务流程完整性(多对象之间)方面的校验。例如，大区油库->分公司油库->成品油流向->到站，是一个完整的业务流程，但数据在“分公司”环节上，发生部分数据部分或全部丢失，导致整个业务流程的数据不能构成完整链条，造成计算结果错误。

业务规则用于确保财务平衡，库存平衡，进销平衡，数据流完整性等。例如，油库输入油量与油库输出油量相等；油库运能应大于加油站需求量；加油站库存总量应小于总需求量等。

本发明实施例解决了现有的人工数据标准化以及数据检验方式存在的工作耗时费力，而且不准确的问题，快速，准确地实现了待处理业务数据的标准化和数据一致性检验，进而确保数据优化处理的速度和效率。

进一步地，所述数据预处理模块10，具体用于建立预设的数据优化处理模型与待处理业务数据之间的对应关系，根据所述对应关系从所述待处理业务数据中选取用于进行优化处理的数据子集。

可理解的是，所述数据子集中的数据为用于进行优化处理的模型数据。

在实际应用中，数据预处理模块通过根据预设的数据优化处理模型设置数据优化模板，具体的，所述优化模板用于指定优化处理模型中每一个参数与模型数据库表格的对应关系。利用优化模板将待处理业务数据转换成模型数据，并保存在模型数据库中。

在一个具体实施例中，优化模板根据数据库中的数据，定义了数据的静态规模，例如，635个油库，78000多个加油站，80多个油品。但实际业务当中，参与优化的对象可能没有这么多。需要根据每日业务的真实需要，挑选不同的数据子集参与计算。模型数据库用于保存这样的数据子集。由于庞大的业务规模，即时这个子集的长度，也足以满足数据优化处理的需求。

本发明实施例，解决了待处理业务数据的存储形式无法与满足优化模型的存储要求的问题。

在本发明的一个优选实施例中，如图2所示，所述数据优化系统还包括数据验证模块，所述数据验证模块，用于在所述通信模块对所述数据子集进行MPS编码之前，采用所述智能优化算法的原型算法对所述数据子集进行性能指标验证。

需要说明的是，原型算法是在单机上运行的验证性算法，验证的目标包括，计算时间，精确度，算法自身的动态自适应调优策略，计算数据存储格式的效率等。如果没有原型算法的验证，直接在并行计算集群里运行海量数据计算，将使得整个计算过程的错误诊断难度，成几何级数增加，导致计算程序的研发失去控制。只有原型算法达到设计性能指标，才能保证相应并行算法的计算正确性，并在此基础上进一步提高计算速度。

在实际应用中，由于数据子集中的模型数据无法满足原型算法对数据的存储要求，因此，在采用所述智能优化算法的原型算法对所述数据子集进行性能指标验证之前，数据验证模块还用于将数据子集中的模型数据转换为计算数据。

其中，转换后的计算数据可以为MPS数据格式。MPS数据格式为国际上通用的用于表达线性优化模型的模型数据存储格式与传输格式。其中，MPS数据格式中包括：1、文件名称；2、模型数据中变量的维度数，行的维度数；3、所有的行；4、某个变量在某行中的系数：根据模型数据库中运输路径表V-DATA_DETAIL生成；5、右边项：根据模型数据库中右边项表TB_RIGHTSIDE生成；6、结束标识。

需要说明的是，MPS数据格式不是唯一可用的格式，转换后的计算数据还可以为自定义格式。对此本发明不做具体限定。

在一个具体示例中，数据优化处理模型由目标函数，约束矩阵和右边项三个部分组成，具体如下：

Max(C1X1+C2X2+…+CiXi)

A11X1+A12X2+…+A1iX2≥B₁

A21X2+A22X2+…+A2iX2≤B₂

……

Ai1Xi+Ai2X2+…+AiiXi≤B_i

其中，Max(C1X1+C2X2+…+CiXi)为目标函数，B₁、B₂…B_i为右边项，A11X1+A12X2+…+A1iX2、A21X2+A22X2+…+A2iX2…Ai1Xi+Ai2X2+…+AiiXi为约束矩阵。

根据优化模板为数据优化处理模型指定数据源的实现原理，如图3所示，以燃油的调度业务为例进行说明，最终得到的存储在模型数据库中的数据子集如表1所示：

表1模型数据库中的数据子集

油库	加油站	油品	区域	需求	运能	费率
							1	1	92#	江苏	101	150	25
1	2	92#	江苏	208	250	25
							1	3	92#	江苏	106	150	26
1	6	92#	江苏	118	150	26
							2	2	柴油	江苏	120	150	23
2	3	柴油	江苏	125	150	22
							2	4	柴油	江苏	190	150	22

在本发明的一个优选实施例中，所述通信模块包括：数据划分单元和并行的多个数据传输节点，其中：

所述数据划分单元，用于根据预设条件对所述数据子集进行划分，得到多个数据块；

每一数据传输节点包括数据编码单元、数据解析单元以及数据传输单元，其中：数据编码单元，用于对每一数据块进行MPS编码，得到MPS数据包；数据传输单元，用于传输编码后的MPS数据包；数据解析单元，用于根据预设数据结构解析每一MPS数据包，得到每一MPS数据包对应的符合优化处理的结构化数据。

在本发明实施例，通过在不同信道上传输的不同数据块，在并行的多个数据传输单元中并行传输，有效地提高了数据传输的速度。

具体的，每一数据传输节点的结构原理如图4所示。

并行传输的目的是为了加快数据传输的速度。在本发明实施例中，所述预设数据结构为树形计算数据结构。在具体示例中，以燃油的调度业务为例进行说明，在不同信道上传输的不同数据块，由人工指定。燃油调度业务数据是根据不同的省份被切分成不同的MPS数据块向计算集群传输，每个传输信道都会产生一棵完整的树，但树中的数据仅仅是整个数据集合的一部分。对应的树形计算数据结构如图5所示。

其中，所述MPS数据包中包括所述智能优化算法中目标函数和约束矩阵对应的第一MPS数据和所述智能优化算法中右边项和路径对应的第二MPS数据。

进一步地，所述数据解析单元，具体包括：第一解析子单元、第二解析子单元以及匹配单元，其中；

所述的第一解析子单元，用于根据数据内容将数据从第一MPS数据中取出，并存放在对应的树形计算数据结构的相应节点上；

所述的第二解析子单元，用于根据数据内容将数据从第二MPS数据中取出，得到右边项数据和路径信息；

所述的匹配单元，用于遍历所述树形计算数据结构，根据所述路径信息匹配所述右边项数据的节点，并将右边项数据存放在匹配的节点上。

由于MPS格式要求右边项单独存储与传输，因此产生了合并右边项与右边项行对齐的问题。为例解决上述技术问题，本发明实施例中，第一批传输的数据是目标函数和约束矩阵的相应数据，经过解析后已经形成了树形计算数据。第二批传输的数据是右边项数据。然后通过遍历整个计算数据树，找到约束矩阵的每一个数据块所对应的右边项向量，并根据路径匹配右边项的位置。

在具体实施例中，第一MPS数据的内容如表2所示，第二MPS数据的内容如表3所示：

表2第一MPS数据的内容

油库	加油站	油品	区域	需求	运能	费率
							1	1	92#	江苏	101	150	25
1	2	92#	江苏	208	250	25

表3第二MPS数据的内容

右边项	路径
		B1	江苏-加油站1-汽油-92#
B2	江苏-加油站1-油库1
		B3	江苏-加油站1
B4	江苏-加油站2-汽油-92#
		…	…

进一步地，所述通信模块20还包括：数据发布单元，用于将各个MPS数据包对应的符合优化处理的结构化数据向所述计算模块发布。

本实施例中，右边项传输并完成存储后，每个传输信道的接收端保存了一棵完整的计算数据树，但树中的数据仅仅是整个数据集合的一部分。计算数据发布，是将计算数据从传输信道接收端，如图6所示，通过MPI的远地存储窗口，向所有计算节点发布，这是一个简单拷贝的过程。计算节点都将收到来自所有传输节点接收端的计算数据树拷贝，计算节点就地将这些计算数据树整合成为完整的计算数据全集。

进一步地，所述计算模块包括并行的多个计算节点；

在一个具体实施例中，每个处计算节点上由人工指定了不同省份的任务排队处理，多个计算节点并行处理，如图7所示，这种任务划分称为静态划分。

需要说明的是，任务静态划分是在计算方案中完成的，根据预设的任务分配信息实现。计算方案是对并行计算任务及其相关数据的描述。计算任务被分为串行任务S和并行任务P两类。每个任务都需要指定与任务关联的数据。其中，将关联数据与任务结合在一起的过程叫做装配。

其中，所述计算模块还包括：任务调度单元，用于根据各个计算节点的忙闲状态动态调度每一计算节点的任务。任务的动态调度是在计算过程中根据处理机的忙闲状态由调度线程自动完成的。

本发明实施例中，每个计算节点都保存数据全集，以方便任务动态调度时，任何一个任务调度到任何一个计算节点上，都可以找到关联的数据。

在一个具体示例中，如图8-9所示，P4处理机的任务已经完成，P1处理机上的任务还在排队等待处理，则辽宁省数据被从P1处理机调度到P4处理机上，P4处理机上的数据进行了重新装配。

其中，所述计算节点，具体包括：

进一步地，所述处理单元，具体包括第一判断子单元、变异子单元、第二判断子单元以及第三判断子单元，其中：

所述第一判断子单元，用于判断所述随机数是否小于预设的第一阈值；

所述变异子单元，用于当所述随机数小于所述第一阈值时，将所述随机数对应的粒子更新为所述初始pBest，并对其进行变异；

所述第二判断子单元，用于当所述随机数大于或等于所述第一阈值时，判断所述随机数是否小于预设的第二阈值；

所述第三判断子单元，用于当所述随机数大于或等于所述第二阈值时，判断所述随机数是否小于预设的第三阈值；

在一个具体示例中，优选的，随机数取值范围为0-1，其中，第一阈值为0.2，第二阈值为0.4，第三阈值为0.6，具体实现流程如图10所示。

在每一次迭代过程中，

有大约20％的粒子会变成pbest并发生变异

有大约20％的粒子会变成gbest并发生变异

有大约20％的粒子会变成pbest直接变异

剩余40％的粒子不做变异处理

用这样的改进方法，将中石油全国成品油配送的最优方案计算时间，从改进前的9小时，缩短到1.5小时。

综上所述，本发明实施例提供的数据优化处理系统，通过从待处理业务数据中选取用于进行优化处理的数据子集，并对所述数据预处理模块选取的数据子集进行MPS编码，得到MPS数据包，根据预设数据结构解析所述MPS数据包，得到符合优化处理的结构化数据，并将得到的结构化数据传输到计算模块，以使计算模块利用智能优化算法对所述结构化数据进行优化处理，本发明有效地提高了数据优化处理的速度和效率，进而实现根据用户的需求，快速、准确的从海量的业务数据中找到基于事实的决策。

以上实施方式仅用于说明本发明，而并非对本发明的限制，有关技术领域的普通技术人员，在不脱离本发明的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本发明的范畴，本发明的专利保护范围应由权利要求限定。

Claims

1.一种数据优化处理系统，其特征在于，该系统包括：

2.根据权利要求1所述的系统，其特征在于，所述数据预处理模块，还用于在从待处理业务数据中选取用于进行优化处理的数据子集之前，对所述待处理业务数据进行标准化处理，并根据待处理业务数据对应的业务规则，对标准化处理后的数据进行数据一致性检验。

3.根据权利要求1所述的系统，其特征在于，所述数据预处理模块，具体用于建立预设的数据优化处理模型与待处理业务数据之间的对应关系，根据所述对应关系从所述待处理业务数据中选取用于进行优化处理的数据子集。

4.根据权利要求1所述的系统，其特征在于，所述系统还包括：

5.根据权利要求1所述的系统，其特征在于，所述通信模块包括：数据划分单元和并行的多个数据传输节点；

数据传输单元，用于传输编码后的MPS数据包；

6.根据权利要求5所述的系统，其特征在于，所述通信模块还包括：

7.根据权利要求5所述的系统，其特征在于，所述预设数据结构为树形计算数据结构；

8.根据权利要求5所述的系统，其特征在于，所述MPS数据包中包括所述智能优化算法中目标函数和约束矩阵对应的第一MPS数据和所述智能优化算法中右边项和路径对应的第二MPS数据；

9.根据权利要求1～6任一项所述的系统，其特征在于，所述计算模块包括并行的多个计算节点；

10.根据权利要求9所述的系统，其特征在于，所述计算模块还包括：

11.根据权利要求9所述的系统，其特征在于，所述计算节点，具体包括：

12.根据权利要求11所述的系统，其特征在于，所述处理单元，具体包括：