CN107967331A

CN107967331A - 匹配于高性能计算机结构的数据整理方法

Info

Publication number: CN107967331A
Application number: CN201711205517.4A
Authority: CN
Inventors: 林波
Original assignee: NATIONAL MARINE ENVIRONMENTAL FORECASTING CENTER
Current assignee: NATIONAL MARINE ENVIRONMENTAL FORECASTING CENTER
Priority date: 2017-11-27
Filing date: 2017-11-27
Publication date: 2018-04-27

Abstract

本发明公开了匹配于高性能计算机结构的数据整理方法，包括如下步骤：根据输入数据用户的身份信息完成数据身份信息的标记；根据数据属性的识别结果确定权限结构网格和权限结构网格上的物理量，并将权限结构网格建模为由多个网格层构成的网格片层次结构；将网格层剖分为互不重叠的若干个网格区，为每个网格区赋予惟一的逻辑编号，将每个网格区映射到惟一的服务器计算节点，将网格区分布存储在各对应服务器的内存空间；完成数据的整理定位以及加密处理。本发明可以大幅提升结构网格和物理量的存储与访存的数据局部性，支持应用软件面向高性能计算机复杂体系结构展开浮点性能优化，大幅提升计算效率。

Description

匹配于高性能计算机结构的数据整理方法

技术领域

本发明涉及数据处理领域，具体涉及一种匹配于高性能计算机结构的数据整理方法。

背景技术

目前，高性能计算机的峰值性能已经跨越了每秒千万亿次，体系结构日趋复杂，呈现“六层嵌套并行”和“异构众核加速”的典型特征，其中，前者指“结点间分布存储(DM)—结点内多CPU间分布共享存储(DSM)—CPU内多核间对称多处理共享存储(SMP)—CPU核内多级高速缓存(Cache)—CPU核内多功能部件指令级并行(ILP)—CPU核内长向量加速(SIMD)”，后者指“异构众核加速”，即每个结点配置图形加速微处理器GPU或众核协处理器MIC，在提升浮点计算速度的同时降低功耗。

传统地，数值模拟应用软件采用基于多维数组数据剖分的数据管理方法(简称“多维数组数据管理方法”)。具体地：将物理量定义为与结构网格大小对应的多维数组；将多维数组剖分为多个子数组，子数组在各进程间分布存储以适应进程之间的并行；子数组元素在进程内共享存储以适应线程之间的并行，从而实现进程和线程的两层嵌套并行计算。然而，这种多维数组数据管理方法和相应的两级嵌套并行计算很难适应“六层嵌套并行”和“异构众核加速”的复杂体系结构，同时数据的整理大多需要人为进行储存位置的定位，很容易导致数据储存的混乱，同时数据之间也很容易造成冲突和重复，这无疑会加大数据整理的工作量，也使得的系统在进行资料查询时会发生错误，且所有的数据均不存在可追溯性。

发明内容

为解决上述问题，本发明提供了一种匹配于高性能计算机结构的数据整理方法，可以大幅提升结构网格和物理量的存储与访存的数据局部性，支持应用软件面向高性能计算机复杂体系结构展开浮点性能优化，大幅提升计算效率，系统自带数据整理定位储存功能，且每个数据的录入均携带录入者的身份信息，实现了所有数据的可追溯性。

为实现上述目的，本发明采取的技术方案为：

匹配于高性能计算机结构的数据整理方法，包括如下步骤：

S1、根据输入数据用户的身份信息完成数据身份信息的标记；

S2、通过预设的数据属性识别算法完成待整理数据属性的识别；

S3、根据数据属性的识别结果确定权限结构网格和所述权限结构网格上的物理量，并将权限结构网格建模为由多个网格层构成的网格片层次结构；

S4、将所述网格层剖分为互不重叠的若干个网格区，为每个所述网格区赋予惟一的逻辑编号，将每个所述网格区映射到惟一的服务器计算节点，将所述网格区分布存储在各对应服务器的内存空间；每个网格层剖分所得网格区数等于服务器计算节点数；

S5、根据预设的算法消除所接收到的数据之间存在的冗余内容以及所输入数据与数据库内原有数据之间的冲突内容；并将冗余内容和冲突内容以对话框的形式弹出以提醒用户是否确认清除，并根据用户选择的控制命令进行数据的处理；

S6、根据设置的字段提取出整理后的数据对应的信息，形成相应的数据记录；

S7、为提取的数据记录在内存空间中找到合适的位置，并为其找到相似数据点，建立其与相似数据点之间的关系；

S8、为每一个内存空间赋予惟一的数据加密算法，并通过该数据加密算法完成内存空间内数据的加密处理。

优选地，每个服务器上均设有一操作数据监控模块，以静态jar包的形式部署于每个服务器上，通过脚本录制方式进行用户操作状态的录制和评估，并将评估结果发送到预设的移动终端。

优选地，所述步骤S1中采用用户的身份信息对其输入的数据进行标记。

优选地，所述身份信息采用生物特征数据，该生物特征数据采用声纹数据，该声纹数据为从录入的用户朗读指定验证文本的语音中获取的用户的声纹特征和唇动间隔时间数据。

优选地，每个服务器之间均设有一备用安全通道，用于在监测到数据危险情况时完成数据的转移操作。

优选地，所述步骤S5采用EKA算法和AKF算法处理冲突内容，所述冗余内容采用redundancy函数进行清除。

优选地，所述步骤S7基于刻面技术来实现数据定位，通过计算不同数据术语间的刻面距离来准确定位数据；在定位数据时，在已知刻面的约束下选择相应的术语，以此来完成对所需数据的描述，如果选择成功，则返回相应的数据；如果选择不成功，则系统将根据同义词词典和概念距离图计算术语的相似性，形成新的定位信息。

本发明具有以下有益效果：

可以大幅提升结构网格和物理量的存储与访存的数据局部性，支持应用软件面向高性能计算机复杂体系结构展开浮点性能优化，大幅提升计算效率，系统自带数据整理定位储存功能，且每个数据的录入均携带录入者的身份信息，实现了所有数据的可追溯性。

具体实施方式

为了使本发明的目的及优点更加清楚明白，以下结合实施例对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供了一种匹配于高性能计算机结构的数据整理方法，包括如下步骤：

S1、根据输入数据用户的身份信息完成数据身份信息的标记；具体的，采用用户的身份信息对其输入的数据进行标记，所述身份信息采用生物特征数据，该生物特征数据采用声纹数据，该声纹数据为从录入的用户朗读指定验证文本的语音中获取的用户的声纹特征和唇动间隔时间数据。

S5、根据预设的算法消除所接收到的数据之间存在的冗余内容以及所输入数据与数据库内原有数据之间的冲突内容；并将冗余内容和冲突内容以对话框的形式弹出以提醒用户是否确认清除，并根据用户选择的控制命令进行数据的处理；采用EKA算法和AKF算法处理冲突内容，所述冗余内容采用redundancy函数进行清除，具体的，在redundancy函数中，分别将k₁和k₂中的知识元素取出e₁和e₂，然将e₁和e₂中的X，Y以及关系R取出进行比较并分别对比xe₁，xe₂，ye₁，ye₂，将具有相同内容的元素项删除，并保留原有关系r值，将关系与未被删除项合并。

S7、为提取的数据记录在内存空间中找到合适的位置，并为其找到相似数据点，建立其与相似数据点之间的关系；具体的，基于刻面技术来实现数据定位，通过计算不同数据术语间的刻面距离来准确定位数据；在定位数据时，在已知刻面的约束下选择相应的术语，以此来完成对所需数据的描述，如果选择成功，则返回相应的数据；如果选择不成功，则系统将根据同义词词典和概念距离图计算术语的相似性，形成新的定位信息

每个服务器上均设有一操作数据监控模块，以静态jar包的形式部署于每个服务器上，通过脚本录制方式进行用户操作状态的录制和评估，并将评估结果发送到预设的移动终端，每个服务器之间均设有一备用安全通道，用于在监测到数据危险情况时完成数据的转移操作。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.匹配于高性能计算机结构的数据整理方法，其特征在于，包括如下步骤：

2.如权利要求1所述的匹配于高性能计算机结构的数据整理方法，其特征在于，每个服务器上均设有一操作数据监控模块，以静态jar包的形式部署于每个服务器上，通过脚本录制方式进行用户操作状态的录制和评估，并将评估结果发送到预设的移动终端。

3.如权利要求1所述的匹配于高性能计算机结构的数据整理方法，其特征在于，所述步骤S1中采用用户的身份信息对其输入的数据进行标记。

4.如权利要求1所述的匹配于高性能计算机结构的数据整理方法，其特征在于，所述身份信息采用生物特征数据，该生物特征数据采用声纹数据，该声纹数据为从录入的用户朗读指定验证文本的语音中获取的用户的声纹特征和唇动间隔时间数据。

5.如权利要求1所述的匹配于高性能计算机结构的数据整理方法，其特征在于，每个服务器之间均设有一备用安全通道，用于在监测到数据危险情况时完成数据的转移操作。

6.如权利要求1所述的匹配于高性能计算机结构的数据整理方法，其特征在于，所述步骤S5采用EKA算法和AKF算法处理冲突内容，所述冗余内容采用redundancy函数进行清除。

7.如权利要求1所述的匹配于高性能计算机结构的数据整理方法，其特征在于，所述步骤S7基于刻面技术来实现数据定位，通过计算不同数据术语间的刻面距离来准确定位数据；在定位数据时，在已知刻面的约束下选择相应的术语，以此来完成对所需数据的描述，如果选择成功，则返回相应的数据；如果选择不成功，则系统将根据同义词词典和概念距离图计算术语的相似性，形成新的定位信息。