CN107967331A - 匹配于高性能计算机结构的数据整理方法 - Google Patents

匹配于高性能计算机结构的数据整理方法 Download PDF

Info

Publication number
CN107967331A
CN107967331A CN201711205517.4A CN201711205517A CN107967331A CN 107967331 A CN107967331 A CN 107967331A CN 201711205517 A CN201711205517 A CN 201711205517A CN 107967331 A CN107967331 A CN 107967331A
Authority
CN
China
Prior art keywords
data
grid
matched
performance computer
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711205517.4A
Other languages
English (en)
Inventor
林波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NATIONAL MARINE ENVIRONMENTAL FORECASTING CENTER
Original Assignee
NATIONAL MARINE ENVIRONMENTAL FORECASTING CENTER
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NATIONAL MARINE ENVIRONMENTAL FORECASTING CENTER filed Critical NATIONAL MARINE ENVIRONMENTAL FORECASTING CENTER
Priority to CN201711205517.4A priority Critical patent/CN107967331A/zh
Publication of CN107967331A publication Critical patent/CN107967331A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2471Distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures

Abstract

本发明公开了匹配于高性能计算机结构的数据整理方法,包括如下步骤:根据输入数据用户的身份信息完成数据身份信息的标记;根据数据属性的识别结果确定权限结构网格和权限结构网格上的物理量,并将权限结构网格建模为由多个网格层构成的网格片层次结构;将网格层剖分为互不重叠的若干个网格区,为每个网格区赋予惟一的逻辑编号,将每个网格区映射到惟一的服务器计算节点,将网格区分布存储在各对应服务器的内存空间;完成数据的整理定位以及加密处理。本发明可以大幅提升结构网格和物理量的存储与访存的数据局部性,支持应用软件面向高性能计算机复杂体系结构展开浮点性能优化,大幅提升计算效率。

Description

匹配于高性能计算机结构的数据整理方法
技术领域
本发明涉及数据处理领域,具体涉及一种匹配于高性能计算机结构的数据整理方法。
背景技术
目前,高性能计算机的峰值性能已经跨越了每秒千万亿次,体系结构日趋复杂,呈现“六层嵌套并行”和“异构众核加速”的典型特征,其中,前者指“结点间分布存储(DM)—结点内多CPU间分布共享存储(DSM)—CPU内多核间对称多处理共享存储(SMP)—CPU核内多级高速缓存(Cache)—CPU核内多功能部件指令级并行(ILP)—CPU核内长向量加速(SIMD)”,后者指“异构众核加速”,即每个结点配置图形加速微处理器GPU或众核协处理器MIC,在提升浮点计算速度的同时降低功耗。
传统地,数值模拟应用软件采用基于多维数组数据剖分的数据管理方法(简称“多维数组数据管理方法”)。具体地:将物理量定义为与结构网格大小对应的多维数组;将多维数组剖分为多个子数组,子数组在各进程间分布存储以适应进程之间的并行;子数组元素在进程内共享存储以适应线程之间的并行,从而实现进程和线程的两层嵌套并行计算。然而,这种多维数组数据管理方法和相应的两级嵌套并行计算很难适应“六层嵌套并行”和“异构众核加速”的复杂体系结构,同时数据的整理大多需要人为进行储存位置的定位,很容易导致数据储存的混乱,同时数据之间也很容易造成冲突和重复,这无疑会加大数据整理的工作量,也使得的系统在进行资料查询时会发生错误,且所有的数据均不存在可追溯性。
发明内容
为解决上述问题,本发明提供了一种匹配于高性能计算机结构的数据整理方法,可以大幅提升结构网格和物理量的存储与访存的数据局部性,支持应用软件面向高性能计算机复杂体系结构展开浮点性能优化,大幅提升计算效率,系统自带数据整理定位储存功能,且每个数据的录入均携带录入者的身份信息,实现了所有数据的可追溯性。
为实现上述目的,本发明采取的技术方案为:
匹配于高性能计算机结构的数据整理方法,包括如下步骤:
S1、根据输入数据用户的身份信息完成数据身份信息的标记;
S2、通过预设的数据属性识别算法完成待整理数据属性的识别;
S3、根据数据属性的识别结果确定权限结构网格和所述权限结构网格上的物理量,并将权限结构网格建模为由多个网格层构成的网格片层次结构;
S4、将所述网格层剖分为互不重叠的若干个网格区,为每个所述网格区赋予惟一的逻辑编号,将每个所述网格区映射到惟一的服务器计算节点,将所述网格区分布存储在各对应服务器的内存空间;每个网格层剖分所得网格区数等于服务器计算节点数;
S5、根据预设的算法消除所接收到的数据之间存在的冗余内容以及所输入数据与数据库内原有数据之间的冲突内容;并将冗余内容和冲突内容以对话框的形式弹出以提醒用户是否确认清除,并根据用户选择的控制命令进行数据的处理;
S6、根据设置的字段提取出整理后的数据对应的信息,形成相应的数据记录;
S7、为提取的数据记录在内存空间中找到合适的位置,并为其找到相似数据点,建立其与相似数据点之间的关系;
S8、为每一个内存空间赋予惟一的数据加密算法,并通过该数据加密算法完成内存空间内数据的加密处理。
优选地,每个服务器上均设有一操作数据监控模块,以静态jar包的形式部署于每个服务器上,通过脚本录制方式进行用户操作状态的录制和评估,并将评估结果发送到预设的移动终端。
优选地,所述步骤S1中采用用户的身份信息对其输入的数据进行标记。
优选地,所述身份信息采用生物特征数据,该生物特征数据采用声纹数据,该声纹数据为从录入的用户朗读指定验证文本的语音中获取的用户的声纹特征和唇动间隔时间数据。
优选地,每个服务器之间均设有一备用安全通道,用于在监测到数据危险情况时完成数据的转移操作。
优选地,所述步骤S5采用EKA算法和AKF算法处理冲突内容,所述冗余内容采用redundancy函数进行清除。
优选地,所述步骤S7基于刻面技术来实现数据定位,通过计算不同数据术语间的刻面距离来准确定位数据;在定位数据时,在已知刻面的约束下选择相应的术语,以此来完成对所需数据的描述,如果选择成功,则返回相应的数据;如果选择不成功,则系统将根据同义词词典和概念距离图计算术语的相似性,形成新的定位信息。
本发明具有以下有益效果:
可以大幅提升结构网格和物理量的存储与访存的数据局部性,支持应用软件面向高性能计算机复杂体系结构展开浮点性能优化,大幅提升计算效率,系统自带数据整理定位储存功能,且每个数据的录入均携带录入者的身份信息,实现了所有数据的可追溯性。
具体实施方式
为了使本发明的目的及优点更加清楚明白,以下结合实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供了一种匹配于高性能计算机结构的数据整理方法,包括如下步骤:
S1、根据输入数据用户的身份信息完成数据身份信息的标记;具体的,采用用户的身份信息对其输入的数据进行标记,所述身份信息采用生物特征数据,该生物特征数据采用声纹数据,该声纹数据为从录入的用户朗读指定验证文本的语音中获取的用户的声纹特征和唇动间隔时间数据。
S2、通过预设的数据属性识别算法完成待整理数据属性的识别;
S3、根据数据属性的识别结果确定权限结构网格和所述权限结构网格上的物理量,并将权限结构网格建模为由多个网格层构成的网格片层次结构;
S4、将所述网格层剖分为互不重叠的若干个网格区,为每个所述网格区赋予惟一的逻辑编号,将每个所述网格区映射到惟一的服务器计算节点,将所述网格区分布存储在各对应服务器的内存空间;每个网格层剖分所得网格区数等于服务器计算节点数;
S5、根据预设的算法消除所接收到的数据之间存在的冗余内容以及所输入数据与数据库内原有数据之间的冲突内容;并将冗余内容和冲突内容以对话框的形式弹出以提醒用户是否确认清除,并根据用户选择的控制命令进行数据的处理;采用EKA算法和AKF算法处理冲突内容,所述冗余内容采用redundancy函数进行清除,具体的,在redundancy函数中,分别将k1和k2中的知识元素取出e1和e2,然将e1和e2中的X,Y以及关系R取出进行比较并分别对比xe1,xe2,ye1,ye2,将具有相同内容的元素项删除,并保留原有关系r值,将关系与未被删除项合并。
S6、根据设置的字段提取出整理后的数据对应的信息,形成相应的数据记录;
S7、为提取的数据记录在内存空间中找到合适的位置,并为其找到相似数据点,建立其与相似数据点之间的关系;具体的,基于刻面技术来实现数据定位,通过计算不同数据术语间的刻面距离来准确定位数据;在定位数据时,在已知刻面的约束下选择相应的术语,以此来完成对所需数据的描述,如果选择成功,则返回相应的数据;如果选择不成功,则系统将根据同义词词典和概念距离图计算术语的相似性,形成新的定位信息
S8、为每一个内存空间赋予惟一的数据加密算法,并通过该数据加密算法完成内存空间内数据的加密处理。
每个服务器上均设有一操作数据监控模块,以静态jar包的形式部署于每个服务器上,通过脚本录制方式进行用户操作状态的录制和评估,并将评估结果发送到预设的移动终端,每个服务器之间均设有一备用安全通道,用于在监测到数据危险情况时完成数据的转移操作。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.匹配于高性能计算机结构的数据整理方法,其特征在于,包括如下步骤:
S1、根据输入数据用户的身份信息完成数据身份信息的标记;
S2、通过预设的数据属性识别算法完成待整理数据属性的识别;
S3、根据数据属性的识别结果确定权限结构网格和所述权限结构网格上的物理量,并将权限结构网格建模为由多个网格层构成的网格片层次结构;
S4、将所述网格层剖分为互不重叠的若干个网格区,为每个所述网格区赋予惟一的逻辑编号,将每个所述网格区映射到惟一的服务器计算节点,将所述网格区分布存储在各对应服务器的内存空间;每个网格层剖分所得网格区数等于服务器计算节点数;
S5、根据预设的算法消除所接收到的数据之间存在的冗余内容以及所输入数据与数据库内原有数据之间的冲突内容;并将冗余内容和冲突内容以对话框的形式弹出以提醒用户是否确认清除,并根据用户选择的控制命令进行数据的处理;
S6、根据设置的字段提取出整理后的数据对应的信息,形成相应的数据记录;
S7、为提取的数据记录在内存空间中找到合适的位置,并为其找到相似数据点,建立其与相似数据点之间的关系;
S8、为每一个内存空间赋予惟一的数据加密算法,并通过该数据加密算法完成内存空间内数据的加密处理。
2.如权利要求1所述的匹配于高性能计算机结构的数据整理方法,其特征在于,每个服务器上均设有一操作数据监控模块,以静态jar包的形式部署于每个服务器上,通过脚本录制方式进行用户操作状态的录制和评估,并将评估结果发送到预设的移动终端。
3.如权利要求1所述的匹配于高性能计算机结构的数据整理方法,其特征在于,所述步骤S1中采用用户的身份信息对其输入的数据进行标记。
4.如权利要求1所述的匹配于高性能计算机结构的数据整理方法,其特征在于,所述身份信息采用生物特征数据,该生物特征数据采用声纹数据,该声纹数据为从录入的用户朗读指定验证文本的语音中获取的用户的声纹特征和唇动间隔时间数据。
5.如权利要求1所述的匹配于高性能计算机结构的数据整理方法,其特征在于,每个服务器之间均设有一备用安全通道,用于在监测到数据危险情况时完成数据的转移操作。
6.如权利要求1所述的匹配于高性能计算机结构的数据整理方法,其特征在于,所述步骤S5采用EKA算法和AKF算法处理冲突内容,所述冗余内容采用redundancy函数进行清除。
7.如权利要求1所述的匹配于高性能计算机结构的数据整理方法,其特征在于,所述步骤S7基于刻面技术来实现数据定位,通过计算不同数据术语间的刻面距离来准确定位数据;在定位数据时,在已知刻面的约束下选择相应的术语,以此来完成对所需数据的描述,如果选择成功,则返回相应的数据;如果选择不成功,则系统将根据同义词词典和概念距离图计算术语的相似性,形成新的定位信息。
CN201711205517.4A 2017-11-27 2017-11-27 匹配于高性能计算机结构的数据整理方法 Pending CN107967331A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711205517.4A CN107967331A (zh) 2017-11-27 2017-11-27 匹配于高性能计算机结构的数据整理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711205517.4A CN107967331A (zh) 2017-11-27 2017-11-27 匹配于高性能计算机结构的数据整理方法

Publications (1)

Publication Number Publication Date
CN107967331A true CN107967331A (zh) 2018-04-27

Family

ID=61998022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711205517.4A Pending CN107967331A (zh) 2017-11-27 2017-11-27 匹配于高性能计算机结构的数据整理方法

Country Status (1)

Country Link
CN (1) CN107967331A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145557A (zh) * 2018-07-31 2019-01-04 西安航空职业技术学院 一种计算机数据保护系统
CN111079078A (zh) * 2019-11-25 2020-04-28 清华大学 面向结构网格稀疏矩阵的下三角方程并行求解方法
CN114726641A (zh) * 2022-04-26 2022-07-08 王善侠 基于计算机的安全认证方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120284557A1 (en) * 2008-04-16 2012-11-08 Ibm Corporation Mechanism to enable and ensure failover integrity and high availability of batch processing
CN104572295A (zh) * 2014-12-12 2015-04-29 北京应用物理与计算数学研究所 匹配于高性能计算机体系结构的结构网格数据管理方法
CN105471875A (zh) * 2015-11-25 2016-04-06 西安科技大学 一种计算机网络监控系统
CN105912666A (zh) * 2016-04-12 2016-08-31 中国科学院软件研究所 一种面向云平台的混合结构数据高性能存储、查询方法
CN106599240A (zh) * 2016-12-12 2017-04-26 长春理工大学 一种多源数据处理方法及系统
CN106897462A (zh) * 2017-03-13 2017-06-27 榆林学院 数据统计分析平台系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120284557A1 (en) * 2008-04-16 2012-11-08 Ibm Corporation Mechanism to enable and ensure failover integrity and high availability of batch processing
CN104572295A (zh) * 2014-12-12 2015-04-29 北京应用物理与计算数学研究所 匹配于高性能计算机体系结构的结构网格数据管理方法
CN105471875A (zh) * 2015-11-25 2016-04-06 西安科技大学 一种计算机网络监控系统
CN105912666A (zh) * 2016-04-12 2016-08-31 中国科学院软件研究所 一种面向云平台的混合结构数据高性能存储、查询方法
CN106599240A (zh) * 2016-12-12 2017-04-26 长春理工大学 一种多源数据处理方法及系统
CN106897462A (zh) * 2017-03-13 2017-06-27 榆林学院 数据统计分析平台系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145557A (zh) * 2018-07-31 2019-01-04 西安航空职业技术学院 一种计算机数据保护系统
CN111079078A (zh) * 2019-11-25 2020-04-28 清华大学 面向结构网格稀疏矩阵的下三角方程并行求解方法
CN111079078B (zh) * 2019-11-25 2022-04-22 清华大学 面向结构网格稀疏矩阵的下三角方程并行求解方法
CN114726641A (zh) * 2022-04-26 2022-07-08 王善侠 基于计算机的安全认证方法及系统

Similar Documents

Publication Publication Date Title
TWI775605B (zh) 深度視覺處理器
Liu et al. Masc: Multi-scale affinity with sparse convolution for 3d instance segmentation
CN110197276B (zh) 用于深度学习加速的数据体雕刻器
CN103235825B (zh) 一种基于Hadoop云计算框架的海量人脸识别搜索引擎设计方法
Yang et al. Scalable optimization of neighbor embedding for visualization
Bora et al. A comparative study between fuzzy clustering algorithm and hard clustering algorithm
CN104298713B (zh) 一种基于模糊聚类的图片检索方法
KR20130071341A (ko) 안면 특징 벡터 구성
CN105184368B (zh) 一种分布式极限学习机优化集成框架方法系统及方法
CN106021567B (zh) 一种基于Hadoop的海量矢量数据划分方法及系统
CN107967331A (zh) 匹配于高性能计算机结构的数据整理方法
Guo et al. Point-wise saliency detection on 3D point clouds via covariance descriptors
CN109685155A (zh) 基于多视图的子空间聚类方法、装置、设备及存储介质
CN104112005B (zh) 分布式海量指纹识别方法
CN106970956A (zh) 一种基于张量的三维模型检索方法
CN107967461A (zh) Svm 差分模型训练及人脸验证方法、装置、终端及存储介质
Krijthe et al. Package ‘Rtsne’
Xu et al. Discriminative analysis for symmetric positive definite matrices on lie groups
Jin et al. A high performance implementation of spectral clustering on cpu-gpu platforms
Tsapanos et al. Efficient mapreduce kernel k-means for big data clustering
CN111860484A (zh) 一种区域标注方法、装置、设备及存储介质
Zhang et al. Learning all-in collaborative multiview binary representation for clustering
Yang et al. An effective detection of satellite image via K-means clustering on Hadoop system
US20220067495A1 (en) Intelligent processor, data processing method and storage medium
Chen et al. A novel twin support vector machine for binary classification problems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180427

RJ01 Rejection of invention patent application after publication