CN116339986A - 一种面向核磁谱图特征峰相似度分析算法的并行计算方法 - Google Patents
一种面向核磁谱图特征峰相似度分析算法的并行计算方法 Download PDFInfo
- Publication number
- CN116339986A CN116339986A CN202310255769.7A CN202310255769A CN116339986A CN 116339986 A CN116339986 A CN 116339986A CN 202310255769 A CN202310255769 A CN 202310255769A CN 116339986 A CN116339986 A CN 116339986A
- Authority
- CN
- China
- Prior art keywords
- cluster
- nodes
- node
- characteristic peak
- cpu
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 101
- 238000004364 calculation method Methods 0.000 title claims abstract description 68
- 238000001228 spectrum Methods 0.000 title claims abstract description 15
- 238000010586 diagram Methods 0.000 title claims description 9
- 238000000655 nuclear magnetic resonance spectrum Methods 0.000 claims abstract description 11
- 241000412611 Consul Species 0.000 claims abstract description 7
- 239000000126 substance Substances 0.000 claims description 64
- 230000004044 response Effects 0.000 claims description 32
- 230000003068 static effect Effects 0.000 claims description 24
- 238000006073 displacement reaction Methods 0.000 claims description 8
- 230000007334 memory performance Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 230000003321 amplification Effects 0.000 claims description 3
- 230000005484 gravity Effects 0.000 claims description 3
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 3
- 230000007704 transition Effects 0.000 claims description 3
- 238000005481 NMR spectroscopy Methods 0.000 claims 3
- 238000000034 method Methods 0.000 abstract description 12
- 238000001514 detection method Methods 0.000 abstract description 6
- 238000013135 deep learning Methods 0.000 abstract 1
- 239000010687 lubricating oil Substances 0.000 description 20
- 239000000654 additive Substances 0.000 description 14
- 238000011160 research Methods 0.000 description 9
- 230000000996 additive effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 229920002153 Hydroxypropyl cellulose Polymers 0.000 description 5
- 235000010977 hydroxypropyl cellulose Nutrition 0.000 description 5
- 239000003921 oil Substances 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002699 waste material Substances 0.000 description 2
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- 241001330002 Bambuseae Species 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 239000011425 bamboo Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000001050 lubricating effect Effects 0.000 description 1
- 238000005461 lubrication Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/48—Program initiating; Program switching, e.g. by interrupt
- G06F9/4806—Task transfer initiation or dispatching
- G06F9/4843—Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
- G06F9/4881—Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5011—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals
- G06F9/5016—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resources being hardware resources other than CPUs, Servers and Terminals the resource being the memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
- G06F9/505—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the load
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5083—Techniques for rebalancing the load in a distributed system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/54—Interprogram communication
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/30—Assessment of water resources
Landscapes
- Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Complex Calculations (AREA)
Abstract
本发明请求保护一种面向核磁谱图特征峰相似度分析算法的并行计算方法,属于深度学习领域。该方法包括:S1:Consul所在的服务器基于服务器集群计算集群中节点的初始圈子;S2:Ribbon所在的服务器会定期获取集群服务器的硬件信息,然后基于硬件信息与初始权值进行动态权重的更新;S3:当有任务需要分析与计算时,Ribbon会基于动态权重的值将任务合理分配给集群中的节点;S4:集群中的节点服务器将核磁谱图特征峰数据合理的划分,并交由不同的子线程分析与计算;S5:子线程完成分析与计算后,由主线程对子线程的结果汇总并返回给用户。本文使用面向核磁谱图特征峰相似度分析算法的并行计算模型,提高了对待测样品检测的分析效率。
Description
技术领域
本发明属于并行计算领域,具体涉及一种面向核磁谱图特征峰相似度分析的并行计算策略。
背景技术
随着各种各样的精密仪器和高精尖设备的迅速崛起,市场要求润滑油的性能五花八门和品质越来越高。为了满足特殊工况的润滑需求,多种类的润滑油添加剂开始被协同使用,以期达到改善润滑油的物理和化学性能。润滑油添加剂的研究可以追溯到20世纪70年代,在近60年来,润滑油添加剂的使用增长速度已经远领先于润滑油品的增长速度,但是润滑油添加剂的研究已然成为润滑领域的研究重点和难点。最新的研究成果中已经出现了纳米颗粒级别的润滑油添加剂。值得一提的是,润滑油添加剂的种类繁多,尽管其含量只占润滑油的极其微小的一部分,但是其却发挥了极为重要的作用并且从油品的外观上难以辨别使用的添加剂有哪些。因此,当润滑油的标签失效或者丢失后,则会造成润滑油的使用混乱和难以进行管理,进而造成经济损失。此外,对运转设备的残油、废油和漏油中的添加剂进行种类识别,可以帮助工厂和研究院对设备健康检测和提供前期预警的目的以达到设备维护。本文在对上述的分析的问题研究后发现,一种快速且精确的润滑油添加剂的同步识别方法不仅可以降低损失,而且还可以识别润滑油的组成成分,以便能够生成更加高效、更为好用的润滑油。现阶段针对润滑油添加剂的成分分析研究成果较少,尤其是基于核磁谱图的特征峰的谱峰识别算法研究成果更少。特征峰作为鉴别化学键或基团存在的吸收峰,在物质检测分析上用的极为广泛,越来越多的人在对润滑油添加剂进行成分检测都将特征峰信息作为评判润滑油添加剂是否存在的重要因素。因此本文对传统的润滑油添加剂的成分检测研究后,希望藉此来实现润滑油添加剂的分析检测。
本文提出的基于核磁谱图的特征峰相似度分析算法流程复杂和分析计算量较大,科研人员在分析过程中消耗大量的时间和精力。高性能计算(high performancecomputing,HPC)作为解决以上问题的一种立竿见影的策略,同样HPC也只是加快问题求解速度的一种解决方案。在计算机与HPC的发展进程中,越来越多的基于HPC的计算方式如雨后春笋一般层出不穷,像基于共享组件的网格计算、基于Web服务的可视化计算以及得到广泛应用的云计算等。上述的HPC策略主要面向与计算量大、性能要求较高的问题。针对现在多核多线程服务器的迭代与发展,传统单线程的串行算法已经难以满足科研人员的分析需求,并且串行算法是对多核硬件的计算机的一种浪费,不仅浪费计算机资源,而且无法提高算法的执行效率。高性能计算的底层思想是通过并行计算策略来提升算法的性能,进而发挥计算机的潜力。目前的并行计算技术已经在各行各业中得到实际的应用,并在应用的过程中取得较为优异的结果,像机器人系统、人脸识别和自动驾驶等需要高及时性与短时间内快速分析判断的高科技领域。
发明内容
本发明旨在解决以上现有技术的问题。提出了一种面向核磁谱图特征峰相似度分析算法的并行计算方法。本发明的技术方案如下:
一种面向核磁谱图特征峰相似度分析算法的并行计算方法,其包括以下步骤:
步骤1、初始权值的设计步骤:
步骤2、服务注册中心(Consul)所在的服务器定期的获取集群中节点的硬件使用情况;
步骤3、Consul所在的服务器会通过心跳机制定期的将集群中个节点的硬件信息推送给负载均衡调度器(Ribbon)所在服务器;
步骤4、Ribbon所在的服务器根据集群中个节点的硬件使用情况,基于初始权值进行计算动态权重;
步骤5、每当有任务来临时,根据当前集群中每个节点的权重对任务进行合理分配;
步骤6、任务被分配到具体服务器后,应用的主线程将会把核磁谱图特征峰的数据根据CPU核数进行合理的划分;
步骤7、子线程对各自负责的区域数据进行分析计算,主线程会根据分析步骤与子线程进行通信,
步骤8、在所有的分析任务完成后,会将上述的分析结果进行再次汇总和反馈。
进一步的,所述步骤1初始权值的设计步骤具体包括:
A1、根据集群中节点的硬件信息计算服务器节点的CPU、内存和磁盘I/O性能的总和;
A2、根据集群中单个节点的权值为单节点在某个硬件方面的性能除以集群中所有节点在这一方面的硬件性能的总和,再乘以硬件性能各方面对服务器性能影响的比重权重;
A3、将服务器的硬件情况与响应时间通过相关系数进行描述;
A4、计算集群中的节点的CPU、内存和磁盘I/O与其在集群中的硬件信息占比的期望,计算的结果就是硬件的初始权重;
A5、将集群中节点的硬件信息的关系率通过归一化进行处理。
进一步的,所述步骤1初始权值的计算公式为:
式中,Pc(j)为集群中节点的静态CPU性能,Pm(j)为集群中节点的静态内存性能,Pi(j)为集群中节点的静态磁盘I/O性能,Pc(Total)为集群中静态CPU性能的总和,Pm(Total)为集群中静态内存性能的总和,Pi(Total)为集群中静态磁盘I/O性能的总和,Wc为集群中节点的CPU权重系数,Wm为集群中节点的内存权重系数,Wi为集群中节点的磁盘I/O权重系数,SWj为集群中节点j占集群内所有节点的初始权重,A为放大系数,用于调整SWj的值;
进一步的,CPU的权重系数具体的计算流程如下:
1)根据公式(2)计算集群中节点CPU的相关系数;
2)根据公式(3)计算集群中节点的CPU平均权重系数;
式中,Pc(j)为节点j的CPU信息、Pc(total)集群中所有节点的CPU信息。
(2)根据集群中节点的硬件剩余情况计算每个节点的剩余负载率,具体的计算公式如下:
式中,Csy(j)为集群中节点j的剩余CPU使用率,Msy(j)为集群中节点j的剩余内存使用率,Wio(j)为集群中节点j的剩余磁盘I/O使用率,Wcpu(j)为集群中节点j的CPU与响应时间协方差,Wmem(j)为集群中节点j的内存与响应时间协方差,Wio(j)为集群中节点j的磁盘I/O与响应时间协方差。
(3)最后根据公式(5)集群中节点的初始权重和剩余负载率,计算节点的最终权重大小,具体计算公式如下:
DW(j)=W*SW(j)*L(j) (5)
进一步的,所述步骤A3、将服务器的硬件情况与响应时间通过相关系数进行描述,具体流程如下:
B1、计算集群中节点的硬件信息与响应时间的协方差;
B2、计算集群中各个节点CPU、内存、磁盘I/O和响应时间的协方差。
进一步的,所述步骤4Ribbon所在的服务器会根据集群中个节点的硬件使用情况,基于初始权值进行计算动态权重,具体步骤如下:
C1、根据集群中节点的剩余硬件信息计算集群中的CPU、内存和磁盘I/O的总和;
C2、根据集群中节点的硬件使用率、集群中节点的硬件性能和集群中节点的平均硬件性能计算剩余负载;
C3、根据集群中节点j的剩余负载量,计算节点j的剩余负载能力。
进一步的,所述步骤7、子线程对各自负责的区域数据进行分析计算,主线程会根据分析步骤与子线程进行通信,具体分析步骤如下:
D1、对核磁谱图特征峰相关数据进行划分,并且在区间划分时考虑CPU的核数与在区间划分时在每个区间左右均加上一个误差ω,通过ω的值来消除因跃迁现象而导致的分析结果误差;
D2、子线程针对自己区域的数据对待测样品与已知物质进行基于DTW特征峰相似度匹配算法,
D3、对上述提取的特征峰数据进行特征峰面积的标准化;
D4、针对待测样品与已知物质的特征峰匹配和数据预处理后,对两者的特征峰面积进行峰面积比例吻合率的并行计算;
D5、主线程会将分析计算的结果进行汇总与统计。
进一步的,所述步骤D2、子线程针对自己区域的数据对待测样品与已知物质进行基于DTW特征峰相似度匹配算法,匹配算法的具体流程如下:
D21、主线程开辟共享区域用于存储待测样品是否在已知物质最大峰强度所对应的化学位移出现的值;
D22、在子线程在进行特征峰相似度匹配算法时,找到每个区域中已知物质的最大峰强度所对应的化学位移,并判断待测样品在此化学位移是否出现特征峰;
D23、子线程在得到D22的分析结果后,将结果与共享区域的值进行比对,比对规则是:如果共享区域中的最大峰强度的值是大于分析结果的值,则保留共享区域的结果;如果共享区域的最大峰强度的值是小于分析结果的最大峰强度,则将共享区域的值替换为分析子线程分析结果;
D24、在所有子线程完成分析与判断后由主线程对结果进行汇总,汇总的结果即可反应待测样品是否在已知物质的最大峰强度所对应的化学位移出现特征峰的实验结果。
进一步的,所述步骤D3、对上述提取的特征峰数据进行特征峰面积的标准化,具体的并行策略如下:
D31、子线程分别针对自己的区域通过堆排序找到当前区域的中位数;
D32、主线程通过对子线程的中位数进行统计,并基于统计的值找出所有特征峰的中位数;
D33、子线程拿到特征峰中位数后,基于中位数对特征峰的面积进行归一化,归一化后的值就是后续计算的基础。
进一步的,所述步骤D4、针对待测样品与已知物质的特征峰匹配和数据预处理后,对两者的特征峰面积进行峰面积比例吻合率的并行计算,具体分析流程如下:
D41、子线程分别计算已知物质和待测样品在各个区域的面积之和;
D42、主线程在得到子线程计算结果后,主线程分别计算已知物质和待测样品的总面积;
D43、子线程会根据上述计算的结果计算计算待测样品与已知物质的每个特征峰的峰比例吻合率;
D44、主线程会根据每个子线程计算的待测样品与已知物质的峰面积比例吻合率计算其和;
D45、在得到峰面积比例吻合率后,为了避免一种小概率事件,对峰面积比例吻合率的值通过方差的方式进行检验;
D46、主线程也会根据子线程的分析计算结果计算峰面积比例吻合率的标准差。
本发明的优点及有益效果如下:
1.本发明针对核磁谱图的特征峰相似度分析算法通过常见的并行计算策略进行改进,主要从Ribbon的负载均衡策略和本身的特征峰相似度分析算法优化两个方面进行提出和改进,改进后的特征峰相似度分析算法分析效率更高。
2.Ribbon的负载均衡策略的改进利用了服务器集群的节点的硬件信息,通过集群中的硬件信息和响应时间的关系,设计了一个基于动态权值的负载均衡策略。该策略可以周期的根据硬件信息对负载均衡权重进行更新,可以帮助服务器集群找到适合的服务器进行后续的分析与计算。
3.特征峰相似度分析算法的优化主要从主线程将特征峰数据进行合理的划分和对特征峰相似度分析算法进行优化,使其更适合多线程的应用场景。不同的子线程对划分后的区域使用优化后的特征峰相似度分析算法,这样的改进可以让分析算法更加合理和高效。
附图说明
图1是本发明提供优选实施例基于动态权重的负载均衡策略总体框架图;
图2为本发明对特征峰相似度分析算法的改进结构示意图;
图3表示面向核磁谱图特征峰相似度分析算法的并行计算流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。
本发明解决上述技术问题的技术方案是:
如图3所示,一种面向核磁谱图特征峰相似度分析算法的并行计算方法,其包括以下步骤:
步骤1、初始权值的设计步骤:
步骤2、服务注册中心(Consul)所在的服务器定期的获取集群中节点的硬件使用情况;
步骤3、Consul所在的服务器会通过心跳机制定期的将集群中个节点的硬件信息推送给负载均衡调度器(Ribbon)所在服务器;
步骤4、Ribbon所在的服务器根据集群中个节点的硬件使用情况,基于初始权值进行计算动态权重;
步骤5、每当有任务来临时,根据当前集群中每个节点的权重对任务进行合理分配;
步骤6、任务被分配到具体服务器后,应用的主线程将会把核磁谱图特征峰的数据根据CPU核数进行合理的划分;
步骤7、子线程对各自负责的区域数据进行分析计算,主线程会根据分析步骤与子线程进行通信,
步骤8、在所有的分析任务完成后,会将上述的分析结果进行再次汇总和反馈。
优选的,所述步骤1初始权值的设计步骤具体包括:
A1、根据集群中节点的硬件信息计算服务器节点的CPU、内存和磁盘I/O性能的总和;
A2、根据集群中单个节点的权值为单节点在某个硬件方面的性能除以集群中所有节点在这一方面的硬件性能的总和,再乘以硬件性能各方面对服务器性能影响的比重权重;
A3、将服务器的硬件情况与响应时间通过相关系数进行描述;
A4、计算集群中的节点的CPU、内存和磁盘I/O与其在集群中的硬件信息占比的期望,计算的结果就是硬件的初始权重;
A5、将集群中节点的硬件信息的关系率通过归一化进行处理。
优选的,所述步骤1初始权值的计算公式为:
式中,Pc(j)为集群中节点的静态CPU性能,Pm(j)为集群中节点的静态内存性能,Pi(j)为集群中节点的静态磁盘I/O性能,Pc(Total)为集群中静态CPU性能的总和,Pm(Total)为集群中静态内存性能的总和,Pi(Total)为集群中静态磁盘I/O性能的总和,Wc为集群中节点的CPU权重系数,Wm为集群中节点的内存权重系数,Wi为集群中节点的磁盘I/O权重系数,SWj为集群中节点j占集群内所有节点的初始权重,A为放大系数,用于调整SWj的值;
优选的,CPU的权重系数具体的计算流程如下:
1)根据公式(2)计算集群中节点CPU的相关系数;
2)根据公式(3)计算集群中节点的CPU平均权重系数;
Pc(j)为节点j的CPU信息、Pc(total)集群中所有节点的CPU信息。
(2)根据集群中节点的硬件剩余情况计算每个节点的剩余负载率,具体的计算公式如下:
Csy(j)为集群中节点j的剩余CPU使用率,Msy(j)为集群中节点j的剩余内存使用率,Wio(j)为集群中节点j的剩余磁盘I/O使用率,Wcpu(j)为集群中节点j的CPU与响应时间协方差,Wmem(j)为集群中节点j的内存与响应时间协方差,Wio(j)为集群中节点j的磁盘I/O与响应时间协方差。
(3)最后根据公式(5)集群中节点的初始权重和剩余负载率,计算节点的最终权重大小,具体计算公式如下:
DW(j)=W*SW(j)*L(j) (5)
优选的,所述步骤A3、将服务器的硬件情况与响应时间通过相关系数进行描述,具体流程如下:
B1、计算集群中节点的硬件信息与响应时间的协方差;
B2、计算集群中各个节点CPU、内存、磁盘I/O和响应时间的协方差。
优选的,所述步骤4Ribbon所在的服务器会根据集群中个节点的硬件使用情况,基于初始权值进行计算动态权重,具体步骤如下:
C1、根据集群中节点的剩余硬件信息计算集群中的CPU、内存和磁盘I/O的总和;
C2、根据集群中节点的硬件使用率、集群中节点的硬件性能和集群中节点的平均硬件性能计算剩余负载;
C3、根据集群中节点j的剩余负载量,计算节点j的剩余负载能力。
优选的,所述步骤7、子线程对各自负责的区域数据进行分析计算,主线程会根据分析步骤与子线程进行通信,具体分析步骤如下:
D1、对核磁谱图特征峰相关数据进行划分,并且在区间划分时考虑CPU的核数与在区间划分时在每个区间左右均加上一个误差ω,通过ω的值来消除因跃迁现象而导致的分析结果误差;
D2、子线程针对自己区域的数据对待测样品与已知物质进行基于DTW特征峰相似度匹配算法,
D3、对上述提取的特征峰数据进行特征峰面积的标准化;
D4、针对待测样品与已知物质的特征峰匹配和数据预处理后,对两者的特征峰面积进行峰面积比例吻合率的并行计算;
D5、主线程会将分析计算的结果进行汇总与统计。
优选的,所述步骤D2、子线程针对自己区域的数据对待测样品与已知物质进行基于DTW特征峰相似度匹配算法,匹配算法的具体流程如下:
D21、主线程开辟共享区域用于存储待测样品是否在已知物质最大峰强度所对应的化学位移出现的值;
D22、在子线程在进行特征峰相似度匹配算法时,找到每个区域中已知物质的最大峰强度所对应的化学位移,并判断待测样品在此化学位移是否出现特征峰;
D23、子线程在得到D22的分析结果后,将结果与共享区域的值进行比对,比对规则是:如果共享区域中的最大峰强度的值是大于分析结果的值,则保留共享区域的结果;如果共享区域的最大峰强度的值是小于分析结果的最大峰强度,则将共享区域的值替换为分析子线程分析结果;
D24、在所有子线程完成分析与判断后由主线程对结果进行汇总,汇总的结果即可反应待测样品是否在已知物质的最大峰强度所对应的化学位移出现特征峰的实验结果。
优选的,所述步骤D3、对上述提取的特征峰数据进行特征峰面积的标准化,具体的并行策略如下:
D31、子线程分别针对自己的区域通过堆排序找到当前区域的中位数;
D32、主线程通过对子线程的中位数进行统计,并基于统计的值找出所有特征峰的中位数;
D33、子线程拿到特征峰中位数后,基于中位数对特征峰的面积进行归一化,归一化后的值就是后续计算的基础。
优选的,所述步骤D4、针对待测样品与已知物质的特征峰匹配和数据预处理后,对两者的特征峰面积进行峰面积比例吻合率的并行计算,具体分析流程如下:
D41、子线程分别计算已知物质和待测样品在各个区域的面积之和;
D42、主线程在得到子线程计算结果后,主线程分别计算已知物质和待测样品的总面积;
D43、子线程会根据上述计算的结果计算计算待测样品与已知物质的每个特征峰的峰比例吻合率;
D44、主线程会根据每个子线程计算的待测样品与已知物质的峰面积比例吻合率计算其和;
D45、在得到峰面积比例吻合率后,为了避免一种小概率事件,对峰面积比例吻合率的值通过方差的方式进行检验;
D46、主线程也会根据子线程的分析计算结果计算峰面积比例吻合率的标准差。
1.如附图1所示,当用户从终端发送分析请求后,Ribbon根据负载均衡策略将分析请求合理的分派给集群中的服务器:
(1)用户将待测样品与需要比对的多种已知物质的信息发送到Ribbon所在的服务器;
(2)Ribbon的负载均衡策略会根据动态权重将不同的已知物质分配给不同的服务器上进行特征峰相似度分析计算。
(3)当待测样品与所有的已知物质完成相似度分析计算后,服务消费者会将集群中节点的返回值进行组装,然后返回给客户端。
上述的动态权重计算流程如下:
(1)在计算初始权重的时候,本文主要考虑集群节点的硬件性能,然后根据各种硬件性能对服务器的影响程度不同,所以对各个硬件性能指标进行加权处理,使各个硬件的权重更加合理。具体的计算公式如下:
式中,Pc(j)为集群中节点的静态CPU性能,Pm(j)为集群中节点的静态内存性能,Pi(j)为集群中节点的静态磁盘I/O性能,Pc(Total)为集群中静态CPU性能的总和,Pm(Total)为集群中静态内存性能的总和,Pi(Total)为集群中静态磁盘I/O性能的总和,Wc为集群中节点的CPU权重系数,Wm为集群中节点的内存权重系数,Wi为集群中节点的磁盘I/O权重系数,SWj为集群中节点j占集群内所有节点的初始权重。
公式中的CPU权重系数、内存权重系数和磁盘I/O权重系数是根据集群中节点的各硬件信息与响应时间平均值计算得到的结果,就拿CPU的权重系数计算样例做讲解,具体的计算流程如下:
1)根据公式2计算集群中节点CPU的相关系数;
2)根据公式3计算集群中节点的CPU平均权重系数。
(2)根据集群中节点的硬件剩余情况计算每个节点的剩余负载率,具体的计算公式如下:
(3)最后根据公式5集群中节点的初始权重和剩余负载率,计算节点的最终权重大小,具体计算公式如下:
DW(j)=W*SW(j)*L(j) (5)
2.如附图2所示,核磁谱图的特征峰相似度分析优化策略如下:
(1)集群中节点在收到对应的分析任务后,会根据节点的CPU核数对特征峰数据进行合理的区间划分,具体划分逻辑是:假设CPU的核数是4核,待测样品的化学位移在[-18.3153,193.9489]区间范围内。因此按照上述所描述的规则可以将特征峰区间划分为:[-18.3153,34.7507]、[34.7507,87.8167]、[87.8167,140.8828]和[140.8828,193.9489]四个部分,但是考虑到化学位移的偏移的值0.1,因此对上述的区间进行修改,修改后的区间如下:[-18.3153,34.8507]、[34.6507,87.9167]、[87.7167,140.9828]和[141.7828,193.9489],后续的物质检测流程数据划分就是依照这种规则进行的。
(2)在区间划分后,每个子线程分别对自己区间的数据进行核磁谱图的特征峰相似度匹配算法,具体流程是:利用优化后的特征峰相似度匹配算法提取特征峰和判断待测样品是否在已知物质的最大峰强度所对应的化学位移处出现特征峰、并行的数据预处理阶段、并行的物质化学位移吻合率、特征峰面积比例吻合率和特征峰面积比例吻合率的检验。
(3)主线程针对子线程的分析结果进行汇总,并将分析计算的结果返回给客户端或存储在对应的存储服务器上。
本发明致力于利用并行计算策略提高核磁谱图的特征峰相似度匹配算法,同时对相似度匹配算法优化,使其可以并行分析。本文首先基于Ribbon设计了一个基于动态权重的负载均衡算法,该算法会根据服务器的初始硬件信息和硬件使用情况进行权重的更新,使集群的资源利用率达到最高;然后,对特征峰相似度分析算法进行优化并分解,使其可以适用于多线程场景;最后,在所有线程和服务器完成分析与计算后,对分析计算结果进行汇总并返回给客户端,供科研人员进行结果的判断。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。
Claims (10)
1.一种面向核磁谱图特征峰相似度分析算法的并行计算方法,其特征在于,包括以下步骤:
步骤1、初始权值的设计步骤:
步骤2、服务注册中心Consul所在的服务器定期的获取集群中节点的硬件使用情况;
步骤3、Consul所在的服务器会通过心跳机制定期的将集群中个节点的硬件信息推送给负载均衡调度器Ribbon所在服务器;
步骤4、Ribbon所在的服务器根据集群中个节点的硬件使用情况,基于初始权值进行计算动态权重;
步骤5、每当有任务来临时,根据当前集群中每个节点的权重对任务进行合理分配;
步骤6、任务被分配到具体服务器后,应用的主线程将会把核磁谱图特征峰的数据根据CPU核数进行合理的划分;
步骤7、子线程对各自负责的区域数据进行分析计算,主线程会根据分析步骤与子线程进行通信,
步骤8、在所有的分析任务完成后,会将上述的分析结果进行再次汇总和反馈。
2.根据权利要求1所述的一种面向核磁谱图特征峰相似度分析算法的并行计算方法,其特征在于,所述步骤1初始权值的设计步骤具体包括:
A1、根据集群中节点的硬件信息计算服务器节点的CPU、内存和磁盘I/O性能的总和;
A2、根据集群中单个节点的权值为单节点在某个硬件方面的性能除以集群中所有节点在这一方面的硬件性能的总和,再乘以硬件性能各方面对服务器性能影响的比重权重;
A3、将服务器的硬件情况与响应时间通过相关系数进行描述;
A4、计算集群中的节点的CPU、内存和磁盘I/O与其在集群中的硬件信息占比的期望,计算的结果就是硬件的初始权重;
A5、将集群中节点的硬件信息的关系率通过归一化进行处理。
4.根据权利要求2所述的一种面向核磁谱图特征峰相似度分析算法的并行计算方法,其特征在于,CPU的权重系数具体的计算流程如下:
1)根据公式(2)计算集群中节点CPU的相关系数;
2)根据公式(3)计算集群中节点的CPU平均权重系数;
Pc(j)为节点j的CPU信息、Pc(total)集群中所有节点的CPU信息;
(2)根据集群中节点的硬件剩余情况计算每个节点的剩余负载率,具体的计算公式如下:
Csy(j)为集群中节点j的剩余CPU使用率,Msy(j)为集群中节点j的剩余内存使用率,Wio(j)为集群中节点j的剩余磁盘I/O使用率,Wcpu(j)为集群中节点j的CPU与响应时间协方差,Wmem(j)为集群中节点j的内存与响应时间协方差,Wio(j)为集群中节点j的磁盘I/O与响应时间协方差;
(3)最后根据公式(5)集群中节点的初始权重和剩余负载率,计算节点的最终权重大小,具体计算公式如下:
DW(j)=W*SW(j)*L(j) (5)。
6.根据权利要求1所述的一种面向核磁谱图特征峰相似度分析算法的并行计算方法,其特征在于,所述步骤4Ribbon所在的服务器会根据集群中个节点的硬件使用情况,基于初始权值进行计算动态权重,具体步骤如下:
C1、根据集群中节点的剩余硬件信息计算集群中的CPU、内存和磁盘I/O的总和;
C2、根据集群中节点的硬件使用率、集群中节点的硬件性能和集群中节点的平均硬件性能计算剩余负载;
C3、根据集群中节点j的剩余负载量,计算节点j的剩余负载能力。
7.根据权利要求1所述的一种面向核磁谱图特征峰相似度分析算法的并行计算方法,其特征在于,所述步骤7、子线程对各自负责的区域数据进行分析计算,主线程会根据分析步骤与子线程进行通信,具体分析步骤如下:
D1、对核磁谱图特征峰相关数据进行划分,并且在区间划分时考虑CPU的核数与在区间划分时在每个区间左右均加上一个误差ω,通过ω的值来消除因跃迁现象而导致的分析结果误差;
D2、子线程针对自己区域的数据对待测样品与已知物质进行基于DTW特征峰相似度匹配算法,
D3、对上述提取的特征峰数据进行特征峰面积的标准化;
D4、针对待测样品与已知物质的特征峰匹配和数据预处理后,对两者的特征峰面积进行峰面积比例吻合率的并行计算;
D5、主线程会将分析计算的结果进行汇总与统计。
8.根据权利要求7所述的一种面向核磁谱图特征峰相似度分析算法的并行计算方法,其特征在于,所述步骤D2、子线程针对自己区域的数据对待测样品与已知物质进行基于DTW特征峰相似度匹配算法,匹配算法的具体流程如下:
D21、主线程开辟共享区域用于存储待测样品是否在已知物质最大峰强度所对应的化学位移出现的值;
D22、在子线程在进行特征峰相似度匹配算法时,找到每个区域中已知物质的最大峰强度所对应的化学位移,并判断待测样品在此化学位移是否出现特征峰;
D23、子线程在得到D22的分析结果后,将结果与共享区域的值进行比对,比对规则是:如果共享区域中的最大峰强度的值是大于分析结果的值,则保留共享区域的结果;如果共享区域的最大峰强度的值是小于分析结果的最大峰强度,则将共享区域的值替换为分析子线程分析结果;
D24、在所有子线程完成分析与判断后由主线程对结果进行汇总,汇总的结果即可反应待测样品是否在已知物质的最大峰强度所对应的化学位移出现特征峰的实验结果。
9.根据权利要求7所述的一种面向核磁谱图特征峰相似度分析算法的并行计算方法,其特征在于,所述步骤D3、对上述提取的特征峰数据进行特征峰面积的标准化,具体的并行策略如下:
D31、子线程分别针对自己的区域通过堆排序找到当前区域的中位数;
D32、主线程通过对子线程的中位数进行统计,并基于统计的值找出所有特征峰的中位数;
D33、子线程拿到特征峰中位数后,基于中位数对特征峰的面积进行归一化,归一化后的值就是后续计算的基础。
10.根据权利要求7所述的一种面向核磁谱图特征峰相似度分析算法的并行计算方法,其特征在于,所述步骤D4、针对待测样品与已知物质的特征峰匹配和数据预处理后,对两者的特征峰面积进行峰面积比例吻合率的并行计算,具体分析流程如下:
D41、子线程分别计算已知物质和待测样品在各个区域的面积之和;
D42、主线程在得到子线程计算结果后,主线程分别计算已知物质和待测样品的总面积;
D43、子线程会根据上述计算的结果计算计算待测样品与已知物质的每个特征峰的峰比例吻合率;
D44、主线程会根据每个子线程计算的待测样品与已知物质的峰面积比例吻合率计算其和;
D45、在得到峰面积比例吻合率后,为了避免一种小概率事件,对峰面积比例吻合率的值通过方差的方式进行检验;
D46、主线程也会根据子线程的分析计算结果计算峰面积比例吻合率的标准差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310255769.7A CN116339986A (zh) | 2023-03-16 | 2023-03-16 | 一种面向核磁谱图特征峰相似度分析算法的并行计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310255769.7A CN116339986A (zh) | 2023-03-16 | 2023-03-16 | 一种面向核磁谱图特征峰相似度分析算法的并行计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116339986A true CN116339986A (zh) | 2023-06-27 |
Family
ID=86888901
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310255769.7A Pending CN116339986A (zh) | 2023-03-16 | 2023-03-16 | 一种面向核磁谱图特征峰相似度分析算法的并行计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116339986A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116973495A (zh) * | 2023-09-21 | 2023-10-31 | 山东鲁地源天然药物有限公司 | 基于气相色谱仪的中药饮片检测数据分析管理系统 |
CN117007724A (zh) * | 2023-10-07 | 2023-11-07 | 广州盛安医学检验有限公司 | 一种基于云计算的高效液相串联质谱分析系统 |
-
2023
- 2023-03-16 CN CN202310255769.7A patent/CN116339986A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116973495A (zh) * | 2023-09-21 | 2023-10-31 | 山东鲁地源天然药物有限公司 | 基于气相色谱仪的中药饮片检测数据分析管理系统 |
CN116973495B (zh) * | 2023-09-21 | 2023-12-15 | 山东鲁地源天然药物有限公司 | 基于气相色谱仪的中药饮片检测数据分析管理系统 |
CN117007724A (zh) * | 2023-10-07 | 2023-11-07 | 广州盛安医学检验有限公司 | 一种基于云计算的高效液相串联质谱分析系统 |
CN117007724B (zh) * | 2023-10-07 | 2023-12-22 | 广州盛安医学检验有限公司 | 一种基于云计算的高效液相串联质谱分析系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116339986A (zh) | 一种面向核磁谱图特征峰相似度分析算法的并行计算方法 | |
Chen et al. | How does the workload look like in production cloud? analysis and clustering of workloads on alibaba cluster trace | |
CN103218435B (zh) | 一种中文文本数据聚类方法及系统 | |
Zhang et al. | Briskstream: Scaling data stream processing on shared-memory multicore architectures | |
Na et al. | Research on k-means clustering algorithm: An improved k-means clustering algorithm | |
US8842965B1 (en) | Large scale video event classification | |
CA3068333C (en) | Systems and methods for intelligently grouping financial product users into cohesive cohorts | |
US10521437B2 (en) | Resource portfolio processing method, device, apparatus and computer storage medium | |
Canny et al. | Machine learning at the limit | |
CN102306205A (zh) | 一种事务分配方法和装置 | |
CN102123172A (zh) | 一种基于神经网络聚类优化的Web服务发现的实现方法 | |
CN115238815A (zh) | 异常交易数据获取方法、装置、设备、介质和程序产品 | |
CN117056465A (zh) | 一种向量搜索方法、系统、电子设备和存储介质 | |
Forchhammer et al. | Duplicate detection on GPUs | |
Leal et al. | TKSimGPU: A parallel top-K trajectory similarity query processing algorithm for GPGPUs | |
Zhang | A model combining LightGBM and neural network for high-frequency realized volatility forecasting | |
CN116680090A (zh) | 一种基于大数据的边缘计算网络管理方法及平台 | |
EP2541409A1 (en) | Parallelization of large scale data clustering analytics | |
CN106372156A (zh) | 数据缓存方法及系统 | |
Li | Community structure discovery algorithm on gpu with cuda | |
Huang et al. | Parallel algorithms for parameter-free structural diversity search on graphs | |
CN202838322U (zh) | 并行数据处理系统 | |
Wang et al. | Interval Number Based Service Selection for Multi-users' Requirements | |
US10198206B2 (en) | Memory mode categorizations | |
Strohm et al. | GPU-accelerated quantification filters for analytical queries in multidimensional databases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |