CN117524385B - 一种高通量全自动材料快速评价分析软件数据处理方法 - Google Patents
一种高通量全自动材料快速评价分析软件数据处理方法 Download PDFInfo
- Publication number
- CN117524385B CN117524385B CN202410008374.1A CN202410008374A CN117524385B CN 117524385 B CN117524385 B CN 117524385B CN 202410008374 A CN202410008374 A CN 202410008374A CN 117524385 B CN117524385 B CN 117524385B
- Authority
- CN
- China
- Prior art keywords
- data
- similarity
- cluster
- data points
- points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000000463 material Substances 0.000 title claims abstract description 134
- 238000011156 evaluation Methods 0.000 title claims abstract description 17
- 238000003672 processing method Methods 0.000 title claims abstract description 9
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000009467 reduction Effects 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 49
- 238000001819 mass spectrum Methods 0.000 claims description 37
- 238000011208 chromatographic data Methods 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 24
- 239000000203 mixture Substances 0.000 claims description 15
- 238000005259 measurement Methods 0.000 claims description 7
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 230000001174 ascending effect Effects 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 3
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 12
- 239000002994 raw material Substances 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- VNWKTOKETHGBQD-UHFFFAOYSA-N methane Chemical compound C VNWKTOKETHGBQD-UHFFFAOYSA-N 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 239000000470 constituent Substances 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000002360 preparation method Methods 0.000 description 3
- 230000001105 regulatory effect Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000003054 catalyst Substances 0.000 description 2
- 238000004587 chromatography analysis Methods 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 239000013077 target material Substances 0.000 description 2
- VGGSQFUCUMXWEO-UHFFFAOYSA-N Ethene Chemical compound C=C VGGSQFUCUMXWEO-UHFFFAOYSA-N 0.000 description 1
- 239000005977 Ethylene Substances 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000006735 epoxidation reaction Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004949 mass spectrometry Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003647 oxidation Effects 0.000 description 1
- 238000007254 oxidation reaction Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C60/00—Computational materials science, i.e. ICT specially adapted for investigating the physical or chemical properties of materials or phenomena associated with their design, synthesis, processing, characterisation or utilisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数字数据处理技术领域,提出了一种高通量全自动材料快速评价分析软件数据处理方法,包括:获取实验参照数据库中所有材料的实验数据;基于色谱图数据以及质谱图数据的降维结果构建数据检索空间,根据数据检索空间中两个数据点对应实验数据之间的相似性确定实验条件相似距离;基于每个数据点所取近邻检索空间内数据点之间的实验条件相似距离确定实验条件相似密度;基于实验条件相似密度以及每个聚类簇中数据点之间的实验条件相似程度确定簇内代表指数;根据簇内代表指数确定初始聚类中心,采用迭代自组织聚类算法基于初始聚类中心得到高通量全自动材料的检索结果。本发明通过增大材料合成原料之间的区分度,提高了材料数据检索的精度。
Description
技术领域
本发明涉及数字数据处理技术领域,具体涉及一种高通量全自动材料快速评价分析软件数据处理方法。
背景技术
高通量材料是指通过高通量实验方法,以高效、快速、自动化的方式制备大量用于新材料测试的材料样品,而高通量全自动材料快速评价分析软件是一种集成色谱和质谱分析数据的软件,通过建立多种实验参照数据库,数据库中包含催化剂的大部分常规反应,比如甲烷氧化,甲烷偶联,乙烯环氧化等特征反应,形成反应模型,对各种反应进行标准化的操作。在统一的条件下,对催化剂的反应性能和条件进行快速的筛选,并提供实验分析所需的字母数字报告,字母数字报告包括实验工艺的基本信息(温度、压力等)、色谱和质谱的数据图等多个方面的信息,对材料科学的研究、新材料开发和工程应用具有重要的意义。
为了更好地管理和利用高通量材料的实验数据资源,需要对软件中的实验参照数据库进行相关实验数据的快速、准确地检索,以帮助实验人员快速找到之前所做过的试验结果,避免因实验数据丢失或遗漏导致实验结果重复或无法复现的情况。传统的数据检索方法如:线性检索方法具有较高的检索精度,但不适用于处理高维数据;基于索引结构,如R树、kd树的检索方法,能处理高维数据,但是索引的构建和维护成本较高,并随着数据维度的增加索引检索的效率下降明显;基于聚类的近似最近临检索方法,通过对数据进行划分来加速高维数据的检索效率,但是数据的划分效果影响数据的检索精度。迭代自组织聚类ISODATA(Iterative Self-Organizing Data Analysis Technology Algorithm)算法因具有较好的自适应性、鲁棒性和高效性的优点,适用于高维数据的自适应聚类,但是该算法中的初始聚类中心是随机选取的,而随机选择可能会导致初始聚类中心的选取质量较差,造成对高维数据进行数据聚类的效果较差。
发明内容
本发明提供一种高通量全自动材料快速评价分析软件数据处理方法,以解决迭代自组织聚类算法初始聚类中心随机选择造成的材料数据检索准确率低的问题,所采用的技术方案具体如下:
本发明一个实施例一种高通量全自动材料快速评价分析软件数据处理方法,该方法包括以下步骤:
获取实验参照数据库中所有材料的实验数据,所述实验数据包括温度、压力、色谱图数据以及质谱图数据;
基于色谱图数据以及质谱图数据的降维结果构建数据检索空间,根据数据检索空间中两个数据点对应实验数据之间的相似性确定两个数据点之间的实验条件相似距离;
基于检索空间中每个数据点所取近邻检索空间内数据点之间的实验条件相似距离确定检索空间中每个数据点的实验条件相似密度;
基于每个数据点的实验条件相似密度以及每个数据点与其所在聚类簇中数据点之间的实验条件相似程度确定每个数据点的簇内代表指数;
根据每个聚类簇中所有数据点的簇内代表指数确定每个聚类簇内的初始聚类中心,采用迭代自组织聚类算法基于所述初始聚类中心得到高通量全自动材料的检索结果。
优选的,所述基于色谱图数据以及质谱图数据的降维结果构建数据检索空间的方法为:
将每个材料的色谱图数据中所有点的纵坐标按照所有点横坐标取值升序顺序排列组成的序列作为每个材料的色谱数据序列;将每个材料的色谱数据序列作为矩阵中的一个行向量,将所有材料的色谱数据序列组成的矩阵作为色谱数据矩阵;
将每个材料的质谱图数据中所有点的纵坐标按照所有点横坐标取值升序顺序排列组成的序列作为每个材料的质谱数据序列;将每个材料的质谱数据序列作为矩阵中的一个行向量,将所有材料的质谱数据序列组成的矩阵作为质谱数据矩阵;
分别将色谱数据矩阵、质谱数据矩阵作为输入,采用数据降维算法分别将每个材料的色谱数据序列、质谱数据序列降维至预设数量个维度的数据,将实验数据中的温度、压力各自作为一个维度,基于预设数量个维度的数据、温度、压力构建数据检索空间。
优选的,所述根据数据检索空间中两个数据点对应实验数据之间的相似性确定两个数据点之间的实验条件相似距离的方法为:
根据数据检索空间中两个数据点对应色谱图数据以及质谱图数据之间的相似性确定两个数据点之间的材料成分相似度;
将数据检索空间中两个数据点之间的欧氏距离与两个数据点之间的材料成分相似度的比值作为两个数据点之间的实验条件相似距离。
优选的,所述根据数据检索空间中两个数据点对应色谱图数据以及质谱图数据之间的相似性确定两个数据点之间的材料成分相似度的方法为:
将数据检索空间中两个数据点对应的色谱数据序列之间的度量距离与预设参数之和的倒数作为两个数据点之间的色谱数据相似度;
将数据检索空间中两个数据点对应的质谱数据序列之间的度量距离与预设参数之和的倒数作为两个数据点之间的质谱数据相似度;
两个数据点之间的材料成分相似度由两个数据点之间的色谱数据相似度、质谱数据相似度组成,其中,所述材料成分相似度分别与色谱数据相似度、质谱数据相似度成正比关系。
优选的,所述基于检索空间中每个数据点所取近邻检索空间内数据点之间的实验条件相似距离确定检索空间中每个数据点的实验条件相似密度的方法为:
将数据检索空间中的每个数据点作为一个中心点,将距离每个中心点的欧氏距离不大于预设距离的所有数据点构成的空间作为每个中心点的近邻检索空间;
将每个中心点与其近邻检索空间内所有数据点之间的实验条件相似距离的累加和作为第一距离值,将第一距离值与预设参数之和作为分母;
将每个中心点的近邻检索空间内数据点的数量与分母的比值作为每个中心点的实验条件相似密度。
优选的,所述基于每个数据点的实验条件相似密度以及每个数据点与其所在聚类簇中数据点之间的实验条件相似程度确定每个数据点的簇内代表指数的方法为:
根据每个数据点所取近邻检索空间中与其属于同一聚类簇的数据点的实验条件相似密度确定每个数据点的实验相似聚集度;
将每个数据点与其所在聚类簇内所有数据点之间的实验条件相似距离的均值作为每个数据点的簇内相似距离;
将每个数据点的簇内相似距离与预设参数之和作为分母,将每个数据点的实验相似聚集度与分母的比值作为每个数据点的簇内代表指数。
优选的,所述聚类簇的获取方法为:
将数据检索空间中所有数据点作为输入,将两个数据点之间的实验条件相似距离作为聚类时的度量距离,采用聚类算法得到预设数量个聚类簇。
优选的,所述根据每个数据点所取近邻检索空间中与其属于同一聚类簇的数据点的实验条件相似密度确定每个数据点的实验相似聚集度的获取方法为:
将每个数据点所取近邻检索空间中数据点组成的集合与每个数据点所在聚类簇的交集作为每个数据点的相似数据点集合;
将每个数据点的相似数据点集合内所有数据点的实验条件相似密度之和与所述相似数据点集合内数据点数量的比值将作为第一密度因子;
每个数据点的实验相似聚集度由每个数据点的实验条件相似密度、第一密度因子两部分组成,其中,所述实验相似聚集度分别与实验条件相似密度、第一密度因子成正比关系。
优选的,所述根据每个聚类簇中所有数据点的簇内代表指数确定每个聚类簇内的初始聚类中心的方法为:
将每个聚类簇中簇内代表指数最大值对应的数据点作为一个候选数据点;
将每个候选数据点与其余候选数据点之间实验条件相似距离的累加和与所有候选数据点数量的比值作为第一乘积因子;
将每个候选数据点的簇内代表指数与第一乘积因子的乘积作为每个候选数据点的初始选择指数;
将所有候选数据点的初始选择指数降序排列结果中前预设数量个元素对应的候选数据点作为初始聚类中心。
优选的,所述采用迭代自组织聚类算法基于所述初始聚类中心得到高通量全自动材料的检索结果的方法为:
采用迭代自组织聚类基于初始聚类中心将数据检索空间中所有数据点划分成预设数量个聚类簇,将每个聚类簇中所有数据点在数据检索空间中每个维度上的均值确定的数据点作为每个聚类簇的聚类簇中心点;
将待分析的高通量全自动材料映射到数据检索空间得到的数据点作为目标数据点,将与目标数据点之间欧氏距离最小的聚类簇中心点所在的聚类簇作为目标数据点的检索数据库,从目标数据点的检索数据库中获取预设数量个字母数字报告作为待分析的高通量全自动材料的检索参考报告。
本发明的有益效果是:根据各个材料的实验数据构建数据检索空间,基于数据检索空间中各个数据点对应的质谱图数据和色谱图数据构建材料成分相似度,并结合数据检索空间中数据点的分布情况依次构建实验条件相似距离和实验条件相似密度,提高了数据检索空间中数据点对应材料的材料合成原料之间的区分度;其次基于实验条件相似距离和实验条件相似密度构建各个聚类簇中数据点的簇内代表指数,有益效果在于能够使得各个候选数据点能更好的反应各个聚类簇中的数据点的分布情况,并降低了数据检索空间中的孤立点对初始聚类中心选择的影响;并基于簇内代表指数和实验条件相似距离构建各个候选数据点的初始选择指数,提高了ISODATA算法聚类的效果和准确性,并基于得到的初始聚类中心选择指数完成对待分析的高通量全自动材料的实验数据在实验参照数据库中的检索,提高了数据检索的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一个实施例所提供的一种高通量全自动材料快速评价分析软件数据处理方法的流程示意图;
图2为本发明一个实施例所提供的一种高通量全自动材料快速评价分析软件数据处理方法的实施流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明一个实施例提供的一种高通量全自动材料快速评价分析软件数据处理方法流程图,该方法包括以下步骤:
步骤S001,获取实验参照数据库中所有材料的实验数据。
从高通量全自动材料快速评价分析软件的实验参照数据库中获取所有材料的实验数据,本发明以实验参照数据库中的温度、压力、色谱图数据和质谱图数据为例,对待分析的高通量全自动材料的实验数据在实验参照数据库中进行相似实验数据的检索,其中目标材料的温度、压力指的是对目标材料进行材料制备时的恒定温度值和恒定压力值,在高通量材料的制备过程中,通常会固定实验条件,即保持高通量材料制备过程中温度和压力等参数不变。
进一步地,对于所获温度、压力数据进行max-min归一化的去量纲处理,得到每个材料温度、压力的归一化结果,max-min归一化为公知技术,具体过程不再赘述。
至此,得到所有材料的实验数据,用于后续数据检索空间的构建。
步骤S002,基于色谱图数据以及质谱图数据的降维结果构建数据检索空间,根据数据检索空间中两个数据点对应实验数据之间的相似性确定两个数据点之间的实验条件相似距离。
本发明的目的在于对待分析的高通量全自动材料的实验数据,在实验参照数据库中进行相似实验数据的检索,根据检索得到的字母数据报告进行分析。因此由于不同实验数据的存在形式不同,对检索过程造成较大的干扰。因此本发明中考虑通过分别对色谱图数据、质谱图数据进行降维处理,基于降维处理的结果构建数据检索空间。
具体地,色谱图数据、质谱图数据进行相同方式的降维。以色谱图数据为例,对于任意一个材料的色谱图数据,以第i个材料的色谱图数据为例,将第i个材料的色谱图数据中所有点的纵坐标按照所有点横坐标取值升序顺序排列组成的序列作为第i个材料的色谱数据序列。获取所有材料的色谱图数据后,按照上述方式得到每个材料的色谱数据序列,其次,将每个材料的色谱数据序列作为矩阵中的一个行向量,将所有材料的色谱数据序列组成的矩阵作为色谱数据矩阵。根据上述流程,获取每个材料的质谱图数据对应的质谱数据序列,基于所有材料的质谱数据序列构建质谱数据矩阵。
进一步地,分别将色谱数据矩阵、质谱数据矩阵作为输入,利用主成分分析算法分别将每个材料的色谱数据序列、质谱数据序列降维至1*M的数据,M的大小取经验值3,主成分分析算法为公知技术,具体过程不再赘述。其次,分别将压力、温度作为一个维度,结合色谱数据矩阵对应的1*M维的数据、质谱数据矩阵对应的1*M维的数据,构建一个维度为(2M+2)的数据检索空间,每个材料都会在数据检索空间中对应一个数据点。
由于色谱图数据反应了材料中化合物的种类和相对含量,质谱图数据反应了材料中各个化合物成分的分子结构、离子特征,因此组成原料越相似的两个材料,在数据检索空间中对应数据点的位置越相似。
基于上述分析,此处构建材料成分相似度,用于表征不同数据点对应材料之间的组成原料的相似程度。计算数据检索空间中数据点a、b之间的材料成分相似度:
式中,是数据点a、b之间的色谱数据相似度,/>、/>分别是数据点a、b对应的色谱数据序列,/>是序列/>、/>之间的DTW(Dynamic Time Warping)距离,/>是调参因子,用于防止分母为0,/>的大小取经验值0.1,DTW距离的计算为公知技术,具体过程不再赘述;
是数据点a、b之间的质谱数据相似度,/>、/>分别是数据点a、b对应的色谱数据序列,/>是序列/>、/>之间的欧氏距离;
数据点a、b之间的材料成分相似度。
其中,数据点a、b对应材料的色谱图数据中色谱曲线之间越接近,对应材料的色谱图数据中出峰时间和峰面积越接近,数据点a、b对应材料的色谱数据序列之间的差异越小,的值越小,/>的值越大;数据点a、b对应材料的组成成分越相似,对应材料的质谱图数据中质荷比的分布越相似,各个质荷比的相对强度越接近,数据点a、b对应的色谱数据序列差异越小,/>的值越小,/>的值越大;即/>的值越大,数据点a、b对应的两个材料的组成原料越相似。
根据上述步骤,获取数据检索空间中任意两个数据点之间的材料成分相似度。其次,基于数据检索两个数据点之间的空间位置确定两个数据点之间的实验条件相似距离,计算数据检索空间中数据点a、b之间的实验条件相似距离:
式中,是数据检索空间中数据点a、b之间的实验条件相似距离,/>是数据检索空间中数据点a、b之间的欧氏距离,/>是数据点a、b之间的材料成分相似度。
其中,两个数据点对应材料在相同实验条件下进行实验分析的可能性越大,数据检索空间中数据点a、b的空间距离越小,的值越小;/>的值越大,数据点a、b对应的两个材料的组成原料越相似,即/>的值越小,数据点a、b对应的材料越可能属于由相同的材料合成原料在相似的实验条件下得到的两种材料。
至此,得到数据检索空间中任意两个数据点之间的实验条件相似距离,用于后续数据点的聚类分析。
步骤S003,基于检索空间中每个数据点所取近邻检索空间内数据点之间的实验条件相似距离确定检索空间中每个数据点的实验条件相似密度;基于每个数据点的实验条件相似密度以及每个数据点与其所在聚类簇中数据点之间的实验条件相似程度确定每个数据点的簇内代表指数。
对于数据检索空间中的任意一个数据点,以数据点a为例,以数据点a为中心点,获取数据检索空间中所有距离数据点a的欧氏距离不超于距离阈值Y的数据点,将所述所有与数据点a的欧氏距离不超于距离阈值Y的数据点构建的空间作为数据点a的近邻检索空间,Y的大小取经验值5。根据数据点a的近邻检索空间内数据点的分布确定数据点a的实验条件相似密度:
式中,是数据点a的实验条件相似密度,N是数据点a的近邻检索空间中数据点的数量,g是数据点a的近邻检索空间中第g个数据点,/>是数据点a、g之间的实验条件相似距离,/>是调参因子,用于防止分母为0,/>的大小取经验值0.1。
其中,与数据点a对应材料的组成原料、实验条件相似的材料越多,数据检索空间中数据点a所在近邻检索空间内的数据点越多,N的值越大,第一距离值的值越小。
进一步地,在高通量材料实验中,相同的材料合成原料在不同的实验条件下,比如材料制备压力、温度等参数的不同,保持实验流程不变,会得到具有相似化学组成和结构的材料,则在数据检索空间中会出现不同的聚集区域。因此,将数据检索空间中的所有数据点作为输入,将两个数据点之间的实验条件相似距离作为聚类时的度量距离,使用k-means算法对数据检索空间中的数据点进行聚类,得到k个聚类簇,其中k的大小取的向下取整结果,n为数据检索空间中数据点的总数,k-means算法为公知技术,不再赘述,每个聚类簇均表示一组可能使用了相同材料合成原料进行不同实验得到的材料。因此,通过对每个聚类簇内的数据点之间的差异性进行评估,判断每个数据点能否成为代表其所在聚类簇的数据点。具体地,对于每个聚类簇中的任意一个数据点,以第k个聚类簇中第j个数据点为例,将第k个聚类簇中第j个数据点所取近邻检索空间中数据点组成的集合与第k个聚类簇的交集作为第j个数据点的相似数据点集合。
基于上述分析,此处构建簇内代表指数,用于表征每个数据点能够代表其所在聚类簇的概率高低。计算第k个聚类簇中第j个数据点的簇内代表指数:
式中,是第k个聚类簇中第j个数据点的实验相似聚集度,/>是第j个数据点的相似数据点集合中数据点的数量,h是第j个数据点的相似数据点集合中的第h个数据点,、/>分别是所述第j个数据点、第h个数据点的实验条件相似密度;
是第k个聚类簇中第j个数据点的簇内相似距离,/>是第k个聚类簇内数据点的总数,/>是第k个聚类簇内第/>个数据点,/>是第j个、第/>个数据点之间的实验条件相似距离;
是第k个聚类簇中第j个数据点的簇内代表指数,/>是调参因子,用于防止分母为0,/>的大小取经验值0.1。
其中,第k个聚类簇中第j个数据点所取近邻检索空间中与所述第j个数据点对应材料具有相似组成原料、相似实验条件的材料越多,的值越大,第j个数据点的相似数据点集合中数据点的实验条件相似密度也越大,第一密度因子/>的值越大,/>的值越大;第k个聚类簇中第j个数据点对应材料与第k个聚类簇内其余数据点对应材料之间的实验条件越相似,/>的值越小;即/>的值越大,第k个聚类簇中第j个数据点对应材料的组成原料和实验条件越能反映第k个聚类簇内数据点对应材料的组成原料和实验条件,成为第k个聚类簇的代表点的概率越大。
至此,得到每个聚类簇中每个数据点的簇内代表指数,用于后续确定初始聚类中心。
步骤S004,根据每个聚类簇中所有数据点的簇内代表指数确定每个聚类簇内的初始聚类中心,采用迭代自组织聚类算法基于所述初始聚类中心得到高通量全自动材料的检索结果。
根据上述步骤,分别获取每个聚类簇中所有数据点的簇内代表指数,将每个聚类簇中簇内代表指数最大值对应的数据点作为一个候选数据点。基于每个候选数据点的簇内代表指数评估每个候选数据点是否能够成为迭代自组织聚类算法组的初始聚类中心。计算第p个候选数据点的初始选择指数:
式中,是第p个候选数据点的初始选择指数,m是所有候选数据点的数量,x是第x个候选数据点,/>是第p个、第x个候选数据点之间的实验条件相似距离。
其中,第p个候选数据点对应材料的组成原料和实验条件越能反映其所在聚类簇内数据点对应材料的组成原料和实验条件,第p个候选数据点越应该成为初始聚类中心点;第p个候选数据点与其余候选数据点之间的差异越大,第一乘积因子的值越大,越能更好地反映数据检索空间中实验数据的不同分布情况,说明第p个候选数据点越能代表一类数据点,第p个候选数据点越应当作为初始聚类中心。
根据上述步骤,获取所有候选数据点的初始选择指数,取所有候选数据点的初始选择指数降序排列结果中前K个元素对应的候选数据点作为初始聚类中心,K的大小取经验值18。进一步的,将所取18个初始聚类中心作为迭代自组织聚类算法中的初始聚类中心,将数据检索空间中的所有数据点作为输入,算法中每一类中允许的最少样本数目为,每个类簇内样本距离分布的标准差上限为/>,两个聚类中心间的最小距离下限为/>,在每次迭代中最多可以进行合并操作的次数为/>,允许的最多迭代次数/>,/>、/>、/>、/>、/>的大小分别取经验值15、0.2、0.1、10、100,采用迭代自组织聚类算法奖数据检索空间中的所有数据点划分成r个聚类簇,迭代自组织聚类算法为公知技术,具体过程不再赘述。
进一步地,对于任意一个聚类簇,以第r个聚类簇为例,获取第r个聚类簇中所有数据点在数据检索空间中每个维度上取值的均值,则能够得到(2M+2)个维度上的均值,将(2M+2)个维度上的均值确定的数据点作为第r个聚类簇的聚类簇中心点。根据上述步骤,分别获取r个聚类簇的聚类簇中心点,其次基于所述聚类簇中心点检索待分析高通量全自动材料的字母数字报告,整个实施流程如图2所示。
进一步地,将待分析的高通量全自动材料映射到数据检索空间得到的数据点作为目标数据点,将与目标数据点之间欧氏距离最小的聚类簇中心点所在的聚类簇作为目标数据点的检索数据库,从目标数据点的检索数据库中获取X个字母数字报告作为待分析的高通量全自动材料的检索参考报告,X的大小取经验值10,实施者可根据具体的材料选择适合数量的字母数据报告。根据X个待分析的高通量全自动材料的检索参考报告对高通量全自动材料进行后续的原料分析。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种高通量全自动材料快速评价分析软件数据处理方法,其特征在于,该方法包括以下步骤:
获取实验参照数据库中所有材料的实验数据,所述实验数据包括温度、压力、色谱图数据以及质谱图数据;
基于色谱图数据以及质谱图数据的降维结果构建数据检索空间,根据数据检索空间中两个数据点对应实验数据之间的相似性确定两个数据点之间的实验条件相似距离;
基于检索空间中每个数据点所取近邻检索空间内数据点之间的实验条件相似距离确定检索空间中每个数据点的实验条件相似密度;
基于每个数据点的实验条件相似密度以及每个数据点与其所在聚类簇中数据点之间的实验条件相似程度确定每个数据点的簇内代表指数;
根据每个聚类簇中所有数据点的簇内代表指数确定每个聚类簇内的初始聚类中心,采用迭代自组织聚类算法基于所述初始聚类中心得到高通量全自动材料的检索结果;
所述根据数据检索空间中两个数据点对应实验数据之间的相似性确定两个数据点之间的实验条件相似距离的方法为:
根据数据检索空间中两个数据点对应色谱图数据以及质谱图数据之间的相似性确定两个数据点之间的材料成分相似度;
将数据检索空间中两个数据点之间的欧氏距离与两个数据点之间的材料成分相似度的比值作为两个数据点之间的实验条件相似距离;
所述基于检索空间中每个数据点所取近邻检索空间内数据点之间的实验条件相似距离确定检索空间中每个数据点的实验条件相似密度的方法为:
将数据检索空间中的每个数据点作为一个中心点,将距离每个中心点的欧氏距离不大于预设距离的所有数据点构成的空间作为每个中心点的近邻检索空间;
将每个中心点与其近邻检索空间内所有数据点之间的实验条件相似距离的累加和作为第一距离值,将第一距离值与预设参数之和作为分母;
将每个中心点的近邻检索空间内数据点的数量与分母的比值作为每个中心点的实验条件相似密度;
所述基于每个数据点的实验条件相似密度以及每个数据点与其所在聚类簇中数据点之间的实验条件相似程度确定每个数据点的簇内代表指数的方法为:
根据每个数据点所取近邻检索空间中与其属于同一聚类簇的数据点的实验条件相似密度确定每个数据点的实验相似聚集度;
将每个数据点与其所在聚类簇内所有数据点之间的实验条件相似距离的均值作为每个数据点的簇内相似距离;
将每个数据点的簇内相似距离与预设参数之和作为分母,将每个数据点的实验相似聚集度与分母的比值作为每个数据点的簇内代表指数。
2.根据权利要求1所述的一种高通量全自动材料快速评价分析软件数据处理方法,其特征在于,所述基于色谱图数据以及质谱图数据的降维结果构建数据检索空间的方法为:
将每个材料的色谱图数据中所有点的纵坐标按照所有点横坐标取值升序顺序排列组成的序列作为每个材料的色谱数据序列;将每个材料的色谱数据序列作为矩阵中的一个行向量,将所有材料的色谱数据序列组成的矩阵作为色谱数据矩阵;
将每个材料的质谱图数据中所有点的纵坐标按照所有点横坐标取值升序顺序排列组成的序列作为每个材料的质谱数据序列;将每个材料的质谱数据序列作为矩阵中的一个行向量,将所有材料的质谱数据序列组成的矩阵作为质谱数据矩阵;
分别将色谱数据矩阵、质谱数据矩阵作为输入,采用数据降维算法分别将每个材料的色谱数据序列、质谱数据序列降维至预设数量个维度的数据,将实验数据中的温度、压力各自作为一个维度,基于预设数量个维度的数据、温度、压力构建数据检索空间。
3.根据权利要求1所述的一种高通量全自动材料快速评价分析软件数据处理方法,其特征在于,所述根据数据检索空间中两个数据点对应色谱图数据以及质谱图数据之间的相似性确定两个数据点之间的材料成分相似度的方法为:
将数据检索空间中两个数据点对应的色谱数据序列之间的度量距离与预设参数之和的倒数作为两个数据点之间的色谱数据相似度;
将数据检索空间中两个数据点对应的质谱数据序列之间的度量距离与预设参数之和的倒数作为两个数据点之间的质谱数据相似度;
两个数据点之间的材料成分相似度由两个数据点之间的色谱数据相似度、质谱数据相似度组成,其中,所述材料成分相似度分别与色谱数据相似度、质谱数据相似度成正比关系。
4.根据权利要求1所述的一种高通量全自动材料快速评价分析软件数据处理方法,其特征在于,所述聚类簇的获取方法为:
将数据检索空间中所有数据点作为输入,将两个数据点之间的实验条件相似距离作为聚类时的度量距离,采用聚类算法得到预设数量个聚类簇。
5.根据权利要求1所述的一种高通量全自动材料快速评价分析软件数据处理方法,其特征在于,所述根据每个数据点所取近邻检索空间中与其属于同一聚类簇的数据点的实验条件相似密度确定每个数据点的实验相似聚集度的获取方法为:
将每个数据点所取近邻检索空间中数据点组成的集合与每个数据点所在聚类簇的交集作为每个数据点的相似数据点集合;
将每个数据点的相似数据点集合内所有数据点的实验条件相似密度之和与所述相似数据点集合内数据点数量的比值将作为第一密度因子;
每个数据点的实验相似聚集度由每个数据点的实验条件相似密度、第一密度因子两部分组成,其中,所述实验相似聚集度分别与实验条件相似密度、第一密度因子成正比关系。
6.根据权利要求1所述的一种高通量全自动材料快速评价分析软件数据处理方法,其特征在于,所述根据每个聚类簇中所有数据点的簇内代表指数确定每个聚类簇内的初始聚类中心的方法为:
将每个聚类簇中簇内代表指数最大值对应的数据点作为一个候选数据点;
将每个候选数据点与其余候选数据点之间实验条件相似距离的累加和与所有候选数据点数量的比值作为第一乘积因子;
将每个候选数据点的簇内代表指数与第一乘积因子的乘积作为每个候选数据点的初始选择指数;
将所有候选数据点的初始选择指数降序排列结果中前预设数量个元素对应的候选数据点作为初始聚类中心。
7.根据权利要求1所述的一种高通量全自动材料快速评价分析软件数据处理方法,其特征在于,所述采用迭代自组织聚类算法基于所述初始聚类中心得到高通量全自动材料的检索结果的方法为:
采用迭代自组织聚类基于初始聚类中心将数据检索空间中所有数据点划分成预设数量个聚类簇,将每个聚类簇中所有数据点在数据检索空间中每个维度上的均值确定的数据点作为每个聚类簇的聚类簇中心点;
将待分析的高通量全自动材料映射到数据检索空间得到的数据点作为目标数据点,将与目标数据点之间欧氏距离最小的聚类簇中心点所在的聚类簇作为目标数据点的检索数据库,从目标数据点的检索数据库中获取预设数量个字母数字报告作为待分析的高通量全自动材料的检索参考报告。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410008374.1A CN117524385B (zh) | 2024-01-04 | 2024-01-04 | 一种高通量全自动材料快速评价分析软件数据处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410008374.1A CN117524385B (zh) | 2024-01-04 | 2024-01-04 | 一种高通量全自动材料快速评价分析软件数据处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117524385A CN117524385A (zh) | 2024-02-06 |
CN117524385B true CN117524385B (zh) | 2024-04-16 |
Family
ID=89744262
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410008374.1A Active CN117524385B (zh) | 2024-01-04 | 2024-01-04 | 一种高通量全自动材料快速评价分析软件数据处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117524385B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117892231B (zh) * | 2024-03-18 | 2024-05-28 | 天津戎军航空科技发展有限公司 | 一种碳纤维弹匣生产数据智能管理方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998044839A1 (en) * | 1997-04-03 | 1998-10-15 | National Research Council Of Canada | Method of assessing tissue viability using near-infrared spectroscopy |
CN105975584A (zh) * | 2016-05-03 | 2016-09-28 | 河北大学 | 一种数学表达式相似距离测量方法 |
CN108038348A (zh) * | 2017-12-11 | 2018-05-15 | 首都航天机械公司 | 一种基于材料成份相似性的热处理工艺知识推送方法 |
CN108140060A (zh) * | 2015-05-29 | 2018-06-08 | 沃特世科技公司 | 用于处理质谱数据的技术 |
CN116522381A (zh) * | 2023-04-10 | 2023-08-01 | 桂林电子科技大学 | 一种基于差分隐私的非平衡位置数据的发布方法 |
CN116735807A (zh) * | 2023-08-09 | 2023-09-12 | 山东优控智能技术有限公司 | 基于多传感器数据的空气质量检测评估方法 |
-
2024
- 2024-01-04 CN CN202410008374.1A patent/CN117524385B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998044839A1 (en) * | 1997-04-03 | 1998-10-15 | National Research Council Of Canada | Method of assessing tissue viability using near-infrared spectroscopy |
CN108140060A (zh) * | 2015-05-29 | 2018-06-08 | 沃特世科技公司 | 用于处理质谱数据的技术 |
CN105975584A (zh) * | 2016-05-03 | 2016-09-28 | 河北大学 | 一种数学表达式相似距离测量方法 |
CN108038348A (zh) * | 2017-12-11 | 2018-05-15 | 首都航天机械公司 | 一种基于材料成份相似性的热处理工艺知识推送方法 |
CN116522381A (zh) * | 2023-04-10 | 2023-08-01 | 桂林电子科技大学 | 一种基于差分隐私的非平衡位置数据的发布方法 |
CN116735807A (zh) * | 2023-08-09 | 2023-09-12 | 山东优控智能技术有限公司 | 基于多传感器数据的空气质量检测评估方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117524385A (zh) | 2024-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117524385B (zh) | 一种高通量全自动材料快速评价分析软件数据处理方法 | |
CN107742061B (zh) | 一种蛋白质相互作用预测方法、系统和装置 | |
CN113362899B (zh) | 一种基于深度学习的蛋白质质谱数据的分析方法及系统 | |
Van der Laan et al. | A new algorithm for hybrid clustering of gene expression data with visualization and the bootstrap | |
CN111027636B (zh) | 基于多标签学习的无监督特征选择方法及系统 | |
CN115240772A (zh) | 一种基于图神经网络的解析单细胞多组学中活性通路的方法 | |
CN111428764B (zh) | 一种用于图像类别识别的图像聚类方法 | |
CN114139639B (zh) | 一种基于自步邻域保持嵌入的故障分类方法 | |
CN116564409A (zh) | 基于机器学习的转移性乳腺癌转录组测序数据识别方法 | |
CN113159220B (zh) | 基于随机森林的混凝土侵彻深度经验算法评价方法和装置 | |
CN111292807B (zh) | 一种单细胞转录组数据中分析双细胞的方法 | |
CN111601358B (zh) | 一种多阶段分层分簇空间相关性温度感知数据去冗余方法 | |
Ceccarelli et al. | Improving fuzzy clustering of biological data by metric learning with side information | |
CN114118292B (zh) | 一种基于线性判别邻域保持嵌入的故障分类方法 | |
CN113762154A (zh) | 一种基于点云数据集的零件特征识别方法 | |
CN110766087A (zh) | 一种基于离差最大化法改进k-means的提高数据聚类质量的方法 | |
WO2021004355A1 (zh) | 构建诱饵库、构建目标-诱饵库、代谢组fdr鉴定的方法及装置 | |
CN110265151B (zh) | 一种基于ehr中异构时态数据的学习方法 | |
CN107609348B (zh) | 高通量转录组数据样本分类数目估计方法 | |
CN112651424A (zh) | 基于lle降维和混沌算法优化的gis绝缘缺陷识别方法及系统 | |
CN112418352A (zh) | 一种基于谱聚类的过采样方法 | |
CN112308160A (zh) | 一种k—均值聚类人工智能优化算法 | |
CN115017125B (zh) | 改进knn方法的数据处理方法和装置 | |
CN116662859B (zh) | 非遗文化数据特征选择方法 | |
CN117892231B (zh) | 一种碳纤维弹匣生产数据智能管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |