CN115114471A

CN115114471A - 两种数据格式的核磁共振氢谱图检索方法

Info

Publication number: CN115114471A
Application number: CN202210746938.2A
Authority: CN
Inventors: 朱和贵; 周彦格; 杨希
Original assignee: Northeastern University China
Current assignee: Northeastern University China
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-09-27

Abstract

本发明公开的两种数据格式的核磁共振氢谱图检索方法，包括：步骤1：判断输入的数据是图像格式数据或txt文件格式数据；步骤2：如果输入数据是txt文件格式数据，则将txt文件格式数据转换成图像格式后执行步骤3；如果输入数据是图像格式数据，则直接执行步骤3；步骤3：对图像格式数据进行预处理，获得峰图；步骤4：对峰图进行特征提取获得初始特征矩阵，根据峰组间距阈值对初始特征矩阵进行调整获得最终的输入数据特征矩阵；步骤5：分别计算输入数据特征矩阵与数据库中所有的样品数据特征矩阵的距离，按照距离升序排序获得前5位的谱图以及该谱图对应的物质名称。本发明方法可对输入的两种数据格式进行检索，具有较高的匹配效率和精度。

Description

两种数据格式的核磁共振氢谱图检索方法

技术领域

本发明属于文本、图像信息匹配技术领域，涉及两种数据格式的核磁共振氢谱图检索方法。

背景技术

核磁共振氢谱(也称氢谱)是一种将分子中氢-1的核磁共振效应体现于核磁共振波谱法中的应用。可用来确定分子结构。当样品中含有氢，特别是同位素氢-1的时候，核磁共振氢谱可被用来确定分子的结构。通过与碳-13核磁共振协同使用，核磁共振氢谱成为了表征分子结构的一个强有力的工具。但由于核磁共振氢谱通常需要专业的设施与人员经过精密的测量与解析才能分析出物质成分，而且氢谱匹配过程繁琐，需导出TXT文件的原始数据进行检索。因此，寻找文本数据与对应的图像间的匹配算法，实现文本数据和图像数据同时检索成为亟待解决的需求。

20世纪90年代后，随着计算机数字化的快速发展及因特网的广泛普及，出现了基于内容的图像检索如图像颜色、纹理、布局等进行分析和检索的图像检索技术。其查询条件就是一张图像，或是对图像内容的描述。它建立索引的方式是通过提取底层特征，然后通过计算比较这些特征和查询条件之间的距离，来决定两张图片的相似程度。但氢谱图内容特征与实际应用特征表征差异较大,常规的基于内容的图像检索与基于文本的图像检索技术原理和方法与实际应用在氢谱图数据库检索的原理和方法相距甚远，若直接应用常规图像检索方法则无法匹配正确结果。

中国专利“CN201410830581.1一种基于向量模型的气相色谱质谱谱图检索方法”提供了一种基于向量模型的气相色谱质谱谱图检索方法。仅仅基于向量空间模型进行匹配，仅能满足理想采集情况，面对实际复杂的谱图不具有良好的适应性和精度。

发明内容

为解决上述技术问题，本发明的目的是提供一种两种数据格式的核磁共振氢谱图检索方法，通过提取数据的高维特征，并计算输入数据高维特征与数据库中数据高维特征之间的相似度，检索出数据库中的匹配度前5位的谱图以及该谱图对应的物质名称。

本发明提供一种两种数据格式的核磁共振氢谱图检索方法，包括：

步骤1：判断输入的数据是图像格式数据或txt文件格式数据；

步骤2：如果输入数据是txt文件格式数据，则将txt文件格式数据转换成图像格式后执行步骤3；如果输入数据是图像格式数据，则直接执行步骤3；

步骤3：对图像格式数据进行预处理，获得峰图；

步骤4：提取峰图特征获得初始特征矩阵，根据峰组间距阈值对初始特征矩阵进行调整获得最终的输入数据特征矩阵；

步骤5：分别计算输入数据特征矩阵与数据库中所有的样品数据特征矩阵的距离，按照距离升序排序获得前5位的谱图以及该谱图对应的物质名称。

在本发明的两种数据格式的核磁共振氢谱图检索方法中，所述步骤2中将txt文件格式数据转换成图像格式具体为：

步骤2.1：使用PIL库，按照txt中的数据精确作图，即获得数据对应的谱图；

步骤2.2：对步骤2.1中的谱图进行裁剪，删除冗余信息，保留核心数据。

在本发明的两种数据格式的核磁共振氢谱图检索方法中，所述步骤3具体为：

步骤3.2.1：对输入的谱图进行二值化处理得到0-1像素矩阵；

步骤3.2.2：对像素矩阵逐行扫描，确定基线的位置，将基线以下和两端以外的区域所有像素值设置为1；

步骤3.2.3：峰的起点和终点都在基线上，基于定位到基线的位置，按照从左到右的顺序定位峰的第一个点和最后一个点的坐标，记录并存储所有峰像素点坐标；

步骤3.2.4：按照记录的峰像素点的坐标画出峰图。

在本发明的两种数据格式的核磁共振氢谱图检索方法中，所述步骤4具体为：

步骤4.1：获取峰组数量；

步骤4.1.1：对预处理后获得的峰图进行从上到下的像素级扫描；

步骤4.1.2：设定聚类阈值按照像素点的横坐标对像素点进行聚类；

步骤4.1.3：像素点的聚类数量即为峰组的数量，峰组数决定所提取的特征矩阵的列数量；

步骤4.2：获取每个峰组的高度占比；

步骤4.2.1：对于每一个峰组，确定峰组以及峰组的高度，取最大值作为峰组的高度；

步骤4.2.2：计算峰组的高度占比，将各峰组的高度占比构成一个长度为峰组数量的序列，作为特征矩阵的第一行向量；

步骤4.3：获取每个峰组的宽度占比；

步骤4.3.1：对于每一个峰组，首先获取峰组在像素矩阵中的坐标，将该峰组在像素矩阵中所占列数视为峰组宽度；

步骤4.3.2：对峰组宽度进行归一化处理，将归一化处理后的峰组宽度，构成一个长度为峰组数量的序列，作为特征矩阵的第二行向量；

步骤4.4：获取每个峰组相对位置；

步骤4.4.1：对于每一个峰组，按照从左到右顺序设置第一个峰组的相对位置为0，最后一个峰组的相对位置为1；

步骤4.4.2：根据第一个峰组和最后一个峰组的横坐标计算每个峰组的横坐标，将所有峰组的相对位置构成一个长度为峰组数量的序列，作为特征矩阵的第三行向量；其中，将峰组的左端点横坐标与右端点横坐标的平均值作为该峰组的横坐标；

步骤4.5：根据提取的上述特征形成初始特征矩阵，设定峰组间距阈值，根据峰组间距阈值对初始特征矩阵进行调整获得最终的输入数据特征矩阵；

步骤4.5.1：如果两个峰组的间距小于峰组间距阈值，则将两个峰组合并，这两个峰组对应的特征矩阵中的两列也做相应的合并处理；

步骤4.5.2：两列中的高度占比取最高的值后再做归一化处理；

步骤4.5.3：两列中的宽度占比相加后做归一化处理；

步骤4.5.4：两列中的相对位置取两个峰组的相对位置的平均，再按照第一个峰组相对位置为0、最后一个峰组相对位置为1进行重排。

在本发明的两种数据格式的核磁共振氢谱图检索方法中，步骤5中计算输入数据特征矩阵与数据库中某个样品数据特征矩阵的距离具体包括如下步骤：

步骤5.1：计算输入数据特征矩阵和样品数据特征矩阵的相对应的行向量相似度阈值；

步骤5.2：基于每个行向量的相似度阈值，分别筛选出输入数据特征矩阵与样品数据特征矩阵的相应行向量的匹配部分；

步骤5.3：计算三个行向量的匹配部分的曼哈顿距离d1，并计算特征矩阵中前两行的不匹配部分的距离d2，输入数据特征矩阵和样品数据特征矩阵的前两行的距离d＝d₁+d₂，第三行的距离为d₁；

步骤5.4：将三个行向量计算的距离求和并记为D，即为两特征矩阵间的距离。

在本发明的两种数据格式的核磁共振氢谱图检索方法中，所述步骤5.1具体为：

步骤5.1.1：比较输入数据特征矩阵和样品数据特征矩阵中某一相应行向量的长度，将较长的行向量记作A_n＝a₁,a₂,…a_i,…a_n，较短的行向量记作B_m＝b₁,b₂,…b_j,…b_m；

步骤5.1.2：对于A中的每一个元素a_i，都建立两个向量temp1和temp2；

步骤5.1.3：依次计算a_i和行向量B中每一个元素的相对差值，即按顺序存入temp1中，得到长度为m的向量temp1；

步骤5.1.4：依次比较a_i与行向量B中每一个元素，取较大者按顺序存入temp2，得到长度为m的向量temp2；

步骤5.1.5：取temp1点除temp2的最小分量存入序列S中；

步骤5.1.6：取序列S的第m+1个值作为行向量A和B的行向量相似度阈值；如果n＝m，则取第m个值作为行向量A和B的行向量相似度阈值。

在本发明的两种数据格式的核磁共振氢谱图检索方法中，所述步骤5.2具体为：

步骤5.2.1：如果A_n＝a₁,a₂,…a_i,…a_n和/或B_m＝b₁,b₂,…b_j,…b_m为空，则匹配部分为空；

步骤5.2.2：如果A_n＝a₁,a₂,…a_i,…a_n和B_m＝b₁,b₂,…b_j,…b_m不为空，基于下列公式判断A_n＝a₁,a₂,…a_i,…a_n和B_m＝b₁,b₂,…b_j,…b_m中的元素是否匹配：

其中，r为行向量A_n和B_m的行向量相似度阈值，若满足上述公式则两个元素a_i和b_j匹配；

步骤5.2.3：从后往前遍历A_n和B_m，根据A_n和B_m中元素的匹配情况选择执行步骤5.2.4或步骤5.2.5；

步骤5.2.4：如果a_n和b_m匹配，向前移动一位重复执行步骤5.2.4继续比较A_n-1＝a₁,a₂,…a_i,…a_n-1和B_m-1＝b₁,b₂,…b_j,…b_m-1；

步骤5.2.5：若a_n和b_m不匹配，分别比较A_n-1＝a₁,a₂,…a_i,…a_n-1和B_m＝b₁,b₂,…b_j,…b_m以及A_n＝a₁,a₂,…a_i,…a_n和B_m-1＝b₁,b₂,…b_j,…b_m-1这两种情况，比较过程重复执行步骤5.2.4和步骤5.2.5，并保存匹配元素；

步骤5.2.6：遍历完成后，选取匹配元素最多的情况保存形成的向量作为行向量A_n和B_m的匹配部分。

在本发明的两种数据格式的核磁共振氢谱图检索方法中，所述步骤5.3具体为：

步骤5.3.1：l为输入数据特征矩阵和样品数据特征矩阵中相应行向量的匹配部分的长度，A_n中匹配部分记为：X＝x₁，x₂，......x_l；B_m中匹配部分记为Y＝y₁，y₂，......y；

步骤5.3.2：根据下式计算匹配部分X和Y的曼哈顿距离：

步骤5.3.3：根据下式计算惩罚参数R₁和R₂：

根据下式计算行向量A_n和B_m不匹配部分的距离d₂：

输入数据特征矩阵和样品数据特征矩阵的前两行的距离步骤

5.3.4：输入数据特征矩阵和样品数据特征矩阵的前两行的距离为d＝d₁+d₂，第三行的距离为d₁。

本发明的两种数据格式的核磁共振氢谱图检索方法，对于检测物的氢谱图及其原始txt数据均可建立一个特征矩阵，并针对特征矩阵的特点设计特征矩阵距离计算算法获取谱图间的匹配度，从而获得检测物在数据库中的匹配结果，具有较高的匹配效率和精度。

附图说明

图1是本发明的两种数据格式的核磁共振氢谱图检索方法的流程图；

图2a为某检测物的核磁共振氢谱txt数据；

图2b为某检测物氢谱txt数据转化成的氢谱图；

图3a为输入的图谱数据；

图3b为预处理后获得的峰图；

具体实施方式

如图1所示本发明的两种数据格式的核磁共振氢谱图检索方法，包括：

步骤1：判断输入的数据是图像格式数据或txt文件格式数据；

所述步骤2中将txt文件格式数据转换成图像格式具体为：

图2a为某检测物的核磁共振氢谱txt数据；图2b为某检测物氢谱txt数据转化成的氢谱图。

步骤3：对图像格式数据进行预处理，获得峰图，具体为：

步骤3.2.1：对输入的谱图进行二值化处理得到一幅黑白二值图及与其0-1像素矩阵；

具体实施时，对输入的图片进行二值化，基于谱图在颜色上的特点以及峰图判别的目的，设定二值化阈值T将整幅图像的数据分成两部分：大于T的像素群W和小于T的像素群B，小于T的像素点赋值为0，大于T的像素点赋值为1，得到一幅黑白二值图及其对应的0-1像素矩阵。

步骤3.2.2：对像素矩阵逐行扫描，像素矩阵某行如果存在像素值连续为0，该行对应黑白二值图的边框线或基线，将基线以下和两端以外的区域所有像素值设置为1；

具体实施时，基线一般处于谱图底部，化学位移标度线上方。基于基线行的位置、像素点数量和排列的规律，可以迅速定位其他类似基线的噪声，将基线以下和两端以外的区域所有像素值设置为1，去除部分噪声。

步骤3.2.4：将0-1像素矩阵的所有元素设置为1，将0-1像素矩阵中与黑白二值图的峰像素点坐标对应的元素置为0得到一个新的像素矩阵，将新的像素矩阵转化成二值图，即得到峰图。图3a为输入的图谱数据，图3b为预处理后获得的峰图。

具体实施时，根据化学物质核磁共振氢谱数据与图的特点，提取以下特征作为匹配的依据，分别是：峰组数量、峰组的高度占比、峰组的宽度占比和峰组的相对位置，形成特征矩阵。特征提取方法具体为：

步骤4.1：获取峰组数量；

步骤4.1.2：当扫描到第一个像素点时，以该像素点的横坐标为中心，设定聚类阈值进行聚类；

步骤4.1.3：将聚类阈值范围内的横坐标对应的像素点都视为同一类，从而获得第一个峰组；

步骤4.1.4：对于剩下的像素点重复步骤4.1.2和4.1.3的操作，最终聚类的数量即为峰组数量，记为n，峰组数决定所提取的特征矩阵的列数量。

步骤4.2：获取每个峰组的高度占比；

步骤4.2.2：计算峰组的高度占比，将各峰组的高度占比构成一个长度为峰组数量的序列，作为特征矩阵的第一行向量。

具体实施时，由于氢谱图中峰的高度即代表峰的积分面积，因此对于每一个峰组，可以根据其每一列的最高点的位置以及基线的位置来确定其最高高度。然后对峰组高度进行归一化处理。

步骤4.3：获取每个峰组的宽度占比；

步骤4.3.2：对峰组宽度进行归一化处理，将归一化处理后的峰组宽度，构成一个长度为峰组数量的序列，作为特征矩阵的第二行向量。

步骤4.4：获取每个峰组相对位置；

步骤4.4.2：根据第一个峰组和最后一个峰组的横坐标计算每个峰组的横坐标，进而获得每个峰组的相对位置，将所有峰组的相对位置构成一个长度为峰组数量的序列，作为特征矩阵的第三行向量；其中，将峰组的左端点横坐标与右端点横坐标的平均值作为该峰组的横坐标。

步骤4.5.1：如果两个峰组的间距小于峰组间距阈值，则将两个峰组合并，这两个峰组对应的特征矩阵中的两列也做合并处理；

具体实施时，合并处理如下：

步骤4.5.3：两列中的宽度占比相加后做归一化处理；

步骤4.5.4：两列中的相对位置取两个峰组的相对位置的平均，如果需要合并的两个峰组有一个的相对位置是0或1，则合并相对位置为0或1，剩余峰组再计算一次相对位置，直到不再有相对位置小于峰组间距阈值为止。

以上特征提取完毕，将峰组数量作为特征的列数L共同组成一个3×L特征矩阵。第一个行向量是峰组的高度占比，第二个行向量是峰组的宽度占比，第三个行向量是峰组的相对位置，其中最左端的位置为0，最右端的位置为1，每一个列向量代表一个峰组的特征。

具体实施时，根据下列方法先计算输入数据特征矩阵与数据库中某个样品数据特征矩阵的距离，然后分别计算出输入数据特征矩阵与数据库中所有的样品数据特征矩阵的距离后，选取距离最小的前5位图谱。

步骤5中计算输入数据特征矩阵与数据库中某个样品数据特征矩阵的距离，具体包括如下步骤：

步骤5.1：计算输入数据特征矩阵和样品数据特征矩阵的相对应的行向量相似度阈值，所述步骤5.1具体为：

步骤5.1.2：对于A中的每一个元素a_i，都建立两个序列temp1和temp2；

步骤5.1.3：依次计算a_i和行向量B中每一个元素的差值，按顺序存入temp1中，得到长度为m的序列temp1；

步骤5.1.4：依次比较a_i与行向量B中每一个元素，取较大者按顺序存入temp2，得到长度为m的序列temp2；

步骤5.1.5：temp1中的每一个元素除以temp2中相同位置的元素，得到m个值，取这m个值中的最小值存入序列S中；

步骤5.2：基于每个行向量的相似度阈值，分别筛选出输入数据特征矩阵与样品数据特征矩阵的相应行向量的匹配部分，所述步骤5.2具体为：

步骤5.3：计算三个行向量的匹配部分的曼哈顿距离d1，并计算特征矩阵中前两行的不匹配部分的距离d2，输入数据特征矩阵和样品数据特征矩阵的前两行的距离d＝d₁+d₂，第三行的距离为d₁。所述步骤5.3具体为：

步骤5.3.2：根据下式计算匹配部分X和Y的曼哈顿距离：

步骤5.3.3：根据下式计算惩罚参数R₁和R₂：

根据下式计算行向量A_n和B_m不匹配部分的距离d₂：

输入数据特征矩阵和样品数据特征矩阵的前两行的距离步骤5.3.4：输入数据特征矩阵和样品数据特征矩阵的前两行的距离为d＝d₁+d₂，第三行的距离为d₁。

完成以上操作后，获得到两个特征矩阵的距离，遍历数据图所有图的特征矩阵按照计算距离，并按升序排序获得Top1和Top5相似物质图谱结果。

以上所述仅为本发明的较佳实施例，并不用以限制本发明的思想，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.两种数据格式的核磁共振氢谱图检索方法，其特征在于，包括：

步骤1：判断输入的数据是图像格式数据或txt文件格式数据；

步骤3：对图像格式数据进行预处理，获得峰图；

2.如权利要求1所述的两种数据格式的核磁共振氢谱图检索方法，其特征在于，所述步骤2中将txt文件格式数据转换成图像格式具体为：

步骤2.1：对txt文件格式数据进行裁剪，删除冗余信息，保留核心数据。

步骤2.2：按照txt中的核心数据精确作图，即获得数据对应的谱图；

3.如权利要求1所述的两种数据格式的核磁共振氢谱图检索方法，其特征在于，所述步骤3具体为：

步骤3.2.1：对输入的谱图进行二值化处理得到0-1像素矩阵；

步骤3.2.4：按照记录的峰像素点的坐标画出峰图。

4.如权利要求1所述的两种数据格式的核磁共振氢谱图检索方法，其特征在于，所述步骤4具体为：

步骤4.1：获取峰组数量；

步骤4.2：获取每个峰组的高度占比；

步骤4.3：获取每个峰组的宽度占比；

步骤4.4：获取每个峰组相对位置；

步骤4.5.3：两列中的宽度占比相加后做归一化处理；

5.如权利要求1所述的两种数据格式的核磁共振氢谱图检索方法，其特征在于，步骤5中计算输入数据特征矩阵与数据库中某个样品数据特征矩阵的距离具体包括如下步骤：

6.如权利要求5所述的两种数据格式的核磁共振氢谱图检索方法，其特征在于，所述步骤5.1具体为：

步骤5.1.2：对于A中的每一个元素a_i，都建立两个空向量temp1和temp2；

步骤5.1.3：依次计算a_i和行向量B中每一个元素的差值，按顺序存入temp1中，得到长度为m的向量temp1；

步骤5.1.5：取temp1点除temp2的最小分量存入序列S中；

7.如权利要求6所述的两种数据格式的核磁共振氢谱图检索方法，其特征在于，所述步骤5.2具体为：

8.如权利要求7所述的两种数据格式的核磁共振氢谱图检索方法，其特征在于，所述步骤5.3具体为：

步骤5.3.2：根据下式计算匹配部分X和Y的曼哈顿距离：

步骤5.3.3：根据下式计算惩罚参数R₁和R₂：

根据下式计算行向量A_n和B_m不匹配部分的距离d₂：

输入数据特征矩阵和样品数据特征矩阵的前两行的距离步骤