CN115114471A - 两种数据格式的核磁共振氢谱图检索方法 - Google Patents

两种数据格式的核磁共振氢谱图检索方法 Download PDF

Info

Publication number
CN115114471A
CN115114471A CN202210746938.2A CN202210746938A CN115114471A CN 115114471 A CN115114471 A CN 115114471A CN 202210746938 A CN202210746938 A CN 202210746938A CN 115114471 A CN115114471 A CN 115114471A
Authority
CN
China
Prior art keywords
peak
data
matrix
input data
peak group
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210746938.2A
Other languages
English (en)
Inventor
朱和贵
周彦格
杨希
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northeastern University China
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN202210746938.2A priority Critical patent/CN115114471A/zh
Publication of CN115114471A publication Critical patent/CN115114471A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开的两种数据格式的核磁共振氢谱图检索方法,包括:步骤1:判断输入的数据是图像格式数据或txt文件格式数据;步骤2:如果输入数据是txt文件格式数据,则将txt文件格式数据转换成图像格式后执行步骤3;如果输入数据是图像格式数据,则直接执行步骤3;步骤3:对图像格式数据进行预处理,获得峰图;步骤4:对峰图进行特征提取获得初始特征矩阵,根据峰组间距阈值对初始特征矩阵进行调整获得最终的输入数据特征矩阵;步骤5:分别计算输入数据特征矩阵与数据库中所有的样品数据特征矩阵的距离,按照距离升序排序获得前5位的谱图以及该谱图对应的物质名称。本发明方法可对输入的两种数据格式进行检索,具有较高的匹配效率和精度。

Description

两种数据格式的核磁共振氢谱图检索方法
技术领域
本发明属于文本、图像信息匹配技术领域,涉及两种数据格式的核磁共振氢谱图检索方法。
背景技术
核磁共振氢谱(也称氢谱)是一种将分子中氢-1的核磁共振效应体现于核磁共振波谱法中的应用。可用来确定分子结构。当样品中含有氢,特别是同位素氢-1的时候,核磁共振氢谱可被用来确定分子的结构。通过与碳-13核磁共振协同使用,核磁共振氢谱成为了表征分子结构的一个强有力的工具。但由于核磁共振氢谱通常需要专业的设施与人员经过精密的测量与解析才能分析出物质成分,而且氢谱匹配过程繁琐,需导出TXT文件的原始数据进行检索。因此,寻找文本数据与对应的图像间的匹配算法,实现文本数据和图像数据同时检索成为亟待解决的需求。
20世纪90年代后,随着计算机数字化的快速发展及因特网的广泛普及,出现了基于内容的图像检索如图像颜色、纹理、布局等进行分析和检索的图像检索技术。其查询条件就是一张图像,或是对图像内容的描述。它建立索引的方式是通过提取底层特征,然后通过计算比较这些特征和查询条件之间的距离,来决定两张图片的相似程度。但氢谱图内容特征与实际应用特征表征差异较大,常规的基于内容的图像检索与基于文本的图像检索技术原理和方法与实际应用在氢谱图数据库检索的原理和方法相距甚远,若直接应用常规图像检索方法则无法匹配正确结果。
中国专利“CN201410830581.1一种基于向量模型的气相色谱质谱谱图检索方法”提供了一种基于向量模型的气相色谱质谱谱图检索方法。仅仅基于向量空间模型进行匹配,仅能满足理想采集情况,面对实际复杂的谱图不具有良好的适应性和精度。
发明内容
为解决上述技术问题,本发明的目的是提供一种两种数据格式的核磁共振氢谱图检索方法,通过提取数据的高维特征,并计算输入数据高维特征与数据库中数据高维特征之间的相似度,检索出数据库中的匹配度前5位的谱图以及该谱图对应的物质名称。
本发明提供一种两种数据格式的核磁共振氢谱图检索方法,包括:
步骤1:判断输入的数据是图像格式数据或txt文件格式数据;
步骤2:如果输入数据是txt文件格式数据,则将txt文件格式数据转换成图像格式后执行步骤3;如果输入数据是图像格式数据,则直接执行步骤3;
步骤3:对图像格式数据进行预处理,获得峰图;
步骤4:提取峰图特征获得初始特征矩阵,根据峰组间距阈值对初始特征矩阵进行调整获得最终的输入数据特征矩阵;
步骤5:分别计算输入数据特征矩阵与数据库中所有的样品数据特征矩阵的距离,按照距离升序排序获得前5位的谱图以及该谱图对应的物质名称。
在本发明的两种数据格式的核磁共振氢谱图检索方法中,所述步骤2中将txt文件格式数据转换成图像格式具体为:
步骤2.1:使用PIL库,按照txt中的数据精确作图,即获得数据对应的谱图;
步骤2.2:对步骤2.1中的谱图进行裁剪,删除冗余信息,保留核心数据。
在本发明的两种数据格式的核磁共振氢谱图检索方法中,所述步骤3具体为:
步骤3.2.1:对输入的谱图进行二值化处理得到0-1像素矩阵;
步骤3.2.2:对像素矩阵逐行扫描,确定基线的位置,将基线以下和两端以外的区域所有像素值设置为1;
步骤3.2.3:峰的起点和终点都在基线上,基于定位到基线的位置,按照从左到右的顺序定位峰的第一个点和最后一个点的坐标,记录并存储所有峰像素点坐标;
步骤3.2.4:按照记录的峰像素点的坐标画出峰图。
在本发明的两种数据格式的核磁共振氢谱图检索方法中,所述步骤4具体为:
步骤4.1:获取峰组数量;
步骤4.1.1:对预处理后获得的峰图进行从上到下的像素级扫描;
步骤4.1.2:设定聚类阈值按照像素点的横坐标对像素点进行聚类;
步骤4.1.3:像素点的聚类数量即为峰组的数量,峰组数决定所提取的特征矩阵的列数量;
步骤4.2:获取每个峰组的高度占比;
步骤4.2.1:对于每一个峰组,确定峰组以及峰组的高度,取最大值作为峰组的高度;
步骤4.2.2:计算峰组的高度占比,将各峰组的高度占比构成一个长度为峰组数量的序列,作为特征矩阵的第一行向量;
步骤4.3:获取每个峰组的宽度占比;
步骤4.3.1:对于每一个峰组,首先获取峰组在像素矩阵中的坐标,将该峰组在像素矩阵中所占列数视为峰组宽度;
步骤4.3.2:对峰组宽度进行归一化处理,将归一化处理后的峰组宽度,构成一个长度为峰组数量的序列,作为特征矩阵的第二行向量;
步骤4.4:获取每个峰组相对位置;
步骤4.4.1:对于每一个峰组,按照从左到右顺序设置第一个峰组的相对位置为0,最后一个峰组的相对位置为1;
步骤4.4.2:根据第一个峰组和最后一个峰组的横坐标计算每个峰组的横坐标,将所有峰组的相对位置构成一个长度为峰组数量的序列,作为特征矩阵的第三行向量;其中,将峰组的左端点横坐标与右端点横坐标的平均值作为该峰组的横坐标;
步骤4.5:根据提取的上述特征形成初始特征矩阵,设定峰组间距阈值,根据峰组间距阈值对初始特征矩阵进行调整获得最终的输入数据特征矩阵;
步骤4.5.1:如果两个峰组的间距小于峰组间距阈值,则将两个峰组合并,这两个峰组对应的特征矩阵中的两列也做相应的合并处理;
步骤4.5.2:两列中的高度占比取最高的值后再做归一化处理;
步骤4.5.3:两列中的宽度占比相加后做归一化处理;
步骤4.5.4:两列中的相对位置取两个峰组的相对位置的平均,再按照第一个峰组相对位置为0、最后一个峰组相对位置为1进行重排。
在本发明的两种数据格式的核磁共振氢谱图检索方法中,步骤5中计算输入数据特征矩阵与数据库中某个样品数据特征矩阵的距离具体包括如下步骤:
步骤5.1:计算输入数据特征矩阵和样品数据特征矩阵的相对应的行向量相似度阈值;
步骤5.2:基于每个行向量的相似度阈值,分别筛选出输入数据特征矩阵与样品数据特征矩阵的相应行向量的匹配部分;
步骤5.3:计算三个行向量的匹配部分的曼哈顿距离d1,并计算特征矩阵中前两行的不匹配部分的距离d2,输入数据特征矩阵和样品数据特征矩阵的前两行的距离d=d1+d2,第三行的距离为d1
步骤5.4:将三个行向量计算的距离求和并记为D,即为两特征矩阵间的距离。
在本发明的两种数据格式的核磁共振氢谱图检索方法中,所述步骤5.1具体为:
步骤5.1.1:比较输入数据特征矩阵和样品数据特征矩阵中某一相应行向量的长度,将较长的行向量记作An=a1,a2,…ai,…an,较短的行向量记作Bm=b1,b2,…bj,…bm
步骤5.1.2:对于A中的每一个元素ai,都建立两个向量temp1和temp2;
步骤5.1.3:依次计算ai和行向量B中每一个元素的相对差值,即按顺序存入temp1中,得到长度为m的向量temp1;
步骤5.1.4:依次比较ai与行向量B中每一个元素,取较大者按顺序存入temp2,得到长度为m的向量temp2;
步骤5.1.5:取temp1点除temp2的最小分量存入序列S中;
步骤5.1.6:取序列S的第m+1个值作为行向量A和B的行向量相似度阈值;如果n=m,则取第m个值作为行向量A和B的行向量相似度阈值。
在本发明的两种数据格式的核磁共振氢谱图检索方法中,所述步骤5.2具体为:
步骤5.2.1:如果An=a1,a2,…ai,…an和/或Bm=b1,b2,…bj,…bm为空,则匹配部分为空;
步骤5.2.2:如果An=a1,a2,…ai,…an和Bm=b1,b2,…bj,…bm不为空,基于下列公式判断An=a1,a2,…ai,…an和Bm=b1,b2,…bj,…bm中的元素是否匹配:
Figure BDA0003717199580000051
其中,r为行向量An和Bm的行向量相似度阈值,若满足上述公式则两个元素ai和bj匹配;
步骤5.2.3:从后往前遍历An和Bm,根据An和Bm中元素的匹配情况选择执行步骤5.2.4或步骤5.2.5;
步骤5.2.4:如果an和bm匹配,向前移动一位重复执行步骤5.2.4继续比较An-1=a1,a2,…ai,…an-1和Bm-1=b1,b2,…bj,…bm-1
步骤5.2.5:若an和bm不匹配,分别比较An-1=a1,a2,…ai,…an-1和Bm=b1,b2,…bj,…bm以及An=a1,a2,…ai,…an和Bm-1=b1,b2,…bj,…bm-1这两种情况,比较过程重复执行步骤5.2.4和步骤5.2.5,并保存匹配元素;
步骤5.2.6:遍历完成后,选取匹配元素最多的情况保存形成的向量作为行向量An和Bm的匹配部分。
在本发明的两种数据格式的核磁共振氢谱图检索方法中,所述步骤5.3具体为:
步骤5.3.1:l为输入数据特征矩阵和样品数据特征矩阵中相应行向量的匹配部分的长度,An中匹配部分记为:X=x1,x2,......xl;Bm中匹配部分记为Y=y1,y2,......y;
步骤5.3.2:根据下式计算匹配部分X和Y的曼哈顿距离:
Figure BDA0003717199580000061
步骤5.3.3:根据下式计算惩罚参数R1和R2
Figure BDA0003717199580000062
Figure BDA0003717199580000063
根据下式计算行向量An和Bm不匹配部分的距离d2
Figure BDA0003717199580000071
输入数据特征矩阵和样品数据特征矩阵的前两行的距离步骤
5.3.4:输入数据特征矩阵和样品数据特征矩阵的前两行的距离为d=d1+d2,第三行的距离为d1
本发明的两种数据格式的核磁共振氢谱图检索方法,对于检测物的氢谱图及其原始txt数据均可建立一个特征矩阵,并针对特征矩阵的特点设计特征矩阵距离计算算法获取谱图间的匹配度,从而获得检测物在数据库中的匹配结果,具有较高的匹配效率和精度。
附图说明
图1是本发明的两种数据格式的核磁共振氢谱图检索方法的流程图;
图2a为某检测物的核磁共振氢谱txt数据;
图2b为某检测物氢谱txt数据转化成的氢谱图;
图3a为输入的图谱数据;
图3b为预处理后获得的峰图;
具体实施方式
如图1所示本发明的两种数据格式的核磁共振氢谱图检索方法,包括:
步骤1:判断输入的数据是图像格式数据或txt文件格式数据;
步骤2:如果输入数据是txt文件格式数据,则将txt文件格式数据转换成图像格式后执行步骤3;如果输入数据是图像格式数据,则直接执行步骤3;
所述步骤2中将txt文件格式数据转换成图像格式具体为:
步骤2.1:使用PIL库,按照txt中的数据精确作图,即获得数据对应的谱图;
步骤2.2:对步骤2.1中的谱图进行裁剪,删除冗余信息,保留核心数据。
图2a为某检测物的核磁共振氢谱txt数据;图2b为某检测物氢谱txt数据转化成的氢谱图。
步骤3:对图像格式数据进行预处理,获得峰图,具体为:
步骤3.2.1:对输入的谱图进行二值化处理得到一幅黑白二值图及与其0-1像素矩阵;
具体实施时,对输入的图片进行二值化,基于谱图在颜色上的特点以及峰图判别的目的,设定二值化阈值T将整幅图像的数据分成两部分:大于T的像素群W和小于T的像素群B,小于T的像素点赋值为0,大于T的像素点赋值为1,得到一幅黑白二值图及其对应的0-1像素矩阵。
步骤3.2.2:对像素矩阵逐行扫描,像素矩阵某行如果存在像素值连续为0,该行对应黑白二值图的边框线或基线,将基线以下和两端以外的区域所有像素值设置为1;
具体实施时,基线一般处于谱图底部,化学位移标度线上方。基于基线行的位置、像素点数量和排列的规律,可以迅速定位其他类似基线的噪声,将基线以下和两端以外的区域所有像素值设置为1,去除部分噪声。
步骤3.2.3:峰的起点和终点都在基线上,基于定位到基线的位置,按照从左到右的顺序定位峰的第一个点和最后一个点的坐标,记录并存储所有峰像素点坐标;
步骤3.2.4:将0-1像素矩阵的所有元素设置为1,将0-1像素矩阵中与黑白二值图的峰像素点坐标对应的元素置为0得到一个新的像素矩阵,将新的像素矩阵转化成二值图,即得到峰图。图3a为输入的图谱数据,图3b为预处理后获得的峰图。
步骤4:提取峰图特征获得初始特征矩阵,根据峰组间距阈值对初始特征矩阵进行调整获得最终的输入数据特征矩阵;
具体实施时,根据化学物质核磁共振氢谱数据与图的特点,提取以下特征作为匹配的依据,分别是:峰组数量、峰组的高度占比、峰组的宽度占比和峰组的相对位置,形成特征矩阵。特征提取方法具体为:
步骤4.1:获取峰组数量;
步骤4.1.1:对预处理后获得的峰图进行从上到下的像素级扫描;
步骤4.1.2:当扫描到第一个像素点时,以该像素点的横坐标为中心,设定聚类阈值进行聚类;
步骤4.1.3:将聚类阈值范围内的横坐标对应的像素点都视为同一类,从而获得第一个峰组;
步骤4.1.4:对于剩下的像素点重复步骤4.1.2和4.1.3的操作,最终聚类的数量即为峰组数量,记为n,峰组数决定所提取的特征矩阵的列数量。
步骤4.2:获取每个峰组的高度占比;
步骤4.2.1:对于每一个峰组,确定峰组以及峰组的高度,取最大值作为峰组的高度;
步骤4.2.2:计算峰组的高度占比,将各峰组的高度占比构成一个长度为峰组数量的序列,作为特征矩阵的第一行向量。
具体实施时,由于氢谱图中峰的高度即代表峰的积分面积,因此对于每一个峰组,可以根据其每一列的最高点的位置以及基线的位置来确定其最高高度。然后对峰组高度进行归一化处理。
步骤4.3:获取每个峰组的宽度占比;
步骤4.3.1:对于每一个峰组,首先获取峰组在像素矩阵中的坐标,将该峰组在像素矩阵中所占列数视为峰组宽度;
步骤4.3.2:对峰组宽度进行归一化处理,将归一化处理后的峰组宽度,构成一个长度为峰组数量的序列,作为特征矩阵的第二行向量。
步骤4.4:获取每个峰组相对位置;
步骤4.4.1:对于每一个峰组,按照从左到右顺序设置第一个峰组的相对位置为0,最后一个峰组的相对位置为1;
步骤4.4.2:根据第一个峰组和最后一个峰组的横坐标计算每个峰组的横坐标,进而获得每个峰组的相对位置,将所有峰组的相对位置构成一个长度为峰组数量的序列,作为特征矩阵的第三行向量;其中,将峰组的左端点横坐标与右端点横坐标的平均值作为该峰组的横坐标。
步骤4.5:根据提取的上述特征形成初始特征矩阵,设定峰组间距阈值,根据峰组间距阈值对初始特征矩阵进行调整获得最终的输入数据特征矩阵;
步骤4.5.1:如果两个峰组的间距小于峰组间距阈值,则将两个峰组合并,这两个峰组对应的特征矩阵中的两列也做合并处理;
具体实施时,合并处理如下:
步骤4.5.2:两列中的高度占比取最高的值后再做归一化处理;
步骤4.5.3:两列中的宽度占比相加后做归一化处理;
步骤4.5.4:两列中的相对位置取两个峰组的相对位置的平均,如果需要合并的两个峰组有一个的相对位置是0或1,则合并相对位置为0或1,剩余峰组再计算一次相对位置,直到不再有相对位置小于峰组间距阈值为止。
以上特征提取完毕,将峰组数量作为特征的列数L共同组成一个3×L特征矩阵。第一个行向量是峰组的高度占比,第二个行向量是峰组的宽度占比,第三个行向量是峰组的相对位置,其中最左端的位置为0,最右端的位置为1,每一个列向量代表一个峰组的特征。
步骤5:分别计算输入数据特征矩阵与数据库中所有的样品数据特征矩阵的距离,按照距离升序排序获得前5位的谱图以及该谱图对应的物质名称。
具体实施时,根据下列方法先计算输入数据特征矩阵与数据库中某个样品数据特征矩阵的距离,然后分别计算出输入数据特征矩阵与数据库中所有的样品数据特征矩阵的距离后,选取距离最小的前5位图谱。
步骤5中计算输入数据特征矩阵与数据库中某个样品数据特征矩阵的距离,具体包括如下步骤:
步骤5.1:计算输入数据特征矩阵和样品数据特征矩阵的相对应的行向量相似度阈值,所述步骤5.1具体为:
步骤5.1.1:比较输入数据特征矩阵和样品数据特征矩阵中某一相应行向量的长度,将较长的行向量记作An=a1,a2,…ai,…an,较短的行向量记作Bm=b1,b2,…bj,…bm
步骤5.1.2:对于A中的每一个元素ai,都建立两个序列temp1和temp2;
步骤5.1.3:依次计算ai和行向量B中每一个元素的差值,按顺序存入temp1中,得到长度为m的序列temp1;
步骤5.1.4:依次比较ai与行向量B中每一个元素,取较大者按顺序存入temp2,得到长度为m的序列temp2;
步骤5.1.5:temp1中的每一个元素除以temp2中相同位置的元素,得到m个值,取这m个值中的最小值存入序列S中;
步骤5.1.6:取序列S的第m+1个值作为行向量A和B的行向量相似度阈值;如果n=m,则取第m个值作为行向量A和B的行向量相似度阈值。
步骤5.2:基于每个行向量的相似度阈值,分别筛选出输入数据特征矩阵与样品数据特征矩阵的相应行向量的匹配部分,所述步骤5.2具体为:
步骤5.2.1:如果An=a1,a2,…ai,…an和/或Bm=b1,b2,…bj,…bm为空,则匹配部分为空;
步骤5.2.2:如果An=a1,a2,…ai,…an和Bm=b1,b2,…bj,…bm不为空,基于下列公式判断An=a1,a2,…ai,…an和Bm=b1,b2,…bj,…bm中的元素是否匹配:
Figure BDA0003717199580000121
其中,r为行向量An和Bm的行向量相似度阈值,若满足上述公式则两个元素ai和bj匹配;
步骤5.2.3:从后往前遍历An和Bm,根据An和Bm中元素的匹配情况选择执行步骤5.2.4或步骤5.2.5;
步骤5.2.4:如果an和bm匹配,向前移动一位重复执行步骤5.2.4继续比较An-1=a1,a2,…ai,…an-1和Bm-1=b1,b2,…bj,…bm-1
步骤5.2.5:若an和bm不匹配,分别比较An-1=a1,a2,…ai,…an-1和Bm=b1,b2,…bj,…bm以及An=a1,a2,…ai,…an和Bm-1=b1,b2,…bj,…bm-1这两种情况,比较过程重复执行步骤5.2.4和步骤5.2.5,并保存匹配元素;
步骤5.2.6:遍历完成后,选取匹配元素最多的情况保存形成的向量作为行向量An和Bm的匹配部分。
步骤5.3:计算三个行向量的匹配部分的曼哈顿距离d1,并计算特征矩阵中前两行的不匹配部分的距离d2,输入数据特征矩阵和样品数据特征矩阵的前两行的距离d=d1+d2,第三行的距离为d1。所述步骤5.3具体为:
步骤5.3.1:l为输入数据特征矩阵和样品数据特征矩阵中相应行向量的匹配部分的长度,An中匹配部分记为:X=x1,x2,......xl;Bm中匹配部分记为Y=y1,y2,......y;
步骤5.3.2:根据下式计算匹配部分X和Y的曼哈顿距离:
Figure BDA0003717199580000131
步骤5.3.3:根据下式计算惩罚参数R1和R2
Figure BDA0003717199580000132
Figure BDA0003717199580000133
根据下式计算行向量An和Bm不匹配部分的距离d2
Figure BDA0003717199580000134
输入数据特征矩阵和样品数据特征矩阵的前两行的距离步骤5.3.4:输入数据特征矩阵和样品数据特征矩阵的前两行的距离为d=d1+d2,第三行的距离为d1
步骤5.4:将三个行向量计算的距离求和并记为D,即为两特征矩阵间的距离。
完成以上操作后,获得到两个特征矩阵的距离,遍历数据图所有图的特征矩阵按照计算距离,并按升序排序获得Top1和Top5相似物质图谱结果。
以上所述仅为本发明的较佳实施例,并不用以限制本发明的思想,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.两种数据格式的核磁共振氢谱图检索方法,其特征在于,包括:
步骤1:判断输入的数据是图像格式数据或txt文件格式数据;
步骤2:如果输入数据是txt文件格式数据,则将txt文件格式数据转换成图像格式后执行步骤3;如果输入数据是图像格式数据,则直接执行步骤3;
步骤3:对图像格式数据进行预处理,获得峰图;
步骤4:提取峰图特征获得初始特征矩阵,根据峰组间距阈值对初始特征矩阵进行调整获得最终的输入数据特征矩阵;
步骤5:分别计算输入数据特征矩阵与数据库中所有的样品数据特征矩阵的距离,按照距离升序排序获得前5位的谱图以及该谱图对应的物质名称。
2.如权利要求1所述的两种数据格式的核磁共振氢谱图检索方法,其特征在于,所述步骤2中将txt文件格式数据转换成图像格式具体为:
步骤2.1:对txt文件格式数据进行裁剪,删除冗余信息,保留核心数据。
步骤2.2:按照txt中的核心数据精确作图,即获得数据对应的谱图;
3.如权利要求1所述的两种数据格式的核磁共振氢谱图检索方法,其特征在于,所述步骤3具体为:
步骤3.2.1:对输入的谱图进行二值化处理得到0-1像素矩阵;
步骤3.2.2:对像素矩阵逐行扫描,确定基线的位置,将基线以下和两端以外的区域所有像素值设置为1;
步骤3.2.3:峰的起点和终点都在基线上,基于定位到基线的位置,按照从左到右的顺序定位峰的第一个点和最后一个点的坐标,记录并存储所有峰像素点坐标;
步骤3.2.4:按照记录的峰像素点的坐标画出峰图。
4.如权利要求1所述的两种数据格式的核磁共振氢谱图检索方法,其特征在于,所述步骤4具体为:
步骤4.1:获取峰组数量;
步骤4.1.1:对预处理后获得的峰图进行从上到下的像素级扫描;
步骤4.1.2:设定聚类阈值按照像素点的横坐标对像素点进行聚类;
步骤4.1.3:像素点的聚类数量即为峰组的数量,峰组数决定所提取的特征矩阵的列数量;
步骤4.2:获取每个峰组的高度占比;
步骤4.2.1:对于每一个峰组,确定峰组以及峰组的高度,取最大值作为峰组的高度;
步骤4.2.2:计算峰组的高度占比,将各峰组的高度占比构成一个长度为峰组数量的序列,作为特征矩阵的第一行向量;
步骤4.3:获取每个峰组的宽度占比;
步骤4.3.1:对于每一个峰组,首先获取峰组在像素矩阵中的坐标,将该峰组在像素矩阵中所占列数视为峰组宽度;
步骤4.3.2:对峰组宽度进行归一化处理,将归一化处理后的峰组宽度,构成一个长度为峰组数量的序列,作为特征矩阵的第二行向量;
步骤4.4:获取每个峰组相对位置;
步骤4.4.1:对于每一个峰组,按照从左到右顺序设置第一个峰组的相对位置为0,最后一个峰组的相对位置为1;
步骤4.4.2:根据第一个峰组和最后一个峰组的横坐标计算每个峰组的横坐标,将所有峰组的相对位置构成一个长度为峰组数量的序列,作为特征矩阵的第三行向量;其中,将峰组的左端点横坐标与右端点横坐标的平均值作为该峰组的横坐标;
步骤4.5:根据提取的上述特征形成初始特征矩阵,设定峰组间距阈值,根据峰组间距阈值对初始特征矩阵进行调整获得最终的输入数据特征矩阵;
步骤4.5.1:如果两个峰组的间距小于峰组间距阈值,则将两个峰组合并,这两个峰组对应的特征矩阵中的两列也做相应的合并处理;
步骤4.5.2:两列中的高度占比取最高的值后再做归一化处理;
步骤4.5.3:两列中的宽度占比相加后做归一化处理;
步骤4.5.4:两列中的相对位置取两个峰组的相对位置的平均,再按照第一个峰组相对位置为0、最后一个峰组相对位置为1进行重排。
5.如权利要求1所述的两种数据格式的核磁共振氢谱图检索方法,其特征在于,步骤5中计算输入数据特征矩阵与数据库中某个样品数据特征矩阵的距离具体包括如下步骤:
步骤5.1:计算输入数据特征矩阵和样品数据特征矩阵的相对应的行向量相似度阈值;
步骤5.2:基于每个行向量的相似度阈值,分别筛选出输入数据特征矩阵与样品数据特征矩阵的相应行向量的匹配部分;
步骤5.3:计算三个行向量的匹配部分的曼哈顿距离d1,并计算特征矩阵中前两行的不匹配部分的距离d2,输入数据特征矩阵和样品数据特征矩阵的前两行的距离d=d1+d2,第三行的距离为d1
步骤5.4:将三个行向量计算的距离求和并记为D,即为两特征矩阵间的距离。
6.如权利要求5所述的两种数据格式的核磁共振氢谱图检索方法,其特征在于,所述步骤5.1具体为:
步骤5.1.1:比较输入数据特征矩阵和样品数据特征矩阵中某一相应行向量的长度,将较长的行向量记作An=a1,a2,…ai,…an,较短的行向量记作Bm=b1,b2,…bj,…bm
步骤5.1.2:对于A中的每一个元素ai,都建立两个空向量temp1和temp2;
步骤5.1.3:依次计算ai和行向量B中每一个元素的差值,按顺序存入temp1中,得到长度为m的向量temp1;
步骤5.1.4:依次比较ai与行向量B中每一个元素,取较大者按顺序存入temp2,得到长度为m的向量temp2;
步骤5.1.5:取temp1点除temp2的最小分量存入序列S中;
步骤5.1.6:取序列S的第m+1个值作为行向量A和B的行向量相似度阈值;如果n=m,则取第m个值作为行向量A和B的行向量相似度阈值。
7.如权利要求6所述的两种数据格式的核磁共振氢谱图检索方法,其特征在于,所述步骤5.2具体为:
步骤5.2.1:如果An=a1,a2,…ai,…an和/或Bm=b1,b2,…bj,…bm为空,则匹配部分为空;
步骤5.2.2:如果An=a1,a2,…ai,…an和Bm=b1,b2,…bj,…bm不为空,基于下列公式判断An=a1,a2,…ai,…an和Bm=b1,b2,…bj,…bm中的元素是否匹配:
Figure FDA0003717199570000041
其中,r为行向量An和Bm的行向量相似度阈值,若满足上述公式则两个元素ai和bj匹配;
步骤5.2.3:从后往前遍历An和Bm,根据An和Bm中元素的匹配情况选择执行步骤5.2.4或步骤5.2.5;
步骤5.2.4:如果an和bm匹配,向前移动一位重复执行步骤5.2.4继续比较An-1=a1,a2,…ai,…an-1和Bm-1=b1,b2,…bj,…bm-1
步骤5.2.5:若an和bm不匹配,分别比较An-1=a1,a2,…ai,…an-1和Bm=b1,b2,…bj,…bm以及An=a1,a2,…ai,…an和Bm-1=b1,b2,…bj,…bm-1这两种情况,比较过程重复执行步骤5.2.4和步骤5.2.5,并保存匹配元素;
步骤5.2.6:遍历完成后,选取匹配元素最多的情况保存形成的向量作为行向量An和Bm的匹配部分。
8.如权利要求7所述的两种数据格式的核磁共振氢谱图检索方法,其特征在于,所述步骤5.3具体为:
步骤5.3.1:l为输入数据特征矩阵和样品数据特征矩阵中相应行向量的匹配部分的长度,An中匹配部分记为:X=x1,x2,......xl;Bm中匹配部分记为Y=y1,y2,......y;
步骤5.3.2:根据下式计算匹配部分X和Y的曼哈顿距离:
Figure FDA0003717199570000051
步骤5.3.3:根据下式计算惩罚参数R1和R2
Figure FDA0003717199570000052
Figure FDA0003717199570000053
根据下式计算行向量An和Bm不匹配部分的距离d2
Figure FDA0003717199570000054
输入数据特征矩阵和样品数据特征矩阵的前两行的距离步骤
5.3.4:输入数据特征矩阵和样品数据特征矩阵的前两行的距离为d=d1+d2,第三行的距离为d1
CN202210746938.2A 2022-06-28 2022-06-28 两种数据格式的核磁共振氢谱图检索方法 Pending CN115114471A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210746938.2A CN115114471A (zh) 2022-06-28 2022-06-28 两种数据格式的核磁共振氢谱图检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210746938.2A CN115114471A (zh) 2022-06-28 2022-06-28 两种数据格式的核磁共振氢谱图检索方法

Publications (1)

Publication Number Publication Date
CN115114471A true CN115114471A (zh) 2022-09-27

Family

ID=83330490

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210746938.2A Pending CN115114471A (zh) 2022-06-28 2022-06-28 两种数据格式的核磁共振氢谱图检索方法

Country Status (1)

Country Link
CN (1) CN115114471A (zh)

Similar Documents

Publication Publication Date Title
US6941003B2 (en) Method of fast fingerprint search space partitioning and prescreening
Marteau Time warp edit distance with stiffness adjustment for time series matching
Khurshid et al. Word spotting in historical printed documents using shape and sequence comparisons
US5267332A (en) Image recognition system
CN106446004B (zh) 数字病理全切片图像检索方法
JP2694101B2 (ja) パターン認識と妥当性検査の方法及び装置
US5438628A (en) Method for matching text images and documents using character shape codes
Kao et al. Chromosome classification based on the band profile similarity along approximate medial axis
US9589185B2 (en) Symbol recognition using decision forests
US6185338B1 (en) Character recognition using candidate frames to determine character location
JP2001285716A (ja) テロップ情報処理装置及びテロップ情報表示装置
Konidaris et al. A segmentation-free word spotting method for historical printed documents
Alizadeh et al. Automatic retrieval of shoeprint images using blocked sparse representation
JP3228938B2 (ja) 分布マップを用いる画像の分類方法及び装置
Wang et al. Chinese document image retrieval system based on proportion of black pixel area in a character image
Cilia et al. What is the minimum training data size to reliably identify writers in medieval manuscripts?
Roy et al. An efficient coarse-to-fine indexing technique for fast text retrieval in historical documents
Abdel-Mottaleb Image retrieval based on edge representation
CN115114471A (zh) 两种数据格式的核磁共振氢谱图检索方法
Wei et al. A method for removing inflectional suffixes in word spotting of Mongolian Kanjur
Liang et al. Performance evaluation of document structure extraction algorithms
US5825923A (en) Method for performing character recognition on a pixel matrix
CN114998428A (zh) 一种基于图像处理的折线/曲线数据提取系统及方法
Lu et al. Word searching in document images using word portion matching
Ming et al. Research on Chinese financial invoice recognition technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination