CN103278591B - 一种色谱指纹图谱相似度计算方法 - Google Patents

一种色谱指纹图谱相似度计算方法 Download PDF

Info

Publication number
CN103278591B
CN103278591B CN201310183164.8A CN201310183164A CN103278591B CN 103278591 B CN103278591 B CN 103278591B CN 201310183164 A CN201310183164 A CN 201310183164A CN 103278591 B CN103278591 B CN 103278591B
Authority
CN
China
Prior art keywords
peak
print
finger
sample
reference fingerprint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310183164.8A
Other languages
English (en)
Other versions
CN103278591A (zh
Inventor
孟庆华
闫艳
李广超
李亮
蒋德林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Normal University
Original Assignee
Jiangsu Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Normal University filed Critical Jiangsu Normal University
Priority to CN201310183164.8A priority Critical patent/CN103278591B/zh
Publication of CN103278591A publication Critical patent/CN103278591A/zh
Application granted granted Critical
Publication of CN103278591B publication Critical patent/CN103278591B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)

Abstract

一种色谱指纹图谱相似度评价方法,包括以下步骤:采用标准样品建立对照指纹图谱;采用与建立对照指纹图谱相同的色谱条件建立待评价样品的样品指纹图谱;将样品指纹图谱的每一个峰值与对照指纹图谱中对应峰值相比,得到样品的比值指纹图谱向量和对照比值指纹图谱向量;计算这两个比值向量的相似度S。本发明既能反映待评价样品指纹图谱与标准指纹图谱之间共有峰的相似性,也考虑了非共有峰数目及其大小对产品质量的影响,能整体反应各样品指纹图谱之间相似程度,该相似度的大小能够灵敏地定量表达样品指纹图谱与标准指纹图谱定性和定量差异,可靠地鉴别药品、食品的真伪,更好地从质量稳定性和安全性上控制药品、食品的质量。

Description

一种色谱指纹图谱相似度计算方法
技术领域
本发明属于药品、食品领域,确切地说属于药品、食品色谱指纹图谱质量控制技术领域。
背景技术
指纹图谱技术是目前公认的全面控制中药、食品等复杂成分体系质量的最有效最可靠的技术。
指纹图谱质控技术进行质量控制的关键是相似度评价理论及其软件化。目前应用最广泛的评价色谱指纹图谱相似度方法主要有Tanimoto、峰重叠率及改进方法、向量夹角余弦、相关系数、组合相似度、基于相似系统理论的多种程度相似度、比率定性相似度、总量统计矩相似度、距离相似度和加权马氏距离相似度、以及用相对熵的歧异值来衡量色谱指纹图谱的相似度等方法,专利CN200810087195.2也提出了37个特性指标用于中药质量的控制。色谱指纹图谱相似度评价的实质是考察要比较的两个指纹图谱的组成峰数、峰匹配以及相应峰量化关系的一致性:即一方面从产品质量的稳定性和一致性考虑,相似度大小应能灵敏反映多元化学成分分布比例的差异和整体含量的差异;另一方面从安全性考虑,相似度大小应能考察非共有峰数目和强度大小对产品安全性的影响。
现有的指纹图谱相似度算法难于全面满足上述对药品、食品质量稳定性和安全性的要求。
发明内容
本发明的目的是针对现有的指纹图谱相似度算法难于全面满足对药品、食品质量稳定性和安全性要求的问题,提出一种色谱指纹图谱相似度计算方法。
本发明的技术方案是:
一种色谱指纹图谱相似度计算方法,它包括以下步骤:
(1)、采用标准样品建立对照指纹图谱,所述对照指纹图谱的向量为 1≤i≤n,n为对照指纹图谱的色谱峰数即标准样品中的成分总数;yi代表标准样品中i成分的峰面积或峰高值;
(2)、采用与建立对照指纹图谱相同的色谱条件建立待评价样品的样品指纹图谱,样品指纹图谱的向量为: X → = ( x 1 , x 2 , x 3 , . . . , x i , . . . x n , x a 1 , x a 2 , x a 3 , . . . , x aj , . . . x am ) ;
其中,1≤i≤n,n为样品指纹图谱中与对照指纹图谱共有峰的色谱峰数,xi代表待评价样品中i成分即样品指纹图谱中与对照指纹图谱共有峰的峰面积或峰高值,其中,对照指纹图谱中存在而在样品指纹图谱中不存在的成分,样品指纹图谱中该共有峰的取值为xi=0;
1≤j≤m,m为样品指纹图谱中与对照指纹图谱非共有峰的色谱峰数,xaj代表待评价样品中j成分即样品指纹图谱中与对照指纹图谱非共有峰的峰面积或峰高值,;
(3)、将样品指纹图谱的每一个峰值与对照指纹图谱中对应峰值相比,样品的比值指纹图谱表示为n+1维向量:对照比值指纹图谱表示为n+1维向量:采用下述公式计算这两个比值向量的相似度S:
S = 1 - Σ i = 1 n δ i ( 1 - x i y i ) 2 + δ aj ( Σ j = 1 m x aj Σ i = 1 n y i ) 2 n t × ( 2 - | Σ i = 1 n ( x i - y i ) | Σ i = 1 n | x i - y i | )
其中:
δi、δaj分别是各共有峰、非共有峰总面积的权重系数,权重的取值范围δi≥0、δa≥0;
表示样品指纹图谱中样品指纹图谱与对照指纹图谱非共有峰的总面积或峰总高值,作为求非共有峰比值的标准,表示对照指纹图谱峰总面积或峰总高值,nt表示实际的共有峰峰数,nt≤n,当对照指纹图谱存在的成分在样品指纹图谱中不存在时,样品指纹图谱中该共有峰的取值为xi=0;
本发明的步骤(1)中,采用标准样品建立对照指纹图谱包括以下步骤:
(a)、获取标准样品色谱指纹图谱的步骤:取标准样品,采用任一色谱方法按照色谱指纹图谱建立的规范要求建立能表征产品化学组成特征的中药或食品特征的标准样品色谱指纹图谱;
(b)、标准样品色谱指纹图谱预处理的步骤:取若干批次标准样品,采用前述方法获取各批次标准样品的色谱指纹图谱,对数据进行预处理和色谱峰匹配,以平均矢量法或中位数矢量法建立该产品的对照指纹图谱,所述对照指纹图谱的向量为
本发明的色谱方法包括高效液相色谱、气相色谱或高效毛细管电泳色谱。
本发明的步骤(b)中,标准样品的批次总数为k,对于对照指纹图谱的向量按照步骤(3)计算k个批次标准样品的比值指纹图谱向量Yk与此次确定的对照比值指纹图谱向量的相似度采用箱线图法对数据按从小到大排序,并求出该序列数据的统计量第一四分位数Q1、第三四分位数Q3,并求出这两个四分位数差值df=Q3-Q1,将所有数据与Q1-1.5df比较,所有小于Q1-1.5df的数据判断为异常值而将对应批次的标准样品去除,重复前述步骤,直至剩余的不再出现异常值,对剩余批次标准样品指纹图谱进行预处理和色谱峰匹配,以平均矢量法或中位数矢量法建立对照指纹图谱,所述对照指纹图谱的向量为
本发明的还包括合格样品的确定步骤:将最终剩余批次标准样品指纹图谱与最终确定的对照指纹图谱按照权利要求1的步骤(3)计算相似度S,其中S的最小值即为判断阈值S;待评价样品的指纹图谱与最终确定的对照指纹图谱的相似度按照权利要求1的步骤(3)计算相似度S大于S即为合格样品。
本发明的步骤(3)中,δi=1。
本发明的步骤(3)中,δi的取值原则是:相应成分对产品有效性安全性影响非常明显时δi>1,该成分对产品有效性安全性影响较小时1>δi≥0。
本发明的有益效果:
本发明是一种综合评价样品指纹图谱与标准指纹图谱相似性的方法,既能反映待评价样品指纹图谱与标准指纹图谱之间共有峰的相似性,也考虑了非共有峰数目及其大小对产品质量的影响,能整体反应各样品指纹图谱之间相似程度,该相似度的大小能够灵敏地定量表达样品指纹图谱与标准指纹图谱定性和定量差异,可靠地鉴别药品、食品的真伪,更好地从质量稳定性和安全性上控制药品、食品的质量。
本发明中,通过向量X与Y间的相似度S大小表征待评价样品与标准样品间质量的稳定性和一致性;相似度越大表示化学成分组成的一致性越好;相似度越小,表示化学成分组成的差异越大,安全性可能得不到保证。应用时,可以通过经验或有效性安全性等试验确定相似度阈值S,凡待评价样品相似度S大于阈值S的表示质量稳定,安全性得以保证;根据S的大小也可用于产品真伪的鉴别。
附图说明
图1是本发明实施例中一个样品和对照样品指纹图谱向量图。
图2是本发明的实施例中不同样品和对照样品指纹图谱向量及投影图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
一种色谱指纹图谱相似度计算方法,它包括以下步骤:
(1)、采用标准样品建立对照指纹图谱,所述对照指纹图谱的向量为 1≤i≤n,n为对照指纹图谱的色谱峰数即标准样品中的成分总数;yi代表标准样品中i成分的峰面积或峰高值;
(2)、采用与建立对照指纹图谱相同的色谱条件建立待评价样品的样品指纹图谱,样品指纹图谱的向量为: X → = ( x 1 , x 2 , x 3 , . . . , x i , . . . x n , x a 1 , x a 2 , x a 3 , . . . , x aj , . . . x am ) ;
其中,1≤i≤n,n为样品指纹图谱中与对照指纹图谱共有峰的色谱峰数,xi代表待评价样品中i成分即样品指纹图谱中与对照指纹图谱共有峰的峰面积或峰高值,其中,对照指纹图谱中存在而在样品指纹图谱中不存在的成分,样品指纹图谱中该共有峰的取值为xi=0;
1≤j≤m,m为样品指纹图谱中与对照指纹图谱非共有峰的色谱峰数,xaj代表待评价样品中j成分即样品指纹图谱中与对照指纹图谱非共有峰的峰面积或峰高值,;
(3)、将样品指纹图谱的每一个峰值与对照指纹图谱中对应峰值相比,样品的比值指纹图谱表示为n+1维向量:对照比值指纹图谱表示为n+1维向量:采用下述公式计算这两个比值向量的相似度S:
S = 1 - Σ i = 1 n δ i ( 1 - x i y i ) 2 + δ aj ( Σ j = 1 m x aj Σ i = 1 n y i ) 2 n t × ( 2 - | Σ i = 1 n ( x i - y i ) | Σ i = 1 n | x i - y i | )
其中:
δi、δaj分别是各共有峰、非共有峰总面积的权重系数,权重的取值范围δi≥0、δa≥0;
表示样品指纹图谱中样品指纹图谱与对照指纹图谱非共有峰的总面积或峰总高值,作为求非共有峰比值的标准,表示对照指纹图谱峰总面积或峰总高值,nt表示实际的共有峰峰数,nt≤n,当对照指纹图谱存在的成分在样品指纹图谱中不存在时,样品指纹图谱中该共有峰的取值为xi=0。
相似度算法的提出如下:
本研究构建的相似度算法是基于事先确定的对照指纹图谱为计算参照标准;以中药色谱指纹图谱峰面积值或峰高为相似度评价信息参数;以图谱矢量化空间模式向量间相似性计算为基本出发点。
为说明相似度新算法构建的原理,现假设对照指纹图谱向量为 yi代表标准样品中i成分的峰面积或峰高值,n为色谱峰数;样品指纹图谱向量为xi代表样品中i成分的峰面积或峰高值,n为色谱峰数,如图1所示。用向量表示向量与向量的差向量:Z=(x1-y1,x2-y2,x3-y3,…,xi-yi,…xn-yn),则向量的模长以|Z|表示,其值表示向量在多维空间的欧几里得距离:向量的模长用|Y|表示:显然|Z|与|Y|的比值|Z|/|Y|的大小在一定程度上反应向量与向量的相似程度,降低了变量单位不同以及检测器响应不同的对相似性大小的影响;由于其取值范围在0~∞之间,数值为零时表示两向量完全相同,数值越大两向量差异越大,考虑相似性定义的习惯,1表示两向量完全相同,初步定义相似度S计算公式(1):
S = 1 - | Z | | Y | - - - ( 1 ) ,
S取值范围在-∞~1,数值越小两向量差异越大,这里相似度为负值被赋予实际意义,表示向量差异非常显著。
相似度算法的优化
当样品指纹图谱色谱峰比对照指纹图谱对应峰都偏大时,样品与对照样品的化学成分分布比例较一致,而如果样品指纹图谱色谱峰比对照指纹图谱对应峰一部分偏大另一部分偏小时,二者的化学成分分布比例相差较大,采用式(1)计算上述两种情况的相似度时不能灵敏反应这种差异,必须对公式(1)进行修正,修正后的计算方法见公式(2)。
S = 1 - | Z | | Y | × ( 2 - AD MD ) - - - ( 2 )
式中AD表示向量差值和的绝对值:MD表示向量差绝对值的和:显然AD的取值范围为0~MD,AD与MD的比值AD/MD取值范围为0~1,当样品指纹图谱色谱峰比对照指纹图谱对应峰都偏大时AD/MD比值为1;如果样品指纹图谱色谱峰比对照指纹图谱对应峰一部分偏大另一部分偏小时AD/MD比值小于1,特殊情况下AD/MD比值可能为0,因此用项对(1)式修正后能够较准确反映指纹图谱峰值比例的变化。
然而用式(2)实际计算相似度时发现对样品指纹图谱中大峰与小峰有相同的绝对差异仍不能区分,如对2±2与10±2两种情形具有相同的评价结果,二者若从变量本身基数大小来考虑时,前者为基数基础上100%的变化,而后者为20%的变化,二者并不具有完全的等同性。为解决该问题可以这样考虑:既然计算相似度时是以对照指纹图谱为标准,那么可以将样品指纹图谱的每一个峰值与对照指纹图谱中对应峰值相比,可得到称之为样品的比值指纹图谱:显然对照比值指纹图谱为:再用公式(2)计算样品比值指纹图谱x′与对照比值指纹图谱y′的相似度,上述问题得以解决。
上述这种数据处理方法对共有峰模式指纹图谱是可行的,若样品指纹图谱中存在非共有峰(不能与对照指纹图谱相匹配的峰)时就出现问题:如何确定非共有峰比值。为表述方便,用n表示对照指纹图谱色谱峰总个数,m表示样品指纹图谱非共有峰的个数,xi代表样品中共有峰i成分的峰面积,xaj表示样品指纹图谱中非共有峰j的峰面积,表示样品指纹图谱的非共有峰总面积,参照中药注射剂指纹图谱研究的技术要求对指纹图谱共有峰控制每个峰比值的波动范围,而对非共有峰控制总面积的思路,选择对照指纹图谱总面积作为求非共有峰比值的标准,将所有非共有峰合并为一个峰组,其值就是非共有峰总面积那么样品的比值指纹图谱可表示为n+1维向量:对照比值指纹图谱可表示为n+1维向量:y′=(1,1,1,...,1,...,1,0),以公式(2)来计算这两个比值向量的相似度,具体计算方法见公式(3):
S = 1 - Σ i = 1 n ( 1 - x i y i ) 2 + ( Σ j = 1 m x aj Σ i = 1 n y i ) 2 n × ( 2 - | Σ i = 1 n ( x i - y i ) | Σ i = 1 n | x i - y i | ) - - - ( 3 )
公式(3)理论取值范围为-∞~1,相似度为-∞表示待比较样品指纹图谱与对照指纹图谱没有共有峰,也就是说样品指纹图谱向量与对照指纹图谱向量是正交的,显然特殊情况下当远小于时,用公式(3)计算它们间的相似度几乎为0,这显然是不合理的;公式(3)中的n为对照指纹图谱色谱峰峰数,是假定样品指纹图谱与对照指纹图谱的共有峰峰数为n,实际上当样品指纹图谱中缺少与对照指纹图谱相匹配的峰时,图谱向量化时将样品指纹图谱向量相应元素以0代替,若以nt表示共有峰数,显然nt≤n;若以实际的共有峰峰数nt代替公式(3)中n,就不存在上述不合理的情况了,当没有共有峰时即nt=0,S为-∞。相似度计算公式可由公式(4)表示。
S = 1 - Σ i = 1 n ( 1 - x i y i ) 2 + ( Σ j = 1 m x aj Σ i = 1 n y i ) 2 n t × ( 2 - | Σ i = 1 n ( x i - y i ) | Σ i = 1 n | x i - y i | ) - - - ( 4 )
由于中药组成成分复杂,各成分的结构及药效等不尽相同,故对中药指纹图谱相似性评价时,各成分可能存在有不同的比重系数。为此,实际应用时可考虑根据药效、毒性研究等确定中药不同成分相似度评价的药效影响因子,对指纹图谱相似度评价中的特征变量进行加权运算。加权运算公式为公式(5):
S = 1 - Σ i = 1 n δ i ( 1 - x i y i ) 2 + δ a ( Σ j = 1 m x aj Σ i = 1 n y i ) 2 n t × ( 2 - | Σ i = 1 n ( x i - y i ) | Σ i = 1 n | x i - y i | ) - - - ( 5 )
式中δi、δa分别是各共有峰、非共有峰总面积的权重系数,权重的取值范围δi≥0或δa≥0,δi、δa取值原则是:①向量的各维变量对产品有效性安全性影响不明确时δi及δa可全取1;②某些变量对产品有效性安全性影响非常明显时δi>1或δa>1,具体大小通过实验确定;③某些变量对产品有效性安全性影响较小时1>δi≥0或1>δa≥0,具体大小通过实验确定。确定δi、δa大小的具体试验方法有待进一步研究。
定性比较新算法与其它相似度算法:
假设有某一产品的对照指纹图谱向量和三个待比较样品指纹图谱向量如图2所示,是三个样品指纹图谱向量与的差向量,向量在向量的投影,在向量上的投影,|Z1|、|Z2|、|Z3|分别表示向量之间的欧几里得距离,|Y|表示向量的模长,|C|、|D|表示向量的模长。从图1可以看出向量向量的夹角余弦值相同,而|Z1|值大于|Z2|值,显然从本研究定义的相似度公式可以发现的相似度大于与的相似度,这表明本研究定义的相似度比夹角余弦法能更灵敏地反应向量之间的差异;图中也可以看出向量明显不同,而它们在向量上的投影向量的模长|C|(包括向量在向量上的投影向量模长|D|)是相等的,表明文献(SUN GX,HOU ZF,ZHANG CL,et al.Comparison between thequalitative similarity and the quantitative similarity of chromatographic fingerprints oftraditional Chinese medicines[J].Acta Pharmaceutica Sinica(药学学报),2007,42(1):75-80)提出的投影含量相似度C%及投影含量相似度误差△C%不能反应的差异,图中可以看出|Z1|、|Z3|是不同的,表明本发明定义的相似度能够反应的差异。
定量比较新算法与其它相似度算法:
表1是采用差异明确的模拟数据来考察4种相似度的计算结果。1~6号样品是对照样品的稀释或浓缩,即样品中的每个峰的大小与对照样品中相应峰大小关系为线性关系:xi=k*yi,k分别为0.5、0.9、1.1、1.5、2.0和3.0;7~12号样品比对照样品多出一个非共有峰,非共有峰峰大小依次由1变为25,共有峰对应峰大小相同;13号样品与3号样品的各峰的相对差异都为10%,但变化方向不同,3号样品所有峰都比对照指纹图谱峰偏大,而13号样品比对照指纹图谱峰一部分偏大,另一部分偏小;14号样品的一个小峰与15号样品的一个大峰相对对照指纹图谱的相对差异相同,都为10%;16号样品的小峰与17号样品的大峰相对对照指纹图谱的绝对差异相同,都为3。
表1.模拟数据的四种相似度结果
表1中相似度算法为:夹角余弦改良程度相似度新改良程度相似度 q ′ = 1 - Σ i = 1 n ( 1 - x i y i ) 2 n .
表1中1~6号样品的相似度数据表明当峰值大小的总差异不超过100%时,本研究定义的相似度S、改良程度相似度q、新改良程度相似度q′数值大小与样品和参照样品的相对差异大小一致,直接给出直观的综合定量评价结果;即使相对差异超过100%,数值的大小也能反映样品和参照样品的差异,本研究计算的相似度数值变为负值时,其绝对值越大,样品与对照样品的差异越大;而夹角余弦相似度cosθ全为1,不能反应样品与参照样品的这种差异。7~12号样品与对照样品相似度数据显示当非共有峰峰值由1变为25时,本研究定义相似度S由0.9892变化为0.7314,差值为0.2578;而夹角余弦相似度cosθ由0.9996变化0.8293,差值为0.1703;表明本发明定义相似度S比夹角余弦相似度cosθ能更灵敏地反映非共有峰峰大小的影响,而改良相似度q及新改良程度相似度q′由于只能反应共有峰的变化对相似度的影响,相似度全为1。相对于对照指纹图谱而言,13号样品峰比例关系的一致性比3号样品峰比例关系的一致性要差,按公式(3)计算的相似度S,13号样品的0.8184小于3号样品相似度0.9000,二者相似度△S的差值比夹角余弦值差值大,而改良程度相似度q及新改良程度相似度q′不能反映这种差异。表1中14号、15号样品相似度数据表明按公式(4)计算的相似度无论大峰还是小峰,只要相对差异相同对相似度的影响是一样的,而夹角余弦值对大小峰的灵敏度是不同的。16号、17号样品相似度数据表明按公式(4)计算的相似度能灵敏反应大小峰产生相同的绝对差异时对相似度不同的影响,对16号样品小峰的绝对差异为3时相对差异为60%,而17号样品大峰的绝对差异为3时相对差异为12%,因此17号样品的相似度远大于16号样品的相似度。
新算法评价中药制剂质量稳定性的应用
表2是文献(吴昊,田燕华,郭平平.多元统计学在参麦注射液指纹图谱中的应用[J],中成药,2002,Vol.24 No.1:3-6.)中23个参麦注射液样品指纹图谱数据及采用式(4)计算的相似度结果;1~11号是以工艺A制得的参麦注射液样品,作为合格品,12~17号以工艺B制得的参麦注射液样品,2’、3’、4’、5’、9’号是2、3、4、5、9号参麦注射液样品的重复进样获得的指纹图谱,18号是以西洋参代替红参所作的伪品;对照指纹图谱是以中位矢量法用1~11号样品指纹图谱数据确定的。根据本研究确定相似度判断阈值S的方法,发现7号样品和11号样品为异常样品,剔除7、11号样品后,将1~6号、9~10号作为合格样本,以中位法重新确定对照指纹图谱,依次以公式(4)计算1~6号、9~10号、2’、3’、4’、5’、9’号、7号、11号及12~18号样品相对新对照指纹图谱的相似度,结果按顺序为0.7671,0.8029,0.7978,0.5627,0.9052,0.6964、0.6549,0.7622、0.8118、0.7771、0.8024、0.5783、0.8972、0.7604、0.0247、0.2812、-1.132,-1.700,-1.941,-0.9393,-2.726,-2.263,-10.89;1~6号、9~10号合格样本的相似度未发现异常值,4号样本的相似度0.5627为最小,确定为判断阈值S;显然12~18号相似度S值均小于0.5627,可判定为不合格品(工艺B与工艺A有显著差别),2’、3’、4’、5’、9’号相似度的均大于0.5627,可判定为合格品,特别是18号伪品其相似度值最低为-10.89,按新的阈值S判断,7、11号样品依然为异常样品,分析7、11号样品指纹图谱数据可发现,二者的指纹图谱第一个色谱峰值分别为2.72、3.05,明显比其它合格样本对应峰值大得多,说明判断是合理的;即使在剔除7、11号样品前计算的相似度,从表1的数据也可以看出1~11号样本的相似度也远大于12~18号样品的相似度,表明公式(4)算法计算的相似度能够反应两种不同工艺的差别,从另一个角度说明公式(4)算法计算能够反应中药制剂质量的稳定性均匀性。
表2 参麦注射液指纹图谱数据及相似度结果
综上所述,本研究构建的相似度算法扩展了相似度的取值范围为-∞~1,当相似度为负值时从原理和现实都能得到合理解释:样品质量与对照样本质量差别越显著相似度数值为负值的绝对值越大;模拟数据计算结果显示本研究构建的相似度算法不仅能够准确灵敏地反应指纹图谱共有峰峰分布比例关系的变化和峰面积总量的波动,也能够定量反应非共有峰总面积大小对相似度的影响,具有较好的综合评价能力;本研究根据箱线图法原理提出的确定相似度判断阈值的经验方法具有较强的可操作性和实用性。
本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

Claims (6)

1.一种色谱指纹图谱相似度计算方法,其特征是它包括以下步骤:
(1)、采用标准样品建立对照指纹图谱,所述对照指纹图谱的向量为 1≤i≤n,n为对照指纹图谱的色谱峰数即标准样品中的成分总数;yi代表标准样品中i成分的峰面积或峰高值;
(2)、采用与建立对照指纹图谱相同的色谱条件建立待评价样品的样品指纹图谱,样品指纹图谱的向量为: X → = ( x 1 , x 2 , x 3 , ... , x i , ... x n , x a 1 , x a 2 , x a 3 , ... , x a j , ... x a m ) ;
其中,1≤i≤n,n为样品指纹图谱中与对照指纹图谱共有峰的色谱峰数,xi代表待评价样品中i成分即样品指纹图谱中与对照指纹图谱共有峰的峰面积或峰高值,其中,对照指纹图谱中存在而在样品指纹图谱中不存在的成分,样品指纹图谱中该共有峰的取值为xi=0;
1≤j≤m,m为样品指纹图谱中与对照指纹图谱非共有峰的色谱峰数,xaj代表待评价样品中j成分即样品指纹图谱中与对照指纹图谱非共有峰的峰面积或峰高值;
(3)、将样品指纹图谱的每一个峰值与对照指纹图谱中对应峰值相比,样品的比值指纹图谱表示为n+1维向量: X ′ → = ( x 1 y 1 , x 2 y 2 , x 3 y 3 , ... , x i y i , ... , x n y n , Σ j = 1 m x a j Σ i = 1 n y i ) , 对照比值指纹图谱表示为n+1维向量:采用下述公式计算这两个比值向量的相似度S:
S = 1 - Σ i = 1 n δ i ( 1 - x i y i ) 2 + δ a ( Σ j = 1 m x a j Σ i = 1 n y i ) 2 n t × ( 2 - | Σ i = 1 n ( x i - y i ) | Σ i = 1 n | x i - y i | )
其中:
δi、δa分别是各共有峰、非共有峰总面积的权重系数,权重系数的取值范围δi≥0、δa≥0;
表示样品指纹图谱中样品指纹图谱与对照指纹图谱非共有峰的峰总面积或峰总高值,作为求非共有峰比值的标准,表示对照指纹图谱峰总面积或峰总高值,nt表示实际的共有峰峰数,nt≤n,当对照指纹图谱存在的成分在样品指纹图谱中不存在时,样品指纹图谱中该共有峰的取值为xi=0。
2.根据权利要求1所述的色谱指纹图谱相似度计算方法,其特征是所述的步骤(1)中,采用标准样品建立对照指纹图谱包括以下步骤:
(a)、获取标准样品色谱指纹图谱的步骤:取标准样品,采用任一色谱方法按照色谱指纹图谱建立的规范要求建立标准样品色谱指纹图谱;
(b)、标准样品色谱指纹图谱预处理的步骤:取若干批次标准样品,采用前述方法获取各批次标准样品的色谱指纹图谱,对数据进行预处理和色谱峰匹配,以平均矢量法或中位数矢量法建立该产品的对照指纹图谱,所述对照指纹图谱的向量为
3.根据权利要求2所述的色谱指纹图谱相似度计算方法,其特征是所述的色谱方法包括高效液相色谱、气相色谱或高效毛细管电泳色谱。
4.根据权利要求2所述的色谱指纹图谱相似度计算方法,其特征是所述的步骤(b)中,标准样品的批次总数为k,对于对照指纹图谱的向量按照步骤(3)计算k个批次标准样品的比值指纹图谱向量Yk与此次确定的对照比值指纹图谱向量的相似度采用箱线图法对数据按从小到大排序,并求出该序列数据的统计量第一四分位数Q1、第三四分位数Q3,并求出这两个四分位数差值df=Q3-Q1,将所有数据与Q1-1.5df比较,所有小于Q1-1.5df的数据判断为异常值而将对应批次的标准样品去除,重复前述步骤,直至剩余的不再出现异常值,对剩余批次标准样品指纹图谱进行预处理和色谱峰匹配,以平均矢量法或中位数矢量法建立对照指纹图谱,所述对照指纹图谱的向量为
5.根据权利要求4所述色谱指纹图谱相似度计算方法,其特征是本方法还包括合格样品的确定步骤:将最终剩余批次标准样品指纹图谱与最终确定的对照指纹图谱按照权利要求1的步骤(3)计算相似度S,其中S的最小值即为判断阈值S;待评价样品的指纹图谱与最终确定的对照指纹图谱的相似度按照权利要求1的步骤(3)计算相似度,S大于S即为合格样品。
6.根据权利要求1所述的色谱指纹图谱相似度计算方法,其特征是所述的步骤(3)中,δi=1。
CN201310183164.8A 2013-05-16 2013-05-16 一种色谱指纹图谱相似度计算方法 Expired - Fee Related CN103278591B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310183164.8A CN103278591B (zh) 2013-05-16 2013-05-16 一种色谱指纹图谱相似度计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310183164.8A CN103278591B (zh) 2013-05-16 2013-05-16 一种色谱指纹图谱相似度计算方法

Publications (2)

Publication Number Publication Date
CN103278591A CN103278591A (zh) 2013-09-04
CN103278591B true CN103278591B (zh) 2015-08-26

Family

ID=49061171

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310183164.8A Expired - Fee Related CN103278591B (zh) 2013-05-16 2013-05-16 一种色谱指纹图谱相似度计算方法

Country Status (1)

Country Link
CN (1) CN103278591B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104777143A (zh) * 2014-01-15 2015-07-15 中国人民解放军第二军医大学 一种用于过期药的、基于拉曼光谱的相似度鉴定方法
CN105651875A (zh) * 2015-12-31 2016-06-08 河北中烟工业有限责任公司 一种指纹图谱的相似度评价算法
CN106483187A (zh) * 2016-10-11 2017-03-08 王海燕 基于离子迁移谱和相似度的中药材与其易混伪品鉴别方法
CN106650779B (zh) * 2016-10-17 2019-10-25 浙江和谱生物科技有限公司 谱图相似度的计算方法
CN106788962B (zh) * 2016-12-13 2020-04-14 电子科技大学 隐私保护下的向量相似性判断方法
US10859552B2 (en) 2017-06-20 2020-12-08 The Hong Kong Polytechnic University Edible oil analysis system and method
CN107784192A (zh) * 2017-09-15 2018-03-09 山东大学 指纹图谱相似度计算方法、装置和样品质量评价系统
CN109668850A (zh) * 2019-02-28 2019-04-23 山东中医药大学 基于紫外指纹图谱的中药药性识别方法及系统
CN110987856B (zh) * 2019-12-19 2022-02-11 中国检验检疫科学研究院 基于配方体系和指纹图谱的化妆品质量快速鉴定方法
CN111426648B (zh) * 2020-03-19 2023-04-07 甘肃省交通规划勘察设计院股份有限公司 一种红外谱图的相似度确定方法及系统
CN114428127A (zh) * 2020-10-29 2022-05-03 中国石油化工股份有限公司 一种鉴别石油产品的方法
CN116973495B (zh) * 2023-09-21 2023-12-15 山东鲁地源天然药物有限公司 基于气相色谱仪的中药饮片检测数据分析管理系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101256177A (zh) * 2007-11-21 2008-09-03 皖南医学院 中药数字化色谱指纹谱相似度评价系统
CN101271092A (zh) * 2007-03-19 2008-09-24 沈阳药科大学 中药色谱指纹图谱特征数字化和全定性全定量质量控制方法
CN101676717A (zh) * 2008-09-19 2010-03-24 天津天士力制药股份有限公司 一种中药制品的质量评价方法
CN102507815A (zh) * 2011-10-27 2012-06-20 浙江工业大学 一种色谱指纹谱图的相似度测定方法
CN103018382A (zh) * 2012-12-07 2013-04-03 南京中医药大学 一种指纹图谱相似度的检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4586288B2 (ja) * 2001-03-28 2010-11-24 株式会社島津製作所 クロマトグラフ用データ処理装置
US20040034477A1 (en) * 2002-08-19 2004-02-19 Mcbrien Michael Methods for modeling chromatographic variables
JPWO2011058883A1 (ja) * 2009-11-13 2013-03-28 株式会社日立ハイテクノロジーズ 液体クロマトグラフィー質量分析装置、及び液体クロマトグラフィー質量分析装置を用いた分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271092A (zh) * 2007-03-19 2008-09-24 沈阳药科大学 中药色谱指纹图谱特征数字化和全定性全定量质量控制方法
CN101256177A (zh) * 2007-11-21 2008-09-03 皖南医学院 中药数字化色谱指纹谱相似度评价系统
CN101676717A (zh) * 2008-09-19 2010-03-24 天津天士力制药股份有限公司 一种中药制品的质量评价方法
CN102507815A (zh) * 2011-10-27 2012-06-20 浙江工业大学 一种色谱指纹谱图的相似度测定方法
CN103018382A (zh) * 2012-12-07 2013-04-03 南京中医药大学 一种指纹图谱相似度的检测方法

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
An approach to develop two-dimensional fingerprint for the quality control of Qingkailing injection by high-performance liquid chromatography with diode array detection;Shi-kai Yan et al;《Journal of Chromatography A》;20051007;第1090卷(第1-2期);第90-97页 *
Comparing Similar Spectra: From Similarity Index to Spectral Contrast Angle;Katty X. Wan et al;《Journal of the American Society for Mass Spectrometry》;20020131;第13卷(第1期);第85-88页 *
Cosine similarity measures for intuitionistic fuzzy sets and their applications;Jun Ye;《Mathematical and Computer Modelling》;20110131;第53卷(第1-2期);第91-97页 *
Critical value determination on similarity of fingerprints;Kai-Tai Fang et al;《Chemometrics and Intelligent Laboratory Systems》;20060526;第82卷(第1-2期);第236-240页 *
New approach on similarity analysis of chromatographic fingerprint of herbal medicine;Feng Gan et al;《Journal of Chromatography A》;20060203;第1104卷(第1-2期);第100-105页 *
基于相似系统理论的相似度计算方法的改进;詹雪艳 等;《分析化学》;20100215;第38卷(第2期);第253-257页 *
相似系统理论用于中药色谱指纹图谱的相似度评价;刘永锁 等;《色谱》;20050330;第23卷(第2期);第158-163页 *
色谱指纹图谱相似度方法的研究进展;詹雪艳 等;《中国实验方剂学杂志》;20110120;第17卷(第2期);第248-251页 *
色谱指纹图谱相似度的新算法及其应用;孟庆华 等;《中成药》;20030125;第25卷(第1期);第4-8页 *
色谱指纹图谱组合相似度的算法;詹雪艳 等;《色谱》;20101128;第28卷(第11期);第1071-1076页 *

Also Published As

Publication number Publication date
CN103278591A (zh) 2013-09-04

Similar Documents

Publication Publication Date Title
CN103278591B (zh) 一种色谱指纹图谱相似度计算方法
Cornish et al. Bayeswave: Bayesian inference for gravitational wave bursts and instrument glitches
Hou et al. Statistical tools for classifying galaxy group dynamics
Ikeda et al. Mode-coupling theory as a mean-field description of the glass transition
Goodpaster et al. Quantification and statistical significance analysis of group separation in NMR-based metabonomics studies
Nita et al. Statistics of the spectral kurtosis estimator
CN106560697A (zh) 联合近红外光谱和微量元素的武夷岩茶产地鉴别方法
Harms et al. Numerical solution of the 2+ 1 Teukolsky equation on a hyperboloidal and horizon penetrating foliation of Kerr and application to late-time decays
CN106021685B (zh) 一种考虑测量误差的退化可靠性分析方法
Montgomery et al. Managing, controlling and improving quality
CN107390259A (zh) 一种基于svd和svm的核素识别方法
Castorina et al. Excursion set peaks: the role of shear
Liu et al. DDMA-charts: nonparametric multivariate moving average control charts based on data depth
Likhachev Parametric sensitivity analysis as an essential ingredient of spectroscopic ellipsometry data modeling: An application of the Morris screening method
CN101566569B (zh) 一种通过特征参量鉴别多种荧光光谱混叠物质的系统和方法
Guo et al. Fault detection of multimode process based on local neighbor normalized matrix
Kim et al. Type Ia supernova Hubble residuals and host-galaxy properties
CN111402989B (zh) 一种中药综合品质评价方法
CN111882289B (zh) 一种项目数据审核指标区间测算的装置和方法
Chen et al. Application of Random Forest Regressions on Stellar Parameters of A-type Stars and Feature Extraction
CN104573732A (zh) 一种目标光谱匹配方法
CN110084474A (zh) 一种变电站自动化设备互操作能力评价方法及系统
Perrot-Dockes et al. A variable selection approach in the multivariate linear model: an application to LC-MS metabolomics data
Clemente et al. Puncture black hole initial data: A single domain Galerkin-collocation method for trumpet and wormhole data sets
Zhu et al. Dynamic fusion algorithm of building surface data in heterogeneous environment

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150826