CN111220750A - 一种中药识别平台和利用该平台的中药识别方法 - Google Patents
一种中药识别平台和利用该平台的中药识别方法 Download PDFInfo
- Publication number
- CN111220750A CN111220750A CN201811417962.1A CN201811417962A CN111220750A CN 111220750 A CN111220750 A CN 111220750A CN 201811417962 A CN201811417962 A CN 201811417962A CN 111220750 A CN111220750 A CN 111220750A
- Authority
- CN
- China
- Prior art keywords
- sample
- data
- image
- information
- chinese medicine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003814 drug Substances 0.000 title claims abstract description 129
- 238000000034 method Methods 0.000 title claims abstract description 41
- 150000001875 compounds Chemical class 0.000 claims abstract description 103
- 238000001819 mass spectrum Methods 0.000 claims abstract description 77
- 238000004949 mass spectrometry Methods 0.000 claims abstract description 49
- 229940126680 traditional chinese medicines Drugs 0.000 claims abstract description 5
- 239000000523 sample Substances 0.000 claims description 266
- 150000002500 ions Chemical class 0.000 claims description 34
- 230000014759 maintenance of location Effects 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 26
- 239000000126 substance Substances 0.000 claims description 16
- 238000012937 correction Methods 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 11
- 239000003550 marker Substances 0.000 claims description 10
- 238000002360 preparation method Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 239000000463 material Substances 0.000 claims description 8
- 239000000203 mixture Substances 0.000 claims description 6
- 239000000843 powder Substances 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 4
- 238000002156 mixing Methods 0.000 claims description 4
- 238000003908 quality control method Methods 0.000 claims description 4
- 239000013558 reference substance Substances 0.000 claims description 4
- 238000013375 chromatographic separation Methods 0.000 claims description 3
- 238000004587 chromatography analysis Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 239000013062 quality control Sample Substances 0.000 claims description 3
- 238000003556 assay Methods 0.000 claims description 2
- 230000005672 electromagnetic field Effects 0.000 claims description 2
- 239000008187 granular material Substances 0.000 claims description 2
- 238000003709 image segmentation Methods 0.000 claims description 2
- 238000002347 injection Methods 0.000 claims description 2
- 239000007924 injection Substances 0.000 claims description 2
- 238000001871 ion mobility spectroscopy Methods 0.000 claims description 2
- 239000002245 particle Substances 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000012512 characterization method Methods 0.000 abstract description 2
- 230000004907 flux Effects 0.000 abstract description 2
- OKKJLVBELUTLKV-UHFFFAOYSA-N Methanol Chemical compound OC OKKJLVBELUTLKV-UHFFFAOYSA-N 0.000 description 12
- 239000013074 reference sample Substances 0.000 description 11
- 238000011160 research Methods 0.000 description 8
- 241000208340 Araliaceae Species 0.000 description 7
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 7
- 235000003140 Panax quinquefolius Nutrition 0.000 description 7
- 239000012634 fragment Substances 0.000 description 7
- 235000008434 ginseng Nutrition 0.000 description 7
- QTBSBXVTEAMEQO-UHFFFAOYSA-N Acetic acid Chemical compound CC(O)=O QTBSBXVTEAMEQO-UHFFFAOYSA-N 0.000 description 6
- WEVYAHXRMPXWCK-UHFFFAOYSA-N Acetonitrile Chemical compound CC#N WEVYAHXRMPXWCK-UHFFFAOYSA-N 0.000 description 6
- 238000005336 cracking Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 239000006228 supernatant Substances 0.000 description 6
- 241000405911 Rehmannia glutinosa Species 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 5
- 229930014626 natural product Natural products 0.000 description 5
- 235000008216 herbs Nutrition 0.000 description 4
- 238000000703 high-speed centrifugation Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000004704 ultra performance liquid chromatography Methods 0.000 description 4
- 238000002137 ultrasound extraction Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 229940079593 drug Drugs 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 239000003643 water by type Substances 0.000 description 3
- MFYSUUPKMDJYPF-UHFFFAOYSA-N 2-[(4-methyl-2-nitrophenyl)diazenyl]-3-oxo-n-phenylbutanamide Chemical compound C=1C=CC=CC=1NC(=O)C(C(=O)C)N=NC1=CC=C(C)C=C1[N+]([O-])=O MFYSUUPKMDJYPF-UHFFFAOYSA-N 0.000 description 2
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 2
- 241000219784 Sophora Species 0.000 description 2
- 229930013930 alkaloid Natural products 0.000 description 2
- 238000000889 atomisation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005094 computer simulation Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000010828 elution Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 229930182470 glycoside Natural products 0.000 description 2
- 150000002338 glycosides Chemical class 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 150000007524 organic acids Chemical class 0.000 description 2
- 239000000047 product Substances 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 241000894007 species Species 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004885 tandem mass spectrometry Methods 0.000 description 2
- 150000003505 terpenes Chemical class 0.000 description 2
- 238000001195 ultra high performance liquid chromatography Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- GOLORTLGFDVFDW-UHFFFAOYSA-N 3-(1h-benzimidazol-2-yl)-7-(diethylamino)chromen-2-one Chemical compound C1=CC=C2NC(C3=CC4=CC=C(C=C4OC3=O)N(CC)CC)=NC2=C1 GOLORTLGFDVFDW-UHFFFAOYSA-N 0.000 description 1
- GAMYVSCDDLXAQW-AOIWZFSPSA-N Thermopsosid Natural products O(C)c1c(O)ccc(C=2Oc3c(c(O)cc(O[C@H]4[C@H](O)[C@@H](O)[C@H](O)[C@H](CO)O4)c3)C(=O)C=2)c1 GAMYVSCDDLXAQW-AOIWZFSPSA-N 0.000 description 1
- 238000000862 absorption spectrum Methods 0.000 description 1
- 150000003797 alkaloid derivatives Chemical class 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 150000001413 amino acids Chemical class 0.000 description 1
- 150000001450 anions Chemical class 0.000 description 1
- PYKYMHQGRFAEBM-UHFFFAOYSA-N anthraquinone Natural products CCC(=O)c1c(O)c2C(=O)C3C(C=CC=C3O)C(=O)c2cc1CC(=O)OC PYKYMHQGRFAEBM-UHFFFAOYSA-N 0.000 description 1
- 150000004056 anthraquinones Chemical class 0.000 description 1
- RJGDLRCDCYRQOQ-UHFFFAOYSA-N anthrone Chemical compound C1=CC=C2C(=O)C3=CC=CC=C3CC2=C1 RJGDLRCDCYRQOQ-UHFFFAOYSA-N 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000012472 biological sample Substances 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 229940126678 chinese medicines Drugs 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000002989 correction material Substances 0.000 description 1
- 238000005314 correlation function Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000001035 drying Methods 0.000 description 1
- 230000005684 electric field Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 229930003944 flavone Natural products 0.000 description 1
- 150000002212 flavone derivatives Chemical class 0.000 description 1
- 235000011949 flavones Nutrition 0.000 description 1
- 229930003935 flavonoid Natural products 0.000 description 1
- 150000002215 flavonoids Chemical class 0.000 description 1
- 235000017173 flavonoids Nutrition 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000002290 gas chromatography-mass spectrometry Methods 0.000 description 1
- 241000411851 herbal medicine Species 0.000 description 1
- 238000004896 high resolution mass spectrometry Methods 0.000 description 1
- 229930182851 human metabolite Natural products 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005040 ion trap Methods 0.000 description 1
- 150000002596 lactones Chemical class 0.000 description 1
- 229920005610 lignin Polymers 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 235000005985 organic acids Nutrition 0.000 description 1
- 150000002989 phenols Chemical class 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 229930182490 saponin Natural products 0.000 description 1
- 150000007949 saponins Chemical class 0.000 description 1
- 235000017709 saponins Nutrition 0.000 description 1
- 229930000044 secondary metabolite Natural products 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 239000010421 standard material Substances 0.000 description 1
- 150000003431 steroids Chemical class 0.000 description 1
- 235000018553 tannin Nutrition 0.000 description 1
- 229920001864 tannin Polymers 0.000 description 1
- 239000001648 tannin Substances 0.000 description 1
- 235000007586 terpenes Nutrition 0.000 description 1
- 238000001269 time-of-flight mass spectrometry Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- VHBFFQKBGNRLFZ-UHFFFAOYSA-N vitamin p Natural products O1C2=CC=CC=C2C(=O)C=C1C1=CC=CC=C1 VHBFFQKBGNRLFZ-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/88—Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/62—Detectors specially adapted therefor
- G01N30/72—Mass spectrometers
-
- G—PHYSICS
- G01—MEASURING; TESTING
- G01N—INVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
- G01N30/00—Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
- G01N30/02—Column chromatography
- G01N30/88—Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86
- G01N2030/8809—Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86 analysis specially adapted for the sample
Landscapes
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Immunology (AREA)
- Pathology (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本申请公开了一种中药识别平台,以及应用该平台来识别中药的方法。该平台包括已知样本信息数据库模块、未知样本信息数据库模块、已知样本色谱‑质谱图像模块、未知样本色谱‑质谱图像模块、未知样本识别模块。通过将生成的未知样本的色谱‑质谱数据图像与已知样本的色谱‑质谱数据图像进行比对,来确定未知样本的色谱‑质谱数据是否与已知样本的色谱‑质谱数据匹配,从而识别未知样本。本发明运用中药色谱‑质谱高维图像技术,能够对中药样本中大量化合物间的空间信息实现全面表征,并利用上述空间信息实现未知样本的匹配与识别,具有快速、高通量、高精度和高可靠性等优势。
Description
技术领域
本申请涉及中药检测技术领域,具体涉及一种中药识别平台和中药识别方法。
背景技术
复杂样本的化合物构成具有极端复杂性。中药即是典型的复杂样本,所含成分极其复杂,结构多样、种类繁多,常见类型包括酚类、生物碱类、皂苷类、萜类、黄酮类、内酯类、蒽酮类、有机酸类以及鞣质类等,单一中药即包含数百上千计的次生代谢产物和小分子成分,由多种中药组合的中药复方制剂的成分则更多。相应地,复杂样本中蕴含海量信息。如中药化合物之间的相互关系、不同中药的药性药效差异、同属药材化学成分异同及产地、年份、生长环境对药材质量的影响等科学问题都蕴藏其中。
目前对于复杂样本的研究面临两个重要瓶颈:一方面,研究大多采用碎片化、点状的低维数据,如色谱保留时间,m/z值,子离子碎片信息等,这些低维数据忽视也无法体现上述大量化学成分间的关联。高维数据恰是海量信息的有力载体。与低维数据相比,高维数据能够有效地表示样本中各数据点的空间信息从而反映它们的空间关系。因此,获取复杂样本化合物的高维数据才能真正实现从复杂样本中得到、处理、挖掘那些高价值信息。另一方面,实验产生的数据资源庞大却零散,相关研究产生的数据不能整合利用,导致科研工作中人力、物力、时间等投入的成本高,产出却不显著。数据库技术是一种计算机辅助管理、整合数据的方法。将高维数据与数据库技术结合建立高维数据数据库正是解决上述难题的方向。
高维数据的获取需要联用仪器来实现。色谱-质谱联用技术将应用范围极广的分离方法-色谱法与灵敏、专属、能提供分子量和结构信息的质谱法结合起来,显然是复杂样本高维数据获取的理想手段。目前,已有一些基于色谱-质谱联用技术的数据库,大致可以分为两类:
1.标准化合物质谱数据库:如美国国家科学技术研究院(NIST)出版的NIST标准化合物质谱数据库,收录了几万张标准质谱图,在以GC-MS平台的代谢组学研究中发挥巨大作用;又如人类代谢组数据库(Human Metabolome Database,HMDB)是目前最完整且最全面的人类代谢物和人类代谢数据库。这类数据库在许多研究领域得到了广泛的应用。然而该类型数据库能够提供的化合物数目是有限的,并且没有提供化合物的色谱保留信息。张加余等(药学学报,2012,47(9):1187-1192)利用高效液相-电喷雾离子阱串联质谱(HPLC-ESIIT-MS/MS),以商业化工作站谱库编辑程序为平台建立了含有636个天然化合物(包括黄酮、香豆素、木质素、萜及其苷类、甾体及其苷类、有机酸、生物碱、蒽醌、氨基酸等常见类型的天然产物)的液相色谱-质谱-数据库(LC-MS-DS),用于天然产物未知组分的鉴定和靶向分离。该数据库属于标准化合物质谱数据库,且可通过匹配未知组分和对照品的保留时间、紫外吸收光谱或者比较未知组分和对照品的多级质谱图中主要离子碎片是否相同来评价谱库检索的可信度,从而提高结果的可信度。该数据库仅能用作化合物的鉴定,无法用于包括天然产物在内的生物样本的鉴定。
2.化合物信息库:WATERS公司推出的UNIFI中药数据库包含了2010版中国药典中所列所有草药以及与这些草药相关的几千种化合物信息(文献已报道的主要化合物)。该数据库需以超高效液相色谱(UPLC)和四极杆飞行时间质谱(QTOF MS)为基础获得待测中药的色谱-质谱数据,根据精确分子量推测分子式并与数据库中的化合物结构匹配,将软件计算的理论碎片与采集的二级离子进行匹配进行确证。该数据库的优势在于整合了2010版中国药典中所有草药及主要化合物,化合物规模达几千种。相对于标准物质来源有限的标准化合物质谱数据库,该数据库的化合物数目规模增加的可行性是显而易见的。但该数据库实际上并没有每个化合物的真实色谱-质谱数据,化合物的鉴定仅利用高分辨质谱获得精确分子量推测分子式,通过结合理论计算二级碎片匹配提高可信度。尽管高分辨质谱能够提供化合物的精确分子量来推测可能的分子式,但同一分子式对应的可能候选物数量很多,尽管该数据库化合物总数达几千个,但每种中药平均化合物仅几十个,且多为高含量常见化合物。中药化学成分具有典型的复杂多样性,每种中药可能存在成百上千种成分,该数据库中的化合物可能仅包含待测中药中很小一部分化学成分,对于中低含量成分的鉴定能力十分有限。并且理论计算二级碎片技术目前尚未成熟,准确性不高,匹配结果可能存在偏差,造成假阳性或者假阴性。该数据库同样存在兼容性的问题,仅适用于WATERS工作站系统。范骁辉等发明了一种适用于天然产物质谱数据解析的数据库构建方法(申请号201510443268.7)。该方法从PubChem、CA或Reaxys化合物数据库上下载相关的所有化合物,基于裂解规律对化合物进行计算机模拟裂解,获得该化合物的裂解碎片,记录化合物和碎片的相关信息,然后建立数据库。该方法较UNIFI中药数据库包含的化合物数量丰富,裂解规律基于已有文献报道的裂解规律结合计算机模拟裂解完成化合物鉴定,相对地增加了结果的可靠性。但与UNIFI中药数据库相同,该数据库数据仅基于化合物结构信息数据,没有化合物实际谱图;另外,不同仪器、不同参数对化合物的碎裂行为影响很大,该数据库对不同来源(仪器、实验条件等)的适应性不明确。
上述色谱-质谱联用数据库均以化合物为主体,关注于数据中单一维度的特征,部分数据库存在多维度数据,但没有将多维度的数据转化成高维数据整合使用。本发明建立的中药色谱-质谱高维图像数据库以中药整体为主体,既包括中药整体信息,也包括中药化合物的单点信息。本发明中药色谱-质谱高维图像数据库可用于中药的识别、分类、质量控制、数据的深度挖掘等多方面的研究使用。
需要特别指出的是,本发明中药识别方法可适用于样本分析条件相近或相似获得的数据,使得该方法的适用性大大提高。
发明内容
为解决现有技术中存在的问题,本发明的一个方面提供了一种中药识别平台,该平台包括以下模块:
已知样本信息数据库模块、未知样本信息数据库模块、已知样本色谱-质谱图像模块、未知样本色谱-质谱图像模块和未知样本识别模块;
所述已知样本信息数据库模块向所述已知样本色谱-质谱图像模块传输已知样本的色谱-质谱数据,所述已知样本色谱-质谱图像模块输出第一数据图像;
所述未知样本信息数据库模块向所述未知样本色谱-质谱图像模块传输未知样本的色谱-质谱数据,所述未知样本色谱-质谱图像模块输出第二数据图像;
所述未知样本识别模块,用于记录所述已知样本的样本信息以及所述生成的第一数据图像,并将所述生成的第二数据图像与所述第一数据图像进行比对,以确定所述未知样本的色谱-质谱数据是否与已知样本的色谱-质谱数据匹配。
在优选的实施方式中,已知样本的色谱-质谱数据包括已知样本的原始色谱-质谱信息,未知样本的色谱-质谱数据包括未知样本的原始色谱-质谱信息。
在优选的实施方式中,已知样本的色谱-质谱数据还包括已知样本中各个化合物的高维数据,未知样本的色谱-质谱数据还包括未知样本中各个化合物的高维数据。
高维数据表达样本中各数据点间的空间信息,是以下至少一种信息构成的矩阵:数据点间的距离信息;数据点间的角度关系信息;数据点的坐标位置信息;数据点的密度信息;数据点集合的边缘范围信息;数据点的强度信息。
优选地,数据点间的距离信息包括色谱保留时间t、m/z值、m值、z值、峰强度I中的至少一种。
优选地,数据点的强度信息包括由数据点的大小或亮度的强弱反映出来的信息中的至少一种。
优选地,可将高维数据存储为表格文件或文本文件,进一步优选地,表格文件是.xls、.xlsx、.csv、.xml中的一种或多种,文本文件为.doc、.docx、.txt、.rtf中的至少一种。
在优选的实施方式中,高维数据生成的高维数据图像包括高维数据生成的原始图像、基于图像特征生成的图像、对图像进行转化处理生成的图像、利用函数构建的图像中的至少一种。
优选地,图像特征包括数据点点簇、共同粒子、样本轮廓。
优选地,图像转化处理包括将图像模糊化处理或对图像进行不同分辨率的处理中的至少一种。
优选地,函数包括色谱保留时间t、m/z、m、I中的至少一种。
优选地,高维图像是二维以上维数的图像;
优选地,可将图像文件存储为任意图像文件格式。
在优选的实施方式中,已知样本包括标准品和已知中药样本中的至少一种。
优选地,标准品包括《2015版中国药典》的中药的对照品、中药标志性成分、中药主要化学成分中的至少一种。
优选地,已知中药样本为类别信息明确的样本,类别信息包括样本的种属、产地、部位、炮制方式中的至少一种;
优选地,已知中药样本包括中药原药材、饮片、粉末中的至少一种。进一步优选地,已知中药样本包括中药的不同部位和它们的加工品中的至少一种。
在优选的实施方式中,未知样本识别模块包括图像分割工具或者聚类工具。
在优选的实施方式中,本发明提供的中药识别平台中的各数据库模块中的数据库类型包括文件夹数据集、网页数据库、基于商业化工作站或基于用户自研发工作站的数据库中的至少一种。
优选地,数据库格式包括文本、EXCEL、Oracle、mysql、splite或microsoft sqlserver中的至少一种。
本发明的另一方面提供了一种应用中药识别平台识别中药的方法,该方法至少包括以下步骤:
1)使用色谱和质谱获取已知样本和未知样本的原始色谱-质谱数据;
2)生成已知样本和未知样本的色谱-质谱高维数据,色谱-质谱高维数据表达各数据点间的空间信息;
3)生成已知样本和未知样本的色谱-质谱高维数据图像,使高维数据中的每个离子与构成图像中的点一一对应,每个点拥有自己的坐标信息,每个点的强度由点的大小或/和亮度的强弱表示,高维数据图像中的点与高维数据一一对应;
4)利用图像分割工具或聚类工具将未知样本的色谱-质谱高维图像中的点分割为n个点簇(n为≥1的整数),将提取点簇后的未知样本的色谱-质谱高维图像与已知样本质谱-色谱的高维图像逐一进行分别扫描和匹配;
5)将与未知样本匹配的已知样本按匹配度进行排名,在未知样本的原始色谱-质谱数据信息和/或高维数据信息中按所述匹配度排名依次检索,对应已知样本的标志性化合物,所述标志性化合物数目≥1,未知样本中检索到标志性化合物时即接受未知样本是该已知样本,停止检索;若第一排名已知样本在未知样本中未搜索到,接下来在未知样本中检索第二排名已知样本标志性化合物,以此类推,一直到检索到标志性化合物为止;若所有匹配到的已知样本中的标志性化合物在未知样本中都没有检索到,即认为已建立的数据库中没有包含该未知样本;
在优选的实施方式中,坐标信息包括数据点间的距离信息、数据点间的角度关系信息、数据点的坐标位置信息、数据点的密度信息、数据点集合的边缘范围信息和数据点的强度信息中的至少一种。
在优选的实施方式中,点簇是在空间上距离接近的数据点的集合,点簇内数据点的个数n≥3。
优选地,所述每个点簇有自己的中心点。
优选地,所述点簇的形状为任意形状。
在优选的实施方式中,已知样本和未知样本的原始色谱-质谱数据通过以下步骤获取:
使用色谱仪和离子迁移谱仪器,通过选择性作用将已知和未知样本中混合的分子进行分离,获得不同的色谱保留时间信息t;
利用质谱仪的电磁场作用,根据分子的质荷比不同进行样本中各化合物的分离和检测,获得不同的质荷比信息m/z;
将样本提取物利用色谱-质谱仪器进行分析,即得原始色谱-质谱数据;
在优选的实施方式中,色谱分离所用的时间t的范围是1-10000s,离子的m/z扫描的范围50-10000Da。
在优选的实施方式中,上述方法还可以包括将所获取的原始色谱-质谱数据经过保留时间校正、过滤和归一化中的至少一种数据处理。
在优选的实施方式中,该方法还可以包括使用质量控制样本和混合标准品内标物的步骤。
优选地,质量控制样本包括已知样本或其混合物、未知样本或其混合物以及两种以上标准品的混合物中的至少一种,该质量控制样本用于评价数据质量。
优选地,在采用混合标准品时可以使用混合标准品内标物,以提高测定的重复性和进行保留时间校正。
在优选的实施方式中,未知样本是中药原药材、饮片、粉末、制剂、中药的不同部位以及它们的加工品中的至少一种。
优选地,制剂包括中药颗粒或制备质中药注射液。
本申请能产生的有益效果包括:
1)本发明建立的中药识别平台包括中药色谱-质谱高维图像数据库,该数据库以中药整体为主体,既包括中药整体信息,也包括中药化合物的单点信息。因此本发明的中药识别平台能够很好地揭示中药各复杂成分之间的关联,能够对中药样本中大量化合物间的空间信息实现全面表征。
2)本发明的中药色谱-质谱高维图像数据库可用于中药的识别、分类、质量控制、数据的深度挖掘等多方面的研究使用。
3)本发明的中药识别方法适用于样本分析条件相近或相似获得的数据,使得该方法的适用性大大提高。
4)本发明的中药识别方法利用样本的空间信息实现已知样本与未知样本的匹配与识别,具有快速、高通量、高精度和高可靠性等优势。
附图说明
图1为示出本发明构思的示意图。
具体实施方式
下面结合实施例详述本申请,但本申请并不局限于这些实施例。
以下对相关术语的统一解释如下:
在本申请中“高维”是指二维及二维以上的维度。“低维”为一维。
所述“共同离子”是指相同或者不同样本高维图像中的同一成分(保留时间和m/z相同)。
“样本轮廓”是指样本产生的高维图像的轮廓。
本发明构思的示意图如图1所示。
1、中药色谱-质谱高维图像数据库的建立:
1)在已知样本信息数据库模块20中获取与处理已知中药样本的原始色谱-质谱(X-MS)数据:使用色谱和质谱获取已知中药样本的原始X-MS数据,将已知中药样本原始X-MS数据导入诸如Progenesis QI等的峰提取软件中,对色谱-质谱联用原始X-MS数据进行数据处理;
2)生成已知中药样本的高维数据200并在已知样本色谱-质谱图像模块22中生成高维数据图像:获取样本中每个化合物的m/z、t、I、m、z值,产生高维数据矩阵(如m/z-t-I矩阵、m-z-t-I矩阵或m-t-I矩阵),生成已知中药样本色谱-质谱联用高维数据200;将高维数据200导入诸如Matlab等的图像生成软件来生成第一数据图像220。使高维数据中的每个离子与构成图像中的点一一对应,每个点拥有自己的坐标信息(例如t,m/z或m或m与z),每个点的强度由点的大小或/和亮度的强弱表示,高维数据图像中的点与高维数据一一对应;
3)建立已知中药样本的色谱-质谱高维图像数据库:将获得的1类或2类以上已知中药样本高维数据图像作为中药色谱-质谱高维图像数据库,每类已知中药样本中的样本数为1个或2个以上;中药色谱-质谱高维图像数据库,包括已知中药样本的样本信息、原始X-MS数据信息、高维数据信息、高维图像数据信息;
2、中药的快速识别:
1)未知样本高维图像数据400的获取:采用与步骤1相同或相似的操作参数和条件,按步骤1中1)~2)操作,针对待分析的未知样本进行分析,获取未知样本原始X-MS数据和高维数据;利用图像生成软件将X-MS数据得到未知样本的X-MS第二数据图像420;
2)在未知样品识别模块60中识别未知样本;
A、利用机器学习中的诸如Matlab2016b自带的分割程序的图像分割工具,或诸如K-Means,DBSCAN或Fanny等的聚类工具,将未知样本X-MS高维图像中的点分割为n个点簇(n≥1整数);
点簇指的是在空间上距离接近的点的集合,点簇内点的个数n≥3;
每个点簇可以有自己的中心点,点簇的形状可以为任意形状;
B、将提取点簇后的未知样本X-MS第二数据图像420与中药X-MS高维图像数据库中的已知中药样本X-MS第一数据图像220逐一进行分别扫描和匹配;
扫描时,将两个X-MS高维图像的原点、t轴和m/z(m)轴对齐;
扫描时,将点簇作为一个整体,移动的范围为0-Tk,其中Tk为已知中药样本对应的最大分析时间;
扫描时,未知样本的每个点簇保留其m/z(或m)轴的位置和几何形状,沿时间轴(t)进行扫描;
通过扫描,寻找未知样本点簇与已知中药样本X-MS高维图像中能够在t和m/z(或m)能够准确匹配的共同点;扫描过程中,在未知样本中的一个点簇中的点与已知中药样本X-MS高维图像中的点进行匹配时,每个点允许的t绝对偏移值(t tolerance)为≥T,T等于未知样本X-MS数据采集时色谱仪允许的保留时间平均偏移值(绝对值,可用1个或1个以上标准品,或某样本中的1个或1个以上化合物的多次重复测定计算)与已知中药样本X-MS数据采集时色谱仪允许的保留时间平均偏移值(绝对值,可用1个或1个以上标准物质,或某样本中的1个或1个以上化合物的多次重复测定计算)之和;
扫描过程中,在未知样本中的一个点簇中的点与已知中药样本X-MS高维图像中的点进行匹配时,每个点允许的m/z(或m)绝对测定误差[m/z(或m)tolerance]≥A,A等于未知和已知中药样本X-MS数据采集时质谱仪扫描时允许的质量平均偏差(绝对值,可由仪器所用的校正液多次重复测定)之和;
当未知样本点簇内一个点与已知中药样本的某个点满足t偏差和m/z(或m)偏差时,认为该点符合匹配要求;
扫描时,点簇沿时间轴(t)扫描的步长≤T,通常情况下,0s<T<10000s;
C、当一个点簇移动到已知中药样本X-MS高维图像的t轴的每一个位置时,记录匹配点的个数、每个匹配点的坐标和点簇几何中心点的坐标;
D、计算每一个位置时,未知样本一个点簇(i,i≥1整数)与该已知中药样本X-MS高维图像之间的匹配度(Si),匹配度的大小可利用诸如Matlab的统计工具来计算点簇(i)与已知中药样本X-MS高维图像所匹配的点数、或相似度(如图像相似度计算中的欧氏距离法)、或相关度(如Matlab中的2D-correlation coefficient)中的一种或二种以上进行计算;
由上述三种方法得到的匹配度分别由点数(或点数的函数)、相似度或相关度表示;
点簇匹配度大小,与点簇匹配的点数、坐标位置(t,m/z)和强度这四个变量呈线性或非线性相关;计算点数(或点数的函数)、相似度或相关度的基础是基于四个变量的关系变换;
可选用不同的匹配度计算方法分别计算点簇和已知中药样本X-MS高维图像的整体匹配度;
匹配点的个数指的是点簇符合匹配条件点的个数;基于上述步骤,对未知样本X-MS高维图像中每一个点簇的最大匹配度(Si)进行数学加权处理(如加和、平均或取对数),得到未知样本X-MS高维图像与已知中药样本X-MS高维图像的整体匹配度(Sc);
E、重复上述步骤,逐一分析未知样本X-MS高维图像与其它已知中药样本X-MS高维图像之间的匹配度,得到其与每一个已知中药样本的整体匹配度(Sc);
F、未知样本的所属类别可不借助阈值或借助阈值进行判定;
当不借助阈值时,利用上述步骤,将未知样本与已知中药样本进行匹配,对匹配度从大到小进行排序,若未知样本与某一已知中药样本的匹配度排名越靠前,表明未知样本为与该样本的可能性越大,反之越小;
当借助阈值时,设定阈值γ,用于判断不同来源未知样本与同类已知中药样本匹配的可信范围;
阈值可以根据统计学的方法设定:按步骤1中1)~2)操作,采用相同或相近的操作参数和条件,选取2个以上同类别的已知中药样本作为某一类样本的训练样本,进行分析,获取X-MS原始数据;利用图像生成软件(如Matlab2016b)将X-MS原始数据或多维信息文本转化为X-MS高维图像,得到该类样本的训练X-MS高维图像集;利用训练X-MS高维图像集,与同类已知中药样本X-MS高维图像进行匹配,通过统计学的方法(如概率,比率等)发现匹配度分布区间,选定分布区间中匹配度的下限作为该类样本的阈值γ;
此外,阈值可以利用文献报道或实验观察得到某类样本(n≥2)与已知中药样本匹配度分布区间(按步骤1中1)~2)操作采用相同或相近的操作参数和条件所得到的分析结果),选定分布区间中匹配度的下限作为该类样本的阈值γ;
将未知样本与已知中药样本进行匹配,匹配度按照从大到小进行排序,若未知样本与某类已知中药样本的匹配度排名越靠前,且Sc大于由该类已知中药样本测定所得的阈值γ,表明未知样本为该类样本的可能性越大,反之越小;
3)未知样本识别结果的验证
将步骤2中与未知样本匹配的已知中药样本按匹配度排名排列,在未知样本的原始X-MS数据信息和/或高维数据信息中按上述匹配度排名依次检索对应已知中药样本的标志性化合物(标志性化合物数目≥1),未知样本中检索到标志性化合物时即接受未知样本是该已知中药样本,停止检索;若第一排名已知中药样本在未知样本中未搜索到,接下来在未知样本中检索第二排名已知中药样本标志性化合物,以此类推,一直到检索到标志性化合物为止;若所有匹配到的已知中药样本中的标志性化合物在未知样本中都没有检索到,即认为已建立的数据库中没有包含该未知样本。
在步骤2中,在已知样本数据库中是否具有标准品时,稍有不同:
具有标准品的标志性化合物的检索:采用步骤1中的方法,获得标准品样本的高维数据。将标志性化合物高维数据与未知样本高维数据匹配,寻找未知样本中与标志性化合物保留时间t和m/z均满足阈值窗口的离子;
不具有标准品的标志性化合物的检索:搜索未知样本中标志性化合物的m/z值,寻找未知样本中与已知中药样本中标志性化合物保留时间t和m/z均满足阈值窗口的离子。
步骤1中,为使未知样本与已知中药样本具有可比性,在进行未知样本制备、原始数据获取、数据处理时,各样本的均应采取相同或相似的可重复的样本处理、原始数据获取和数据处理方法。
步骤1中,色谱仪的保留时间平均偏差(绝对值)指的是色谱仪器在同样条件下重复测定同一样本时各个化合物的时间偏差的均值(绝对值),可用混合标准品进行测定。
步骤1中,原始色谱-质谱数据通过以下方法获得:
1)色谱仪和离子迁移谱仪器通过选择性作用,将中药样本中混合的分子进行分离,获得不同的保留时间信息t;
2)质谱仪通过电场或磁场作用,根据分子的质荷比不同进行分离和检测,获得不同的质荷比信息m/z;
3)中药样本提取物利用色谱-质谱仪器进行分析,色谱分离所用的时间(t)范围为1-10000s.离子(m/z)扫描的范围50-10000Da;得到色谱-质谱(X-MS)数据。
步骤1中,所获取的原始数据可以经过保留时间校正、过滤和归一化等中的一种或二种以上数据处理;其中保留时间校正可以采用待分析样本中的若干(≥2)化合物保留时间校正、混合标准品内标物保留时间校正或者其它保留时间校正方式。
高维数据可以包括高维数据矩阵中所有离子,或也可以选择性保留高维数据矩阵中的离子。
高维数据图像的斑点位置由该化合物的性质决定:纵轴代表色谱保留时间,化合物按极性由大到小延纵轴方向分布;横轴代表m/z值,化合物按m/z值由小到大延横轴方向分布;同一化合物在质谱中可以存在准分子离子、加和离子、碎片离子等多种形式,每个化合物可以存在相同纵轴位置不同横轴位置的斑点;性质相近的化合物(斑点)会形成区域性的点簇,代表某一类型物质。
色谱-质谱数据中包含的离子数量越多,构建出来的色谱-质谱高维图像信息越丰富越有利于识别。
噪音会引起识别偏差,利用原始色谱-质谱数据中每个离子的信噪比或同位素分布形态进行早期除噪,越有利于提高识别的准确度。
步骤1不需要强制的时间校正。
数据库中的色谱-质谱信息或离子迁移谱-质谱信息可拓展为二维、三维或更高维度。
实施例1中药色谱-质谱高维图像数据库的建立
一、已知中药样本的制备
中药样本的制备方法包括但不局限于溶剂提取,包括适用于一切中药样本制备的方法。本发明数据库中的已知中药样本采用来自于中国食品药品研究院的547个品种的对照药材(参见表1)。取每种对照药材粉末各100mg,分别加入体积浓度50%甲醇0.5ml,超声提取10min,15000转/分钟高速离心10min取上清液,滤渣再次加入0.5ml体积浓度50%甲醇超声提取10min,15000转/分钟高速离心10min取上清液。合并两次得到上清的提取液。
二、已知中药样本色谱-质谱原始数据获取与数据处理
本发明基于色谱-质谱联用技术获取已知中药样本原始数据。已知中药样本原始数据需在同一条件下分析,以获得具有可比性的色谱-质谱高维图像。采用Agilent 1290超高效液相色谱系统(Agilent,Waldbronn,Germany)串联6520Q-TOF-MS(Agilent Corp,USA)。
1.色谱方法
采用Agilent公司ZORBAX Eclipse Plus C18色谱柱(3.0×150mm,1.8μm),流动相A相为水(0.5%乙酸),B相为乙腈,梯度洗脱:0至15分钟,B相5%-100%,15至20分钟,B相保持100%,20至21分钟,B相100%-5%,21至25分钟,B相保持5%,流速为0.3ml/分钟。柱温为60℃,进样量为2μl。
2.质谱方法
质谱采用ESI离子源,负离子模式采集数据。数据采集范围m/z 100-3200。温度为350℃,干燥器流速8L/分钟,雾化气压力40psi,毛细管电压3500V,Fragmentor电压200V,skimmer电压65V。
3.已知中药样本色谱-质谱原始数据的数据处理
本发明原始数据包括样本提取物中每一个化合物的色谱信息,如色谱保留时间和峰强度,和质谱信息如质荷比。原始数据处理包括数据的校正、过滤和归一化。将原始数据导入峰提取软件Progenesis QI,设置阈值为基峰强度为0.005%去除噪音信号,获取样本中每个化合物的m/z,t和I值,产生m/z-t-I数据矩阵,以EXCEL表格.csv文件格式存储。
三、已知中药样本高维数据和色谱-质谱高维图像的获取
1.高维数据的获取
将“原始数据的处理”步骤文件导入Matlab软件,保留离子强度排名前2000名的离子。
2.高维数据图像的建立
本发明色谱-质谱高维图像中的点与高维数据一一对应。将上述高维数据导入Matlab软件,以m/z和t为坐标,绘制出样本的m/z-t-I图,每个可测化合物具有特定的质量和时间坐标,化合物的质谱信号强度(峰值)I值以点的面积或以点的色度值表示。
3.色谱-质谱高维图像的转化
本发明高维数据图像可采用上述步骤建立的原始图像,对图像进行转化处理,包括图像模糊化处理,图像不同分辨率处理等处理方式。
四、色谱-质谱高维图像的空间信息
本发明X-MS高维图像中包括但不仅限于斑点和点簇。每个斑点由一个化合物产生,但每个化合物可以产生一个或一个以上的斑点。斑点位置由该化合物的性质决定:纵轴代表色谱保留时间,化合物按极性由大到小延纵轴方向分布;横轴代表m/z值,化合物按m/z值由小到大延横轴方向分布;同一化合物在质谱中可以存在准分子离子、加和离子、碎片离子等多种形式,因此每个化合物可以存在相同纵轴位置不同横轴位置的斑点。性质相近的化合物(斑点)会形成区域性的点簇,代表某一类型物质。
五、中药色谱-质谱高维图像的建立
本实施例建立的数据库包括但不仅限于文本、EXCEL、Oracle、mysql、splite或microsoft sql server等。得到547个品种的对照药材的中药色谱-质谱高维图像数据库,其中包括:1)EXCEL格式的样本信息库,包括样本编号、名称、来源、规格、药材部位、目、科、属、种;2)文件夹格式的所有品种色谱-质谱原始数据数据库;3)文件夹格式的所有品种高维数据高维图像数据库。
实施例二:未知中药样本的快速识别
一、未知样本的制备
本发明未知样本制备方法与已知中药样本的制备方法相同。本实施例采用来自于市场的人参、生地黄、苦参饮片作为未知样本,分别命名为NCYXT-A-D3-01、SS2-6520-006-0007、SS2-LTQ-012-0023。取每种未知样本粉末各100mg,分别加入体积浓度50%甲醇0.5ml,超声提取10分钟,15000转/分钟高速离心10分钟取上清液,滤渣再次加入0.5ml体积浓度50%甲醇超声提取10分钟,15000转/分钟高速离心10分钟取上清液。合并两次得到上清的提取液。
二、未知样本色谱-质谱原始数据获取与数据处理
基于色谱-质谱联用技术获取未知样本原始数据。未知样本原始数据需与已知中药样本在相同或相似条件下分析,以获得具有可比性的色谱-质谱高维图像。未知样本SS2-6520-006-0007采用Agilent 1290超高效液相色谱系统(Agilent,Waldbronn,Germany)串联6520Q-TOF-MS(Agilent Corp,USA)、未知样本NCYXT-A-D3-01样本采用Agilent 1290超高效液相色谱系统(Agilent,Waldbronn,Germany)串联6540Q-TOF-MS(Agilent Corp,USA)、未知样本SS2-LTQ-012-0023采用Waters Acquity UPLC串联Thermo Fisher LTQOrbitrap Elite获取未知样本原始数据。
1.色谱方法
采用Agilent公司ZORBAX Eclipse Plus C18色谱柱(3.0×150mm,1.8μm),流动相A相为水(0.5%乙酸),B相为乙腈,梯度洗脱:0至15分钟,B相5%-100%,15至20分钟,B相保持100%,20至21分钟,B相100%-5%,21至25分钟,B相保持5%,流速为0.3ml/分钟。柱温为60℃,进样量为2μl。
2.质谱方法
Agilent 6520/6540Q-TOF-MS质谱采用ESI离子源,负离子模式采集数据。数据采集范围m/z 100-3200。温度为350℃,干燥器流速8L/分钟,雾化气压力40psi,毛细管电压3500V,Fragmentor电压200V,skimmer电压65V。
Thermo Fisher LTQ Orbitrap Elite采用ESI离子源,FT负离子模式采集数据,分辨率60000,数据采集范围m/z 100-2000。毛细管温度为300℃,干燥气流速10L/分钟,雾化气压力35psi,毛细管电压5KV,S-Lens RF:60%。
3.未知样本色谱-质谱原始数据的数据处理
原始数据包括样本提取物中每一个化合物的色谱信息,如色谱保留时间和峰强度,和质谱信息如质荷比。原始数据处理包括数据的校正、过滤和归一化。将原始数据导入峰提取软件Progenesis QI,设置阈值为基峰强度为0.005%去除噪音信号,获取样本中每个化合物的m/z,t和I值,产生m/z-t-I数据矩阵,以EXCEL表格.csv文件格式存储。
三、未知样本高维数据和色谱-质谱高维图像的获取
1.高维数据的获取
将“原始数据的处理”步骤文件导入Matlab软件,保留离子强度排名前2000名的离子。
2.高维数据图像的建立
色谱-质谱高维图像中的点与高维数据一一对应。将上述高维数据导入Matlab软件,以m/z和t为坐标,绘制出样本的m/z-t-I图,每个可测化合物具有特定的质量和时间坐标,化合物的质谱信号强度(峰值)I值以点的面积或以点的色度值表示。
3.色谱-质谱高维图像的转化
高维数据图像可采用上述步骤建立的原始图像,对图像进行转化处理,包括图像模糊化处理,图像不同分辨率处理等处理方式。本实施例中使用的是高维数据原始色谱-质谱高维图像。
四、未知样本的识别
1.利用机器学习中的聚类工具Clusterdp,将首先将待检测样本NCYXT-A-D3-01、SS2-6520-006-0007、SS2-LTQ-012-0023的X-MS高维图像中的点分割为34个点簇;点簇内点的个数n≥10;
2.将提取点簇后的该待检测样本色谱-质谱高维图像与参照样本(m)的色谱-质谱高维图像进行分别扫描和匹配;
3.扫描时,将两个色谱-质谱高维图像的原点、t轴和m/z轴对齐,然后该待检测样本的每个点簇保留m/z轴的位置和几何形状,沿时间轴(t)进行连续扫描;通过扫描,寻找该待检测样本点簇与参照样本(m)色谱-质谱高维图像中能够在t和m/z能够准确匹配的共同点;
4.扫描过程中,点簇作为一个整体,移动的范围为0-Tk,T为样本对应的有效分析时间,本实例取Tk=1000s;
5.扫描时,点簇沿时间轴(t)扫描的步长为1s;
6.扫描过程中,在该待检测样本中的一个点簇与参照样本(m)色谱-质谱高维图像中的点进行匹配时,每个点允许的最小t偏差(t tolerance)为±30s;m/z(或m)允许的最小偏差[m/z(或m)tolerance]为±0.01Da;
7.当一个点簇移动到参照样本(m)X-MS高维图像的t轴的每一个位置时,记录匹配点的个数、每个匹配点的坐标和点簇几何中心点的坐标;
8.利用Matlab中的2D correlation函数计算该待检测样本一个点簇(i)与中药X-MS高维图像数据库中参照样本(m)之间的相关度;
9.计算该待检测样本每个点簇在t轴方向与参照样本色谱-质谱高维图像的最大相关度;
10.根据点簇在获得最大相关度的位置,利用计算点数的方法计算该待检测样本X-MS高维图像中每一个点簇与参照样本色谱-质谱高维图像的匹配度(Si);
x,y,z指的是I,m/z,和t三个变量的指数,其中x≥0;y≥0;z≥0;
在本实施例中,取x=0;y=1/2;z=1/2;
11.根据上述步骤,计算该待检测样本X-MS高维图像与参照样本X-MS高维图像(m)的整体匹配度(Sc);
12.重复上述步骤,分别得到该各检测样本的匹配度。
取待测样本NCYXT-A-D3-01与547类参照样本分别匹配,其中该待检测样本与人参参照样本DB-A2-1-0001的匹配度最高,为218.19%。
取待测样本SS2-LTQ-012-0023与547类参照样本分别匹配,其中该待检测样本与苦参参照样本DB-A2-2-0006的匹配度最高,为160.66%。
取待测样本SS2-6520-006-0007与547类参照样本分别匹配,其中该待检测样本与生地黄参照样本DB-A2-6-0004-03的匹配度最高,为195.05%(所有参照样本的匹配度见表2)。
五、未知样本识别结果的验证
按匹配度排序,未知样本NCYXT-A-D3-01对应匹配度最高的已知样本为人参,在未知样本NCYXT-A-D3-01中检索已知人参样本的主要成分(t9.73,m/z1163.5859)。结果,在未知样本NCYXT-A-D3-01中检索到化合物t9.12min,m/z1163.5903,检索到的化合物在可接受的保留时间和m/z窗口内,所以接受未知样本NCYXT-A-D3-01为人参。参照未知样本的药材信息,人参样本的识别正确。
按匹配度排序,未知样本SS2-LTQ-012-0023对应匹配度最高的已知样本为苦参,未知样本SS2-LTQ-012-0023中检索已知苦参样本的主要成分(t11.45min,m/z453.1920),结果在未知样本SS2-LTQ-012-0023中检索到化合物t10.21min,m/z453.1983,检索到的化合物在可接受的保留时间和m/z窗口内,所以接受未知样本SS2-LTQ-012-0023为苦参。参照未知样本的药材信息,苦参样本的识别正确。
按匹配度排序,未知样本SS2-6520-006-0007对应匹配度最高的已知样本为生地黄,未知样本SS2-6520-006-0007中检索已知生地黄样本的主要成分(t7.29min,m/z623.1978),结果,在未知样本SS2-6520-006-0007中检索到化合物t6.23min,m/z623.1974,检索到的化合物在可接受的保留时间和m/z窗口内,所以接受未知样本SS2-6520-006-0007为生地黄。参照未知样本的药材信息,地黄样本的识别正确。
以上所述,仅是本申请的几个实施例,并非对本申请做任何形式的限制,虽然本申请以较佳实施例揭示如上,然而并非用以限制本申请,任何熟悉本专业的技术人员,在不脱离本申请技术方案的范围内,利用上述揭示的技术内容做出些许的变动或修饰均等同于等效实施案例,均属于技术方案范围内。
表1
表2
Claims (10)
1.一种中药识别平台,其特征在于,所述平台包括:
已知样本信息数据库模块、未知样本信息数据库模块、已知样本色谱-质谱图像模块、未知样本色谱-质谱图像模块和未知样本识别模块;
所述已知样本信息数据库模块向所述已知样本色谱-质谱图像模块传输已知样本的色谱-质谱数据,所述已知样本色谱-质谱图像模块输出第一数据图像;
所述未知样本信息数据库模块向所述未知样本色谱-质谱图像模块传输未知样本的色谱-质谱数据,所述未知样本色谱-质谱图像模块输出第二数据图像;
所述未知样本识别模块,用于记录所述已知样本的样本信息以及所述生成的第一数据图像,并将所述生成的第二数据图像与所述第一数据图像进行比对,以确定所述未知样本的色谱-质谱数据是否与已知样本的色谱-质谱数据匹配。
2.根据权利要求1所述的中药识别平台,其特征在于,所述已知样本的色谱-质谱数据包括已知样本的原始色谱-质谱信息,所述未知样本的色谱-质谱数据包括未知样本的原始色谱-质谱信息;
优选地,所述已知样本的色谱-质谱数据还包括已知样本中各个化合物的高维数据,所述未知样本的色谱-质谱数据还包括未知样本中各个化合物的高维数据;
进一步优选地,所述高维数据表达样本中各数据点间的空间信息,是以下至少一种信息构成的矩阵:
数据点间的距离信息;
数据点间的角度关系信息;
数据点的坐标位置信息;
数据点的密度信息;
数据点集合的边缘范围信息;
数据点的强度信息;
优选地,所述数据点间的距离信息包括色谱保留时间t、m/z值、m值、z值、峰强度I中的至少一种;
优选地,所述数据点的强度信息包括由数据点的大小或亮度的强弱反映出来的信息中的至少一种。
3.根据权利要求2所述的中药识别平台,其特征在于,所述高维数据生成的高维数据图像包括高维数据生成的原始图像、基于图像特征生成的图像、对图像进行转化处理生成的图像、利用函数构建的图像中的至少一种;
优选地,所述图像特征包括数据点点簇、共同粒子、样本轮廓;
优选地,所述图像转化处理包括将图像模糊化处理和对图像进行不同分辨率的处理中的至少一种;
优选地,所述函数包括色谱保留时间t、m/z、m、峰强度I中的至少一种;
优选地,所述高维图像是二维以上维数的图像;
优选地,所述图像文件存储为图像文件格式。
4.根据权利要求1所述的中药识别平台,其特征在于,所述已知样本包括标准品或已知中药样本中的至少一种;
优选地,所述标准品包括《2015版中国药典》所述中药的对照品、中药标志性成分、中药主要化学成分中的至少一种;
优选地,所述已知中药样本为类别信息明确的样本,所述类别信息包括样本的种属、产地、部位、炮制方式中的至少一种;
优选地,所述已知中药样本包括中药原药材、饮片、粉末中的至少一种,进一步优选地,所述已知中药样本包括中药的不同部位和它们的加工品中的至少一种。
5.根据权利要求1所述的中药识别平台,其特征在于,所述未知样本识别模块包括图像分割工具或者聚类工具。
6.根据权利要求1所述的中药识别平台,其特征在于,所述各数据库模块中的数据库类型包括文件夹数据集、网页数据库、基于商业化工作站或基于用户自研发工作站的数据库中的至少一种。
7.一种应用权利要求1至6中任一项所述的中药识别平台识别中药的方法,其特征在于,所述方法至少包括以下步骤:
1)使用色谱和质谱获取已知样本和未知样本的原始色谱-质谱数据;
2)生成已知样本和未知样本的色谱-质谱高维数据,所述色谱-质谱高维数据表达各数据点间的空间信息;
3)生成已知样本和未知样本的色谱-质谱高维数据图像,使高维数据中的每个离子与构成图像中的点一一对应,每个点拥有自己的坐标信息,每个点的强度由点的大小或/和亮度的强弱表示,高维数据图像中的点与高维数据一一对应;
4)利用图像分割工具或聚类工具将未知样本的色谱-质谱高维图像中的点分割为n个点簇,其中n为≥1的整数,将提取点簇后的未知样本的色谱-质谱高维图像与已知样本质谱-色谱的高维图像逐一进行分别扫描和匹配;
5)将与未知样本匹配的已知样本按匹配度进行排名,在未知样本的原始色谱-质谱数据信息和/或高维数据信息中按所述匹配度排名依次检索,对应已知样本的标志性化合物,所述标志性化合物数目≥1,未知样本中检索到标志性化合物时即接受未知样本是该已知样本,停止检索;若第一排名已知样本在未知样本中未搜索到,接下来在未知样本中检索第二排名已知样本标志性化合物,以此类推,一直到检索到标志性化合物为止;若所有匹配到的已知样本中的标志性化合物在未知样本中都没有检索到,即认为已建立的数据库中没有包含该未知样本;
优选地,所述坐标信息包括数据点间的距离信息、数据点间的角度关系信息、数据点的坐标位置信息、数据点的密度信息、数据点集合的边缘范围信息和数据点的强度信息中的至少一种;
优选地,所述点簇是在空间上距离接近的数据点的集合,点簇内数据点的个数n≥3;
优选地,所述每个点簇有自己的中心点;
优选地,所述点簇的形状为任意形状。
8.根据权利要求7所述的方法,其特征在于,所述已知样本和未知样本的原始色谱-质谱数据通过以下步骤获取:
使用色谱仪和离子迁移谱仪器,通过选择性作用将已知和未知样本中混合的分子进行分离,获得不同的色谱保留时间信息t;
利用质谱仪的电磁场作用,根据分子的质荷比不同进行样本中各化合物的分离和检测,获得不同的质荷比信息m/z;
将样本提取物利用色谱-质谱仪器进行分析,即得原始色谱-质谱数据;
优选地,色谱分离所用的时间t的范围是1-10000s,离子的m/z扫描的范围50-10000Da。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括将所获取的原始色谱-质谱数据经过保留时间校正、过滤和归一化中的至少一种数据处理;
优选地,所述方法还包括使用质量控制样本和混合标准品内标物的步骤;
优选地,所述质量控制样本包括已知样本或其混合物、未知样本或其混合物以及两种以上标准品的混合物中的至少一种,所述质量控制样本用于评价数据质量;
优选地,在采用混合标准品时使用混合标准品内标物,以提高测定的重复性和进行保留时间校正。
10.根据权利要求8所述的方法,其特征在于,所述未知样本是中药原药材、饮片、粉末、制剂、中药的不同部位以及它们的加工品中的至少一种;
优选地,所述制剂包括中药颗粒或制备质中药注射液。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811417962.1A CN111220750A (zh) | 2018-11-26 | 2018-11-26 | 一种中药识别平台和利用该平台的中药识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811417962.1A CN111220750A (zh) | 2018-11-26 | 2018-11-26 | 一种中药识别平台和利用该平台的中药识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111220750A true CN111220750A (zh) | 2020-06-02 |
Family
ID=70805636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811417962.1A Pending CN111220750A (zh) | 2018-11-26 | 2018-11-26 | 一种中药识别平台和利用该平台的中药识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111220750A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113155941A (zh) * | 2021-03-22 | 2021-07-23 | 西北大学 | 一种基于离子迁移谱的数据采集系统 |
CN113740463A (zh) * | 2021-09-16 | 2021-12-03 | 山东省食品药品检验研究院 | 中药鉴别方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060292246A1 (en) * | 2005-06-20 | 2006-12-28 | Rey-Yuh Wu | Characteristic mass spectral fingerprint setting method and rapid identification method for Chinese herbal medicines and prescriptions |
CN105574474A (zh) * | 2014-10-14 | 2016-05-11 | 中国科学院大连化学物理研究所 | 一种基于质谱信息的生物特征图像识别方法 |
WO2018037569A1 (ja) * | 2016-08-26 | 2018-03-01 | 株式会社島津製作所 | イメージング質量分析データ処理装置及び方法 |
CN108152434A (zh) * | 2016-12-02 | 2018-06-12 | 中国科学院大连化学物理研究所 | 一种基于可视化质谱信息的中药特异成分的查找方法 |
-
2018
- 2018-11-26 CN CN201811417962.1A patent/CN111220750A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060292246A1 (en) * | 2005-06-20 | 2006-12-28 | Rey-Yuh Wu | Characteristic mass spectral fingerprint setting method and rapid identification method for Chinese herbal medicines and prescriptions |
CN105574474A (zh) * | 2014-10-14 | 2016-05-11 | 中国科学院大连化学物理研究所 | 一种基于质谱信息的生物特征图像识别方法 |
WO2018037569A1 (ja) * | 2016-08-26 | 2018-03-01 | 株式会社島津製作所 | イメージング質量分析データ処理装置及び方法 |
CN108152434A (zh) * | 2016-12-02 | 2018-06-12 | 中国科学院大连化学物理研究所 | 一种基于可视化质谱信息的中药特异成分的查找方法 |
Non-Patent Citations (3)
Title |
---|
YIZENG LIANG 等: "Chromatographic fingerprinting and related chemometric techniques for quality control of traditional Chinese medicines", 《JOURNAL OF SEPARATION SCIENCE》 * |
张晓哲: "基于构库思想的中药分离与表征方法研究", 《中国博士学位论文全文数据库 科技工程Ⅰ辑》 * |
王松静: "基于光谱分析与图像处理的模式识别研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113155941A (zh) * | 2021-03-22 | 2021-07-23 | 西北大学 | 一种基于离子迁移谱的数据采集系统 |
CN113740463A (zh) * | 2021-09-16 | 2021-12-03 | 山东省食品药品检验研究院 | 中药鉴别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109870515B (zh) | 一种基于中药色谱-质谱高维图像数据库的中药识别方法 | |
Li et al. | Strategy for comparative untargeted metabolomics reveals honey markers of different floral and geographic origins using ultrahigh-performance liquid chromatography-hybrid quadrupole-orbitrap mass spectrometry | |
CN109781917B (zh) | 一种基于分子地图的生物样本智能识别方法 | |
Peng et al. | The difference of origin and extraction method significantly affects the intrinsic quality of licorice: A new method for quality evaluation of homologous materials of medicine and food | |
CN105574474A (zh) | 一种基于质谱信息的生物特征图像识别方法 | |
CN108593825B (zh) | 红参质谱数据的挖掘与特异性标志物的筛选方法 | |
CN104297355A (zh) | 一种基于液相色谱/质谱联用的拟靶标代谢组学分析方法 | |
CN103109345A (zh) | 产物离子光谱的数据独立获取及参考光谱库匹配 | |
CN104170052A (zh) | 用于改进的质谱分析法定量作用的方法和装置 | |
Mattoli et al. | Mass spectrometry‐based metabolomic analysis as a tool for quality control of natural complex products | |
CN111220750A (zh) | 一种中药识别平台和利用该平台的中药识别方法 | |
CN109946413B (zh) | 脉冲式数据非依赖性采集质谱检测蛋白质组的方法 | |
CN113419000B (zh) | 一种基于非靶向代谢组学鉴别25头与80头以下三七的方法 | |
CN109507348B (zh) | 聚合物型药用辅料组成成分的计算机辅助分析系统及方法 | |
CN111220754A (zh) | 一种人参识别平台和利用该平台的人参识别方法 | |
CN111220751A (zh) | 一种三七识别平台和利用该平台的三七识别方法 | |
Fischer et al. | An accessible, scalable ecosystem for enabling and sharing diverse mass spectrometry imaging analyses | |
CN111220753A (zh) | 一种苦参识别平台和利用该平台的苦参识别方法 | |
CN111220756A (zh) | 一种生地黄识别平台和利用该平台的生地黄识别方法 | |
CN111220757A (zh) | 一种黄芪识别平台和利用该平台的黄芪识别方法 | |
CN111220752A (zh) | 一种西洋参识别平台和利用该平台的西洋参识别方法 | |
CN111222524A (zh) | 一种合欢皮识别平台和利用该平台的合欢皮识别方法 | |
CN111220755A (zh) | 一种合欢花识别平台和利用该平台的合欢花识别方法 | |
CN114420222B (zh) | 一种基于分布式流式处理的碎片离子化合物结构的快速确认方法 | |
CN114577966B (zh) | 一种mscc结合调制峰归类的gc×gc指纹快速比较方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200602 |