CN114911977A - 一种中药药性识别方法、系统、计算机设备及存储介质 - Google Patents

一种中药药性识别方法、系统、计算机设备及存储介质 Download PDF

Info

Publication number
CN114911977A
CN114911977A CN202210349248.3A CN202210349248A CN114911977A CN 114911977 A CN114911977 A CN 114911977A CN 202210349248 A CN202210349248 A CN 202210349248A CN 114911977 A CN114911977 A CN 114911977A
Authority
CN
China
Prior art keywords
traditional chinese
chinese medicine
property
model
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210349248.3A
Other languages
English (en)
Inventor
王耘
王献瑞
梁浩
刘淑明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202210349248.3A priority Critical patent/CN114911977A/zh
Publication of CN114911977A publication Critical patent/CN114911977A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N21/00Investigating or analysing materials by the use of optical means, i.e. using sub-millimetre waves, infrared, visible or ultraviolet light
    • G01N21/62Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light
    • G01N21/63Systems in which the material investigated is excited whereby it emits light or causes a change in wavelength of the incident light optically excited
    • G01N21/65Raman scattering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Development Economics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Game Theory and Decision Science (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)

Abstract

本发明涉及中药分析技术领域,具体涉及一种中药药性识别方法、系统、计算机设备及存储介质。本发明通过对中药参照样品进行拉曼光谱检测,以中药拉曼谱图作为中药的整体性表征,通过特征筛选研究中药不同药性与其拉曼谱图的相关性,筛选得到与不同药性具有强相关性的拉曼数据,以此为数据基础,结合机器学习方法构建药性识别预测模型,基于模型评价参数指标对药性识别预测模型进行评估,获得中药药性识别模型对待识别中药样品的药性进行预测、分析。本发明可替代传统依赖人工经验的中药药性主观判断方式,实现标准化的中药药性识别判定,提高对中药药性识别的效率和准确度,避免出现以偏概全的情况。

Description

一种中药药性识别方法、系统、计算机设备及存储介质
技术领域
本发明涉及中药分析技术领域,具体涉及一种中药药性识别方法、系统、计算机设备及存储介质。
背景技术
中药药性理论是基于传统取象比类法,联系阴阳五行、脏腑经络、五运六气等学说,在长期、大量临床实践的基础上,结合药用效果归纳总结而来,是我国中医药领域的原创性理论,是衔接中药学与中医学的桥梁,是指导中医临床用药的首要纲领。其主要包括“四气”、“五味”、“归经”、“升降沉浮”、“有毒无毒”等。而对药性理论的现代科学内涵阐述则是中医药领域当前亟待解决的关键科学问题,其中,基于现代的科学指标及知识体系对药性实现真实、客观的识别评判,更是受到了广泛关注。其可以改变当前基于经验学或主观意识判断药性的现状,实现向现代科学体系的转变,有利于建立符合现代化认知的药性表征体系,进而促进中医药现代化发展。
目前,基于现代的科学指标及知识体系开展的药性评判研究主要集中在以下两个方面:一方面是基于中药自身相关指标作为表征开展药性判别预测分析;另一方面则运用现代药理、药效等学科知识,以机体代谢、神经系统、内分泌、受体等相应生物指标分析药性。上述相关研究均取得了一定的成果,比如建立了基于紫外指纹图谱的中药寒热药性识别方法和基于代谢组学的中药四气判别方法等。然而,相关研究依然具有不可忽视的局限性。首先,研究过多集中于“四气”的判别预测,而忽视了其他药性诸如“五味”、“归经”、“升降沉浮”、“有毒无毒”的评判分析。其次,中药的量化表征忽视了整体性,多以不同溶剂提取成分、有效成分或少数成分的生物效应指标为表征,割裂了中医药自古强调的整体观念,并非中药的整体性表征。此外,针对中药药性的评判方式往往基于小样本量中药的分析,以偏概全,不具有普适性,以上原因导致现有的中药药性识别手段效果差强人意。
发明内容
针对现有技术存在的不足,本发明提供了一种中药药性识别方法、系统、计算机设备及存储介质,其应用时,可以替代传统依赖人工经验的中药药性主观判断方式,实现标准化的中药药性识别判定,提高对中药药性识别的效率和准确度,避免出现以偏概全的情况。
第一方面,本发明提供一种中药药性识别方法,包括:
获取待识别中药样品的拉曼谱图数据;
将待识别中药样品的拉曼谱图数据导入预置的中药药性识别模型进行分析识别,获得识别结果;
根据识别结果判定待识别中药样品的药性识别信息;
其中,所述中药药性识别模型的生成过程包括:
获取中药参照样品的药性分类信息以及若干拉曼谱图;
对中药参照样品的各拉曼谱图进行量化处理和相似度评价,获得标准图谱数据;
将标准图谱数据与药性分类信息关联整合为中药参照样品的体系数据集,并对体系数据集进行特征筛选,得到中药参照样品的拉曼数据特征信息;
将中药参照样品的拉曼数据特征信息导入预置的机器学习模型进行训练,获得药性识别预测模型;
基于设定的模型评价参数指标对所述药性识别预测模型进行模型评估,评估通过,则获得中药药性识别模型。
基于上述技术内容,通过构建相应的中药药性识别模型来对待识别中药样品的拉曼谱图数据进行药性预测、分析,获得识别结果,再根据识别结果判定待识别中药样品的药性识别信息,可以替代传统依赖人工经验的中药药性主观判断方式,实现标准化的中药药性识别判定,提高对中药药性识别的效率和准确度,避免出现以偏概全的情况。
进一步地,所述药性分类信息包括四气分类药性、五味分类药性、归经分类药性、升降沉浮分类药性以及有毒无毒分类药性,所述识别结果包括四气分类药性、五味分类药性、归经分类药性、升降沉浮分类药性和有毒无毒分类药性的识别参数,所述药性识别信息包括四气分类药性、五味分类药性、归经分类药性、升降沉浮分类药性和有毒无毒分类药性的判定结果。
进一步地,所述对中药参照样品的各拉曼谱图进行量化处理和相似度评价,包括:
提取各拉曼谱图的谱图数据;
以设定的命中质量指数评价、基于P value评价和逆检索峰位匹配评价中的一种或多种评价组合方式对各拉曼谱图的谱图数据进行相似度评价,选取相似度值大于设定阈值的各拉曼谱图的平均谱图数据作为标准图谱数据。
进一步地,所述对体系数据集进行特征筛选,包括:采用Pearson相关系数筛选方法、互信息和最大信息系数筛选方法、距离相关系数筛选方法、学习模型特征排序筛选方法、卡方检验筛选方法、信息增益筛选方法以及信息增益率特征筛选方法中的一种或多种组合方式对体系数据集进行特征筛选。
进一步地,所述预置的机器学习模型为随机森林模型、支持向量机模型、逻辑回归模型、贝叶斯网络模型和人工神经网络模型中的任意一种。
进一步地,对药性识别预测模型进行模型评估,包括:采用五折交叉验证法、七折交叉验证法、十折交叉验证法和二十折交叉验证法中的一种或多种组合方式对药性识别预测模型进行模型评估。
进一步地,所述方法还包括:接收中药参照样品的量化数据文件,然后对量化数据文件进行文件解析,获得中药参照样品的药性分类信息以及若干拉曼谱图。
第二方面,本发明提供一种中药药性识别系统,所述系统包括获取单元、评价单元、筛选单元、构建单元、识别单元和判定单元,其中:
获取单元,用于获取中药参照样品的药性分类信息以及若干拉曼谱图,以及获取待识别中药样品的拉曼谱图数据;
评价单元,用于对中药参照样品的各拉曼谱图进行量化处理和相似度评价,获得标准图谱数据;
筛选单元,用于将标准图谱数据与药性分类信息关联整合为中药参照样品的体系数据集,并对体系数据集进行特征筛选,得到中药参照样品的拉曼数据特征信息;
构建单元,用于将中药参照样品的拉曼数据特征信息导入预置的机器学习模型进行训练,获得药性识别预测模型;以及基于设定的模型评价参数指标对所述药性识别预测模型进行模型评估,评估通过,则获得中药药性识别模型;
识别单元,用于将待识别中药样品的拉曼谱图数据导入预置的中药药性识别模型进行分析识别,获得识别结果;
判定单元,用于根据识别结果判定待识别中药样品的药性识别信息。
第三方面,本发明提供另一种计算机设备,所述计算机设备包括:
存储器,用于存储指令;
处理器,用于读取所述存储器中存储的指令,并根据指令执行上述第一方面中任意一种所述的方法。
第四方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行上述第一方面中任意一种所述的方法。
第五方面,本发明提供一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行上述第一方面中任意一种所述的方法。
本发明的有益效果为:
本发明通过对中药参照样品进行多次拉曼光谱检测,以中药拉曼谱图作为中药在分子层面上的整体性表征,通过特征筛选研究中药不同药性与其拉曼谱图的相关性,筛选得到与不同药性具有强相关性的拉曼数据,以此为数据基础,结合信息学机器学习方法构建药性识别预测模型,基于模型评价参数指标对药性识别预测模型进行评估,以获取较优的药性识别预测模型作为中药药性识别模型对待识别中药样品的药性进行预测、分析。本发明药性识别思路与中医药的整体观相契合,方法及指标客观、具体,可替代传统依赖人工经验的中药药性主观判断方式,实现标准化的中药药性识别判定,提高对中药药性识别的效率和准确度,避免出现以偏概全的情况。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的方法步骤示意图;
图2为中药参照样品的相应拉曼数据示意图;
图3为实施例2中一部分中药的拉曼谱图示意图;
图4为实施例2中一部分中药拉曼谱图相似度示意图;
图5为实施例2中一特征筛选结果示意图;
图6为实施例2中另一部分中药的拉曼谱图示意图;
图7为实施例2中另一部分中药拉曼谱图相似度示意图;
图8为实施例2中另一特征筛选结果示意图;
图9为本发明的系统构成示意图;
图10为本发明的计算机设备构成示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步阐述。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而,可用很多备选的形式来体现本发明,并且不应当理解为本发明限制在本文阐述的实施例中。
应当理解,术语第一、第二等仅用于区分描述,而不能理解为指示或暗示相对重要性。尽管本文可以使用术语第一、第二等等来描述各种单元,这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元,同时不脱离本发明的示例实施例的范围。
在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统,以避免用不必要的细节来使得示例不清楚。在其他实施例中,可以不以非必要的细节来示出众所周知的过程、结构和技术,以避免使得示例实施例不清楚。
实施例1:
本实施例提供一种中药药性识别方法,如图1所示,所述方法包括以下步骤:
S101.获取中药参照样品的药性分类信息以及若干拉曼谱图。
具体实施时,对中药参照样品进行多次拉曼光谱检测,收集记录每味中药参照样品相对应的若干拉曼谱图及对应的药性分类信息,所述药性分类信息包括四气分类药性、五味分类药性、归经分类药性、升降沉浮分类药性以及有毒无毒分类药性。在对中药待测样品进行多次拉曼光谱检测之前,首先对中草药样品进行预处理。举例来说,对大批量中草药利用清洗液洗净,大批量中草药可以为具有不同药性的中草药,总数量不低于50种,清洗液可以为超纯水、甲醇或甲醇-水不同比例的混合液。经过清洗液洗净去除表面灰尘后进行干燥处理,可以采用恒温干燥、自然风干、真空干燥中的一种或多种干燥处理方式。然后根据中草药的不同形状分别进行切片、粉碎、压片等处理,以获得中药待测样品,以备检测分析。示例性的,对于黄芪、生附、党参等形状规则的中药,从垂直于其自然生长方向的角度进行横切,得到新露平坦的横断切面;对于枸骨叶、垂盆草、锦灯笼等不规则的中药则打碎成粉末状,并利用压片模具压片;像牵牛子、葶苈子、女贞子等微小的中药则采用配套敞口器皿存放并利用压片模具压平、压实。
在对中草药样品进行预处理之后,利用拉曼光谱检测方法对获得的大批量中药待测样品进行多次检测分析。所述拉曼光谱检测方法示例如下:
检测条件:中心波长:532nm~1064nm;激发功率:50mW~300mW;积分时间:1000ms~10000ms;采集次数:3~10次;计算模式:软件或硬件平均计算;拉曼位移:200cm-1~5000cm-1;降噪处理及平滑滤镜:lamdba:100或10000;order:1或2;采集方式:连续或单次采集。
中药检测:每味中药经预处理后,将中药横断面、压片或粉末放置在专用拉曼光谱仪样品台,随机选取中药样品的不同部位进行多次拉曼光谱检测,又或在检测过程中均匀慢速移动中药样品进行多次拉曼光谱检测。示例性的,选取的不同部位点不低于5个,进行多次拉曼光谱检测,不低于5次。
将中药参照样品的若干拉曼谱图及对应的药性分类信息整合为量化数据文件,便于对量化数据文件进行文件解析,获得中药参照样品的药性分类信息以及若干拉曼谱图。
S102.对中药参照样品的各拉曼谱图进行量化处理和相似度评价,获得标准图谱数据。
具体实施时,将收集记录的每味中药的多张拉曼谱图,导入数据分析软件进行数字量化处理,提取各拉曼谱图的谱图数据,然后利用谱图数据进行谱图相似度评价,选以相似度大于相似度阈值的拉曼谱图的平均谱图数据作为每味中药的标准图谱数据。示例性的,可以选以谱图相似度高的多次拉曼检测的平均谱图作为中药的标准表征,具体地,相似度高可以是同一中药样品多次检测得到的拉曼谱图相似度不低于80%,当然,也可以设置其它的相似度阈值。然后添加中药药性的分类数据,将最终谱图数据和药性分类数据整合为统一标准的数据体系。数据分析软件可以为Uspectral plus。所述谱图相似度评价方法可以为基于命中质量指数(HQI)评价、基于p值(p-values)评价以及逆检索峰位匹配评价等方法中的一种或多种。
S103.将标准图谱数据与药性分类信息关联整合为中药参照样品的体系数据集,并对体系数据集进行特征筛选,得到中药参照样品的拉曼数据特征信息。
具体实施时,采用Pearson相关系数筛选方法、互信息和最大信息系数筛选方法、距离相关系数筛选方法、学习模型特征排序筛选方法、卡方检验筛选方法、信息增益筛选方法以及信息增益率特征筛选方法中的一种或多种组合方式对体系数据集进行特征筛选。以中药量化的拉曼谱图作为中药在分子层面上的整体性表征,经数字量化处理后,通过信息学特征筛选技术方法,得到与中药待测样品的药性最为相关的拉曼数据,如图2所述,即为示例的每味中药参照样品及相应的拉曼数据。
S104.将中药参照样品的拉曼数据特征信息导入预置的机器学习模型进行训练,获得药性识别预测模型。
具体实施时,可以拉曼位移为药性指标,所对应的拉曼峰强为药性指标值,不同药性的中药为观察个体目标,基于与中药参照样品的药性最为相关的拉曼数据,构建针对不同药性的多维数据矩阵,结合信息学机器学习技术构建药性识别预测模型。所述机器学习模型为随机森林模型、支持向量机模型、逻辑回归模型、贝叶斯网络模型和人工神经网络模型中的任意一种。
S105.基于设定的模型评价参数指标对所述药性识别预测模型进行模型评估,评估通过,则获得中药药性识别模型。
具体实施时,基于信息学技术的模型评价方法以及模型评价参数指标对所建的药性识别预测模型进行评估,以确保模型科学性和可靠性。信息学技术的模型评价方法可以为五折、七折、十折、二十折交叉验证法(CV-ANOVA)的一种或多种。模型评价参数指标可以是AUC、准确度、精确度、召回率、F1值、Micro-F1、Macro-F1、错误率、AP值、MAP值、ROC曲线等指标中适合所建模型的多个参数。为确保模型科学性和可靠性,AUC不低于0.80,准确度和精确度不低于0.80等。
S106.获取待识别中药样品的拉曼谱图数据。
具体实施时,在构建好中药药性识别模型后即可获取待识别中药样品的拉曼谱图数据,来对待识别中药样品进行药性分析。
S107.将待识别中药样品的拉曼谱图数据导入预置的中药药性识别模型进行分析识别,获得识别结果。
具体实施时,将待识别中药样品的拉曼谱图数据导入预置的中药药性识别模型进行分析识别,输出相应的识别结果用于后续的中药药性判定。
S108.根据识别结果判定待识别中药样品的药性识别信息。
具体实施时,所述识别结果包括四气分类药性、五味分类药性、归经分类药性、升降沉浮分类药性和有毒无毒分类药性的识别参数,所述药性识别信息包括四气分类药性、五味分类药性、归经分类药性、升降沉浮分类药性和有毒无毒分类药性的判定结果。
通过对中药参照样品进行多次拉曼光谱检测,以中药拉曼谱图作为中药在分子层面上的整体性表征,通过特征筛选研究中药不同药性与其拉曼谱图的相关性,筛选得到与不同药性具有强相关性的拉曼数据,以此为数据基础,结合信息学机器学习方法构建药性识别预测模型,基于模型评价参数指标对药性识别预测模型进行评估,以获取较优的药性识别预测模型作为中药药性识别模型对待识别中药样品的药性进行预测、分析。本发明药性识别思路与中医药的整体观相契合,方法及指标客观、具体,可替代传统依赖人工经验的中药药性主观判断方式,实现标准化的中药药性识别判定,提高对中药药性识别的效率和准确度,避免出现以偏概全的情况。
实施例2:
本实施例基于上述实施例1的技术方案进行示例性的中药“四气”寒热药性的识别预测。首先利用清洗剂对选取的多种中药进行清洗,去除表面灰尘等杂质后进行干燥,根据中药性状不同,分别进行切片、粉碎、压片等处理得到中药待测样品。然后基于拉曼光谱对上述中药待测样品进行检测分析,收集记录每味中药的拉曼谱图,并进行寒热药性分类整理。对中药拉曼谱图进行量化处理和相似度评价,选以谱图相似度较高的多次拉曼检测的平均谱图数据作为每味中药的标准谱图数据,结合药性分类数据,整合为统一标准的数据体系。然后通过特征筛选技术得到与寒热药性最为相关的拉曼数据;以筛选得到的拉曼数据为基础,结合信息学技术构建寒热药性的识别预测模型并对该模型进行评价分析,选取较优模型进行寒热药性的预测分析。
对寒热药性中药的拉曼光谱检测方法和部分结果:
检测条件:中心波长:785nm~1064nm;激发功率:80mW~150mW;积分时间:3000ms~8000ms;采集次数:3~7次;计算模式:软件平均计算;拉曼位移:200cm-1~3000cm-1;降噪处理及平滑滤镜:lamdba:100或10000,order:1或2;采集方式:连续采集。
中药检测:每味中药经样品预处理后,将中药横断面、压片或粉末盛载器皿等放置在专用拉曼光谱仪样品台,随机选取中药样品5~10个不同部位进行多次拉曼光谱检测,记录收集每味中药的拉曼谱图。部分中药的拉曼谱图如图3所示。
将中药按“寒凉”药性组和“温热”药性组进行分类整理,同时,利用数据分析软件对谱图进行量化处理,并基于逆检索峰位匹配进行谱图相似度的评价,部分结果如图4所示。
选以谱图相似度不低于85%的多次拉曼检测的平均谱图数据作为中药的整体性表征,添加中药寒热药性的分类数据,整合成统一的数据体系;以上述数据体系为基础,通过学习模型特征排序中的Gini系数进行特征筛选,筛选得到与寒热药性区分具有强相关性的前200~600的拉曼数据,特征筛选部分结果如图5所示。
利用筛选得到的与中药寒热药性最为相关拉曼数据,结合随机森林、支持向量机、逻辑回归、贝叶斯网络、人工神经网络等模型构建中药寒热药性的识别预测模型,并通过10折交叉验证和相关参数进行模型评价,部分评价结果如表1-3所示:
表1基于前200拉曼数据所建寒热识别预测模型的参数比较
模型 AUC 准确率 F1 精确度 召回率
RF 0.916 0.903 0.903 0.903 0.903
SVM 0.903 0.831 0.828 0.841 0.831
NN 0.884 0.835 0.835 0.835 0.835
NB 0.885 0.865 0.864 0.870 0.865
LR 0.800 0.743 0.743 0.743 0.743
表2基于前300拉曼数据所建寒热识别预测模型的参数比较
模型 AUC 准确率 F1 精确度 召回率
RF 0.910 0.890 0.899 0.899 0.899
SVM 0.902 0.827 0.825 0.832 0.827
NN 0.881 0.848 0.848 0.848 0.848
NB 0.876 0.865 0.863 0.874 0.865
LR 0.811 0.730 0.731 0.730 0.730
表3基于前600拉曼数据所建寒热识别预测模型的参数比较
模型 AUC 准确率 F1 精确度 召回率
RF 0.914 0.900 0.903 0.900 0.900
SVM 0.891 0.823 0.820 0.830 0.823
NN 0.866 0.806 0.804 0.808 0.806
NB 0.842 0.827 0.823 0.840 0.827
LR 0.813 0.743 0.743 0.743 0.743
通过模型参数评价,基于前200拉曼数据所建的随机森林模型AUC、准确率和精确度均大于0.90,其他参数亦如此,为较优的寒热药性识别预测模型。
以基于前200拉曼数据所建的随机森林模型为最终寒热药性识别预测模型,对模型外的30味中药(寒凉性中药15个,温热性中药15个)进行药性预测分析,结果见表4:
表4 30味中药寒热药性识别预测结果
中药名称 药性 预测药性 中药名称 药性 预测药性
北豆根 寒凉 寒凉 陈皮 温热 温热
大蓟 寒凉 寒凉 肉桂 温热 温热
儿茶 寒凉 寒凉 海螵蛸 温热 温热
百合 寒凉 寒凉 蒺藜 温热 温热
冬瓜皮 寒凉 寒凉 莲房 温热 温热
凌霄花 寒凉 寒凉 羌活 温热 寒凉*
石斛 寒凉 温热* 使君子 温热 温热
黄柏 寒凉 寒凉 仙茅 温热 温热
臭灵丹草 寒凉 寒凉 淫羊藿 温热 温热
筋骨草 寒凉 寒凉 紫苏叶 温热 温热
满山红 寒凉 寒凉 豆蔻 温热 温热
商陆 寒凉 寒凉 乳香 温热 温热
余甘子 寒凉 寒凉 山柰 温热 温热
浮萍草 寒凉 寒凉 制首乌 温热 温热
黄药子 寒凉 寒凉 鹿衔草 温热 温热
其中,*代表模型对寒热药性判断错误。通过对模型外的30味中药(寒凉性中药15个,温热性中药15个)进行药性预测分析,可知仅有2味中药的寒热药性判断错误,石斛“四气”为寒凉,误判为温热;而羌活“四气”为温热,误判为寒凉。模型对“模外数据”的判断正确率高达93.3%,可用于未知药性的药品、食品、中药组分或化学中药的药性归属判别。
本实施例还进行示例性的中药“四气”平性与非平性的识别预测。首先,利用清洗剂对100多味中药(平性中药70多种,寒凉中药40多种,温热中药30多种)进行清洗,去除表面灰尘等杂质后进行干燥,根据中药性状不同,分别进行切片、粉碎、压片等处理得到中药待测样品;然后基于拉曼光谱对上述中药待测样品进行检测分析,收集记录每味中药的拉曼谱图,并进行平性与非平性的分类整理;同时对中药拉曼谱图进行量化处理和相似度评价,选以谱图相似度较高的多次拉曼检测的平均谱图数据作为每味中药的标准谱图数据。
对平性与非平性中药的拉曼光谱检测方法和部分结果:
检测条件:中心波长:532nm~785nm;激发功率:100mW~200mW;积分时间:5000ms~9000ms;采集次数:2~5次;计算模式:硬件平均计算;拉曼位移:200cm-1~3200cm-1;降噪处理及平滑滤镜:lamdba:100或10000,order:1或2;采集方式:连续采集。
中药检测:每味中药经样品预处理后,将中药横断面、压片或粉末盛载器皿等放置在专用拉曼光谱仪样品台,随机选取中药样品5~10个不同部位进行多次拉曼光谱检测,记录收集每味中药的拉曼谱图。部分中药的拉曼谱图如图6所示。
将中药按平性与非平性进行分类整理,同时,利用数据分析软件对谱图进行量化处理,并基于逆检索峰位匹配进行谱图相似度的评价,部分结果如图7所示。
选以谱图相似度不低于85%的多次拉曼检测的平均谱图数据作为中药的整体性表征,添加中药平性与非平性的分类数据,整合成统一的数据体系。通过在筛选模块设置合适的参数阈100~1000,筛选得到与平性和非平性区分具有强相关性的前100~1000的拉曼数据,导出的特征筛选部分结果如图8所示。
基于筛选得到的与中药平性最为相关的拉曼数据,结合多种信息学机器学习算法如随机森林、支持向量机、逻辑回归、贝叶斯网络、人工神经网络等模型构建中药平性与非平性的识别预测模型。基于模型评价方法和相关参数指标对所建立的平性与非平性的识别预测模型进行评价、比较,系统评价模块对平性与非平性识别预测模型的评价参数见表5-10:
表5基于前100拉曼数据所建平性识别预测模型的参数比较
模型 AUC 准确率 F1 精确度 召回率
RF 0.970 0.933 0.933 0.935 0.933
SVM 0.947 0.880 0.879 0.894 0.880
NN 0.945 0.893 0.893 0.900 0.893
NB 0.958 0.900 0.899 0.909 0.900
LR 0.912 0.893 0.893 0.896 0.893
表6基于前200拉曼数据所建平性识别预测模型的参数比较
模型 AUC 准确率 F1 精确度 召回率
RF 0.954 0.920 0.920 0.923 0.920
SVM 0.946 0.873 0.872 0.885 0.873
NN 0.942 0.887 0.886 0.892 0.887
NB 0.954 0.900 0.899 0.909 0.900
LR 0.872 0.820 0.820 0.821 0.820
表7基于前300拉曼数据所建平性识别预测模型的参数比较
模型 AUC 准确率 F1 精确度 召回率
RF 0.951 0.927 0.927 0.929 0.927
SVM 0.945 0.873 0.872 0.885 0.873
NN 0.944 0.887 0.887 0.888 0.887
NB 0.955 0.893 0.893 0.904 0.893
LR 0.885 0.813 0.813 0.814 0.813
表8基于前400拉曼数据所建平性识别预测模型的参数比较
模型 AUC 准确率 F1 精确度 召回率
RF 0.954 0.920 0.920 0.923 0.920
SVM 0.939 0.873 0.872 0.885 0.873
NN 0.941 0.873 0.873 0.874 0.873
NB 0.954 0.887 0.886 0.899 0.887
LR 0.881 0.813 0.813 0.814 0.813
表9基于前500拉曼数据所建平性识别预测模型的参数比较
模型 AUC 准确率 F1 精确度 召回率
RF 0.951 0.913 0.913 0.917 0.913
SVM 0.938 0.873 0.872 0.885 0.873
NN 0.941 0.893 0.893 0.894 0.893
NB 0.954 0.887 0.886 0.899 0.887
LR 0.887 0.820 0.820 0.821 0.820
表10基于前600拉曼数据所建平性识别预测模型的参数比较
Figure BDA0003578721260000161
Figure BDA0003578721260000171
通过模型参数的评价比较,基于前100拉曼数据所建的随机森林模型AUC、准确率和精确度均大于0.93,其他参数亦如此。因此,选取该模型为较优的平性与非平性的中药药性识别模型,用于后续的中药平性与非平性的识别预测分析。
将模型外20中药(10味平性、10味非平性)的相关拉曼数据导入模型中,完成待分析样品的药性预测分析,并输出药性归属结果,平性判别结果如表11所示:
表11 20味中药平性与非平性识别预测结果
Figure BDA0003578721260000172
Figure BDA0003578721260000181
其中,*代表模型对是否为平性判断错误。通过对模型外的20味中药(平性中药10个,非平性中药10个)进行药性预测分析,可知仅有1味中药的非平性判断错误,穿山龙“四气”为温热,误判为平性。模型对“模外数据”的判断正确率高达95%,可用于未知药性的药品、食品、中药组分或化学中药的药性归属判别。
实施例3:
本实施例提供一种中药药性识别系统,如图9所示,所述系统包括获取单元、评价单元、筛选单元、构建单元、识别单元和判定单元,其中:
获取单元,用于获取中药参照样品的药性分类信息以及若干拉曼谱图,以及获取待识别中药样品的拉曼谱图数据;
评价单元,用于对中药参照样品的各拉曼谱图进行量化处理和相似度评价,获得标准图谱数据;
筛选单元,用于将标准图谱数据与药性分类信息关联整合为中药参照样品的体系数据集,并对体系数据集进行特征筛选,得到中药参照样品的拉曼数据特征信息;
构建单元,用于将中药参照样品的拉曼数据特征信息导入预置的机器学习模型进行训练,获得药性识别预测模型;以及基于设定的模型评价参数指标对所述药性识别预测模型进行模型评估,评估通过,则获得中药药性识别模型;
识别单元,用于将待识别中药样品的拉曼谱图数据导入预置的中药药性识别模型进行分析识别,获得识别结果;
判定单元,用于根据识别结果判定待识别中药样品的药性识别信息。
实施例4:
本实施例提供一种中药药性识别装置,如图10所示,在硬件层面,包括:
存储器,用于存储指令;
处理器,用于读取所述存储器中存储的指令,并根据指令执行实施例1中的中药药性识别方法。
可选地,该装置还包括内部总线和通讯接口。处理器、存储器和通讯接口可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。
所述存储器可以但不限于包括随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、闪存(Flash Memory)、先进先出存储器(First InputFirst Output,FIFO)和/或先进后出存储器(First In Last Out,FILO)等。所述处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
实施例5:
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行实施例1中的中药药性识别方法。其中,所述计算机可读存储介质是指存储数据的载体,可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等,所述计算机可以是通用计算机、专用计算机、计算机网络或者其他可编程系统。
实施例6:
本实施例提供一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行实施例1中的中药药性识别方法。其中,所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程系统。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种中药药性识别方法,其特征在于,包括:
获取待识别中药样品的拉曼谱图数据;
将待识别中药样品的拉曼谱图数据导入预置的中药药性识别模型进行分析识别,获得识别结果;
根据识别结果判定待识别中药样品的药性识别信息;
其中,所述中药药性识别模型的生成过程包括:
获取中药参照样品的药性分类信息以及若干拉曼谱图;
对中药参照样品的各拉曼谱图进行量化处理和相似度评价,获得标准图谱数据;
将标准图谱数据与药性分类信息关联整合为中药参照样品的体系数据集,并对体系数据集进行特征筛选,得到中药参照样品的拉曼数据特征信息;
将中药参照样品的拉曼数据特征信息导入预置的机器学习模型进行训练,获得药性识别预测模型;
基于设定的模型评价参数指标对所述药性识别预测模型进行模型评估,评估通过,则获得中药药性识别模型。
2.根据权利要求1所述的一种中药药性识别方法,其特征在于,所述药性分类信息包括四气分类药性、五味分类药性、归经分类药性、升降沉浮分类药性以及有毒无毒分类药性,所述识别结果包括四气分类药性、五味分类药性、归经分类药性、升降沉浮分类药性和有毒无毒分类药性的识别参数,所述药性识别信息包括四气分类药性、五味分类药性、归经分类药性、升降沉浮分类药性和有毒无毒分类药性的判定结果。
3.根据权利要求1所述的一种中药药性识别方法,其特征在于,所述对中药参照样品的各拉曼谱图进行量化处理和相似度评价,包括:
提取各拉曼谱图的谱图数据;
以设定的命中质量指数评价、基于P value评价和逆检索峰位匹配评价中的一种或多种评价组合方式对各拉曼谱图的谱图数据进行相似度评价,选取相似度值大于设定阈值的各拉曼谱图的平均谱图数据作为标准图谱数据。
4.根据权利要求1所述的一种中药药性识别方法,其特征在于,所述对体系数据集进行特征筛选,包括:采用Pearson相关系数筛选方法、互信息和最大信息系数筛选方法、距离相关系数筛选方法、学习模型特征排序筛选方法、卡方检验筛选方法、信息增益筛选方法以及信息增益率特征筛选方法中的一种或多种组合方式对体系数据集进行特征筛选。
5.根据权利要求1所述的一种中药药性识别方法,其特征在于,所述预置的机器学习模型为随机森林模型、支持向量机模型、逻辑回归模型、贝叶斯网络模型和人工神经网络模型中的任意一种。
6.根据权利要求1所述的一种中药药性识别方法,其特征在于,对药性识别预测模型进行模型评估,包括:采用五折交叉验证法、七折交叉验证法、十折交叉验证法和二十折交叉验证法中的一种或多种组合方式对药性识别预测模型进行模型评估。
7.根据权利要求1所述的一种中药药性识别方法,其特征在于,所述方法还包括:接收中药参照样品的量化数据文件,然后对量化数据文件进行文件解析,获得中药参照样品的药性分类信息以及若干拉曼谱图。
8.一种中药药性识别装置,其特征在于,包括获取单元、评价单元、筛选单元、构建单元、识别单元和判定单元,其中:
获取单元,用于获取中药参照样品的药性分类信息以及若干拉曼谱图,以及获取待识别中药样品的拉曼谱图数据;
评价单元,用于对中药参照样品的各拉曼谱图进行量化处理和相似度评价,获得标准图谱数据;
筛选单元,用于将标准图谱数据与药性分类信息关联整合为中药参照样品的体系数据集,并对体系数据集进行特征筛选,得到中药参照样品的拉曼数据特征信息;
构建单元,用于将中药参照样品的拉曼数据特征信息导入预置的机器学习模型进行训练,获得药性识别预测模型;以及基于设定的模型评价参数指标对所述药性识别预测模型进行模型评估,评估通过,则获得中药药性识别模型;
识别单元,用于将待识别中药样品的拉曼谱图数据导入预置的中药药性识别模型进行分析识别,获得识别结果;
判定单元,用于根据识别结果判定待识别中药样品的药性识别信息。
9.一种计算机设备,其特征在于,包括:
存储器,用于存储指令;
处理器,用于读取所述存储器中存储的指令,并根据指令执行权利要求1-7任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,使得所述计算机执行权利要求1-7任意一项所述的方法。
CN202210349248.3A 2022-04-01 2022-04-01 一种中药药性识别方法、系统、计算机设备及存储介质 Pending CN114911977A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210349248.3A CN114911977A (zh) 2022-04-01 2022-04-01 一种中药药性识别方法、系统、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210349248.3A CN114911977A (zh) 2022-04-01 2022-04-01 一种中药药性识别方法、系统、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN114911977A true CN114911977A (zh) 2022-08-16

Family

ID=82762760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210349248.3A Pending CN114911977A (zh) 2022-04-01 2022-04-01 一种中药药性识别方法、系统、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114911977A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116908138A (zh) * 2023-07-13 2023-10-20 中南民族大学 植物类中药的四气量化表征方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116908138A (zh) * 2023-07-13 2023-10-20 中南民族大学 植物类中药的四气量化表征方法
CN116908138B (zh) * 2023-07-13 2024-02-06 中南民族大学 植物类中药的四气量化表征方法

Similar Documents

Publication Publication Date Title
WO2019192433A1 (zh) 一种基于近红外光谱技术对中药皂角刺的真伪进行化学模式识别的方法
CN107677647B (zh) 基于主成分分析和bp神经网络的中药材产地鉴别方法
CN110514611B (zh) 一种基于药效信息建立评价中药质量的化学模式识别方法
Yang et al. Integration of SIMCA and near-infrared spectroscopy for rapid and precise identification of herbal medicines
CN105181916A (zh) 一种利用电子鼻、电子舌传感器技术检测量化中药气味及其对应证的方法
CN106990214A (zh) 一种评价中药材质量的方法
CN114911977A (zh) 一种中药药性识别方法、系统、计算机设备及存储介质
CN111833330B (zh) 基于影像与机器嗅觉融合的肺癌智能检测方法及系统
Zhou et al. Classification of precancerous lesions based on fusion of multiple hierarchical features
CN109668850A (zh) 基于紫外指纹图谱的中药药性识别方法及系统
CN113903398A (zh) 肠癌早筛标志物、检测方法、检测装置以及计算机可读取介质
CN111832389A (zh) 一种骨髓细胞形态学自动检测系统的计数及分析方法
Du et al. Discrimination of the species and authenticity of Rhizoma Coptidis based on stable isotope and multielement fingerprinting and multivariate statistical analysis
CN101324544A (zh) 利用特征指纹图谱识别样品的方法
CN103076300A (zh) 专属性模式识别模型判别分析中药材资源指纹信息的方法
CN110567907A (zh) 一种基于红外光谱技术快速鉴别中药真伪的方法
Yang et al. A robust identification model for herbal medicine using near infrared spectroscopy and artificial neural network
Gardiner et al. Leaf-shape as an indicator of introgression between Betula pendula and B. pubescens
Tong et al. Identification of starch grains in microscopic images based on granulometric operations
Han et al. Discrimination of Radix Pseudostellariae according to geographical origin by FT-NIR spectroscopy and supervised pattern recognition
Li et al. An analysis and research of type-2 diabetes TCM records based on text mining
CN116908138B (zh) 植物类中药的四气量化表征方法
CN116793990B (zh) 植物类中药的五味量化表征方法
Jin et al. Study on the Identification of Radix Bupleuri from Its Unofficial Varieties Based on Discrete Wavelet Transformation Feature Extraction of ATR‐FTIR Spectroscopy Combined with Probability Neural Network
CN114997243A (zh) 基于id3决策树算法和模糊判别的中药材识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination