CN110459292B - 一种基于聚类和pnn的药品风险分级方法 - Google Patents
一种基于聚类和pnn的药品风险分级方法 Download PDFInfo
- Publication number
- CN110459292B CN110459292B CN201910592286.XA CN201910592286A CN110459292B CN 110459292 B CN110459292 B CN 110459292B CN 201910592286 A CN201910592286 A CN 201910592286A CN 110459292 B CN110459292 B CN 110459292B
- Authority
- CN
- China
- Prior art keywords
- risk
- medicine
- drug
- clustering
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H20/00—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
- G16H20/10—ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/40—ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Strategic Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Epidemiology (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Chemical & Material Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Medicinal Chemistry (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
Abstract
本发明公开了一种基于聚类和概率神经网络(Probabilistic Neural Network,PNN)的药品风险分级方法,实现对于药品风险分级的信息化智能化管理。该方法采用无监督学习与有监督学习相结合的策略,利用模糊C均值聚类方法,解决为原始药品数据自动风险级别标注的问题,再利用概率神经网络算法对带有风险等级标签的数据集进行训练,实现新上市药品的风险级别预测。
Description
技术领域
本发明涉及一种基于聚类和PNN的药品风险分级方法,属于药品风险分级技术领域。
背景技术
随着医学领域的不断发展,大量化学合成药品不断上市,在人类预防疾病、治疗疾病、保障人民健康过程中发挥了重要作用。但是,随之而来的是大规模药害事件的发生。所以,药品的风险评估与检测亟待加强。药品的风险评估与管理是减少药物不良反应,增强人们用药安全性的重要措施。即使目前有部分国家已经制定了药品分级系统,但是仍存在分级标准难以制定和统一、分级方法多未进行量化分析和局限在某类药品的问题。这不仅不利于有关部门对药品的监管,还影响医务工作者临床药物治疗方案的决策。
发明内容
本发明所要解决的技术问题是提供一种基于聚类和PNN的药品风险分级方法,实现对于药品风险分级的信息化智能化管理。该方法采用无监督学习与有监督学习相结合的策略,利用模糊C均值聚类方法,解决为原始药品数据自动风险级别标注的问题,再利用概率神经网络算法对打上标签的数据集进行训练,实现药品风险级别预测。
本发明为解决上述技术问题采用以下技术方案:一种基于聚类和PNN的药品风险分级方法,包括如下步骤:
步骤1、构建药品风险指标,基于我国药品不良反应Adverse Drug Reaction,ADR,自发报告数据中每个药品发生的不良反应报告信息,通过定义药品严重报告率SeriousReporting Rate,SRR和不良反应覆盖率Adverse Reaction Coverage Rate,ACR两个指标对每个药品的风险进行量化;
步骤2、利用模糊c均值进行聚类,基于每个药品的SRR和ACR两个指标值,采用模糊c均值算法进行聚类;
步骤3、物品类的风险特征提取和单个药品的风险等级标注,定义药品类的风险因子,对聚类后的每个药品类分别计算总的风险值,并根据风险值大小对每个药品类中所有药品的风险标签进行统一标注,为分类模型奠定数据基础;
步骤4、基于概率神经网络的药品风险等级预测,基于上述步骤产生的带有风险标签的药品数据,利用概率神经网络构建药品风险分级分类器,概率神经网络使用Parzen窗估计法得出某一类别的条件概率密度函数估计值,再通过判别函数计算输入样本,训练网络模型,最后用判别函数最大值所对应的类别对样本进行标记来实现药物风险级别的预测。
进一步的,所述步骤1中,
严重报告率描述了某个药品严重报告数量占所有ADR报告总数的百分比。若严重报告率越大,则该药品产生的不良反应越严重,该药品越危险。假设现存在某一药品D,则严重报告率(SRR)的公式为:
其中,药品D的ADR报告总数量为R(D),其中严重报告数量为RS(D)
不良反应覆盖率描述了某个药品产生不良反应的个数占全部ADR总数的百分比。若不良反应覆盖率越大,则该药品相对产生的不良反应种类越多,该药品越危险。假设现存在某一药品D,则不良反应覆盖率(ACR)的公式为:
其中,该药品导致的ADR的种类数为K(D),全部ADR种类数为M。
进一步的,所述步骤2的具体步骤为:
步骤2.1:将模糊C均值聚类方法应用于上述数据集,算法输入包括药品名称及两个指标数据,聚类数目,模糊系数,迭代终止条件即最大迭代次数,目标函数最小误差;
设n种药品的数据样本为X={x1,x2,...,xn},c是要将数据样本分成的类型的数目2≤c≤n,A={A1,A2,..,Ac}表示相应的c个类别,U是其相似分类矩阵,各类别的聚类中心为{v1,v2,...,vc},μk(xi)是第i种药物xi对于类Ak的隶属度(简写为μik),则目标函数Jb可以用下式表达:
其中,dik是欧几里得距离,用来度量第i种药品xi与第k类中心点之间的距离;m是样本的特征数;b是加权参数,取值范围是1≤b≤∞;
步骤2.2:随机初始化隶属度U和聚类中心V;
步骤2.3:通过式(5)计算每个数据相对于各个类簇的隶属度,并更新隶属度矩阵;
步骤2.4:通过式(6)计算新的聚类中心,用新的聚类中心更新聚类中心位置矩阵;
模糊C均值聚类方法就是寻找一种最佳的分类,以使该分类能产生最小的函数值Jb,它要求一个样本对于各个聚类的隶属度值和为1,即满足:
样本xi对于类Ak的隶属度U={μik}为
设Ik={i|2≤c<n;dik=0},对于所有的i类,i∈Ik,μik=0,c个聚类中心V={vi}为
步骤2.5:通过式(3)计算新的目标函数值Jb;
步骤2.6:每次迭代后,计算新的目标函数与原目标函数的差值,如果J[i]-J[i-1]≤ε,或者迭代次数满足最大迭代次数,终止迭代过程,算法结束;否则,跳转步骤2.3继续执行。
进一步的,所述步骤3中,根据ADR自发报告的数据特征,药品的风险可以由高到低分为“ADR覆盖率低且不良反应严重”、“ADR覆盖率高且不良反应不严重”、“ADR覆盖率低且不良反应不严重”三种情形;基于此创建药品类的风险程度评价模型,所述模型根据以下公式构建每个药品类的风险因子:
其中,RISK(j)是第k类药品的得分,m是样本特征数,numj是第j类药品个数,arrtibutei是第i类药品特征j的标准化值;通过指数级增加,扩大类别之间的差异,得出有明显差异的类别得分,根据得分函数的大小,即可进行药品风险程度评价;严重报告率越大,ADR覆盖率越大,即该药物风险级别越大,呈现正相关。
进一步的,所述步骤4的具体步骤如下:
步骤4.1:确定隐含层神经元径向基函数中心,
设训练集样本输入矩阵P和输出矩阵T分别为:
其中,pij表示第j个训练样本的第i个输入变量;tij表示第j个训练样本的第i个输出变量;R为输入变量的维数;K为输出变量的维数,对应K个类别;Q为训练集样本数;
隐含层的每个神经元对应一个训练样本,即Q个隐含层神经元对应的径向基函数中心为:
C=P'(k) (9)
步骤4.2:确定隐含层神经元阈值,
为了简便起见,Q个隐含层神经元对应的阈值为:
b1=[b11,b12,...,b1Q] (10)
步骤4.3:确定隐含层与输出层间权值,
当隐含层神经元的径向基函数中心及阈值确定后,隐含层神经元的输出便可以由式(11)计算:
ai=exp(-||C-pi||2b1),i=1,2,...,Q (11)
其中pi=[pi1,pi2,...,piR]为第i个训练样本向量;
隐含层与输出层间的连接权值w取为训练集输出矩阵,即:
W=t (12)
步骤4.4:输出层神经元输出计算,
当隐含层与输出层神经元间的连接权值确定后,便可以计算出输出层神经元的输出,即:
ni=LW2,1ai,i=1,2,...,Q (13)
yi=compet(ni),i=1,2,...,Q (14)
通过4.1至4.4步骤,依次计算隐含层神经元的径向基函数中心、阈值,隐含层与输出层间权值,再通过测试集样本类别,不断修正网络参数,即完成了基于概率神经网络的分类器构建。对于一种风险标签未知的新药物,只需要输入其SRR和ACR两个指标值,即可预测该药物风险等级。
与现有技术相比,本发明具有有益效果如下:
1、使用定量分析的方法,采用信息化处理方式,将非监督方法(模糊C均值聚类方法)和监督方法(概率神经网络)的优点结合起来,基于全局的药品数据实现了药品风险分级的一致性和可靠性,并得到了满意的分类结果。
2、提出的基于模糊C均值聚类算法可以对现有药品数据进行自动标记类别,不需要人为干预,避免了人为主观性带来的弊端并且具有很好的稳定性。
3、本发明利用指标值之间的科学计算,设定分级标准,解决了目前分级标准难以制定和统一、分级方法多未进行量化分析的问题,对于有关部门对药品的监管,医务工作者临床药物治疗方案决策的制定有重要意义。
4、本发明选用概率神经网络进行训练和预测,PNN网络适用于低容错性医学领域的非线性问题求解。在对药物的风险分级研究中,该网络能高效精确的对聚类后带有类别标签的药品数据进行训练。
5、本发明针对的是所有药物,不受药物类别的影响,相较于目前国内外研究针对的是妊娠期药物、抗癌类药物、抗菌类药物等特殊药物,我们的方法更具有适用性和推广性。
附图说明
图1是本发明的整体流程图。
图2是本发明的PNN网络拓扑图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明。
一种基于聚类和PNN的药品风险分级方法,包括如下步骤:
步骤一:构建药品风险指标。由于要根据药品的危险性对药品进行分级,因此需要量化药品的风险程度。药品风险特征的组合和选取也是提高药品风险分类中的一个重要因素。有很多种因素影响着药品不良反应的分析,其中药物发生不良反应的概率情况和该药物不良反应的严重程度是主要的影响因素。因此,本发明选取药品严重报告率和不良反应覆盖率两个指标进行药品风险特征提取:
①严重报告率
严重报告率描述了某个药品严重报告数量占所有ADR报告总数的百分比。若严重报告率越大,则该药品产生的不良反应越严重,该药品越危险。假设现存在某一药品D,则严重报告率(SRR)的公式为:
其中,药品D的ADR报告总数量为R(D),其中严重报告数量为RS(D)。
②不良反应覆盖率
不良反应覆盖率描述了某个药品产生不良反应的个数占全部ADR总数的百分比。若不良反应覆盖率越大,则该药品相对产生的不良反应种类越多,该药品越危险。假设现存在某一药品D,则不良反应覆盖率(ACR)的公式为:
其中,该药品导致的ADR的种类数为K(D),全部ADR种类数为M。
步骤二:利用模糊c均值进行聚类。基于每个药品的SRR和ACR两个指标值,采用模糊c均值算法进行聚类。
步骤2.1:将模糊C均值聚类方法应用于上述数据集,算法输入包括药品名称及两个指标数据,聚类数目,模糊系数,迭代终止条件即最大迭代次数,目标函数最小误差;
设n种药品的数据样本为X={x1,x2,...,xn},c是要将数据样本分成的类型的数目2≤c≤n,A={A1,A2,..,Ac}表示相应的c个类别,U是其相似分类矩阵,各类别的聚类中心为{v1,v2,...,vc},μk(xi)是第i种药物xi对于类Ak的隶属度(简写为μik),则目标函数Jb可以用下式表达:
其中,dik是欧几里得距离,用来度量第i种药品xi与第k类中心点之间的距离;m是样本的特征数;b是加权参数,取值范围是1≤b≤∞;
步骤2.2:随机初始化隶属度U和聚类中心V;
步骤2.3:通过式(5)计算每个数据相对于各个类簇的隶属度,并更新隶属度矩阵;
步骤2.4:通过式(6)计算新的聚类中心,用新的聚类中心更新聚类中心位置矩阵;
模糊C均值聚类方法就是寻找一种最佳的分类,以使该分类能产生最小的函数值Jb,它要求一个样本对于各个聚类的隶属度值和为1,即满足:
样本xi对于类Ak的隶属度U={μik}为
设Ik={i|2≤c<n;dik=0},对于所有的i类,i∈Ik,μik=0,c个聚类中心V={vi}为
步骤2.5:通过式(3)计算新的目标函数值Jb;
步骤2.6:每次迭代后,计算新的目标函数与原目标函数的差值,如果J[i]-J[i-1]≤ε,或者迭代次数满足最大迭代次数,终止迭代过程,算法结束;否则,跳转步骤2.3继续执行。
根据此算法,我们按照报告覆盖率和不良反应严重程度可以得到现有药品的风险级别,实现对于原始药品数据集的自动标注。
步骤三:物品类的风险特征提取和单个药品的风险等级标注。
针对选取的两个指标对已分类的药品集合进行打分,以确定哪类在我们看来更严重。ADR覆盖率越小越好,越大越严重;不良反应严重程度也符合此描述。但是一般多发的不良反应都不具有严重性,严重的不良反应发病频率较低。结合此特性和自发报告数据特点,本发明药品的风险可以由高到低分为“ADR覆盖率低且不良反应严重”、“ADR覆盖率高且不良反应不严重”、“ADR覆盖率低且不良反应不严重”三种情形;基于此创建药品类的风险程度评价模型,所述模型根据以下公式构建每个药品类的风险因子:
其中,RISK(j)是第k类药品的得分,m是样本特征数,numj是第j类药品个数,arrtibutei是第i类药品特征j的标准化值;通过指数级增加,扩大类别之间的差异,得出有明显差异的类别得分,根据得分函数的大小,即可进行药品风险程度评价;严重报告率越大,ADR覆盖率越大,即该药物风险级别越大,呈现正相关。
步骤四:基于概率神经网络的药品风险等级预测
概率神经网络使用Parzen窗估计法得出某一类别的条件概率密度函数估计值,再通过判别函数计算输入样本,训练网络模型,最后用判别函数最大值所对应的类别对样本进行标记,即可实现药物风险级别的预测。算法流程如下:
步骤4.1:确定隐含层神经元径向基函数中心,
设训练集样本输入矩阵P和输出矩阵T分别为:
其中,pij表示第j个训练样本的第i个输入变量;tij表示第j个训练样本的第i个输出变量;R为输入变量的维数;K为输出变量的维数,对应K个类别;Q为训练集样本数;
隐含层的每个神经元对应一个训练样本,即Q个隐含层神经元对应的径向基函数中心为:
C=P'(k) (9)
步骤4.2:确定隐含层神经元阈值,
为了简便起见,Q个隐含层神经元对应的阈值为:
b1=[b11,b12,...,b1Q] (10)
步骤4.3:确定隐含层与输出层间权值,
当隐含层神经元的径向基函数中心及阈值确定后,隐含层神经元的输出便可以由式(11)计算:
ai=exp(-||C-pi||2b1),i=1,2,...,Q (11)
其中pi=[pi1,pi2,...,piR]为第i个训练样本向量;
隐含层与输出层间的连接权值w取为训练集输出矩阵,即:
W=t (12)
步骤4.4:输出层神经元输出计算,
当隐含层与输出层神经元间的连接权值确定后,便可以计算出输出层神经元的输出,即:
ni=LW2,1ai,i=1,2,...,Q (13)
yi=compet(ni),i=1,2,...,Q (14)
通过以上4.1-4.4步骤,依次计算隐含层神经元的径向基函数中心、阈值,隐含层与输出层间权值,再通过测试集样本类别,不断修正网络参数,即完成了基于概率神经网络的分类器构建。对于一种风险标签未知的新药物,只需要输入其SRR和ACR两个指标值,即可预测该药物风险等级。
以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解,本发明不受上述具体实施例的限制,上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理,在不脱离本发明精神范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。所以,如果本领域的普通技术人员受其启示,在不脱离本创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本专利的保护范围。
Claims (4)
1.一种基于聚类和PNN的药品风险分级方法,其特征在于:包括如下步骤,
步骤1、构建药品风险指标,基于我国药品不良反应Adverse Drug Reaction,ADR,自发报告数据中每个药品发生的不良反应报告信息,通过定义药品严重报告率SeriousReporting Rate,SRR和不良反应覆盖率Adverse Reaction Coverage Rate,ACR两个指标对每个药品的风险进行量化;
步骤2、利用模糊c均值进行聚类,基于每个药品的SRR和ACR两个指标值,采用模糊c均值算法进行聚类;
步骤3、物品类的风险特征提取和单个药品的风险等级标注,定义药品类的风险因子,对聚类后的每个药品类分别计算总的风险值,并根据风险值大小对每个药品类中所有药品的风险标签进行统一标注,为分类模型奠定数据基础;根据ADR自发报告的数据特征,药品的风险可以由高到低分为“ADR覆盖率低且不良反应严重”、“ADR覆盖率高且不良反应不严重”、“ADR覆盖率低且不良反应不严重”三种情形;基于此创建药品类的风险程度评价模型,所述模型根据以下公式构建每个药品类的风险因子:
其中,RISK(j)是第k类药品的得分,m是样本特征数,numj是第j类药品个数,arrtibutei是第i类药品特征j的标准化值;通过指数级增加,扩大类别之间的差异,得出有明显差异的类别得分,根据得分函数的大小,即可进行药品风险程度评价;严重报告率越大,ADR覆盖率越大,即药物风险级别越大,呈现正相关;
步骤4、基于概率神经网络的药品风险等级预测,基于上述步骤产生的带有风险标签的药品数据,利用概率神经网络构建药品风险分级分类器,概率神经网络使用Parzen窗估计法得出某一类别的条件概率密度函数估计值,再通过判别函数计算输入样本,训练网络模型,最后用判别函数最大值所对应的类别对样本进行标记来实现药物风险级别的预测,具体步骤如下:
步骤4.1:确定隐含层神经元径向基函数中心,
设训练集样本输入矩阵P和输出矩阵T分别为:
其中,pij表示第j个训练样本的第i个输入变量;tij表示第j个训练样本的第i个输出变量;R为输入变量的维数;K为输出变量的维数,对应K个类别;Q为训练集样本数;
隐含层的每个神经元对应一个训练样本,即Q个隐含层神经元对应的径向基函数中心为:
C=P'(k) (9)
步骤4.2:确定隐含层神经元阈值,
为了简便起见,Q个隐含层神经元对应的阈值为:
b1=[b11,b12,...,b1Q] (10)
步骤4.3:确定隐含层与输出层间权值,
当隐含层神经元的径向基函数中心及阈值确定后,隐含层神经元的输出便可以由式(11)计算:
ai=exp(-||C-pi||2b1),i=1,2,...,Q (11)
其中pi=[pi1,pi2,...,piR]为第i个训练样本向量;
隐含层与输出层间的连接权值w取为训练集输出矩阵,即:
W=t (12)
步骤4.4:输出层神经元输出计算,
当隐含层与输出层神经元间的连接权值确定后,便可以计算出输出层神经元的输出,即:
ni=LW2,1ai,i=1,2,...,Q (13)
yi=compet(ni),i=1,2,...,Q (14)
通过4.1至4.4步骤,依次计算隐含层神经元的径向基函数中心、阈值,隐含层与输出层间权值,再通过测试集样本类别,不断修正网络参数,即完成了基于概率神经网络的分类器构建,对于一种风险标签未知的新药物,只需要输入其SRR和ACR两个指标值,即可预测该药物风险等级。
4.根据权利要求1所述的基于聚类和PNN的药品风险分级方法,其特征在于:所述步骤2的具体步骤为:
步骤2.1:将模糊C均值聚类方法应用于数据集,算法输入包括药品名称及两个指标数据,聚类数目,模糊系数,迭代终止条件即最大迭代次数,目标函数最小误差;
设n种药品的数据样本为X={x1,x2,...,xn},c是要将数据样本分成的类型的数目2≤c≤n,A={A1,A2,..,Ac}表示相应的c个类别,U是其相似分类矩阵,各类别的聚类中心为{v1,v2,...,vc},μk(xi)是第i种药物xi对于类Ak的隶属度,简写为μik,则目标函数Jb可以用下式表达:
其中,dik是欧几里得距离,用来度量第i种药品xi与第k类中心点之间的距离;m是样本的特征数;b是加权参数,取值范围是1≤b≤∞;
步骤2.2:随机初始化隶属度U和聚类中心V;
步骤2.3:通过式(5)计算每个数据相对于各个类簇的隶属度,并更新隶属度矩阵;
步骤2.4:通过式(6)计算新的聚类中心,用新的聚类中心更新聚类中心位置矩阵;
模糊C均值聚类方法就是寻找一种最佳的分类,以使该分类能产生最小的函数值Jb,它要求一个样本对于各个聚类的隶属度值和为1,即满足:
样本xi对于类Ak的隶属度U={μik}为
设Ik={i|2≤c<n;dik=0},对于所有的i类,i∈Ik,μik=0,c个聚类中心V={vi}为
步骤2.5:通过式(3)计算新的目标函数值Jb;
步骤2.6:每次迭代后,计算新的目标函数与原目标函数的差值,如果J[i]-J[i-1]≤ε,或者迭代次数满足最大迭代次数,终止迭代过程,算法结束;否则,跳转步骤2.3继续执行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910592286.XA CN110459292B (zh) | 2019-07-02 | 2019-07-02 | 一种基于聚类和pnn的药品风险分级方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910592286.XA CN110459292B (zh) | 2019-07-02 | 2019-07-02 | 一种基于聚类和pnn的药品风险分级方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110459292A CN110459292A (zh) | 2019-11-15 |
CN110459292B true CN110459292B (zh) | 2022-09-20 |
Family
ID=68482003
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910592286.XA Active CN110459292B (zh) | 2019-07-02 | 2019-07-02 | 一种基于聚类和pnn的药品风险分级方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110459292B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488924B (zh) * | 2020-04-07 | 2024-04-26 | 中国农业科学院农业信息研究所 | 一种多变量时间序列数据聚类方法 |
CN111723367B (zh) * | 2020-06-12 | 2023-06-23 | 国家电网有限公司 | 一种电力监控系统业务场景处置风险评价方法及系统 |
CN113313159B (zh) * | 2021-05-24 | 2022-09-30 | 广西壮族自治区水产科学研究院 | 一种兽药高通量聚类分析方法 |
CN114626474A (zh) * | 2022-03-21 | 2022-06-14 | 厦门大学 | 一种基于概率神经网络的车辆电源状态检测方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109273096A (zh) * | 2018-09-05 | 2019-01-25 | 南京邮电大学 | 一种基于机器学习的药品风险分级评估方法 |
CN109271515A (zh) * | 2018-09-19 | 2019-01-25 | 南京邮电大学 | 一种基于聚类分析的抗生素药物风险分级方法 |
-
2019
- 2019-07-02 CN CN201910592286.XA patent/CN110459292B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109273096A (zh) * | 2018-09-05 | 2019-01-25 | 南京邮电大学 | 一种基于机器学习的药品风险分级评估方法 |
CN109271515A (zh) * | 2018-09-19 | 2019-01-25 | 南京邮电大学 | 一种基于聚类分析的抗生素药物风险分级方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110459292A (zh) | 2019-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110459292B (zh) | 一种基于聚类和pnn的药品风险分级方法 | |
CN111612261B (zh) | 基于区块链的金融大数据分析系统 | |
CN109273096B (zh) | 一种基于机器学习的药品风险分级评估方法 | |
CN112201330B (zh) | 结合DRGs工具和贝叶斯模型的医疗质量监测评估方法 | |
CN113378990B (zh) | 基于深度学习的流量数据异常检测方法 | |
CN110837523A (zh) | 一种基于级联神经网络的高置信改造质量和减假暂量化评估方法 | |
CN111081379B (zh) | 一种疾病概率决策方法及其系统 | |
Chitra et al. | Heart attack prediction system using fuzzy C means classifier | |
CN103714261A (zh) | 二阶段混合模型的智能辅助医疗决策支持方法 | |
CN112989621A (zh) | 一种模型性能评价方法、装置、设备及存储介质 | |
Ghosh | An enhanced stroke prediction scheme using SMOTE and machine learning techniques | |
CN115910362A (zh) | 一种基于增强粒子群优化的特应性皮炎特征预测方法 | |
CN117438029A (zh) | 一种骨科创伤患者创伤严重程度智能评估系统 | |
CN114219228A (zh) | 一种基于em聚类算法的体育场疏散评价方法 | |
Marcano-Cedeño et al. | Artificial metaplasticity prediction model for cognitive rehabilitation outcome in acquired brain injury patients | |
Khanna et al. | An Integrated Approach towards the prediction of Likelihood of Diabetes | |
Choudhary et al. | Glaucoma detection using cross validation algorithm | |
Rajeshwari et al. | Dermatology disease prediction based on firefly optimization of ANFIS classifier | |
Ying et al. | Gold classification of COPDGene cohort based on deep learning | |
CN115018006A (zh) | 一种基于Dempster-Shafer框架的分类方法 | |
Hashim et al. | Optimization of ECG Peaks (Amplitude and Duration) in Predicting ECG Abnormality using Artificial Neural Network | |
Nuarini et al. | Optimization of Breast Cancer Prediction using Optimaze Parameter on Machine Learning | |
Aurpa et al. | Ensemble Methods of Machine Learning Algorithms for Early Diabetic Detection in Comparison | |
Jiang et al. | Covid-19 diagnosis by Gray-level cooccurrence matrix and genetic algorithm | |
Vieira | On the short-term prediction of Multiple Sclerosis disease progression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |