CN110459292A - 一种基于聚类和pnn的药品风险分级方法 - Google Patents

一种基于聚类和pnn的药品风险分级方法 Download PDF

Info

Publication number
CN110459292A
CN110459292A CN201910592286.XA CN201910592286A CN110459292A CN 110459292 A CN110459292 A CN 110459292A CN 201910592286 A CN201910592286 A CN 201910592286A CN 110459292 A CN110459292 A CN 110459292A
Authority
CN
China
Prior art keywords
drug
risk
cluster
class
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910592286.XA
Other languages
English (en)
Other versions
CN110459292B (zh
Inventor
魏建香
刘美含
陈慧
卢志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post and Telecommunication University
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201910592286.XA priority Critical patent/CN110459292B/zh
Publication of CN110459292A publication Critical patent/CN110459292A/zh
Application granted granted Critical
Publication of CN110459292B publication Critical patent/CN110459292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage

Abstract

本发明公开了一种基于聚类和概率神经网络(Probabilistic Neural Network,PNN)的药品风险分级方法,实现对于药品风险分级的信息化智能化管理。该方法采用无监督学习与有监督学习相结合的策略,利用模糊C均值聚类方法,解决为原始药品数据自动风险级别标注的问题,再利用概率神经网络算法对带有风险等级标签的数据集进行训练,实现新上市药品的风险级别预测。

Description

一种基于聚类和PNN的药品风险分级方法
技术领域
本发明涉及一种基于聚类和PNN的药品风险分级方法,属于药品风险分级技术领域。
背景技术
随着医学领域的不断发展,大量化学合成药品不断上市,在人类预防疾病、治疗疾病、保障人民健康过程中发挥了重要作用。但是,随之而来的是大规模药害事件的发生。所以,药品的风险评估与检测亟待加强。药品的风险评估与管理是减少药物不良反应,增强人们用药安全性的重要措施。即使目前有部分国家已经制定了药品分级系统,但是仍存在分级标准难以制定和统一、分级方法多未进行量化分析和局限在某类药品的问题。这不仅不利于有关部门对药品的监管,还影响医务工作者临床药物治疗方案的决策。
发明内容
本发明所要解决的技术问题是提供一种基于聚类和PNN的药品风险分级方法,实现对于药品风险分级的信息化智能化管理。该方法采用无监督学习与有监督学习相结合的策略,利用模糊C均值聚类方法,解决为原始药品数据自动风险级别标注的问题,再利用概率神经网络算法对打上标签的数据集进行训练,实现药品风险级别预测。
本发明为解决上述技术问题采用以下技术方案:一种基于聚类和PNN的药品风险分级方法,包括如下步骤:
步骤1、构建药品风险指标,基于我国药品不良反应Adverse Drug Reaction,ADR,自发报告数据中每个药品发生的不良反应报告信息,通过定义药品严重报告率SeriousReporting Rate,SRR和不良反应覆盖率Adverse Reaction Coverage Rate,ACR两个指标对每个药品的风险进行量化;
步骤2、利用模糊c均值进行聚类,基于每个药品的SRR和ACR两个指标值,采用模糊c均值算法进行聚类;
步骤3、物品类的风险特征提取和单个药品的风险等级标注,定义药品类的风险因子,对聚类后的每个药品类分别计算总的风险值,并根据风险值大小对每个药品类中所有药品的风险标签进行统一标注,为分类模型奠定数据基础;
步骤4、基于概率神经网络的药品风险等级预测,基于上述步骤产生的带有风险标签的药品数据,利用概率神经网络构建药品风险分级分类器,概率神经网络使用Parzen窗估计法得出某一类别的条件概率密度函数估计值,再通过判别函数计算输入样本,训练网络模型,最后用判别函数最大值所对应的类别对样本进行标记来实现药物风险级别的预测。
进一步的,所述步骤1中,
严重报告率描述了某个药品严重报告数量占所有ADR报告总数的百分比。若严重报告率越大,则该药品产生的不良反应越严重,该药品越危险。假设现存在某一药品D,则严重报告率(SRR)的公式为:
其中,药品D的ADR报告总数量为R(D),其中严重报告数量为RS(D)
不良反应覆盖率描述了某个药品产生不良反应的个数占全部ADR总数的百分比。若不良反应覆盖率越大,则该药品相对产生的不良反应种类越多,该药品越危险。假设现存在某一药品D,则不良反应覆盖率(ACR)的公式为:
其中,该药品导致的ADR的种类数为K(D),全部ADR种类数为M。
进一步的,所述步骤2的具体步骤为:
步骤2.1:将模糊C均值聚类方法应用于上述数据集,算法输入包括药品名称及两个指标数据,聚类数目,模糊系数,迭代终止条件即最大迭代次数,目标函数最小误差;
设n种药品的数据样本为X={x1,x2,...,xn},c(2≤c≤n)是要将数据样本分成的类型的数目,A={A1,A2,..,Ac}表示相应的c个类别,U是其相似分类矩阵,各类别的聚类中心为{v1,v2,...,vc},μk(xi)是第i种药物xi对于类Ak的隶属度(简写为μik),则目标函数Jb可以用下式表达:
其中,dik是欧几里得距离,用来度量第i种药品xi与第k类中心点之间的距离;m是样本的特征数;b是加权参数,取值范围是1≤b≤∞;
步骤2.2:随机初始化隶属度U和聚类中心V;
步骤2.3:通过式(5)计算每个数据相对于各个类簇的隶属度,并更新隶属度矩阵;
步骤2.4:通过式(6)计算新的聚类中心,用新的聚类中心更新聚类中心位置矩阵;
模糊C均值聚类方法就是寻找一种最佳的分类,以使该分类能产生最小的函数值Jb,它要求一个样本对于各个聚类的隶属度值和为1,即满足:
样本xi对于类Ak的隶属度U={μik}为
设Ik={i|2≤c<n;dik=0},对于所有的i类,i∈Ikik=0,c个聚类中心V={vi}为
步骤2.5:通过式(3)计算新的目标函数值Jb
步骤2.6:每次迭代后,计算新的目标函数与原目标函数的差值,如果|J[i]-J[i-1]≤ε|,或者迭代次数满足最大迭代次数,终止迭代过程,算法结束;否则,跳转步骤2.3继续执行。
进一步的,所述步骤3中,根据ADR自发报告的数据特征,药品的风险可以由高到低分为“ADR覆盖率低且不良反应严重”、“ADR覆盖率高且不良反应不严重”、“ADR覆盖率低且不良反应不严重”三种情形;基于此创建药品类的风险程度评价模型,所述模型根据以下公式构建每个药品类的风险因子:
其中,RISK(j)是第k类药品的得分,m是样本特征数,numj是第j类药品个数,arrtibutei是第i类药品特征j的标准化值;通过指数级增加,扩大类别之间的差异,得出有明显差异的类别得分,根据得分函数的大小,即可进行药品风险程度评价;严重报告率越大,ADR覆盖率越大,即该药物风险级别越大,呈现正相关。
进一步的,所述步骤4的具体步骤如下:
步骤4.1:确定隐含层神经元径向基函数中心,
设训练集样本输入矩阵P和输出矩阵T分别为:
其中,pij表示第j个训练样本的第i个输入变量;tij表示第j个训练样本的第i个输出变量;R为输入变量的维数;K为输出变量的维数,对应K个类别;Q为训练集样本数;
隐含层的每个神经元对应一个训练样本,即Q个隐含层神经元对应的径向基函数中心为:
C=P'(k) (9)
步骤4.2:确定隐含层神经元阈值,
为了简便起见,Q个隐含层神经元对应的阈值为:
b1=[b11,b12,...,b1Q]' (10)
其中spread为径向基函数的扩展速度;
步骤4.3:确定隐含层与输出层间权值,
当隐含层神经元的径向基函数中心及阈值确定后,隐含层神经元的输出便可以由式(11)计算:
ai=exp(-||C-pi||2b1),i=1,2,...,Q (11)
其中pi=[pi1,pi2,...,piR]'为第i个训练样本向量;
隐含层与输出层间的连接权值w取为训练集输出矩阵,即:
W=t (12)
步骤4.4:输出层神经元输出计算,
当隐含层与输出层神经元间的连接权值确定后,便可以计算出输出层神经元的输出,即:
ni=LW2,1ai,i=1,2,...,Q (13)
yi=compet(ni),i=1,2,...,Q (14)
通过以上4.1-4.4步骤,依次计算隐含层神经元的径向基函数中心、阈值,隐含层与输出层间权值,再通过测试集样本类别,不断修正网络参数,即完成了基于概率神经网络的分类器构建。对于一种风险标签未知的新药物,只需要输入其SRR和ACR两个指标值,即可预测该药物风险等级。
与现有技术相比,本发明具有有益效果入戏:
1、使用定量分析的方法,采用信息化处理方式,将非监督方法(模糊C均值聚类方法)和监督方法(概率神经网络)的优点结合起来,基于全局的药品数据实现了药品风险分级的一致性和可靠性,并得到了满意的分类结果。
2、提出的基于模糊C均值聚类算法可以对现有药品数据进行自动标记类别,不需要人为干预,避免了人为主观性带来的弊端并且具有很好的稳定性。
3、本发明利用指标值之间的科学计算,设定分级标准,解决了目前分级标准难以制定和统一、分级方法多未进行量化分析的问题,对于有关部门对药品的监管,医务工作者临床药物治疗方案决策的制定有重要意义。
4、本发明选用概率神经网络进行训练和预测,PNN网络适用于低容错性医学领域的非线性问题求解。在对药物的风险分级研究中,该网络能高效精确的对聚类后带有类别标签的药品数据进行训练。
5、本发明针对的是所有药物,不受药物类别的影响,相较于目前国内外研究针对的是妊娠期药物、抗癌类药物、抗菌类药物等特殊药物,我们的方法更具有适用性和推广性。
附图说明
图1是本发明的整体流程图。
图2是本发明的PNN网络拓扑图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明。
一种基于聚类和PNN的药品风险分级方法,包括如下步骤:
步骤一:构建药品风险指标。由于要根据药品的危险性对药品进行分级,因此需要量化药品的风险程度。药品风险特征的组合和选取也是提高药品风险分类中的一个重要因素。有很多种因素影响着药品不良反应的分析,其中药物发生不良反应的概率情况和该药物不良反应的严重程度是主要的影响因素。因此,本发明选取药品严重报告率和不良反应覆盖率两个指标进行药品风险特征提取:
①严重报告率
严重报告率描述了某个药品严重报告数量占所有ADR报告总数的百分比。若严重报告率越大,则该药品产生的不良反应越严重,该药品越危险。假设现存在某一药品D,则严重报告率(SRR)的公式为:
其中,药品D的ADR报告总数量为R(D),其中严重报告数量为RS(D)。
②不良反应覆盖率
不良反应覆盖率描述了某个药品产生不良反应的个数占全部ADR总数的百分比。若不良反应覆盖率越大,则该药品相对产生的不良反应种类越多,该药品越危险。假设现存在某一药品D,则不良反应覆盖率(ACR)的公式为:
其中,该药品导致的ADR的种类数为K(D),全部ADR种类数为M。
步骤二:利用模糊c均值进行聚类。基于每个药品的SRR和ACR两个指标值,采用模糊c均值算法进行聚类。
步骤2.1:将模糊C均值聚类方法应用于上述数据集,算法输入包括药品名称及两个指标数据,聚类数目,模糊系数,迭代终止条件即最大迭代次数,目标函数最小误差;
设n种药品的数据样本为X={x1,x2,...,xn},c(2≤c≤n)是要将数据样本分成的类型的数目,A={A1,A2,..,Ac}表示相应的c个类别,U是其相似分类矩阵,各类别的聚类中心为{v1,v2,...,vc},μk(xi)是第i种药物xi对于类Ak的隶属度(简写为μik),则目标函数Jb可以用下式表达:
其中,dik是欧几里得距离,用来度量第i种药品xi与第k类中心点之间的距离;m是样本的特征数;b是加权参数,取值范围是1≤b≤∞;
步骤2.2:随机初始化隶属度U和聚类中心V;
步骤2.3:通过式(5)计算每个数据相对于各个类簇的隶属度,并更新隶属度矩阵;
步骤2.4:通过式(6)计算新的聚类中心,用新的聚类中心更新聚类中心位置矩阵;
模糊C均值聚类方法就是寻找一种最佳的分类,以使该分类能产生最小的函数值Jb,它要求一个样本对于各个聚类的隶属度值和为1,即满足:
样本xi对于类Ak的隶属度U={μik}为
设Ik={i|2≤c<n;dik=0},对于所有的i类,i∈Ikik=0,c个聚类中心V={vi}为
步骤2.5:通过式(3)计算新的目标函数值Jb
步骤2.6:每次迭代后,计算新的目标函数与原目标函数的差值,如果|J[i]-J[i-1]≤ε|,或者迭代次数满足最大迭代次数,终止迭代过程,算法结束;否则,跳转步骤2.3继续执行。
根据此算法,我们按照报告覆盖率和不良反应严重程度可以得到现有药品的风险级别,实现对于原始药品数据集的自动标注。
步骤三:物品类的风险特征提取和单个药品的风险等级标注。
针对选取的两个指标对已分类的药品集合进行打分,以确定哪类在我们看来更严重。ADR覆盖率越小越好,越大越严重;不良反应严重程度也符合此描述。但是一般多发的不良反应都不具有严重性,严重的不良反应发病频率较低。结合此特性和自发报告数据特点,本发明药品的风险可以由高到低分为“ADR覆盖率低且不良反应严重”、“ADR覆盖率高且不良反应不严重”、“ADR覆盖率低且不良反应不严重”三种情形;基于此创建药品类的风险程度评价模型,所述模型根据以下公式构建每个药品类的风险因子:
其中,RISK(j)是第k类药品的得分,m是样本特征数,numj是第j类药品个数,arrtibutei是第i类药品特征j的标准化值;通过指数级增加,扩大类别之间的差异,得出有明显差异的类别得分,根据得分函数的大小,即可进行药品风险程度评价;严重报告率越大,ADR覆盖率越大,即该药物风险级别越大,呈现正相关。
步骤四:基于概率神经网络的药品风险等级预测
概率神经网络使用Parzen窗估计法得出某一类别的条件概率密度函数估计值,再通过判别函数计算输入样本,训练网络模型,最后用判别函数最大值所对应的类别对样本进行标记,即可实现药物风险级别的预测。算法流程如下:
步骤4.1:确定隐含层神经元径向基函数中心,
设训练集样本输入矩阵P和输出矩阵T分别为:
其中,pij表示第j个训练样本的第i个输入变量;tij表示第j个训练样本的第i个输出变量;R为输入变量的维数;K为输出变量的维数,对应K个类别;Q为训练集样本数;
隐含层的每个神经元对应一个训练样本,即Q个隐含层神经元对应的径向基函数中心为:
C=P'(k) (9)
步骤4.2:确定隐含层神经元阈值,
为了简便起见,Q个隐含层神经元对应的阈值为:
b1=[b11,b12,...,b1Q]' (10)
其中spread为径向基函数的扩展速度;
步骤4.3:确定隐含层与输出层间权值,
当隐含层神经元的径向基函数中心及阈值确定后,隐含层神经元的输出便可以由式(11)计算:
ai=exp(-||C-pi||2b1),i=1,2,...,Q (11)
其中pi=[pi1,pi2,...,piR]'为第i个训练样本向量;
隐含层与输出层间的连接权值w取为训练集输出矩阵,即:
W=t (12)
步骤4.4:输出层神经元输出计算,
当隐含层与输出层神经元间的连接权值确定后,便可以计算出输出层神经元的输出,即:
ni=LW2,1ai,i=1,2,...,Q (13)
yi=compet(ni),i=1,2,...,Q (14)
通过以上4.1-4.4步骤,依次计算隐含层神经元的径向基函数中心、阈值,隐含层与输出层间权值,再通过测试集样本类别,不断修正网络参数,即完成了基于概率神经网络的分类器构建。对于一种风险标签未知的新药物,只需要输入其SRR和ACR两个指标值,即可预测该药物风险等级。
以上显示和描述了本发明的基本原理、主要特征和优点。本领域的技术人员应该了解,本发明不受上述具体实施例的限制,上述具体实施例和说明书中的描述只是为了进一步说明本发明的原理,在不脱离本发明精神范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。所以,如果本领域的普通技术人员受其启示,在不脱离本创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本专利的保护范围。

Claims (6)

1.一种基于聚类和PNN的药品风险分级方法,其特征在于:包括如下步骤,
步骤1、构建药品风险指标,基于我国药品不良反应Adverse Drug Reaction,ADR,自发报告数据中每个药品发生的不良反应报告信息,通过定义药品严重报告率SeriousReporting Rate,SRR和不良反应覆盖率Adverse Reaction Coverage Rate,ACR两个指标对每个药品的风险进行量化;
步骤2、利用模糊c均值进行聚类,基于每个药品的SRR和ACR两个指标值,采用模糊c均值算法进行聚类;
步骤3、物品类的风险特征提取和单个药品的风险等级标注,定义药品类的风险因子,对聚类后的每个药品类分别计算总的风险值,并根据风险值大小对每个药品类中所有药品的风险标签进行统一标注,为分类模型奠定数据基础;
步骤4、基于概率神经网络的药品风险等级预测,基于上述步骤产生的带有风险标签的药品数据,利用概率神经网络构建药品风险分级分类器,概率神经网络使用Parzen窗估计法得出某一类别的条件概率密度函数估计值,再通过判别函数计算输入样本,训练网络模型,最后用判别函数最大值所对应的类别对样本进行标记来实现药物风险级别的预测。
2.根据权利要求1所述的基于聚类和PNN的药品风险分级方法,其特征在于:所述步骤1中,严重报告率描述了某个药品严重报告数量占所有ADR报告总数的百分比;若严重报告率越大,则该药品产生的不良反应越严重,该药品越危险;假设现存在某一药品D,则严重报告率(SRR)的公式为:
其中,药品D的ADR报告总数量为R(D),严重报告数量为RS(D)。
3.根据权利要求1所述的基于聚类和PNN的药品风险分级方法,其特征在于:所述步骤1中,不良反应覆盖率描述了某个药品产生不良反应的个数占全部ADR总数的百分比;若不良反应覆盖率越大,则该药品相对产生的不良反应种类越多,该药品风险越高;假设现存在某一药品D,则不良反应覆盖率(ACR)的公式为:
其中,该药品导致的ADR的种类数为K(D),全部ADR种类数为M。
4.根据权利要求1所述的基于聚类和PNN的药品风险分级方法,其特征在于:所述步骤2的具体步骤为:
步骤2.1:将模糊C均值聚类方法应用于上述数据集,算法输入包括药品名称及两个指标数据,聚类数目,模糊系数,迭代终止条件即最大迭代次数,目标函数最小误差;
设n种药品的数据样本为X={x1,x2,...,xn},c(2≤c≤n)是要将数据样本分成的类型的数目,A={A1,A2,..,Ac}表示相应的c个类别,U是其相似分类矩阵,各类别的聚类中心为{v1,v2,...,vc},μk(xi)是第i种药物xi对于类Ak的隶属度(简写为μik),则目标函数Jb可以用下式表达:
其中,dik是欧几里得距离,用来度量第i种药品xi与第k类中心点之间的距离;m是样本的特征数;b是加权参数,取值范围是1≤b≤∞;
步骤2.2:随机初始化隶属度U和聚类中心V;
步骤2.3:通过式(5)计算每个数据相对于各个类簇的隶属度,并更新隶属度矩阵;
步骤2.4:通过式(6)计算新的聚类中心,用新的聚类中心更新聚类中心位置矩阵;
模糊C均值聚类方法就是寻找一种最佳的分类,以使该分类能产生最小的函数值Jb,它要求一个样本对于各个聚类的隶属度值和为1,即满足:
样本xi对于类Ak的隶属度U={μik}为
设Ik={i|2≤c<n;dik=0},对于所有的i类,i∈Ikik=0,c个聚类中心V={vi}为
步骤2.5:通过式(3)计算新的目标函数值Jb
步骤2.6:每次迭代后,计算新的目标函数与原目标函数的差值,如果|J[i]-J[i-1]≤ε|,或者迭代次数满足最大迭代次数,终止迭代过程,算法结束;否则,跳转步骤2.3继续执行。
5.根据权利要求1所述的基于聚类和PNN的药品风险分级方法,其特征在于:所述步骤3中,根据ADR自发报告的数据特征,药品的风险可以由高到低分为“ADR覆盖率低且不良反应严重”、“ADR覆盖率高且不良反应不严重”、“ADR覆盖率低且不良反应不严重”三种情形;基于此创建药品类的风险程度评价模型,所述模型根据以下公式构建每个药品类的风险因子:
其中,RISK(j)是第k类药品的得分,m是样本特征数,numj是第j类药品个数,arrtibutei是第i类药品特征j的标准化值;通过指数级增加,扩大类别之间的差异,得出有明显差异的类别得分,根据得分函数的大小,即可进行药品风险程度评价;严重报告率越大,ADR覆盖率越大,即该药物风险级别越大,呈现正相关。
6.根据权利要求1所述的基于聚类和PNN的药品风险分级方法,其特征在于:所述步骤4的具体步骤如下:
步骤4.1:确定隐含层神经元径向基函数中心,
设训练集样本输入矩阵P和输出矩阵T分别为:
其中,pij表示第j个训练样本的第i个输入变量;tij表示第j个训练样本的第i个输出变量;R为输入变量的维数;K为输出变量的维数,对应K个类别;Q为训练集样本数;
隐含层的每个神经元对应一个训练样本,即Q个隐含层神经元对应的径向基函数中心为:
C=P'(k) (9)
步骤4.2:确定隐含层神经元阈值,
为了简便起见,Q个隐含层神经元对应的阈值为:
b1=[b11,b12,...,b1Q]' (10)
其中spread为径向基函数的扩展速度;
步骤4.3:确定隐含层与输出层间权值,
当隐含层神经元的径向基函数中心及阈值确定后,隐含层神经元的输出便可以由式(11)计算:
ai=exp(-||C-pi||2b1),i=1,2,...,Q (11)
其中pi=[pi1,pi2,...,piR]'为第i个训练样本向量;
隐含层与输出层间的连接权值w取为训练集输出矩阵,即:
W=t (12)
步骤4.4:输出层神经元输出计算,
当隐含层与输出层神经元间的连接权值确定后,便可以计算出输出层神经元的输出,即:
ni=LW2,1ai,i=1,2,...,Q (13)
yi=compet(ni),i=1,2,...,Q (14)
通过以上4.1-4.4步骤,依次计算隐含层神经元的径向基函数中心、阈值,隐含层与输出层间权值,再通过测试集样本类别,不断修正网络参数,即完成了基于概率神经网络的分类器构建。对于一种风险标签未知的新药物,只需要输入其SRR和ACR两个指标值,即可预测该药物风险等级。
CN201910592286.XA 2019-07-02 2019-07-02 一种基于聚类和pnn的药品风险分级方法 Active CN110459292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910592286.XA CN110459292B (zh) 2019-07-02 2019-07-02 一种基于聚类和pnn的药品风险分级方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910592286.XA CN110459292B (zh) 2019-07-02 2019-07-02 一种基于聚类和pnn的药品风险分级方法

Publications (2)

Publication Number Publication Date
CN110459292A true CN110459292A (zh) 2019-11-15
CN110459292B CN110459292B (zh) 2022-09-20

Family

ID=68482003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910592286.XA Active CN110459292B (zh) 2019-07-02 2019-07-02 一种基于聚类和pnn的药品风险分级方法

Country Status (1)

Country Link
CN (1) CN110459292B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488924A (zh) * 2020-04-07 2020-08-04 中国农业科学院农业信息研究所 一种多变量时间序列数据聚类方法
CN111723367A (zh) * 2020-06-12 2020-09-29 国家电网有限公司 一种电力监控系统业务场景处置风险评价方法及系统
CN113313159A (zh) * 2021-05-24 2021-08-27 广西壮族自治区水产科学研究院 一种兽药高通量聚类分析方法
CN114626474A (zh) * 2022-03-21 2022-06-14 厦门大学 一种基于概率神经网络的车辆电源状态检测方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109273096A (zh) * 2018-09-05 2019-01-25 南京邮电大学 一种基于机器学习的药品风险分级评估方法
CN109271515A (zh) * 2018-09-19 2019-01-25 南京邮电大学 一种基于聚类分析的抗生素药物风险分级方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109273096A (zh) * 2018-09-05 2019-01-25 南京邮电大学 一种基于机器学习的药品风险分级评估方法
CN109271515A (zh) * 2018-09-19 2019-01-25 南京邮电大学 一种基于聚类分析的抗生素药物风险分级方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488924A (zh) * 2020-04-07 2020-08-04 中国农业科学院农业信息研究所 一种多变量时间序列数据聚类方法
CN111488924B (zh) * 2020-04-07 2024-04-26 中国农业科学院农业信息研究所 一种多变量时间序列数据聚类方法
CN111723367A (zh) * 2020-06-12 2020-09-29 国家电网有限公司 一种电力监控系统业务场景处置风险评价方法及系统
CN111723367B (zh) * 2020-06-12 2023-06-23 国家电网有限公司 一种电力监控系统业务场景处置风险评价方法及系统
CN113313159A (zh) * 2021-05-24 2021-08-27 广西壮族自治区水产科学研究院 一种兽药高通量聚类分析方法
CN113313159B (zh) * 2021-05-24 2022-09-30 广西壮族自治区水产科学研究院 一种兽药高通量聚类分析方法
CN114626474A (zh) * 2022-03-21 2022-06-14 厦门大学 一种基于概率神经网络的车辆电源状态检测方法及系统

Also Published As

Publication number Publication date
CN110459292B (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN110459292A (zh) 一种基于聚类和pnn的药品风险分级方法
Chen et al. Regional disaster risk assessment of China based on self-organizing map: clustering, visualization and ranking
Yan et al. Improved adaptive genetic algorithm for the vehicle Insurance Fraud Identification Model based on a BP Neural Network
WO2021120934A1 (zh) 一种基于卷积神经网络的DRGs自动分组方法
CN109214503B (zh) 基于kpca-la-rbm的输变电工程造价预测方法
CN110084610A (zh) 一种基于孪生神经网络的网络交易欺诈检测系统
CN109165819B (zh) 一种基于改进AdaBoost.M1-SVM的有源配电网可靠性快速评估方法
CN111081379B (zh) 一种疾病概率决策方法及其系统
CN101447020A (zh) 基于直觉模糊的色情图像识别方法
Chitra et al. Heart attack prediction system using fuzzy C means classifier
Shu et al. Homogeneous pooling group delineation for flood frequency analysis using a fuzzy expert system with genetic enhancement
CN105843829A (zh) 一种基于分层模型的大数据可信性度量方法
CN112580902B (zh) 对象数据处理方法、装置、计算机设备和存储介质
Ding et al. Application of an extreme learning machine network with particle swarm optimization in syndrome classification of primary liver cancer
Chen et al. Pattern recognition using clustering algorithm for scenario definition in traffic simulation-based decision support systems
CN115345246A (zh) 一种基于t-s模糊语义智能肝癌分期方法及系统
Peng et al. The health care fraud detection using the pharmacopoeia spectrum tree and neural network analytic contribution hierarchy process
CN113450562B (zh) 一种基于聚类和图卷积网络的路网交通状态判别方法
Chen et al. A new optimal diagnosis system for coronavirus (COVID-19) diagnosis based on Archimedes optimization algorithm on chest X-ray images
CN114219228A (zh) 一种基于em聚类算法的体育场疏散评价方法
Chu et al. Data analysis of college students’ mental health based on clustering analysis algorithm
Liu et al. A new method to analyze the driving mechanism of flood disaster resilience and its management decision-making
Zhao et al. Liver disease prediction using W-LR-XGB Algorithm
Rajeshwari et al. Dermatology disease prediction based on firefly optimization of ANFIS classifier
Huang A mental disorder prediction model with the ability of deep information expression using convolution neural networks technology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant