CN109273096A

CN109273096A - 一种基于机器学习的药品风险分级评估方法

Info

Publication number: CN109273096A
Application number: CN201811030444.4A
Authority: CN
Inventors: 魏建香; 刘天宇; 刘美含
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2019-01-25
Anticipated expiration: 2038-09-05
Also published as: CN109273096B

Abstract

本发明公开了一种基于机器学习的药品风险分级评估方法，所述方法以中国药品不良反应(ADR)中的西药报告数据为基础，利用机器学习的算法研究药品风险分级的问题，以严重报告率、ADR伤害指数和ADR覆盖率三个主要指标作为分级标准，通过基于支持向量机的分类算法对西药不良反应进行风险分级评估，最终将药品按照不良反应风险分为A‑E五个安全等级。本发明对药品的不良反应风险评估提供重要的参考意义。

Description

一种基于机器学习的药品风险分级评估方法

技术领域

本发明涉及一种药品风险分级评估方法，具体构建基于药品不良反应特征进行药品风险分级的分级模型，属于机器学习技术领域。

背景技术

近年来，在药物警戒中，世界各国建立了基于网络的药品不良反应自发报告采集系统。但数据资源的利用和开发仍然不足。主要的研究集中在基于不平衡分析的信号检测方法改进与应用、信号挖掘比较分析、数据遮蔽效应的消除等方面，缺乏基于大数据的机器学习方法的应用研究。

而国内外有关于药品分级的研究，主要关注的是某类药品的风险，缺乏系统性评价，也不具有通用性。随着我国自发报告量的迅速增加，建立一种基于自发报告数据的药品风险分级指标体系和分级评估模型，为现有药品和新上市药品建立分险等级，可以为医生、患者和生产商在使用或生产中起到决策指导作用。

由于缺乏收益数据，只能完全依赖于自发报告的部分信息，很难开展基于风险收益率的评估研究。同时，也受到自发报告数据质量的影响。如果未来的研究能融合电子健康记录(electronic health records，EHR)数据，可以更好地完善我们对药物风险的分级评估。

发明内容

本发明所要解决的技术问题是提供一种基于机器学习的药品风险分级评估方法，基于我国自发报告数据，利用机器学习技术，构建一种用于药品风险分级评估的自动分类模型，为我国的药物警戒提供一种药品安全评价体系。

本发明为解决上述技术问题采用以下技术方案：一种基于机器学习的药品风险分级评估方法，包括以下步骤：

步骤1)，获取原始ADR数据库，并进行数据处理：其中原始ADR数据库为国家中心的ADR数据；数据的处理包括对原始ADR数据库进行规整以及筛选报告频次大于等于3的数据；

步骤2)，查阅资料，探索影响药品不良反应风险等级大小的相关因素；并按照以下三个因素作为评判标准：T₁：严重报告率，T₂：伤害度指数，T₃:ADR覆盖率；

步骤3)，对数据进行人工标注，至少结合临床专家经验、国家不良反应信息通报、病例报道、医学文献、国际药物警戒专业网站信息对部分的常规用药进行打分，分值为0-5分，拟分五个等级：[0,1]为A级；[1,2]为B级；[2,3]为C级；[3,4]为D级；[4,5]为E级；并将标注后的数据集作为训练数据；

步骤4)，由步骤3中获得的训练数据建立风险等级评价指标T，T＝α₁T₁+α₂T₂+α₃T₃，约束条件：α₁+α₂+α₃＝1且α_i∈(0，1)，i＝1～3；

以标准数据集为参考目标，利用群体智能优化算法对指标中的三个参数α₁，α₂，α₃进行优化，优化过程中需要将T规格化为[0,5]之间，得到最优权重；

步骤5)，将三种可能因素T₁，T₂，T₃按照权重公式进行定义，引入风险程度的概念，定义为T；以药品不良反应监测数据为基础，以优化后的指标T对总体数据进行标注，以“药品”为对象，以“不良反应”为特征，构建药品在不良反应特征空间分布的数据集D，用于机器学习；

步骤6)，利用数据集D和多类分类技术进行分类学习，得到分类精度≥85％的分类模型；该分类模型可以对新上市药品的风险等级值进行预测。

本发明的进一步技术方案为，所述步骤1的详细步骤如下：

步骤1)

步骤1.1)，获取原始ADR数据库，原始ADR数据从国家药品不良反应监测中心获得；本数据是国家药品评价中心药品不良反应自发呈报系统数据库2010～2011年采集的不良反应报告，作为分析数据；

步骤1.2)，数据处理；

步骤1.2.1)，针对原始数据存在缺项、重复、药品名称和不良反应名称不规范等问题，先将数据中的缺项进行删除，重复项做唯一化处理，将不规范的名称重新规范化；

步骤1.2.2)，用Microsoft Visual FoxPro软件对数据进行预处理，筛选数据量≥3的西药数据，共有1763种药品以及对应的879种不良反应，按照品种名称和不良反应名称对应形成新的表格。

进一步的，所述步骤2的详细步骤如下：

步骤2)，查阅资料，探索与药品不良反应风险相关的因素：

根据大量资料显示以及专家意见，现决定按照以下三个因素作为评判标准：T₁：严重报告率，T₂：ADR伤害指数，T₃:ADR覆盖率；

评判指标为：

步骤2.1)，T₁：SRR指标，严重报告率

据2010-2011全国数据共1,209,342份，其中报告类型为“严重”的报告为59,220份，占4.9％，报告类型为“一般”为1,150,122份，占95.1％；

定义：假设某一药品D，其ADR报告总数量为R(D)，其中严重报告数量为RS(D)，那么，

步骤2.2)，T₂：DDI指标,伤害度指数

据2010～2011全国数据中1,209,342份报告，其中：5-死亡，为2,319例；4-有后遗症，为1,832例；3-未好转，为8例；2-好转，为681,097例；1-痊愈，为523,971例；0-不详，为115例；

按照伤害程度，一共分为五级，分值为5-1；

定义：假设某一药品D，其ADR报告总数量为R(D)，其中对应第i个分值C(i)的伤害相关报告数量分别为f(i)，i＝1，2，...5。那么，

步骤2.3)T₃：ACR指标,ADR覆盖率

据2010～2011全国数据中1,209,342份报告，其中包含2,386种不良反应,以其中一例药品为例，定义：假设某一药品D发生ADR的种类数为K(D)，全部ADR种类数为M，那么，

进一步的，所述步骤3的详细步骤如下：

步骤3.1)选取数据库中某类别药物，通过专家评分的方法，并查阅相关资料作为补充，对此类药物的风险程度进行人工标注打分，将标注后的数据作为训练数据。

进一步的，所述步骤4的详细步骤如下：

步骤4.1)，构建药品风险评估矩阵，

根据T指标和监测数据，计算出每个药品D_i(i＝1,2,3,...n)的三个因子(T_i1、T_i2、T_i3)的值，全部药品的风险评估矩阵可表示为以下形式：

步骤4.2)，构建粒子群优化算法，即PSO算法，

步骤4.2.1)，PSO算法的基本原理介绍：初始化为一群随机粒子，即随机解，通过迭代找到最优解；在每一次的迭代中，粒子通过跟踪两个“极值”：pbest，gbest来更新自己，在找到这两个最优值后，粒子通过下面的公式来更新自己的速度和位置；

在PSO求解最优化问题时，通常将所求问题的解设计为搜索空间中一个粒子，每个粒子由三部分组成：当前位置x、飞行速度v和粒子的适应度fitness组成，表示为P(x，v，fitness)；

在迭代的过程中，粒子通过更新两个“极值”来更新自己：一个是粒子本身所找到的最优解，称之为粒子的自我认知能力，记为pbest；另一个是整个粒子群目前所找到的最优解，称之为粒子的社会认知能力，记为gbest；

在找到两个最优解以后，每一个粒子通过以下公式更新自己的速度和位置：

v_i ^(t+1)＝ωv_i ^(t)+c₁r₁(p_i ^(t)-x_i ^(t))+c₂r₂(p_g ^(t)-x_i ^(t))

x_i ^(t+1)＝x_i ^(t)+v_i ^(t+1)

其中p_i ^(t)为第i个粒子目前搜索到的最优解pbest，p_g ^(t)为整个粒子群目前搜索到的最优解gbest；v_i是第i个粒子当前飞行速度，c₁为自身认知系数，c₂为社会认知系数，r₁、r₂是[0，1]之间的随机数，ω为惯性权重，通常取0.9左右的数；

步骤4.2.2)，基于PSO算法的药品指标模型设计，

根据PSO优化算法，将本方案中需要优化的三个参数α₁，α₂，α₃设计为一个粒子在三维空间的位置x，通过大量粒子的位置迭代更新求出最优解；迭代过程中，当某个粒子的位置确定以后，可根据标准数据集的风险评估矩阵计算出每个药品的T指标值，并将T规格化为[0，5]之间的数，根据T值可求出每个药品新的风险等级值；优化目标函数或适应度fitness可依据新的风险等级值和标准数据集中已有的风险等级值的比较来进行度量，公式如下：

fitness＝分级正确的药品数/标准数据中所有的药品数

整个粒子群优化算法的算法框架如下：

设群体规模为m，每一个粒子的位置x以一个3×1矩阵表示，其中的三个元素分别代表三个参数α₁～α₃，初始值为(0，1)之间的随机数；那么，整个初始粒子群构成一个3×m的矩阵；每个粒子的运动速度v为限制在(-1，1)之间的随机数，每个粒子按以下步骤在问题空间中运动：

Step1：更新速度：首次运行直接转Step3；否则，按照公式(1)更新粒子的速度，粒子的最大速度被限定在一定的范围内，如果更新后的速度大于1，则取1，如果小于-1，则取-1；

Step2：更新位置：根据公式(2)来更新粒子每一维的位置，由于每一维的位置值被限制在(0，1)之间，对于逃逸出问题空间的粒子的将被重新招回，将其位置赋给一个(0，1)之间的随机数；

Step3：更新pbest和gbest：根据公式(3)计算每个粒子的适应度fitness，求出每个粒子的最优解pbest，并计算整个粒子群的最优解gbest；对于每一个粒子，如果它目前的pbest比历史所经历的pbest好，则更新pbest，并且粒子返回原来的位置；对于整个粒子群，如果目前的gbest比历史所经历的gbest好，则更新gbest；

Step4：终止操作：如果已经满足迭代次数或gbest平均值已经不再发生变化，则算法终止；否则转Step1；

步骤4.3)，以训练集为训练数据，利用群体智能优化算法对指标中的三个参数进行优化，得到最优解，根据约束条件：α₁+α₂+α₃＝1，且α_i∈(0，1)，i＝1～3不断优化达到最佳精度使得最后收敛，得出收敛后的α₁，α₂，α₃的值，作为三种分类因素的权重指数，并将T规范化后表示出来。

进一步的，所述步骤5的详细步骤如下：

步骤5.1)，将三种可能因素T₁，T₂，T₃按照权重公式进行定义，引入风险程度的概念，定义为T；

步骤5.2)，以药品不良反应监测数据为基础，以优化后的指标T对总体数据进行标注，以“药品”为对象，以“不良反应”为特征，构建药品在不良反应特征空间分布的数据集D，用于机器学习；采用0，1分布的方式进行标注，其中矩阵中元素值为“1”代表在监测数据中存在该药品与该不良反应组合报告，值为“0”则代表在监测数据中不存在该药品与该不良反应组合报告。

进一步的，所述步骤6的详细步骤如下：

步骤6.1)，基于支持向量机的多分类技术的介绍，

支持向量机的主要思想是：建立一个最优决策超平面，使得该平面两侧距离该平面最近的两类样本之间的距离最大化，从而对分类问题提供良好的泛化能力；对于一个多维的样本集，系统随机产生一个超平面并不断移动，对样本进行分类，直到训练样本中属于不同类别的样本点正好位于该超平面的两侧，满足该条件的超平面可能有很多个，SVM正式在保证分类精度的同时，寻找到这样一个超平面，使得超平面两侧的空白区域最大化，从而实现对线性可分样本的最优分类；

所述多分类技术采用一类对余类法，一对一分类法，二叉树法，纠错输出编码法以及DAGSVM法中的任意一种；

所述步骤6.1)中选用常一类对余类法建立分类模型；

(1)假设共有k个类别，那么就构建k个两分类支持向量机，其中第i个支持向量机把第i类同余下的各类划分开，在训练时第i个支持向量机标记训练集中的第i类+1，余下的类别点为-1进行训练；

(2)识别时，输入数据分别经过k个支持向量机共得到k个输出值f(x)＝sgn(gi(x)),若只出现一个+1，则其对应类别为输入信号类别。若不只输出一个+1，或者没有一个输出值为+1，则比较输出值f(x)的大小，输出值最大者对应的类别为输入类别。

步骤6.2)，基于药品风险分级的多分类模型应用，

Step1:将药品风险分类的实验数据分为5类，那么即为构建5个二分类支持向量机；

Step2:训练时依次把某个类别的样本归为一类，其他剩余的样本归为另一类，将未知样本分类为具有最大分类函数值的那类；本模型具有五类需划分，即具有5个Label，分别为A、B、C、D、E；

在抽取训练集的时候，分别抽取

(1)A所对应的向量作为正集，B，C，D，E所对应的向量作为负集；

(2)B所对应的向量作为正集，A，C，D，E所对应的向量作为负集；

(3)C所对应的向量作为正集，A，B，D，E所对应的向量作为负集；

(4)D所对应的向量作为正集，A，B，D，E所对应的向量作为负集；

(5)E所对应的向量作为正集，A，B，C，D所对应的向量作为负集；

Step3:在训练数据中，目标类标注为+1，其他类标注为-1，使用训练数据对支持向量机进行训练；使用这五个训练集分别进行训练，然后的得到五个训练结果文件；在测试的时候，把对应的测试向量分别利用这五个训练结果文件进行测试；最后每个测试都有一个结果f₁(x)，f₂(x)，f₃(x)，f₄(x)，f₅(x)；于是最终的结果便是这五个值中最大的一个作为分类结果；

Step4：计算并输出分类模型的分类准确度；

Step5：不断优化核函数，使得最终的分类精度≥85％，即可对即将上市的药物进行分类预测。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明提出的一种基于机器学习的药品风险分级评估方法，以中国药品不良反应(ADR)中的西药报告数据为基础，利用机器学习的算法研究药品风险分级的问题，以严重报告率、ADR伤害指数和ADR覆盖率三个主要指标作为分级标准，通过基于支持向量机的分类算法对西药不良反应进行风险分级评估，最终将药品按照不良反应风险分为A-E五个安全等级。本发明对药品的不良反应风险评估提供重要的参考意义。

附图说明

图1是本发明的流程示意图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

如图1所示，本发明公开了一种基于机器学习的药品风险分级评估方法，包括以下步骤：

步骤1)

步骤1.2)，数据处理；

步骤1.2.1)，原始数据可能存在缺项、重复、药品名称和不良反应名称名称不规范等问

题，先将数据中的缺项进行删除，重复项做唯一化处理，将不规范的名称重新规范化；

步骤1.2.2)，用Microsoft Visual FoxPro软件对数据进行预处理，筛选数据量大于等于三的西药数据，按照品种名称和不良反应名称对应形成新的表格。共有1,763种药品以及对应的879种不良反应。

步骤2)

查阅资料，探索与药品不良反应风险相关的因素。

根据大量资料显示以及专家意见，现决定按照以下三个因素作为评判标准：T₁：严重报告率，T₂：伤害度指数，T₃:ADR覆盖率。

附评判指标说明：

步骤2.1)T₁：SRR指标，严重报告率(Serious Reporting Rate)

据2010-2011全国数据共1,209,342份，其中报告类型为“严重”的报告为59,220份(4.9％)，“一般”为1,150,122份(95.1％)。

定义：假设某一药品D，其ADR报告总数量为R(D)，其中严重报告数量为RS(D)。那么，

步骤2.2)T₂：DDI，伤害度指数(Damage Degree Index)

据2010～2011全国数据中1,209,342份报告，其中：5-死亡(2,319例)；4-有后遗症(1,832例)；3-未好转(8例)；2-好转(681,097例)；1-痊愈(523，971例)；0-不详(115例)。

按照伤害程度，一共分为五级，分值为5-1；

步骤2.3)T₃：ACR,ADR覆盖率(ADR Coverage Rate)

据2010～2011全国数据中1,209,342份报告，其中包含2,386种不良反应,以其中一例药品为例，比如“左氧氟沙星”该类药品所引发了578种不良反应，约占全部种类的1/4。

定义：假设某一药品D发生ADR的种类数为K(D)，全部ADR种类数为M。那么，

步骤3)

对数据进行人工标注，结合临床专家经验、国家不良反应信息通报、病例报道、医学文献、国际药物警戒专业网站等信息对部分的常规用药进行打分(0-5分)。拟分五个等级：[0,1]为A级；(1,2]为B级；(2,3]为C级；(3,4]为D级；(4,5]为E级。标注后的数据集作为训练数据。

步骤3.1)选取数据库中某类别药物，比如妇科用药，通过专家评分的方法，并查阅相关资料作为补充，对此类药物的风险程度进行人工标注打分，将标注后的数据作为训练数据。

步骤4)

以人工标注后的数据集作为训练数据，建立风险等级评价指标T，T＝α₁T₁+α₂T₂+α₃T₃，约束条件：α₁+α₂+α₃＝1，且α_i∈(0，1)，i＝1～3。以标准数据集为参考目标，利用群体智能优化(如PSO)算法对指标中的三个参数(α₁，α₂，α₃)进行优化，优化过程中需要将T规格化为[0,5]之间，得到最优权重。

步骤4.1)构建药品风险评估矩阵

根据T指标和监测数据，可计算出每个药品D_i(i＝1,2,3,...n)的三个因子(T_i1、T_i2、T_i3)的值，那么全部药品的风险评估矩阵可表示为以下形式：

步骤4.2)构建粒子群优化算法(PSO算法)

步骤4.2.1)PSO算法的基本原理介绍：初始化为一群随机粒子(随机解)，通过迭代找到最优解。在每一次的迭代中，粒子通过跟踪两个“极值”(pbest，gbest)来更新自己。在找到这两个最优值后，粒子通过下面的公式来更新自己的速度和位置。

在PSO求解最优化问题时，通常将所求问题的解设计为搜索空间中一个粒子，每个粒子由三部分组成：当前位置x、飞行速度v和粒子的适应度fitness组成，表示为P(x，v，fitness)。

在迭代的过程中，粒子通过更新两个“极值”来更新自己：一个是粒子本身所找到的最优解，称之为粒子的自我认知能力，记为pbest；另一个是整个粒子群目前所找到的最优解，称之为粒子的社会认知能力，记为gbest。在找到两个最优解以后，每一个粒子通过以下公式更新自己的速度和位置：

v_i ^(t+1)＝ωv_i ^(t)+c₁r₁(p_i ^(t)-x_i ^(t))+c₂r₂(p_g ^(t)-x_i ^(t))

x_i ^(t+1)＝x_i ^(t)+v_i ^(t+1)

其中p_i ^(t)为第i个粒子目前搜索到的最优解pbest，p_g ^(t)为整个粒子群目前搜索到的最优解gbest。v_i是第i个粒子当前飞行速度，c₁为自身认知系数，c₂为社会认知系数，r₁、r₂是[0，1]之间的随机数，ω为惯性权重，通常取0.9左右的数；

步骤4.2.2)基于PSO算法的药品指标模型设计

根据PSO优化算法，可以将本方案中需要优化的三个参数(α₁，α₂，α₃)设计为一个粒子在三维空间的位置x，通过大量粒子的位置迭代更新求出最优解。迭代过程中，当某个粒子的位置确定以后，可根据标准数据集的风险评估矩阵计算出每个药品的T指标值，并将T规格化为[0，5]之间的数，根据T值可求出每个药品新的风险等级值。优化目标函数(或适应度fitness)可依据新的风险等级值和标准数据集中已有的风险等级值的比较来进行度量，公式如下：

fitness＝分级正确的药品数/标准数据中所有的药品数

整个粒子群优化算法的算法框架如下：

设群体规模为m。每一个粒子的位置x以一个3×1矩阵表示，其中的三个元素分别代表三个参数(α₁～α₃)，初始值为(0，1)之间的随机数。那么，整个初始粒子群构成一个3×m的矩阵。每个粒子的运动速度v为限制在(-1，1)之间的随机数。每个粒子按以下步骤在问题空间中运动：

Step2：更新位置：根据公式(2)来更新粒子每一维的位置。由于每一维的位置值被限制在(0，1)之间，对于逃逸出问题空间的粒子的将被重新招回，将其位置赋给一个(0，1)之间的随机数；

Step3：更新pbest和gbest：根据公式(3)计算每个粒子的适应度fitness，求出每个粒子的最优解pbest，并计算整个粒子群的最优解gbest。对于每一个粒子，如果它目前的pbest比历史所经历的pbest好，则更新pbest，并且粒子返回原来的位置；对于整个粒子群，如果目前的gbest比历史所经历的gbest好，则更新gbest；

Step4：终止操作：如果已经满足迭代次数或gbest平均值已经不再发生变化，则算法终止；否则转Step1。

步骤4.3)以训练集为训练数据，利用群体智能优化(如PSO)算法对指标中的三个参数进行优化，得到最优解。根据约束条件：α₁+α₂+α₃＝1，且α_i∈(0，1)，i＝1～3不断优化达到最佳精度使得最后收敛，得出收敛后的α₁，α₂，α₃的值，作为三种分类因素的权重指数，并将T规范化后表示出来。

步骤5)

步骤5.1)将三种可能因素T₁，T₂，T₃按照权重公式进行定义，引入风险程度的概念，定义为T。

步骤5.2)以药品不良反应监测数据为基础，以优化后的指标T对总体数据进行标注，以“药品”为对象，以“不良反应”为特征，构建药品在不良反应特征空间分布的数据集D，用于机器学习。采用0，1分布的方式进行标注，其中矩阵中元素值为“1”代表在监测数据中存在该药品与该不良反应组合报告，值为“0”则代表在监测数据中不存在该药品与该不良反应组合报告。

步骤6)

查阅相关资料，对机器学习涉及的各种方法进行优缺对比，选择最合适本文的方法进行分类；

利用多类分类技术(如SVM)进行学习，得到良好的分类模型(如分类精度≥85％)。该分类模型可以对新上市药品的风险等级进行预测。

构建向量空间模型,构建测试集以及训练集，利用基于向量机的分类算法构建分类器，求出分类精度，构建一种对未知标签的不良反应特征进行分类的模型。

步骤6.1)基于支持向量机的多分类技术的基本介绍

支持向量机的主要思想是：建立一个最优决策超平面，使得该平面两侧距离该平面最近的两类样本之间的距离最大化，从而对分类问题提供良好的泛化能力。对于一个多维的样本集，系统随机产生一个超平面并不断移动，对样本进行分类，直到训练样本中属于不同类别的样本点正好位于该超平面的两侧，满足该条件的超平面可能有很多个，SVM正式在保证分类精度的同时，寻找到这样一个超平面，使得超平面两侧的空白区域最大化，从而实现对线性可分样本的最优分类。

目前的多分类技术有多种方法：例如一类对余类法，一对一分类法，二叉树法，纠错输出编码法以及DAGSVM法等。本文选用常用的一类对余类法建立分类模型。

(1)假设共有k个类别，那么就构建k个两分类支持向量机，其中第i个支持向量机把第i类同余下的各类划分开，在训练时第i个支持向量机标记训练集中的第i类+1，余下的类别点为-1进行训练。

步骤6.2)基于药品风险分级的多分类模型应用

Step2:训练时依次把某个类别的样本归为一类,其他剩余的样本归为另一类，将未知样本分类为具有最大分类函数值的那类。如本模型有五类要划分(也就是5个Label)，他们是A、B、C、D、E。

在抽取训练集的时候，分别抽取

Step3:在训练数据中，目标类标注为+1，其他类标注为-1，使用训练数据对支持向量机进行训练；使用这五个训练集分别进行训练，然后的得到五个训练结果文件。在测试的时候，把对应的测试向量分别利用这五个训练结果文件进行测试。最后每个测试都有一个结果f₁(x)，f₂(x)，f₃(x)，f₄(x)，f₅(x)。于是最终的结果便是这五个值中最大的一个作为分类结果。

Step4：计算并输出分类模型的分类准确度。

Claims

1.一种基于机器学习的药品风险分级评估方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的基于机器学习的药品风险分级评估方法，其特征在于，所述步骤1的详细步骤如下：

步骤1)

步骤1.2)，数据处理；

步骤1.2.2)，用Microsoft Visual FoxPro软件对数据进行预处理，筛选数据量≥3的西药数据，按照品种名称和不良反应名称对应形成新的表格。

3.根据权利要求2所述的基于机器学习的药品风险分级评估方法，其特征在于：所述步骤1.2.2)中共有1763种药品以及对应的879种不良反应。

4.根据权利要求1所述的基于机器学习的药品风险分级评估方法，其特征在于：所述步骤2的详细步骤如下：

步骤2)，查阅资料，探索与药品不良反应风险相关的因素：

评判指标为：

步骤2.1)，T₁：SRR指标，严重报告率

步骤2.2)，T₂：DDI指标,伤害度指数

按照伤害程度，一共分为五级，分值为5-1；

定义：假设某一药品D，其ADR报告总数量为R(D)，其中对应第i个分值C(i)的伤害相关报告数量分别为f(i)，i＝1，2，...5，那么，

步骤2.3)T₃：ACR指标,ADR覆盖率

5.根据权利要求1所述的基于机器学习的药品风险分级评估方法，其特征在于：所述步骤3的详细步骤如下：

6.根据权利要求1所述的基于机器学习的药品风险分级评估方法，其特征在于：所述步骤4的详细步骤如下：

步骤4.1)，构建药品风险评估矩阵，

步骤4.2)，构建粒子群优化算法，即PSO算法，

v_i ^(t+1)＝ωv_i ^(t)+c₁r₁(p_i ^(t)-x_i ^(t))+c₂r₂(p_g ^(t)-x_i ^(t)) 公式(1)

x_i ^(t+1)＝x_i ^(t)+v_i ^(t+1) 公式(2)

步骤4.2.2)，基于PSO算法的药品指标模型设计，

fitness＝分级正确的药品数/标准数据中所有的药品数公式(3)

整个粒子群优化算法的算法框架如下：

7.根据权利要求1所述的基于机器学习的药品风险分级评估方法，其特征在于：所述步骤5的详细步骤如下：

8.根据权利要求1所述的基于机器学习的药品风险分级评估方法，其特征在于：所述步骤6的详细步骤如下：

步骤6.1)，基于支持向量机的多分类技术的介绍，

步骤6.2)，基于药品风险分级的多分类模型应用，

在抽取训练集的时候，分别抽取

Step4：计算并输出分类模型的分类准确度；

9.根据权利要求8所述的基于机器学习的药品风险分级评估方法，其特征在于：所述步骤6.1)中选用常一类对余类法建立分类模型；