CN112133450B

CN112133450B - 基于决策树分层的药品不良反应数据遮蔽效应消除的方法

Info

Publication number: CN112133450B
Application number: CN202010841630.7A
Authority: CN
Inventors: 魏建香; 阮倩昀; 卢志强
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2019-10-15
Filing date: 2020-08-20
Publication date: 2022-08-23
Anticipated expiration: 2040-08-20
Also published as: CN112133450A

Abstract

本发明公开了一种基于决策树分层的药品不良反应数据遮蔽效应消除的方法，所述方法以中国药品不良反应即ADR报告数据为基础，研究基于决策树分层的药品不良反应数据遮蔽效应消除的问题，设计了基于标准库的评价指标并构建了实现多级分层的决策树，以MHRA信号检测方法来比较分层前后数据集信号检测的差异性，最终给出了实现削减药品不良反应数据遮蔽效应的基于决策树的多级分层策略。本发明为中国药品不良反应报告进行信号检测中数据遮蔽效应的消除提供了一种可参考方法。

Description

基于决策树分层的药品不良反应数据遮蔽效应消除的方法

技术领域

本发明属于信号检测领域，具体涉及一种用于我国的基于决策树分层的药品不良反应数据遮蔽效应消除的方法。

背景技术

目前的自发呈报数据库中ADR数量庞大、种类多样，信号检测易受到混杂因子的影响，从而导致一些重要的信号被遮蔽，这将影响信号检测的准确性。有关药品-不良反应报告的分层研究表明，与直接对未分层的数据做信号检测相比，分层将揭示出药品与不良反应事件之间新的关联关系，有利于减弱混杂因子遮蔽信号的影响。

此外，现有的分层研究是将混杂因子对信号检测的影响进行了独立地研究，而在自发呈报数据库数量庞大、种类多样的背景下，多个混杂因子会对信号检测有不同程度的影响，因此在分层的过程中综合考虑多个混杂因子，有利于发现药品和不良反应之间新的关联关系。

发明内容

解决的技术问题：本发明在分层的过程中综合考虑多个混杂因子，提出一种基于决策树分层的药品不良反应数据遮蔽效应消除的方法。该方法是指采用构造决策树的流程，将药品不良反应数据集按照三个混杂因子进行多级分层，并对分层后的数据子集做信号检测处理，将此结果与分层前的信号检测结果作比较，从而分析基于决策树的多级分层方法削弱数据遮蔽效应的能力。

技术方案：一种基于决策树分层的药品不良反应数据遮蔽效应消除的方法，所述方法包括以下步骤：

1)数据的采集：数据的采集包括原始ADR数据的采集和标准库的采集；

2)数据的预处理：数据的预处理包括对所述原始ADR数据中的不良反应名称规范为标准库中包括的不良反应名称，删除标准库中未包括的药品及其所述未包括药品的不良反应数据，统一化混杂因子所在的字段值，添加药品不良反应是否出现在标准库的字段“是否已知”，记录重复的药品不良反应组合数；

3)构建多级分层的决策树：将原始ADR数据的四个特征“性别”、“年龄”、“是否属于抗生素类”和“地区”视为混杂因子。由于待研究的混杂因子过多时，分层会过细，对信号检测效能产生负面影响。而混杂因子数量过少使得无法有效地均衡不同特征数据之间的差异，因此确定待研究的混杂因子个数为3。为了确定主要的三个混杂因子，从上述四个混杂因子中任选三个作为数据的特征，进行下述构建决策树的过程。将“是否已知”字段作为决策任务的类标签，利用WEKA软件中的J48分类算法构建决策树，根据每一个子类中数据实际的类别和预测的类别不一致的比例，来分析分类的精度。再次选择三个不同的混杂因子，重复构建多级分层的决策树的步骤。最后，选择分类精度最高的一组混杂因子；

4)信号检测：从所构建的决策树中得到分类的规则，即将ADR数据按照三个混杂因子的优先顺序分类，根据分类的规则从数据集中提取出每一个子类中的数据，即数据子集，采用信号检测方法分别对数据集和数据子集进行信号检测，从而获得两个信号集，总样本的信号检测结果对应信号集1，子样本各自做信号检测后整合的结果对应信号集2；

5)性能评估：以标准库作为检验的标准，设计评价指标，对两个信号集进行性能评估，分析基于决策树的多级分层方法在削弱数据遮蔽效应方面发挥的作用。

501)设计基于标准库的四格表

标准库为分类决策提供了客观的依据。为了比较多级分层前后总样本和子样本在信号检测结果上的差异性，选择标准库作为检验的标准。用标准库中药品不良反应组合对信号集1和信号集2进行标注，如果该组合出现在标准库中，则标注为“1”，否则标注为“0”。将信号集1、信号集2与标准库进行比较，可构成如表1所示的四格表。

表1基于标准库的分层前后样本检测结果的列联表

在表1中，a代表信号集1与信号集2检出均为阳性信号的ADR组合数；b代表信号集1检出为阳性信号，信号集2检出为阴性信号的ADR组合数；c代表信号集1检出为阴性信号，信号集2检出为阳性信号的ADR组合数；d代表信号集1和信号集2检出均为阴性信号的ADR组合数；a1、b1、c1和d1分别表示a、b、c和d中出现在标准库中的ADR组合数；a0、b0、c0和d0分别表示a、b、c和d中未出现在标准库中的ADR组合数；且a＝a1+a0，b＝b1+b0，c＝c1+c0，d＝d1+d0。

502)设计评价指标

①查全率R

用查全率R₁描述总样本检测出已知信号的能力，由公式1表示：

用查全率R₂描述多级分层后的子样本检测出已知信号的能力，由公式2表示：

②查准率P

用查准率P₁描述总样本检测出已知信号的能力，由公式3表示：

用查准率P₂描述多级分层后的子样本检测出已知信号的能力，由公式4表示：

③F指标

总样本和多级分层后的子样本的F指标分别由公式5、公式6表示：

当F指标达到最大值时，查全率和查准率保持相对平衡，数据遮蔽效应消除性能最好。若F₁≥F₂，则无需对总样本进行分层检测；否则为需要对总样本进行分层检测。

优选的，所述原始ADR数据是江苏省药品不良反应监测数据；所述标准库是通过网络采集相关药物的说明书、国家食品药品监督管理局发布的各期药品不良反应信息通报以及药物警戒快讯和各种法规文件建立的ADR已知库。

优选的，所述总样本只包含西药这一个类别的数据。

优选的，所述基于决策树的分层指采用构造决策树的流程，将药品不良反应数据集按照三个混杂因子进行多级分层，并对分层后的数据子集做信号检测处理，将此结果与分层前的信号检测结果作比较，从而分析基于决策树的多级分层方法削弱数据遮蔽效应的能力。

优选的，所述步骤4)中ADR信号检测方法为基于不对称测定原理的MHRA方法。

有益效果：①本发明结合了一级分层有利于减弱混杂因子遮蔽信号影响的优点。

②本发明体现了多级分层的优点。将ADR数据按照不同的混杂因子进行多级分层，这样有利于均衡不同特征数据之间的差异，更为理想地削弱混杂因子的作用，使不同特征的数据之间更具可比性，从而更好地挖掘出隐藏的ADR信号。

③本发明有利于缓解过度分层所造成的不利影响。分层的过程易受过度分层的影响，这可能会降低信号检测的敏感性。但在构建决策树的过程中，将样本的“是否已知”字段作为决策任务的类标签后，每个子样本的类标签整体将趋于“已知”类或“未知”类，即每个子样本中大多数ADR报告的类标签是一致的。由于前期有人提出了删除已知信号可以提高信号检测的敏感性，因此含有大量“未知”类的子样本在信号检测阶段会体现出去除已知信号的优点。并且，子样本报告类型的纯度不会达到百分之百，不会与比例失衡法的原理相悖。因此，综合上述将使敏感性趋于稳定。

附图说明

图1为分层策略的流程图；

图2为多级分层后构建的决策树。

具体实施方式

下面的实施例可使本专业技术人员更全面地理解本发明，但不以任何方式限制本发明。

实施例1

1数据的采集

(1)原始数据汇总：选取2010年1月1日至2017年12月31日之间的江苏省药品不良反应监测数据，记为数据集DATA1，共680,743条，其中包括951种药品和3364种不良反应。

(2)建立标准库：为了判断数据分类检测结果的有效性，需要建立一个以已知不良反应标准库作为参照。通过网络采集了相关药物的说明书、国家食品药品监督管理局发布的各期药品不良反应信息通报以及药物警戒快讯和各种法规文件等来建立ADR已知库，称之为标准库，记为数据集DATA2。在DATA2中，共包含499,331个药品-不良反应组合,其中包括5236种药品和2461种不良反应。

2数据的预处理

(1)为了保持与标准库中药品的一致性和只考虑“西药”这一类别的数据，在原始数据集中删除标准库不包含的药品，同时删去非西药药品，然后对数据集中的不良反应按照标准库中包括的不良反应名称做规范化处理，得到的数据集记为DATA3，共包含了606,276条记录，其中包括783种西药药品和934种不良反应。记此数据集为总样本。

(2)用标准库对总样本中的药品-不良反应组合进行标注：原数据集包含的字段有报告、药品类别、品种名称、不良反应、性别、年龄、报告日期、地区编码、地区名称。为了能够执行决策树分类，添加一个新的字段“是否已知”，即出现在标准库中的组合标注为“1”，否则标注为“0”。为了统一化混杂因子所在的字段值，新添“年龄分类”字段，将年龄小于等于35的所有记录标注“Y”，年龄大于等于36且小于等于55的所有记录标注“M”，年龄大于等于56的所有记录标注“S”；新添“是否属于抗生素类”字段，将属于抗生素的药品标注为“Antimicrobial”，否则标注为“Non-antimicrobial”；新添“性别分类”字段，将男性标注为“Male”，女性标注为“Female”；新添“地区分类”字段，将常州、南京、苏州、无锡、镇江标注为“苏南”，将淮安、连云港、南通、泰州、宿迁、徐州、盐城、扬州标注为“苏北”。

(3)将DATA3中重复出现的药品-不良反应组合进行整合，共得到42394个药品-不良反应组合及其发生的频次，记此数据集合为DATA4。

3构建多级分层的决策树

分层策略是指采用构造决策树的流程，将药品不良反应数据集按照三个混杂因子进行多级分层，并对分层后的数据子集做信号检测处理，将此结果与分层前的信号检测结果作比较，从而分析基于决策树的多级分层方法削弱数据遮蔽效应的能力。流程图如图1所示。

确定“是否已知”字段作为决策任务的类标签，将DATA3数据集导入WEKA软件，从待研究的四个混杂因子“性别”、“年龄”、“地区”、“是否属于抗生素类”中选择三个，利用WEKA软件中的J48分类算法构建决策树，根据每一个子类中数据实际的类别和预测的类别不一致的比例，来分析分类的精度。在多次实验后，当“是否属于抗生素类”、“年龄”、“性别”这三混杂因子作为划分属性，且按照“是否属于抗生素类”、“年龄”、“性别”的顺序分类时，每一个子样本中ADR数据分类的精度最高。所构建的决策树如图2所示。

从图2可知，总样本被划分为5个子样本：

第一个子样本：所有属于“抗生素类”药品的数据被分离出来成为第一个子样本，数量为293,565，其中80,511条未知的药品-不良反应记录被错误归入已知类。

第二个子样本：所有属于“非抗生素类”药品且病人年龄类别为“M”的数据为第二个子样本，数量为106,651，其中48,760条未知的药品-不良反应记录被错误归入已知类。

第三个子样本：所有属于“非抗生素类”药品且病人年龄类别为“S”的数据为第三个子样本，数量为138,441，其中66,139条已知的药品-不良反应记录被错误归入未知类。

第四个子样本：所有属于“非抗生素类”药品且病人年龄类别为“Y”且病人性别为“Female”的数据为第四个子样本，数量为36,736，其中18,224条未知的药品-不良反应记录被错误归入已知类。

第五个子样本：所有属于“非抗生素类”药品且病人年龄类别为“Y”且病人性别为“Male”的数据为第五个子样本，数量为30,883，其中14,843条已知的药品-不良反应记录被错误归入未知类。

整体而言，通过按照“是否属于抗生素”、“年龄”、“性别”的分类顺序所构建得到的决策树，较好地将总样本分为了5个子样本。

4信号检测

目前，我国的ADR信号检测主要采用的检测方法是基于不对称测定原理的PRR、MHRA、IC、ROR等方法，它们的计算公式都是基于表1所示的经典四格表的。

表1经典四格表

本发明中采取MHRA方法作为信号检测方法。MHRA是英国药品和保健产品管理局(Medicines and Healthcare products Regulatory Agency,MHRA)采用的综合标准法，即结合PRR值、绝对报告数A值及皮尔森x²值来评估信号的关联强度，简称为MHRA法，信号判断的临界值：PRR≥2，A≥3，x²≥4。其中PRR值的表达式如公式1所示：

本发明需要对总样本和5个子样本分别做信号检测处理，总样本的信号检测结果对应信号集1，5个子样本各自做信号检测后整合的结果对应信号集2。

5性能评估

5.1设计基于标准库的四格表

标准库为分类决策提供了客观的依据。为了比较多级分层前后总样本和子样本在信号检测结果上的差异性，选择标准库作为检验的标准。用标准库中药品不良反应组合对信号集1和信号集2进行标注，如果该组合出现在标准库中，则标注为“1”，否则标注为“0”。将信号集1、信号集2与标准库进行比较，可构成如表2所示的四格表。

表2基于标准库的分层前后样本检测结果的列联表

在表2中，a代表信号集1与信号集2检出均为阳性信号的ADR组合数；b代表信号集1检出为阳性信号，信号集2检出为阴性信号的ADR组合数；c代表信号集1检出为阴性信号，信号集2检出为阳性信号的ADR组合数；d代表信号集1和信号集2检出均为阴性信号的ADR组合数；a1、b1、c1和d1分别表示a、b、c和d中出现在标准库中的ADR组合数；a0、b0、c0和d0分别表示a、b、c和d中未出现在标准库中的ADR组合数；且a＝a1+a0，b＝b1+b0，c＝c1+c0，d＝d1+d0。

5.2设计评价指标

(1)查全率R

查全率是指从标准库的已知信号(即a1+b1+c1+d1)中检测出信号的比例，是一种对已知信号覆盖率的度量。用查全率R₁描述总样本检测出已知信号的能力，由公式2表示：

用查全率R₂描述多级分层后的子样本检测出已知信号的能力，由公式3表示：

通过对两个样本的查全率的比较可以区分两者检出已知ADR信号的能力，也体现了在以标准库为基准的条件下两个样本的检出信号的灵敏度的差异。因此查全率是一个关键指标。

(2)查准率P

查准率是指基于某个样本进行信号检测得到的结果中已知信号所占的比例，是对已知信号检测准确率的一种度量。用查准率P₁描述总样本检测出已知信号的能力，由公式4表示：

用查准率P₂描述多级分层后的子样本检测出已知信号的能力，由公式5表示：

(3)F指标

由于查全率和查准率之间存在反向依赖关系。如果查准率增加，查全率将降低，反之亦然。因此，引入F指标，即P和R的简单调和平均数。总样本和多级分层后的子样本的F指标分别由公式6、公式7表示：

当F指标达到最大值时，查全率和查准率保持相对平衡，数据遮蔽效应消除性能最好。

6结果分析

在Visual FoxPro软件上，采用MHRA方法分别检测总样本和5个子样本的信号，比较总样本的检测结果和5个子样本汇总后的检测结果，即多级分层前后的检测结果如表3所示：

表3多级分层前后的检测结果比较

从表3可以看出，总样本中已知的信号量共8427个，多级分层前的查全率略高于多级分层后的查全率，而多级分层后的查准率和F指标略高于多级分层前。此外，表3验证了查准率和查全率之间存在反向依赖关系，而较大的综合指标F值表明当前系统的状态较好，数据遮蔽效应消除较好。因此，基于决策树的多级分层方法有利于削弱信号检测中的数据遮蔽效应。

Claims

1.基于决策树分层的药品不良反应数据遮蔽效应消除的方法，其特征在于：所述方法包括以下步骤：

1)数据的采集：包括原始ADR数据的采集和标准库的采集；

3)构建多级分层的决策树：将原始ADR数据的四个特征“性别”、“年龄”、“是否属于抗生素类”和“地区”视为混杂因子；为了确定主要的三个混杂因子，从上述四个混杂因子中任选三个作为数据的特征，进行下述构建决策树的过程：将“是否已知”字段作为决策任务的类标签，利用WEKA软件中的J48分类算法构建决策树，根据每一个子类中数据实际的类别和预测的类别不一致的比例，来分析分类的精度，再次选择三个不同的混杂因子，重复构建多级分层的决策树的步骤，最后，选择分类精度最高的一组混杂因子；

2.根据权利要求1所述的基于决策树分层的药品不良反应数据遮蔽效应消除的方法，其特征在于：所述步骤5)中还包括如下具体步骤：

501)设计基于标准库的四格表

标准库为分类决策提供了客观的依据，为了比较多级分层前后总样本和子样本在信号检测结果上的差异性，选择标准库作为检验的标准；用标准库中药品不良反应组合对信号集1和信号集2进行标注，如果该组合出现在标准库中，则标注为“1”，否则标注为“0”，将信号集1、信号集2与标准库进行比较，构成所需的四格表；

其中，a代表信号集1与信号集2检出均为阳性信号的ADR组合数；b代表信号集1检出为阳性信号，信号集2检出为阴性信号的ADR组合数；c代表信号集1检出为阴性信号，信号集2检出为阳性信号的ADR组合数；d代表信号集1和信号集2检出均为阴性信号的ADR组合数；a1、b1、c1和d1分别表示a、b、c和d中出现在标准库中的ADR组合数；a0、b0、c0和d0分别表示a、b、c和d中未出现在标准库中的ADR组合数；且a＝a1+a0，b＝b1+b0，c＝c1+c0，d＝d1+d0

故，当信号集1与信号集2均为阳性信号时，a(a₁,a₀)；当信号集1为阳性信号，信号集2为阴型信号时，b(b₁,b₀)；当信号集1为阴性信号，信号集2为阳性信号时，c(c₁,c₀)；当信号集1、信号集2均为阴性信号时，d(d₁,d₀)；

502)设计评价指标

①查全率R

②查准率P

③F指标

当F指标达到最大值时，查全率和查准率保持相对平衡，数据遮蔽效应消除性能最好；若F₁≥F₂，则无需对总样本进行分层检测；否则为需要对总样本进行分层检测。

3.根据权利要求1所述的基于决策树分层的药品不良反应数据遮蔽效应消除的方法，其特征在于：所述原始ADR数据是江苏省药品不良反应监测数据；所述标准库是通过网络采集相关药物的说明书、国家食品药品监督管理局发布的各期药品不良反应信息通报以及药物警戒快讯和各种法规文件建立的ADR已知库。

4.根据权利要求1所述的基于决策树分层的药品不良反应数据遮蔽效应消除的方法，其特征在于：所述总样本只包含西药这一个类别的数据。

5.根据权利要求1所述的基于决策树分层的药品不良反应数据遮蔽效应消除的方法，其特征在于：所述基于决策树的分层指采用构造决策树的流程，将药品不良反应数据集按照三个混杂因子进行多级分层，并对分层后的数据子集做信号检测处理，将此结果与分层前的信号检测结果作比较，从而分析基于决策树的多级分层方法削弱数据遮蔽效应的能力。

6.根据权利要求1所述的基于决策树分层的药品不良反应数据遮蔽效应消除的方法，其特征在于：所述步骤4)中ADR信号检测方法为基于不对称测定原理的MHRA方法。