CN110929752A

CN110929752A - 基于知识驱动和数据驱动的分群方法及相关设备

Info

Publication number: CN110929752A
Application number: CN201910991392.5A
Authority: CN
Inventors: 廖希洋; 孙行智; 赵婷婷; 田静涛; 赵丽君
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2020-03-27
Anticipated expiration: 2039-10-18
Also published as: WO2021073259A1; CN110929752B

Abstract

本申请涉及人工智能领域，公开了一种基于知识驱动和数据驱动的分群方法及相关设备，提高了将待分类人群分群到相似特征人群的精准度。本申请方法包括：创建目标知识分群决策树；识别待分类人群的特征数据在所述目标知识分群决策树上目标末端知识子节点对应的处理方案的类别数量；当识别到所述类别数量为一个时，确定所述待分类人群属于目标知识分群决策树中目标末端知识子节点对应的第一特征相似人群；当识别到所述类别数量为至少两个时，基于预置第二分群规则生成数据分群决策树，并确定所述数据分群决策树的目标层数；根据所述目标层数将所述待分类人群划分为所述第一特征相似人群或所述数据分群决策树中目标数据节点对应的第二特征相似人群。

Description

基于知识驱动和数据驱动的分群方法及相关设备

技术领域

本申请涉及智能决策领域，尤其涉及基于知识驱动和数据驱动的分群方法及相关设备。

背景技术

个性化精准治疗是目前医学治疗领域一个重要的研究课题，也是医学研究领域一个值得期待的发展方向。而个性化精准治疗主要从群体出发，并根据患者的个体差异提供个性化治疗，在这个过程中，最困难的是如何确定不同群体，并针对群体中患者的个性化治疗给出充足的医学知识支撑。现有的分群系统中，常使用完全基于数据驱动或者完全基于知识驱动的分群方法，但两种方法都存在较多弊端。

完全基于数据驱动的分群方法中，其核心思想是基于机器学习或深度学习算法学习数据集中医生开药规则，并将学习到的规则应用于同类病人之中。而完全基于知识驱动的分群方法，其核心是参照已有指南、共识等相关权威知识构建规则，根据规则获取相应的辅助决策方案。不同于其他行业，使用完全基于数据驱动的分群方法并不能保证算法学习到的医学规则符合医学知识，并且无法做到针对相同群体中不同病人进行个性化推荐对应的辅助决策方案；使用完全基于知识驱动的推荐方法则存在着无法对推荐的多种辅助决策方案进行合理的选择，并存在指南、共识等知识中完全无法获取的辅助信息，如：药品价格。因而，导致将待分类人群分群到相似特征人群的精准度低。

发明内容

本申请提供了一种基于知识驱动和数据驱动的分群方法及相关设备，用于创建目标知识分群决策树、确定待分类人群属于第一特征相似人群、创建数据分群决策树和根据目标层数将待分类人群划分为第一特征相似人群或第二特征相似人群等步骤，提高将待分类人群分群到相似特征人群的精准度，进而为医生决策提供合理规范性且全面性精细化的循证医学证据。

本申请实施例的第一方面提供一种基于知识驱动和数据驱动的分群方法，包括：根据医学规则数据创建初始知识分群决策树，并将样本数据填充至所述初始知识分群决策树各分支的末端知识子节点，得到目标知识分群决策树，所述医学规则数据用于指示对已归档的医学文献、医学共识、医学指南和专家的临床经验的医学学科知识数据进行规则提取处理所得的第一分群规则，所述第一分群规则用于对临床上的相似特征人群进行分群，所述样本数据包括遵循医学知识规则的临床上的相似特征人群对应的临床结局数据；获取待分类人群的特征数据，并通过所述目标知识分群决策树对所述特征数据进行分群，得到目标末端知识子节点对应的处理方案，并对所述处理方案的类别数量进行识别，所述目标末端知识子节点为所述特征数据在所述目标知识分群决策树上的节点位置，所述处理方案用于指示对相似特征人群的解决渠道；若识别到所述处理方案的类别数量为一个，则确定所述待分类人群属于第一特征相似人群，所述第一特征相似人群为所述目标知识分群决策树中目标末端知识子节点对应的处理方案所属的特征相似人群；若识别到所述处理方案的类别数量为至少两个，则基于第二分群规则生成数据分群决策树，并确定每个处理方案对应所述数据分群决策树的数据子节点所处的目标层数，所述第二分群规则指示根据递归分区算法和处理方案的有效性进行分类；若所述目标层数为第一层，则将所述待分类人群划分为所述第一特征相似人群；若所述目标层数不为第一层，则将所述待分类人群划分为第二特征相似人群，所述第二特征相似人群为所述数据分群决策树中目标数据节点对应的处理方案所属的特征相似人群，每个目标数据节点对应不同的特征相似人群。

可选的，在本申请实施例第一方面的第一种实现方式中，所述基于第二分群规则生成数据分群决策树，并确定每个处理方案对应所述数据分群决策树的子节点所处的目标层数，包括：步骤一：将所述目标末端知识子节点作为所述数据分群决策树的数据根节点，计算所述数据根节点对应的处理方案的有效性分值；步骤二：根据每个处理方案的有效性分值对所述数据根节点进行分支，根据递归分区算法将每个处理方案依次划分到每个分支的数据子节点中，并继续对每个数据子节点对应的处理方案进行有效性分析；步骤三：若当前数据子节点所对应的处理方案的有效性分值大于第一阈值，则对所述当前数据子节点进行分支；步骤四：重复执行步骤三，直至每个数据子节点所对应的处理方案的有效性分值小于或等于所述第一阈值，得到数据分群决策树，所述数据分群决策树包括多个数据子节点，所述多个数据子节点中每个末端数据叶子节点对应有一个处理方案；步骤五：确定每个处理方案对应的末端数据叶子节点在所述数据分群决策树中所处的目标层数。

可选的，在本申请实施例第一方面的第二种实现方式中，所述将所述目标末端知识子节点作为所述数据分群决策树的数据根节点，计算所述数据根节点对应的处理方案的有效性分值，包括：将所述目标末端知识子节点作为所述数据分群决策树的数据根节点；获取所述数据根节点对应的处理方案的目标特征信息，将所述目标特征信息拆分成因素因子；计算所述因素因子在不同水平上的关联度、和对预置影响因素的影响度以及所述因素因子不控制的边缘关联度；通过预置的可压缩准则和可比较准则分析所述关联度、所述影响度和所述边缘关联度，得到混杂因子；计算所述混杂因子与所述预置影响因素发生概率的回归系数的指数变换值，并以所述指数变换值作为判定得分，得到所述数据根节点对应的处理方案的有效性分值，所述指数变换值的计算公式如下：

所述p(y＝k|x；w)为所述指数变换值，所述w为所述混杂因子与所述预置影响因素发生的概率，所述x为所述混杂因子，所述k为所述预置影响因素的类别数量，所述y为输出的预测值，所述y是k的条件概率，所述K为k的最大值，所述T为时间周期。

可选的，在本申请实施例第一方面的三种实现方式中，所述若所述目标层数不为第一层，则将所述待分类人群划分为第二特征相似人群，包括：若所述目标层数不为第一层，判断所述目标层数对应处理方案的有效性分值是否大于第二阈值，所述第二阈值大于所述第一阈值；若所述目标层数对应处理方案的有效性分值大于第二阈值，则将有效性分值大于第二阈值的处理方案所位于的数据叶子节点作为目标数据节点，并将所述待分类人群划分为所述目标数据节点对应的处理方案所属的特征相似人群，得到第二特征相似人群；若所述目标层数对应处理方案的有效性分值小于或者等于第二阈值，则分析所述目标层数的上一层数对应处理方案的有效性分值；若所述目标层数的上一层数对应处理方案的有效性分值大于第二阈值，则将所述目标层数的上一层数对应处理方案所位于的数据叶子节点作为目标数据节点，并将所述待分类人群划分为所述目标数据节点对应的处理方案所属的特征相似人群，得到第二特征相似人群。

可选的，在本申请实施例第一方面的第四种实现方式中，所述根据医学规则数据创建初始知识分群决策树，并将样本数据填充至所述初始知识分群决策树各分支的末端子知识节点，得到目标知识分群决策树之前，所述方法还包括：从多个系统、多个平台和多个医疗系统获取医学学科知识数据和临床数据，并对所述医学学科知识数据和所述医疗数据进行数据处理，获得医学规则数据，所述数据处理包括数据清理处理、数据集成处理、数据规约处理、数据变换处理、特征提取处理、据脱敏处理和分类处理。

可选的，在本申请实施例第一方面的第五种实现方式中，所述对所述处理方案的类别数量进行识别，包括：计算所述处理方案之间的相似度获得多个相似度值，并比较多个所述相似度值是否均在预设范围内；若比较结果为是，则统计所述处理方案的类别为一个；若比较结果为否，则统计所述处理方案的类别为多个。

可选的，在本申请实施例第一方面的第六种实现方式中，所述若所述目标层数不为第一层，则将所述待分类人群划分为第二特征相似人群之后，所述方法还包括：调用预置的解释模型对所述第一特征相似人群或所述第二特征相似人群进行解释处理和可视化图表统计分析处理，得到可解释性特征相似人群，所述解释处理包括有效性排序处理、匹配度计算处理和匹配度排序处理。

本申请实施例的第二方面提供一种用于基于知识驱动和数据驱动的分群装置，所述基于知识驱动和数据驱动的分群装置包括：第一创建单元，用于根据医学规则数据创建初始知识分群决策树，并将样本数据填充至所述初始知识分群决策树各分支的末端知识子节点，得到目标知识分群决策树，所述医学规则数据用于指示对已归档的医学文献、医学共识、医学指南和专家的临床经验的医学学科知识数据进行规则提取处理所得的第一分群规则，所述第一分群规则用于对临床上的相似特征人群进行分群，所述样本数据包括遵循医学知识规则的临床上的相似特征人群对应的临床结局数据；识别单元，用于获取待分类人群的特征数据，并通过所述目标知识分群决策树对所述特征数据进行分群，得到目标末端知识子节点对应的处理方案，并对所述处理方案的类别数量进行识别，所述目标末端知识子节点为所述特征数据在所述目标知识分群决策树上的节点位置，所述处理方案用于指示对相似特征人群的解决渠道；第二创建单元，用于若识别到所述处理方案的类别数量为至少两个，则基于第二分群规则生成数据分群决策树，并确定每个处理方案对应所述数据分群决策树的数据子节点所处的目标层数，所述第二分群规则指示根据递归分区算法和处理方案的有效性进行分类；第一划分单元，用于若所述目标层数为第一层，则将所述待分类人群划分为所述第一特征相似人群；第二划分单元，用于若所述目标层数不为第一层，则将所述待分类人群划分为第二特征相似人群，所述第二特征相似人群为所述数据分群决策树中目标数据节点对应的处理方案所属的特征相似人群，每个目标数据节点对应不同的特征相似人群。

可选的，在本申请实施例第二方面的第一种实现方式中，所述第二创建单元具体用于：步骤一：将所述目标末端知识子节点作为所述数据分群决策树的数据根节点，计算所述数据根节点对应的处理方案的有效性分值；步骤二：根据每个处理方案的有效性分值对所述数据根节点进行分支，根据递归分区算法将每个处理方案依次划分到每个分支的数据子节点中，并继续对每个数据子节点对应的处理方案进行有效性分析；步骤三：若当前数据子节点所对应的处理方案的有效性分值大于第一阈值，则对所述当前数据子节点进行分支；步骤四：重复执行步骤三，直至每个数据子节点所对应的处理方案的有效性分值小于或等于所述第一阈值，得到数据分群决策树，所述数据分群决策树包括多个数据子节点，所述多个数据子节点中每个末端数据叶子节点对应有一个处理方案；步骤五：确定每个处理方案对应的末端数据叶子节点在所述数据分群决策树中所处的目标层数。

可选的，在本申请实施例第二方面的第二种实现方式中，所述第二创建单元具体还用于：将所述目标末端知识子节点作为所述数据分群决策树的数据根节点；获取所述数据根节点对应的处理方案的目标特征信息，将所述目标特征信息拆分成因素因子；计算所述因素因子在不同水平上的关联度、对预置影响因素的影响度以及所述因素因子不控制的边缘关联度；通过预置的可压缩准则和可比较准则分析所述因素因子的所述关联度、所述影响度和所述边缘关联度，得到混杂因子；计算所述混杂因子与所述预置影响因素发生概率的回归系数的指数变换值，并以所述指数变换值作为判定得分，得到所述数据根节点对应的处理方案的有效性分值，所述指数变换值的计算公式如下：

可选的，在本申请实施例第二方面的第三种实现方式中，所述第二划分单元具体用于：若所述目标层数不为第一层，判断所述目标层数对应处理方案的有效性分值是否大于第二阈值，所述第二阈值大于所述第一阈值；若所述目标层数对应处理方案的有效性分值大于第二阈值，则将有效性分值大于第二阈值的处理方案所位于的数据叶子节点作为目标数据节点，并将所述待分类人群划分为所述目标数据节点对应的处理方案所属的特征相似人群，得到第二特征相似人群；若所述目标层数对应处理方案的有效性分值小于或者等于第二阈值，则分析所述目标层数的上一层数对应处理方案的有效性分值；若所述目标层数的上一层数对应处理方案的有效性分值大于第二阈值，则将所述目标层数的上一层数对应处理方案所位于的数据叶子节点作为目标数据节点，并将所述待分类人群划分为所述目标数据节点对应的处理方案所属的特征相似人群，得到第二特征相似人群。

可选的，在本申请实施例第二方面的第四种实现方式中，所述基于知识驱动和数据驱动的分群装置，还包括：处理单元，用于从多个系统、多个平台和多个医疗系统获取医学学科知识数据和临床数据，并对所述医学学科知识数据和所述临床数据进行数据处理，获得医学规则数据，所述数据处理包括数据清理处理、数据集成处理、数据规约处理、数据变换处理、特征提取处理、据脱敏处理和分类处理。

可选的，在本申请实施例第二方面的第五种实现方式中，所述识别单元具体用于：计算所述处理方案之间的相似度获得多个相似度值，并比较多个所述相似度值是否均在预设范围内；若比较结果为是，则统计所述处理方案的类别为一个；若比较结果为否，则统计所述处理方案的类别为多个。

可选的，在本申请实施例第二方面的第六种实现方式中，所述基于知识驱动和数据驱动的分群装置，还包括：调用单元，用于调用预置的解释模型对所述第一特征相似人群或所述第二特征相似人群进行解释处理和可视化图表统计分析处理，得到可解释性特征相似人群，所述解释处理包括有效性排序处理、匹配度计算处理和匹配度排序处理。

本申请实施例的第三方面提供了一种基于知识驱动和数据驱动的分群装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施方式所述基于知识驱动和数据驱动的分群方法。

本申请实施例的第四方面提供了一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行上述任一实施方式所述的基于知识驱动和数据驱动的分群方法。

相较于现有技术，本申请实施例提供的技术方案中，通过创建目标知识分群决策树；识别待分类人群的特征数据在所述目标知识分群决策树上目标末端知识子节点对应的处理方案的类别数量；当识别到所述类别数量为一个时，确定所述待分类人群属于目标知识分群决策树中目标末端知识子节点对应的第一特征相似人群；当识别到所述类别数量为至少两个时，基于预置第二分群规则生成数据分群决策树，并确定所述数据分群决策树的目标层数；根据所述目标层数将所述待分类人群划分为所述第一特征相似人群或所述数据分群决策树中目标数据节点对应的第二特征相似人群。本申请实施例，通过创建目标知识分群决策树、确定待分类人群属于第一特征相似人群、创建数据分群决策树和根据目标层数将待分类人群划分为第一特征相似人群或第二特征相似人群等步骤，提高将待分类人群分群到相似特征人群的精准度，进而为医生决策提供合理规范性且全面性精细化的循证医学证据。

附图说明

图1为本申请实施例中基于知识驱动和数据驱动的分群方法的一个实施例示意图；

图2为本申请实施例中输出第一特征相似人群的一种示意图；

图3为本申请实施例中输出第二特征相似人群的一种示意图；

图4为本申请实施例中采用知识分群决策树和数据分群决策树分群的一种示意图；

图5为本申请实施例中基于知识驱动和数据驱动的分群方法的另一个实施例示意图；

图6为本申请实施例中基于知识驱动和数据驱动的分群装置的一个实施例示意图；

图7为本申请实施例中基于知识驱动和数据驱动的分群装置的另一个实施例示意图；

图8为本申请实施例中基于知识驱动和数据驱动的分群设备的另一个实施例示意图。

具体实施方式

本申请实施例提供了一种基于知识驱动和数据驱动的分群方法及相关设备，用于创建目标知识分群决策树、确定待分类人群属于第一特征相似人群、创建数据分群决策树和根据目标层数将待分类人群划分为第一特征相似人群或第二特征相似人群等步骤，提高将待分类人群分群到相似特征人群的精准度，进而为医生决策提供合理规范性且全面性精细化的循证医学证据。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例进行描述。

应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或模块的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或模块，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或模块，本申请中所出现的模块的划分，仅仅是一种逻辑上的划分，实际应用中实现时可以有另外的划分方式，例如多个模块可以结合成或集成在另一个系统中，或一些特征可以忽略，或不执行。

请参阅图1，本申请实施例提供的一种基于知识驱动和数据驱动的分群方法的流程图，以下对本申请提供一种基于知识驱动和数据驱动的分群方法进行举例说明，本申请不对执行主体的类型作限制，具体包括：

101、根据医学规则数据创建初始知识分群决策树，并将样本数据填充至初始知识分群决策树各分支的末端知识子节点，得到目标知识分群决策树，医学规则数据用于指示对已归档的医学文献、医学共识、医学指南和专家的临床经验的医学学科知识数据进行规则提取处理所得的第一分群规则，第一分群规则用于对临床上的相似患者进行分群，样本数据包括遵循医学知识规则的临床结局数据。

具体的，对医学指南、医学共识、医学文献和专家的临床经验的医学学科知识数据进行数据清理处理和数据规约处理，以保证医学学科知识数据的质量。对经过清理处理和数据规约处理的医学学科知识数据进行规则提取，将提取的规则构建较粗粒度的分群规则(即医学规则数据)，用较粗粒度的分群规则构建初始知识分群决策树，以得到目标知识分群决策树。例如，如图2所示，将临床结局数据中遵循医学知识规则的临床结局数据(即样本数据)对应分群的临床上的相似特征人群的病症信息填充在对应的知识分群决策树各分支的末端知识子节点上，即末端知识子节点1、末端知识子节点2、末端知识子节点3、末端知识子节点4、末端知识子节点5、末端知识子节点6和末端知识子节点7，知识分群决策树之外的临床结局数据为不遵循医学知识规则的临床结局数据，则知识分群决策树各分支的末端知识子节点(末端知识子节点1、末端知识子节点2、末端知识子节点3、末端知识子节点4、末端知识子节点5、末端知识子节点6和末端知识子节点7)包含至少一种以上的病症信息对应的处理方案。通过从医学指南、医学共识、医学文献和专家的临床经验的医学学科知识数据获取的较粗粒度的分群规则和将第一样本数据填充到知识分群决策树各分支的末端知识子节点构建基于医学学科知识数据和临床结局数据的知识分群决策树。上述图2内容和举例内容仅作举例说明参考，其内容的准确性和实际操作与否不作考虑。

102、获取待分类人群的特征数据，并通过目标知识分群决策树对特征数据进行分群，得到目标末端知识子节点对应的处理方案，并对处理方案的类别数量进行识别，目标末端知识子节点为特征数据在目标知识分群决策树上的节点位置，处理方案用于指示对相似特征人群的解决渠道。

终端获取待分类人群的特征数据，并通过目标知识分群决策树基于医学学科知识根据特征数据将待分类人群进行分群，获得待分类人群被分群到目标知识分群决策树所处的目标末端知识子节点，并获取目标末端知识子节点对应的相似特征人群的处理方案，对处理方案的类别数量进行识别，以判断是否对目标末端知识子节点的特征相似人群进行进一步分群。其中，处理方案用于指示对相似特征人群的解决渠道，例如，临床上的相似特征人群对应病症的治疗方案或者处方。

103、若识别到处理方案的类别数量为一个，则确定待分类人群属于第一特征相似人群，第一特征相似人群为目标知识分群决策树中目标末端知识子节点对应的处理方案所属的特征相似人群。

终端若识别到处理方案的类别数量为一个，则将待分类人群划分到所位于目标知识分群决策树所处的目标末端知识子节点对应的特征相似人群(即第一特征相似人群)，得到仅通过目标知识分群决策树对待分类人群进行分群的第一特征相似人群。

例如，具体的，可通过处理方案之间的用药处方的相似度是否处于预设判断值来进行分析来分析各分支的末端子节点的处理方案的类别数量是否为一个。如图2的末端子节点1的处理方案有三个，分别为处理方案甲、处理方案乙和处理方案丙，预设判断值为相似度为97％～100％，处理方案甲与处理方案乙的用药处方的相似度为96％，处理方案甲与处理方案丙的用药处方的相似度为98％，处理方案乙与处理方案丙的用药处方的相似度为97.5％，则末端子节点1的处理方案的类别数量为2个。当分析到各分支的末端知识子节点的处理方案的类别数量是一个时，该末端知识子节点不进行后续的数据驱动分群模型的创建的操作，表示该末端知识子节点的人群是同一类的特征相似人群(即第一特征相似人群)。上述举例内容仅作举例说明参考，其内容的准确性和实际操作与否不作考虑。

104、若识别到处理方案的类别数量至少两个，则基于第二分群规则生成数据分群决策树，并确定每个处理方案对应数据分群决策树的数据子节点所处的目标层数，第二分群规则指示根据递归分区算法和处理方案的有效性进行分类。

具体的，当分析到各分支的末端知识子节点的处理方案的类别数量不是一个时，进入后续的数据分群决策树的创建的操作，数据分群决策树通过机器学习或者深度学习算法学习数据集中的分群方式以对临床上的相似特征人群进行分群。以目标末端知识子节点作为父节点，以父节点开始，根据递归分区算法和处理方案的有效性进行分类的第二分群规则对数据根节点对应的相似特征人群的临床结局数据进行分支，以创建数据分群决策树，并确定每个处理方案对应数据分群决策树的数据子节点所处的目标层数。通过基于在知识驱动分群中的医学学科知识数据进行数据驱动分群，以对相似人群进行进一步分群，提高分群的精度。

例如，如图3所示，根据第一层的数据根节点的相似特征人群的处理方案的有效性对第一层的父节点的相似特征人群进行分支，在第2层将甲数据节点分群为处理方案的有效性为百分之九十以下的第二特征相似人群，将乙数据节点分群为处理方案的有效性为百分之九十以上的第二特征相似人群，在第3层将丙数据节点分群为处理方案的有效性为百分之八十至百分之八十五的第二特征相似人群，将丁数据节点分群为处理方案的有效性为百分之八十六至百分之九十的第二特征相似人群。

其中，有效性包括但不限于药物疗效有效性，目标层数用于判断是将待分类人群划分为目标知识分群决策树对待分类人群进行分群所得的第一特征相似人群还是通过数据分群决策树对目标知识分群决策树对待分类人群进行分群所得的第一特征相似人群再进行进一步分群所得的第二特征相似人群。从数据分群决策树的父节点开始，每层的各分支的数据子节点由上至下，对父节点的特征相似人群的处理方案和子节点的特征相似人群的处理方案的药物疗效有效性是否存在差异进行分析，以处理方案的药物疗效有效性存在显著差异对应的子节点对应的层数作为数据分群决策树的选择层数，并将在父节点对应的知识分群决策树的该末端子节点上标记该目标层数。以目标层数作为是否调用数据分群决策树且通过数据分群决策树对相似人群进行基于数据驱动分群的层数的依据。其中，可通过治愈率或显效率或好转率或无效率或其他药物有效性的指标中的至少一项进行药物疗效有效性分析。

105、若目标层数为第一层，则将待分类人群划分为第一特征相似人群。

具体的，当目标层数为第一层，即数据分群决策树的父节点时，将待分类人群划分为目标知识分群决策树对待分类人群进行分群所得的第一特征相似人群，不再通过数据分群决策树分群对待分类人群进行分群。

106、若目标层数不为第一层，则将待分类人群划分为第二特征相似人群，第二特征相似人群为数据分群决策树中目标数据节点对应的处理方案所属的特征相似人群，每个目标数据节点对应不同的特征相似人群。

具体的，当目标层数为第一层，即数据分群决策树的父节点时，获取目标层数在数据分群决策树对应的层数的末端子节点，并获取该末端子节点对应的特征相似人群，将该特征相似人群作为结合目标知识分群决策树和数据分群决策树对待分类人群进行分群所得的第二特征相似人群。例如：如图3所示，若目标层数为2，则将待分类人群划分到乙数据节点对应的第二特征相似人群，若目标层数为3，则将待分类人群划分到丙节点和丁节点对应的第二特征相似人群。

例如，如图4所示，结合知识分群决策树和数据决策树对待分类人群进行分群，将待分类人群划分到对应的特征相似人群，根据目标层数判断是将待分类人群划分为目标知识分群决策树对待分类人群进行分群所得的第一特征相似人群还是通过数据分群决策树对目标知识分群决策树对待分类人群进行分群所得的第一特征相似人群再进行进一步分群所得的第二特征相似人群，医学辅助决策系统根据本申请的方法所获得的第一特征相似人群，得到第一特征相似人群对应的提供医学知识以及补充相应的真实世界证据的第一循证医学信息，根据本申请的方法所获得的第二特征相似人群，得到第二特征相似人群对应的提供医学知识、补充相应的真实世界证据和结合数据驱动进行分群的第二循证医学信息。不仅定义相似患者，还提供针对相同群体中不同病人的符合医学学科知识的个性化循证医学证据信息，以辅助医生决策。

本申请实施例，通过创建目标知识分群决策树、确定待分类人群属于第一特征相似人群、创建数据分群决策树和根据目标层数将待分类人群划分为第一特征相似人群或第二特征相似人群等步骤，提高将待分类人群分群到相似特征人群的精准度，进而为医生决策提供合理规范性且全面性精细化的循证医学证据。

请参阅图5，本申请实施例中，501至505的方法可参见101至105，此处不再赘述。本申请实施例中基于知识驱动和数据驱动的分群方法的另一个实施例包括：

501、根据医学规则数据创建初始知识分群决策树，并将样本数据填充至初始知识分群决策树各分支的末端知识子节点，得到目标知识分群决策树，医学规则数据用于指示对已归档的医学文献、医学共识、医学指南和专家的临床经验的医学学科知识数据进行规则提取处理所得的第一分群规则，第一分群规则用于对临床上的相似患者进行分群，样本数据包括遵循医学知识规则的临床结局数据。

可选的，上述的根据医学规则数据创建初始知识分群决策树，并将样本数据填充至初始知识分群决策树各分支的末端知识子节点，得到目标知识分群决策树之前，还包括：从多个系统、多个平台和多个医疗系统获取医学学科知识数据和临床数据，并对医学学科知识数据和临床数据进行数据处理，获得医学规则数据，数据处理包括数据清理处理、数据集成处理、数据规约处理、数据变换处理、特征提取处理、据脱敏处理和分类处理。具体包括：从多个系统和多个平台获取医学学科知识数据，以及从多个医疗系统获取临床数据；分别对医学学科知识数据和临床数据进行数据预处理，数据预处理包括数据清理处理、数据集成处理、数据规约处理和数据变换处理；对经过数据预处理的医学学科知识数据进行特征提取得到特征信息，以及对经过数据预处理的临床数据进行数据脱敏处理和分类得到第一样本数据和第三样本数据；分析特征信息，按照预设分类规则对特征信息进行分类，获得医学规则数据，预设分类规则包括相同和/或相似病症。通过对医学学科知识数据进行数据清理处理、数据集成处理、数据规约处理和数据变换处理的数据预处理，以保证医学学科知识数据的质量，以便于后续对医学学科知识数据的数据分析和数据挖掘。通过对医疗数据中的某些敏感信息按照脱敏规则进行数据的变形，以对医疗数据中的敏感隐私数据进行可靠保护，在保证敏感隐私数据可靠保护的基础上对医疗数据的质量不产生影响。其中，可通过对一个页面可能执行一条结构化查询语言(structured query language，SQL)，以保证各个医疗数据进行脱敏互不干扰。

502、获取待分类人群的特征数据，并通过目标知识分群决策树对特征数据进行分群，得到目标末端知识子节点对应的处理方案，并对处理方案的类别数量进行识别，目标末端知识子节点为特征数据在目标知识分群决策树上的节点位置，处理方案用于指示对相似特征人群的解决渠道。

可选的，上述的对处理方案的类别数量进行识别，具体还包括：计算处理方案之间的相似度获得多个相似度值，并比较多个相似度值是否均在预设范围内；若比较结果为是，则统计处理方案的类别为一个；若比较结果为否，则统计处理方案的类别为多个。通过判断处理方案之间的多个相似度值是否均在预设范围内，以判断处理方案的类别。例如，相似度包括但不限于用药处方的相似度、用药处方结合药品用途的相似度和病症信息结合用药处方的相似度。通过判断处理方案的之间的类型，根据处理方案的类型判断是否构建数据驱动分群模型，以便于根据输入的就诊数据的不同进行不同的操作，进而减少不必要的操作和提高效率，以及保证精准分群。

503、若识别到处理方案的类别数量为一个，则确定待分类人群属于第一特征相似人群，第一特征相似人群为目标知识分群决策树中目标末端知识子节点对应的处理方案所属的特征相似人群。

504、若识别到处理方案的类别数量至少两个，则基于第二分群规则生成数据分群决策树，并确定每个处理方案对应数据分群决策树的数据子节点所处的目标层数，第二分群规则指示根据递归分区算法和处理方案的有效性进行分类。

可选的，上述的基于第二分群规则生成数据分群决策树，并确定每个处理方案对应数据分群决策树的数据子节点所处的目标层数，具体包括：步骤一：将目标末端知识子节点作为数据分群决策树的数据根节点，计算数据根节点对应的处理方案的有效性分值；步骤二：根据每个处理方案的有效性分值对数据根节点进行分支，根据递归分区算法将每个处理方案依次划分到每个分支的数据子节点中，并继续对每个数据子节点对应的处理方案进行有效性分析；步骤三：若当前数据子节点所对应的处理方案的有效性分值大于第一阈值，则对当前数据子节点进行分支；步骤四：重复执行步骤三，直至每个数据子节点所对应的处理方案的有效性分值小于或等于第一阈值，得到数据分群决策树，数据分群决策树包括多个数据子节点，多个数据子节点中每个末端数据叶子节点对应有一个处理方案；步骤五：确定每个处理方案对应的末端数据叶子节点在数据分群决策树中所处的目标层数。根据目标末端知识子节点对应的处理方案的有效性分值和递归分区算法构建数据分群决策树。例如，第一阈值为60分，将数据根节点的处理方案分支为95分以下和95分以上(即对特征相似人群进行分群)，95分以下的有效性分值均大于60分，则将95分以下的有效性分值对应的处理方案进行分支，95分以上的有效性分值均大于60分，则将95分以上的有效性分值对应的处理方案进行分支，依次类推，直到最后分支对应的数据子节点所对应的处理方案的有效性分值小于或等于60分，此时的末端数据叶子节点在数据分群决策树中所处的层数即为目标层数。其中，数据分群决策树在分支时，可通过将处理方案的有效性分值作为参数，将通过测量或测定所得到的对处理方案进行划分的所有有效性分值的划分范围值作为所有观测值，据预置的目标函数和所有观测值对参数进行估计处理得到参数估计值，根据参数估计值评估参数在不同分区的稳定性；若评估结果为不稳定，则分析分区变量，并选择稳定性最低的分区变量进行稳定性评估，直到评估结果为稳定，分区变量用于指示分区的回归量；若评估结果为稳定，则停止评估参数在不同分区的稳定性；基于参数在不同分区的稳定性，根据二分法或变量自适应法获取优化的区域分割规则，二分法用于指示所选子节点的数目为2的一分为二方法，变量自适应法用于指示所选子节点的数目等于分区数量的方法；根据区域分割规则获取与区域分割规则对应的子节点，在与区域分割规则对应的子节点重复执行根据参数估计值评估参数在不同分区的稳定性和根据二分法或变量自适应法获取优化的区域分割规则，直到在评估到参数在不同分区稳定，以将待分类人群和目标知识分群决策树中目标末端子节点对应的特征相似人群进行分群，得到数据分群决策树。采用基于模型的递归分区与临床结局数据强相关的分群规则创建数据分群决策树。通过利用模型的目标函数估计参数和分割点，对每个节点的参数不稳定性进行相应的模型评分，评估应该使用哪个变量进行分区，以利于创建数据分群决策树的非线性关系和自动检测解释变量之间的互动。在创建的过程中：每个节点都与模型相关联；对参数进行稳定性波动分析以评估节点是否需要分裂；若任何一个分区变量存在显著的不稳定性，则将节点分割为局部最优端，并重复该过程。参数的估计可通过得分函数或估计函数进行估计处理。参数在不同分区的稳定性的评估，可通过经验波动过程来捕捉。

可选的，上述的将目标末端知识子节点作为数据分群决策树的数据根节点，计算数据根节点对应的处理方案的有效性分值，具体包括：将目标末端知识子节点作为数据分群决策树的数据根节点；获取数据根节点对应的处理方案的目标特征信息，将目标特征信息拆分成因素因子，计算因素因子在不同水平上的关联度、对预置影响因素的影响度以及因素因子不控制的边缘关联度；通过预置的可压缩准则和可比较准则分析因素因子的关联度、影响度和边缘关联度，得到混杂因子；计算混杂因子与预置影响因素发生概率的回归系数的指数变换值，并以指数变换值作为判定得分，得到数据根节点对应的处理方案的有效性分值，指数变换值的计算公式如下：

p(y＝k|x；w)为指数变换值，w为混杂因子与预置影响因素发生的概率，x为混杂因子，k为预置影响因素的类别数量，y为输出的预测值，y是k的条件概率，K为k的最大值，T为时间周期。例如，目标特征信息可为数据分群决策树的父节点的处理方案中的病症信息，预置影响因素为疾病，影响度为关于疾病的危险度，有效性为药物有效性；混杂因子是指一个与暴露和疾病都有联系的因子，它既是所研究疾病的独立危险因子，在非暴露组中它也必定是一个危险因子。对特征相似人群对应的处理方案进行药物有效性分析以获取存在统计分析意义的子节点，从而快速而准确地通过数据分群决策树对知识分群决策树分群之后再进一步分群。在药物有效性分析过程中，先选取出可能的混杂因子，然后将该混杂因子加入到多变量逻辑回归分析中，最后将药物变量的回归系数的指数变换值作为最终的有效性的判定得分，以获取多个有效值。其中，可通过可压缩准则、可比较准则、虚拟事实模型、图模型作为混杂因子的识别准则，以获取混杂因子。

505、若目标层数为第一层，则将待分类人群划分为第一特征相似人群。

506、若目标层数不为第一层，判断目标层数对应处理方案的有效性分值是否大于第二阈值，第二阈值大于第一阈值。

当识别到目标层数不为第一层时，需要通过数据分群决策树对待分类人群进行进一步分群。获取目标层数对应处理方案的有效性分值，并判断有效性分值是否大于第二阈值，以保证对待分类人群分群的精准度。例如，如图3所示，目标层数为第2层，则获取乙节点的第二特征相似人群对应的处理方案的有效性分值，则分析该有效性分值是否大于第二阈值。

507、若目标层数对应处理方案的有效性分值大于第二阈值，则将有效性分值大于第二阈值的处理方案所位于的数据叶子节点作为目标数据节点，并将待分类人群划分为目标数据节点对应的处理方案所属的特征相似人群，得到第二特征相似人群。

当目标层数对应处理方案的有效性分值大于第二阈值时，不需要对待分类人群和特征相似人群进行进一步分群，该处已为结合知识驱动和数据驱动对待分类人群进行与临床结局数据强相关的分群所得的最终的特征相似人群，以目标层数对应处理方案的有效性分值大于第二阈值所位于数据决策树的目标数据节点对应特征相似人群作为将待分类人群划分的第二特征相似人群。例如，第二阈值为70分，目标层数对应处理方案的有效性分值为80分，则将对应处理方案的有效性分值为80分的数据叶子节点作为目标数据节点，并将待分类人群划分为目标数据节点对应的处理方案所属的特征相似人群(即第二特征相似人群)。

508、若目标层数对应处理方案的有效性分值小于或者等于第二阈值，则分析目标层数的上一层数对应处理方案的有效性分值。

当目标层数对应处理方案的有效性分值小于或者等于第二阈值时，该目标层数对应的特征相似人群还不是对待分类人群分群所划分所属的最终人群，需要分析目标层数的上一层数对应处理方案的有效性分值。有效性分值小于或者等于第二阈值的处理方案对应的特征相似人群与待分类人群的匹配度低，对有效性分值小于或者等于第二阈值对应的节点或之后的节点不再进行分析，以提高操作效率和分群的精准度。

509、若目标层数的上一层数对应处理方案的有效性分值大于第二阈值，则将目标层数的上一层数对应处理方案所位于的数据叶子节点作为目标数据节点，并将待分类人群划分为目标数据节点对应的处理方案所属的特征相似人群，得到第二特征相似人群。

若目标层数的上一层数对应处理方案的有效性分值大于第二阈值，则将待分类人群划分到目标层数的上一层数对应处理方案的有效性分值大于第二阈值对应的数据分群决策树的目标节点的第二特征相似人群，该节点对应的第二特征相似人群为结合知识驱动和数据驱动对待分类人群进行与临床结局数据强相关的分群划分的最终的特征相似人群。若目标层数的上一层数对应处理方案的有效性分值小于或等于第二阈值，则对目标层数的上一层数的上一层数对应处理方案的有效性分值是否大于第二阈值进行判断，以此类推判断，直到分析到对应处理方案的有效性分值大于第二阈值，以处理方案的有效性分值大于第二阈值对应的数据分群决策树的目标节点的特征相似人群作为将待分类人群最终划分的第二特征相似人群。

可选的，上述的若目标层数不为第一层，则将待分类人群划分为第二特征相似人群之后，具体还包括：调用预置的解释模型对第一特征相似人群或第二特征相似人群进行解释处理和可视化图表统计分析处理，得到可解释性特征相似人群，解释处理包括有效性排序处理、匹配度计算处理和匹配度排序处理。具体的，可通过调用预置的解释模型对第一特征相似人群或第二特征相似人群的有效性按照值从大到小的顺序进行排序，得到第一排序信息；计算待分类人群与第一特征相似人群或第二特征相似人群的匹配度，并对匹配度按照值从大到小的顺序进行排序，得到第二排序信息；根据第一排序信息和/或第二排序信息对第一特征相似人群或第二特征相似人群进行排序，并将根据第一排序信息和/或第二排序信息标记在第一特征相似人群或第二特征相似人群上；对标记之后的第一特征相似人群或第二特征相似人群进行可视化图表统计分析处理，生成可视化图表，得到可解释性特征相似人群。通过调用预置的解释模型对第一特征相似人群或第二特征相似人群，以便于用户便捷地获取将待分类人群划分的特征相似人群各项分群数据。

医学辅助决策系统根据本申请的方法所获得的第一特征相似人群，得到第一特征相似人群对应的提供医学知识以及补充相应的真实世界证据的第一循证医学信息，根据本申请的方法所获得的第二特征相似人群，得到第二特征相似人群对应的提供医学知识、补充相应的真实世界证据和结合数据驱动进行分群的第二循证医学信息之后具体的，包括：调用已创建的解释模型分别获取第一样本数据的第一特征信息、第一循证医学证据信息的第二特征信息和/或第二循证医学证据信息的第一特征信息，第一样本数据指示不遵循医学知识规则的临床结局数据；对第一特征信息和第二特征信息进行分析，得到第一分析数据，以及对第一特征信息和和第三特征信息进行分析，得到第二分析数据；对第一特征信息、第二特征信息和第三特征信息进行统计和分析，生成可视化图表；调用已创建的知识图谱，获取知识图谱中与第二特征信息匹配的第一实物信息，以及获取知识图谱中与第三特征信息匹配的第二实物信息；将第一特征信息、第二特征信息、第三特征信息、第一分析数据、第二分析数据、第一实物信息、第二实物信息和可视化图表生成图文结合的分析报告，获得可解释性数据。将解释说明数据生成图文结合的形式显示，以便于用户更好地获悉可解释性数据的内容。通过对第一循证医学证据信息或第二循证医学证据信息进行解释说明得到可解释性数据，以有效地为辅助医生决策提供更加个性化精确化有效性的真实世界证据。

上面对本申请实施例中基于知识驱动和数据驱动的分群方法进行了描述，下面对本申请实施例中基于知识驱动和数据驱动的分群装置进行描述，请参阅图6，本申请实施例中基于知识驱动和数据驱动的分群装置的一个实施例包括：

第一创建单元601，用于根据医学规则数据创建初始知识分群决策树，并将样本数据填充至初始知识分群决策树各分支的末端知识子节点，得到目标知识分群决策树，医学规则数据用于指示对已归档的医学文献、医学共识、医学指南和专家的临床经验的医学学科知识数据进行规则提取处理所得的第一分群规则，第一分群规则用于对临床上的相似特征人群进行分群，样本数据包括遵循医学知识规则的临床上的相似特征人群对应的临床结局数据；

识别单元602，用于获取待分类人群的特征数据，并通过目标知识分群决策树对特征数据进行分群，得到目标末端知识子节点对应的处理方案，并对处理方案的类别数量进行识别，目标末端知识子节点为特征数据在目标知识分群决策树上的节点位置，处理方案用于指示对相似特征人群的解决渠道；

确定单元603，用于若识别到处理方案的类别数量为一个，则确定待分类人群属于第一特征相似人群，第一特征相似人群为目标知识分群决策树中目标末端知识子节点对应的处理方案所属的特征相似人群；

第二创建单元604，用于若识别到处理方案的类别数量为至少两个，则基于第二分群规则生成数据分群决策树，并确定每个处理方案对应数据分群决策树的数据子节点所处的目标层数，第二分群规则指示根据递归分区算法和处理方案的有效性进行分类；

第一划分单元605，用于若目标层数为第一层，则将待分类人群划分为第一特征相似人群；

第二划分单元606，用于若目标层数不为第一层，则将待分类人群划分为第二特征相似人群，第二特征相似人群为数据分群决策树中目标数据节点对应的处理方案所属的特征相似人群，每个目标数据节点对应不同的特征相似人群。

请参阅图7，本申请实施例中基于知识驱动和数据驱动的分群装置的另一个实施例包括：

第一创建单元601，用于根据医学规则数据创建初始知识分群决策树，并将样本数据填充至初始知识分群决策树各分支的末端知识子节点，得到目标知识分群决策树，医学规则数据用于指示对已归档的医学文献、医学共识、医学指南和专家的临床经验的医学学科知识数据进行规则提取处理所得的第一分群规则，第一分群规则用于对临床上的相似患者进行分群，样本数据包括遵循医学知识规则的临床上的相似特征人群对应的临床结局数据；

第二创建单元604，用于若识别到处理方案的类别数量至少两个，则基于第二分群规则生成数据分群决策树，并确定每个处理方案对应数据分群决策树的数据子节点所处的目标层数，第二分群规则指示根据递归分区算法和处理方案的有效性进行分类；

判断单元606，用于目标层数不为第一层，判断目标层数对应处理方案的有效性分值是否大于第二阈值，第二阈值大于第一阈值；

第三划分单元607，用于若目标层数对应处理方案的有效性分值大于第二阈值，则将有效性分值大于第二阈值的处理方案所位于的数据叶子节点作为目标数据节点，并将待分类人群划分为目标数据节点对应的处理方案所属的特征相似人群，得到第二特征相似人群；

分析单元608，用于若目标层数对应处理方案的有效性分值小于或者等于第二阈值，则分析目标层数的上一层数对应处理方案的有效性分值；

第三划分单元609，用于若目标层数的上一层数对应处理方案的有效性分值大于第二阈值，则将目标层数的上一层数对应处理方案所位于的数据叶子节点作为目标数据节点，并将待分类人群划分为目标数据节点对应的处理方案所属的特征相似人群，得到第二特征相似人群。

可选的，第二创建单元604具体用于：步骤一：将所述目标末端知识子节点作为所述数据分群决策树的数据根节点，计算所述数据根节点对应的处理方案的有效性分值；步骤二：根据每个处理方案的有效性分值对所述数据根节点进行分支，根据递归分区算法将每个处理方案依次划分到每个分支的数据子节点中，并继续对每个数据子节点对应的处理方案进行有效性分析；步骤三：若当前数据子节点所对应的处理方案的有效性分值大于第一阈值，则对所述当前数据子节点进行分支；步骤四：重复执行步骤三，直至每个数据子节点所对应的处理方案的有效性分值小于或等于所述第一阈值，得到数据分群决策树，所述数据分群决策树包括多个数据子节点，所述多个数据子节点中每个末端数据叶子节点对应有一个处理方案；步骤五：确定每个处理方案对应的末端数据叶子节点在所述数据分群决策树中所处的目标层数。

可选的，第二创建单元604具体用于：将所述目标末端知识子节点作为所述数据分群决策树的数据根节点；获取所述数据根节点对应的处理方案的目标特征信息，将目标特征信息拆分成因素因子；计算因素因子在不同水平上的关联度、对预置影响因素的影响度以及因素因子不控制的边缘关联度；通过预置的可压缩准则和可比较准则分析因素因子的关联度、影响度和边缘关联度，得到混杂因子；计算混杂因子与预置影响因素发生概率的回归系数的指数变换值，并以指数变换值作为判定得分，得到数据根节点对应的处理方案的有效性分值，指数变换值的计算公式如下：

p(y＝k|x；w)为指数变换值，w为混杂因子与预置影响因素发生的概率，x为混杂因子，k为预置影响因素的类别数量，y为输出的预测值，y是k的条件概率，K为k的最大值，T为时间周期。

可选的，基于知识驱动和数据驱动的分群装置，还包括：处理单元，用于从多个系统、多个平台和多个医疗系统获取医学学科知识数据和临床数据，并对医学学科知识数据和临床数据进行数据处理，获得医学规则数据，数据处理包括数据清理处理、数据集成处理、数据规约处理、数据变换处理、特征提取处理、据脱敏处理和分类处理。处理单元具体用于：从多个系统和多个平台获取医学学科知识数据，以及从多个医疗系统获取临床数据；分别对医学学科知识数据和临床数据进行数据预处理，数据预处理包括数据清理处理、数据集成处理、数据规约处理和数据变换处理；对经过数据预处理的医学学科知识数据进行特征提取得到特征信息，以及对经过数据预处理的临床数据进行数据脱敏处理和分类得到第一样本数据和第三样本数据；分析特征信息，按照预设分类规则对特征信息进行分类，获得医学规则数据，预设分类规则包括相同和/或相似病症。

可选的，识别单元602具体用于：计算处理方案之间的相似度获得多个相似度值，并比较多个相似度值是否均在预设范围内；若比较结果为是，则统计处理方案的类别为一个；若比较结果为否，则统计处理方案的类别为多个。

可选的，基于知识驱动和数据驱动的分群装置，还包括：调用单元，用于调用预置的解释模型对第一特征相似人群或第二特征相似人群进行解释处理和可视化图表统计分析处理，得到可解释性特征相似人群，解释处理包括有效性排序处理、匹配度计算处理和匹配度排序处理。调用单元具体用于：调用预置的解释模型对第一特征相似人群或第二特征相似人群的有效性按照值从大到小的顺序进行排序，得到第一排序信息；计算待分类人群与第一特征相似人群或第二特征相似人群的匹配度，并对匹配度按照值从大到小的顺序进行排序，得到第二排序信息；根据第一排序信息和/或第二排序信息对第一特征相似人群或第二特征相似人群进行排序，并将根据第一排序信息和/或第二排序信息标记在第一特征相似人群或第二特征相似人群上；对标记之后的第一特征相似人群或第二特征相似人群进行可视化图表统计分析处理，生成可视化图表，得到可解释性特征相似人群。

上面图6至图7从模块化功能实体的角度对本申请实施例中的基于知识驱动和数据驱动的分群设备进行详细描述，下面从硬件处理的角度对本申请实施例中基于知识驱动和数据驱动的分群设备进行详细描述。

图8是本申请实施例提供的一种基于知识驱动和数据驱动的分群设备的结构示意图，该基于知识驱动和数据驱动的分群设备800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)801(例如，一个或一个以上处理器)和存储器809，一个或一个以上存储应用程序807或数据806的存储介质808(例如一个或一个以上海量存储装置)。其中，存储器809和存储介质808可以是短暂存储或持久存储。存储在存储介质808的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对签到管理设备中的一系列指令操作。更进一步地，处理器801可以设置为与存储介质808通信，在基于知识驱动和数据驱动的分群设备800上执行存储介质808中的一系列指令操作。

基于知识驱动和数据驱动的分群设备800还可以包括一个或一个以上电源802，一个或一个以上有线或无线网络接口803，一个或一个以上输入输出接口804，和/或，一个或一个以上操作系统805，例如Windows Serve，Mac OS X，Unix，Linux，FreeBSD等等。本领域技术人员可以理解，图8中示出的基于知识驱动和数据驱动的分群设备结构并不构成对基于知识驱动和数据驱动的分群设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。处理器801可以执行上述实施例中第一创建单元601、识别单元602、第二创建单元603、第一分析单元604、第一标记单元605、第二分析单元606、第二标记单元607、第一输出单元608、第二输出单元609、分类单元610和第一调用单元611的功能。

下面结合图8对基于知识驱动和数据驱动的分群设备的各个构成部件进行具体的介绍：

处理器801是基于知识驱动和数据驱动的分群设备的控制中心，可以按照基于知识驱动和数据驱动的分群方法进行处理。处理器801利用各种接口和线路连接整个基于知识驱动和数据驱动的分群设备的各个部分，通过运行或执行存储在存储器809内的软件程序和/或模块，以及调用存储在存储器809内的数据，执行基于知识驱动和数据驱动的分群设备的各种功能和处理数据，从而实现提高案件检索系统的可用性的功能。存储介质808和存储器809都是存储数据的载体，本申请实施例中，存储介质808可以是指储存容量较小，但速度快的内存储器，而存储器809可以是储存容量大，但储存速度慢的外存储器。

存储器809可用于存储软件程序以及模块，处理器801通过运行存储在存储器809的软件程序以及模块，从而执行基于知识驱动和数据驱动的分群设备800的各种功能应用以及数据处理。存储器809可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(获取待分类人群的特征数据等)等；存储数据区可存储根据签到管理设备的使用所创建的数据(通过目标知识分群决策树对特征数据进行分群，得到目标末端子节点对应的处理方案，并对处理方案的类别数量进行识别等)等。此外，存储器809可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。在本申请实施例中提供的基于知识驱动和数据驱动的分群方法程序和接收到的数据流存储在存储器中，当需要使用时，处理器801从存储器809中调用。

在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、双绞线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，光盘)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

Claims

1.一种基于知识驱动和数据驱动的分群方法，其特征在于，所述方法包括：

根据医学规则数据创建初始知识分群决策树，并将样本数据填充至所述初始知识分群决策树各分支的末端知识子节点，得到目标知识分群决策树，所述医学规则数据用于指示对已归档的医学文献、医学共识、医学指南和专家的临床经验的医学学科知识数据进行规则提取处理所得的第一分群规则，所述第一分群规则用于对临床上的相似特征人群进行分群，所述样本数据包括遵循医学知识规则的临床上的相似特征人群对应的临床结局数据；

获取待分类人群的特征数据，并通过所述目标知识分群决策树对所述特征数据进行分群，得到目标末端知识子节点对应的处理方案，并对所述处理方案的类别数量进行识别，所述目标末端知识子节点为所述特征数据在所述目标知识分群决策树上的节点位置，所述处理方案用于指示对相似特征人群的解决渠道；

若识别到所述处理方案的类别数量为一个，则确定所述待分类人群属于第一特征相似人群，所述第一特征相似人群为所述目标知识分群决策树中目标末端知识子节点对应的处理方案所属的特征相似人群；

若识别到所述处理方案的类别数量为至少两个，则基于第二分群规则生成数据分群决策树，并确定每个处理方案对应所述数据分群决策树的数据子节点所处的目标层数，所述第二分群规则指示根据递归分区算法和处理方案的有效性进行分类；

若所述目标层数为第一层，则将所述待分类人群划分为所述第一特征相似人群；

若所述目标层数不为第一层，则将所述待分类人群划分为第二特征相似人群，所述第二特征相似人群为所述数据分群决策树中目标数据节点对应的处理方案所属的特征相似人群，每个目标数据节点对应不同的特征相似人群。

2.根据权利要求1所述的基于知识驱动和数据驱动的分群方法，其特征在于，所述基于第二分群规则生成数据分群决策树，并确定每个处理方案对应所述数据分群决策树的数据子节点所处的目标层数，包括：

步骤一：将所述目标末端知识子节点作为所述数据分群决策树的数据根节点，计算所述数据根节点对应的样本数据中处理方案的有效性分值；

步骤二：根据每个处理方案的有效性分值对所述数据根节点进行分支，根据递归分区算法将每个处理方案依次划分到每个分支的数据子节点中，并继续对每个数据子节点对应的处理方案进行有效性分析；

步骤三：若当前数据子节点所对应的处理方案的有效性分值大于第一阈值，则对所述当前数据子节点进行分支；

步骤四：重复执行步骤三，直至每个数据子节点所对应的处理方案的有效性分值小于或等于所述第一阈值，得到数据分群决策树，所述数据分群决策树包括多个数据子节点，所述多个数据子节点中每个末端数据叶子节点对应有一个处理方案；

步骤五：确定每个处理方案对应的末端数据叶子节点在所述数据分群决策树中所处的目标层数。

3.根据权利要求2所述的基于知识驱动和数据驱动的分群方法，其特征在于，所述将所述目标末端知识子节点作为所述数据分群决策树的数据根节点，计算所述数据根节点对应的处理方案的有效性分值，包括：

将所述目标末端知识子节点作为所述数据分群决策树的数据根节点；

获取所述数据根节点对应的样本数据中处理方案的目标特征信息，将所述目标特征信息拆分成因素因子；

计算所述因素因子在不同水平上的关联度、对预置影响因素的影响度以及所述因素因子不控制的边缘关联度；

通过预置的可压缩准则和可比较准则分析所述关联度、所述影响度和所述边缘关联度，得到混杂因子；

计算所述混杂因子与所述预置影响因素发生概率的回归系数的指数变换值，并以所述指数变换值作为判定得分，得到所述数据根节点对应的处理方案的有效性分值，所述指数变换值的计算公式如下：

4.根据权利要求2所述的基于知识驱动和数据驱动的分群方法，其特征在于，所述若所述目标层数不为第一层，则将所述待分类人群划分为第二特征相似人群，包括：

若所述目标层数不为第一层，判断所述目标层数对应处理方案的有效性分值是否大于第二阈值，所述第二阈值大于所述第一阈值；

若所述目标层数对应处理方案的有效性分值大于第二阈值，则将有效性分值大于第二阈值的处理方案所位于的数据叶子节点作为目标数据节点，并将所述待分类人群划分为所述目标数据节点对应的处理方案所属的特征相似人群，得到第二特征相似人群；

若所述目标层数对应处理方案的有效性分值小于或者等于第二阈值，则分析所述目标层数的上一层数对应处理方案的有效性分值；

若所述目标层数的上一层数对应处理方案的有效性分值大于第二阈值，则将所述目标层数的上一层数对应处理方案所位于的数据叶子节点作为目标数据节点，并将所述待分类人群划分为所述目标数据节点对应的处理方案所属的特征相似人群，得到第二特征相似人群。

5.根据权利要求1所述的基于知识驱动和数据驱动的分群方法，其特征在于，所述根据医学规则数据创建初始知识分群决策树，并将样本数据填充至所述初始知识分群决策树各分支的末端知识子节点，得到目标知识分群决策树之前，所述方法还包括：

从多个系统、多个平台和多个医疗系统获取医学学科知识数据和临床数据，并对所述医学学科知识数据和所述临床数据进行数据处理，获得医学规则数据，所述数据处理包括数据清理处理、数据集成处理、数据规约处理、数据变换处理、特征提取处理、据脱敏处理和分类处理。

6.根据权利要求1所述的基于知识驱动和数据驱动的分群方法，其特征在于，所述对所述处理方案的类别数量进行识别，包括：

计算所述处理方案之间的相似度获得多个相似度值，并比较多个所述相似度值是否均在预设范围内；

若比较结果为是，则统计所述处理方案的类别为一个；

若比较结果为否，则统计所述处理方案的类别为多个。

7.根据权利要求1-6中任一项所述的基于知识驱动和数据驱动的分群方法，其特征在于，所述若所述目标层数不为第一层，则将所述待分类人群划分为第二特征相似人群之后，所述方法还包括：

调用预置的解释模型对所述第一特征相似人群或所述第二特征相似人群进行解释处理和可视化图表统计分析处理，得到可解释性特征相似人群，所述解释处理包括有效性排序处理、匹配度计算处理和匹配度排序处理。

8.一种基于知识驱动和数据驱动的分群装置，其特征在于，所述装置包括：

第一创建单元，用于根据医学规则数据创建初始知识分群决策树，并将样本数据填充至所述初始知识分群决策树各分支的末端知识子节点，得到目标知识分群决策树，所述医学规则数据用于指示对已归档的医学文献、医学共识、医学指南和专家的临床经验的医学学科知识数据进行规则提取处理所得的第一分群规则，所述第一分群规则用于对临床上的相似特征人群进行分群，所述样本数据包括遵循医学知识规则的临床上的相似特征人群对应的临床结局数据；

识别单元，用于获取待分类人群的特征数据，并通过所述目标知识分群决策树对所述特征数据进行分群，得到目标末端知识子节点对应的处理方案，并对所述处理方案的类别数量进行识别，所述目标末端知识子节点为所述特征数据在所述目标知识分群决策树上的节点位置，所述处理方案用于指示对相似特征人群的解决渠道；

确定单元，用于若识别到所述处理方案的类别数量为一个，则确定所述待分类人群属于第一特征相似人群，所述第一特征相似人群为所述目标知识分群决策树中目标末端知识子节点对应的处理方案所属的特征相似人群；

第二创建单元，用于若识别到所述处理方案的类别数量为至少两个，则基于第二分群规则生成数据分群决策树，并确定每个处理方案对应所述数据分群决策树的数据子节点所处的目标层数，所述第二分群规则指示根据递归分区算法和处理方案的有效性进行分类各分支的末端子节点的；

第一划分单元，用于若所述目标层数为第一层，则将所述待分类人群划分为所述第一特征相似人群；

第二划分单元，用于若所述目标层数不为第一层，则将所述待分类人群划分为第二特征相似人群，所述第二特征相似人群为所述数据分群决策树中目标数据节点对应的处理方案所属的特征相似人群，每个目标数据节点对应不同的特征相似人群。

9.一种基于知识驱动和数据驱动的分群设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述的基于知识驱动和数据驱动的分群方法。

10.一种计算机可读存储介质，其特征在于，包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1-7中任意一项所述的基于知识驱动和数据驱动的分群方法。