CN111309852B

CN111309852B - 生成可视化决策树集模型的方法、系统、装置及存储介质

Info

Publication number: CN111309852B
Application number: CN202010181551.8A
Authority: CN
Inventors: 吴一多; 杨斌; 李琴; 马婷婷; 张建
Original assignee: Qingdao Baiyang Intelligent Technology Co ltd
Current assignee: Baiyang Intelligent Technology Group Co ltd
Priority date: 2020-03-16
Filing date: 2020-03-16
Publication date: 2021-09-03
Anticipated expiration: 2040-03-16
Also published as: CN111309852A

Abstract

本发明涉及一种生成可视化决策树(集)模型的方法、系统、装置及存储介质，其中的方法包括：将医疗指南中的决策知识以数据结构化的形式整理为规则集；对规则集进行拆分，在以不补充缺失值状态的情况下，统计决策树的数量N，N≥1；分别取N棵决策树中所对应的规则集，以规则集为输入，以一棵决策树为输出构建决策树模型，生成每棵决策树的数据结构模型；将构建的每棵决策树的数据结构模型进行可视化处理，生成可视化决策树模型，并将可视化决策树模型以图像的形式进行保存。本发明确保了生成的决策树(集)与原始规则集具有推理等效性，可视化效果好。

Description

生成可视化决策树集模型的方法、系统、装置及存储介质

技术领域

本发明属于数据处理技术领域，涉及医疗数据处理技术，具体地说，涉及一种医疗指南规则集生成可视化决策树集模型的方法、系统、装置及存储介质。

背景技术

基于医疗指南研发人工智能辅助决策支持系统是医疗人工智能的重要应用场景之一。医疗临床智能决策支持系统作为一种医疗人工智能系统，包括基于医疗指南规则形成的逻辑规则，从而构建本体模型形成的逻辑推理系统，是人工智能领域专家系统的进一步发展。该实现方式是首先理解医疗业务知识，从医疗资料、医疗指南、医疗文献中抽取医疗概念、属性等，并将文本描述的文字语言按照逻辑规则语言(如：SWRL)等形成规则集，最终形成基于医疗指南的知识图谱，构建临床辅助决策支持系统。

在构建医疗指南的过程中，需要通过人工或技术手段实现从医疗指南文本资料到满足计算机系统应用需求的指示和规则，医疗指南中的规则描述分为不同的应用场景和情形，因此会形成包括众多规则的规则集。规则集的构建完全是医疗指南文字描述转换成计算机可以理解的逻辑化语言，规则集构建后需要经过医学专家的确认才能保证规则的有效性，然后用于构建辅助决策系统。而规则的描述一般为自然逻辑语言描述，医学人员难以理解，因此，需要将所有规则集转化为可视化决策树，使医学人员可以直观理解。

国外对于从规则集生成可视化决策树算法有一定的研究，但多是从规则集中根据一定的算法处理对原始规则集进行一定的修改生成的决策树，如RBDT-1，RBDT-2方法等。另外还有一些决策树的生成算法，如机器学习常用算法ID3、C4.5算法等，该类算法是从真实世界的数据集中提取规则进而生成决策树，该算法还必须有一个前提条件，就是必须满足数据的齐整性和完备性，即所有的规则涉及的指标每条规则中都必须有值，而基于医疗指南生成的规则多数存在指标项缺失的情况，不能保证生成的决策树与原始规则集完全等效，可视化效果差。

国内学者也有相关研究，如根据ID3从数据集生成的规则集，利用AO、AD、MVD属性选择算法进行树的分裂属性的选择，描述了一种从规则到决策树的生成方法。但是没有描述针对在树的构造过程中所有备选属性都存在交错属性值缺失情况下的具体树的构造情形，不能保证生成的决策数与原始规则集完全等效，可视化效果差。

上述方法还必须保证规则集可以构成一棵树为前提，如果规则集不能构成一棵树，则上述方法都不能应用，因此以上方法都不能满足医疗指南规则集生成决策树集的实际的需求。

发明内容

本发明针对现有技术存在的上述问题，提供了一种医疗指南规则集生成可视化决策树集模型的方法、系统、装置及存储介质。

为了达到上述目的，本发明提供了一种医疗指南规则集生成可视化决策树集模型的方法，含有以下步骤：

将医疗指南中的决策知识以数据结构化的形式整理为规则集；

对规则集进行拆分，在以不补充缺失值状态的情况下，统计决策树的数量为N，N≥1；

分别取N棵决策树中所对应的规则集，以规则集为输入，以一棵决策树为输出构建决策树模型，生成每棵决策树的数据结构模型；

将构建的每棵决策树的数据结构模型进行可视化处理，生成可视化决策树模型，并将可视化决策树模型以图像的形式进行保存。

优选的，以一阶逻辑的方式获取医疗指南的决策知识，并采用txt文本格式或excel格式以第一行为属性行、第一行最后一列为决策结果列的数据结构化形式整理成规则集。

优选的，统计决策树数量的具体步骤为：

(1)设定规则集的总行数量为R，计算规则集每个属性所在列的非空行项所在行的数量，并根据数量值从高到低排序；

(2)若存在某一个属性的的数量值等于R，则选择该属性为树的根节点，并且规则集至少生成一棵决策树；若不存在某一个属性的的数量值等于R，则以当前属性为根节点，其非空项所在行为内容构成一个树进行存储，规则集中其余规则数据进入步骤(1)迭代；

经过步骤(1)和步骤(2)，规则集最终形成N棵决策树。

优选的，构建决策树模型的具体步骤为：

删除规则集中行全为空的属性列；

遍历每棵树中的规则集，判断是否为叶子节点，若是叶子节点，生成叶子节点及叶子名称，决策书模型构建完成；若不是叶子节点，对规则集中所有的属性列根据其非空项所在行的数量通过公式(1)进行统计，公式(1)表示为：

式中，

选择排序第1的属性，若该属性的的数量值等于R，则以该属性为分裂节点，该属性非空项所在行对应的规则集通过构建的当前属性分支分裂机制模型去除分支属性，将对应规则集根据属性的值生成对应的数据结构模型，遍历这些分支属性对应的规则集，判断是否为叶子节点，若是叶子节点，生成叶子节点及叶子名称；若该属性的的数量值不等于R，选择前N个属性，从N＝1开始，直至前N个属性的非空项所在行覆盖了所有的规则集，遍历前N个属性，每个属性非空项所在行对应的规则集通过当前属性分支分裂机制模型去除分支属性，将每个属性对应规则集根据每个属性的值生成对应的数据结构模型，遍历这些分支属性对应的规则集，判断是否为叶子节点，若是叶子节点，生成叶子节点及叶子名称，决策树模型构建完成。

优选的，当前属性分支分裂机制模型是以规则集及选择的属性为输入，以属性的值类别及对应的规则集形式的数据结构为输出的模型，当前属性分支分裂机制模型构建过程中，

遍历规则集，通过分裂输入属性项逐步构建决策树，以选择属性的值为key，生成对应的规则集形式为{key，规则集}或{key，规则}的形式数据结构的字典；

遍历字典，判断去除属性为空的项后是否存在属性全为空的行，若存在属性全为空的行，只剩决策项，遍历属性全为空的行，拆分对应的key值；若存在属性项值完全一样，决策项目不一样的情况时，遍历这些规则集，存储输出形式为{key，规则}的形式数据结构的字典，其中一个键值key只对应一条规则；否则，存储输出形式为{key，规则集}的形式数据结构的字典，其中一个键值key只对应一个规则集；重复上述过程，直至遍历所有规则集，当前属性分支分裂机制模型构建完成。

第二方面，为了达到上述目的，本发明还提供了一种医疗指南规则集生成可视化决策树模型的系统，包括：

指南规则化单元，用于将医疗指南中的决策知识以数据结构化的形式整理为规则集；

决策树模型构建模块，用于对规则集进行拆分，在以不补充缺失值状态的情况下，统计决策树的数量；并用于分别取N棵树中所对应的规则集，以规则集为输入，以一棵决策树为输出构建决策树模型，生成每棵决策树的数据结构模型；

可视化单元，用于将构建的每棵决策树的数据结构模型进行可视化处理，生成可视化决策树模型，并将可视化决策树模型以图像的形式进行保存。

第三方面，为了达到上述目的，本发明还提供了一种电子装置，该电子装置包括处理器、存储器以及存储在所述存储器并可在所述处理器上与进行的计算机程序，所述处理器执行所述计算机程序时实现上述医疗指南规则集生成可视化决策树模型的方法的步骤。

第四方面，为了达到上述目的，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质中包括计算机程序，所述计算机程序被处理器执行时，实现上述医疗指南规则集生成可视化决策树模型的方法的步骤。

与现有技术相比，本发明的优点和积极效果在于：

(1)本发明在构建可视化决策树模型的过程中，首先判断生成决策树的规则集能够生成一棵树，如果不能，则生成多棵决策树(即决策树集)，且规则集是基于医学指南形成的，医疗场景的任何指标限制条件都不能缺失，确保了生成的决策树集与原始规则集具有推理等效性，通过本发明构建的决策树模型不仅能够生成一棵可视化决策树，还可以生成多棵决策树，即生成可视化决策树集。

(2)本发明在决策树的分裂属性的选择上充分考虑各种属性缺失值的情况，当备选属性都存在值缺失情况下，通过属性覆盖的规则集的数量从大到小排序，通过遍历选择前N个首先可以覆盖所有规则集的多个属性分别同时进行树的分裂，解决了属性条件完全相同但结论不同的规则集的结论分别单独成叶子节点的情况，该情况在医疗场景的多指南情况中为常见情况，方便为叶子节点标记指南归属标记。

(3)本发明生成的决策树图形中在树的枝上进行指标值的描述，节点作为指标描述，可视化效果更好，医学人员更容易理解。

附图说明

图1为本发明所述医疗指南规则集生成可视化决策树集模型的方法的流程图；

图2为本发明实施例构建决策树模型的流程图；

图3为本发明实施例规则集示意图；

图4-5为本发明实施例生成的决策树示意图；

图6为本发明实施例医疗指南规则集生成可视化决策树集模型的系统结构框图；

图7为本发明实施例电子装置的结构框图。

具体实施方式

下面，通过示例性的实施方式对本发明进行具体描述。然而应当理解，在没有进一步叙述的情况下，一个实施方式中的元件、结构和特征也可以有益地结合到其他实施方式中。

本发明实施例可以应用于计算机系统/服务器等电子设备，可与众多其他通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器等电子设备仪器使用的众所周知的计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、基于微处理器的系统、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。

针对现有医疗临床智能辅助决策系统中，对从医疗指南中抽取决策知识生成规则集，并将规则集生成可视化决策树过程中，存在在不进行缺失数据处理的情况下不能保证生成一棵树，且不能保证生成的树与原始规则集完全等效，生成的树可视化结果的直观性差等问题，本发明提供了一种生成可视化决策树模型的方法、系统、装置及存储介质。通过首先判断生成树的规则集能否生成一棵树，若不能，则生成多棵树的方式构建决策树模型，规则集是基于医疗指南形成的，医疗场景的任何指标限制条件都不能缺失，确保了生成的决策树集与原始规则集具有推理等效性。

以下结合附图及具体实施例对本发明上述生成可视化决策树模型的方法、系统、装置及存储介质进行详细描述。

实施例1：参见图1，本实施例提供了一种医疗指南规则集生成可视化决策树集模型的方法，含有以下步骤：

S1、将医疗指南中的决策知识以数据结构化的形式整理为规则集。

具体地，以一阶逻辑的方式获取医疗指南的决策知识，并采用txt文本格式或excel格式以第一行为属性行、第一行最后一列为决策结果列的数据结构化形式整理成规则集，其中，规则集结构化空属性标记为空。

S2、对规则集进行拆分，在以不补充缺失值状态的情况下，统计决策树的数量为N，N≥1；分别取N棵决策树中所对应的规则集，以规则集为输入，以一棵决策树为输出构建决策树模型，生成每棵决策树的数据结构模型。

具体地，参见图2，构建决策树模型的具体步骤为：

(一)统计决策树数量

经过步骤(1)和步骤(2)，规则集最终形成N棵决策树。

(二)构建决策树模型

(1)删除规则集中行全为空的属性列；

(2)遍历每棵树中的规则集，判断是否为叶子节点，若是叶子节点，生成叶子节点及叶子名称，决策书模型构建完成。若不是叶子节点，对规则集中所有的属性列根据其非空项所在行的数量通过公式(1)进行统计，公式(1)表示为：

式中，

具体地，当前属性分支分裂机制模型是以规则集及选择的属性为输入，以属性的值类别及对应的规则集形式的数据结构为输出的模型，当前属性分支分裂机制模型构建过程中，

S3、将构建的每棵决策树的数据结构模型进行可视化处理，生成可视化决策树模型，并将可视化决策树模型以图像的形式进行保存。

为了更好地说明上述方法的可视化效果。以图3所示的规则集为例，通过本实施上述方法构建的可视化决策树模型参见图4、图5，由图4、图5可清楚的了解医疗指南规则集中的规则。

本实施例上述方法，以属性非空的行所覆盖的规则的数量从大到校的顺序排列，根据增1迭代方法选择能够覆盖所有规则项的最少属性为树的分支属性(叶子节点)，在属性和值都相同决策项不同的情况下，以多枝叶的数据形式和可视化方式展现，树的分支数量完全匹配等效原有规则及数量，对于医疗多指南对于同一业务的指导下由较好的区分和标记特性，可视化效果更好，医学人员更容易理解。

实施例2：参见图6，本实施例提供了一种医疗指南规则集生成可视化决策树模型的系统，包括：

指南规则化单元1，用于将医疗指南中的决策知识以数据结构化的形式整理为规则集；

决策树模型构建单元2，用于对规则集进行拆分，在以不补充缺失值状态的情况下，统计决策树的数量；并分别取N棵树中所对应的规则集，以规则集为输入，以一棵决策树为输出构建决策树模型，生成每棵决策树的数据结构模型；

可视化单元3，用于将构建的每棵决策树的数据结构模型进行可视化处理，生成可视化决策树模型，并将可视化决策树模型以图像的形式进行保存。

具体地，所述决策树模型构建单元2包括：

计算单元21，用于对规则集进行拆分，在以不补充缺失值状态的情况下，统计决策树的数量；

根节点生成模块22，用于判断规则集中的属性是否为根节点，并生成根节点；

叶子节点生成模块23，用于判断规则集中的属性是否为叶子节点，并生成叶子节点；

属性判断模块24，用于判断规则集中的属性不是叶子节点时，该属性非空项所在行是否覆盖所有规则集；

当前属性分支分裂机制模型构建模块25，用于以当前属性为分裂属性，以该属性值为key，以剩余属性的规则集所在行为value，构建出当前属性分裂出的一个数据结构，用于下一步生成树迭代，所述当前属性分支分裂机制模型构建完成；

决策树模型构建模块26，直至遍历规则集中的所有属性，无叶子节点生成，所述决策树模型构建完成。

本实施例提供的系统，指南规则化单元1、决策树模型构建单元2、可视化单元3实现的功能与实施例1中的方法一一对应，此处不在赘述。

本实施例上述系统，将医疗指南的规则集以一棵树或多棵树通过多枝叶的数据形式和可视化方式展现，树的分支数量完全匹配等效原有规则集数量，该方式对于医疗多指南对于同一业务的指导情况下有较好的区分和标记特性。可视化效果更好，医学人员更容易理解。

实施例3：参见图7，本实施例提供了一种电子装置4，该电子装置4包括处理器41、存储器42以及存储在所述存储器42并可在所述处理器41上与进行的计算机程序43，所述处理器执行所述计算机程序时实现实施例1所述医疗指南规则集生成可视化决策树模型的方法的步骤，为了避免重复，此处不在赘述。处理器执行所述计算机程序时实现实施例2中所述医疗指南规则集生成可视化决策树模型的系统中各模块/单元的功能，为了避免重复，这里同样不再赘述。

实施例4：本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质中包括计算机程序，所述计算机程序被处理器执行时，实现上述医疗指南规则集生成可视化决策树模型的方法的步骤。或者该计算机程序被处理器执行时实现实施例2中所述医疗指南规则集生成可视化决策树模型的系统中各模块/单元的功能，为了避免重复，这里同样不再赘述。

上述实施例用来解释本发明，而不是对本发明进行限制，在本发明的精神和权利要求的保护范围内，对本发明做出的任何修改和改变，都落入本发明的保护范围。

Claims

1.一种医疗指南规则集生成可视化决策树集模型的方法，其特征在于，含有以下步骤：

对规则集进行拆分，在以不补充缺失值状态的情况下，统计决策树的数量为N，N≥1；分别取N棵决策树中所对应的规则集，以规则集为输入，以一棵决策树为输出构建决策树模型，生成每棵决策树的数据结构模型；

统计决策树数量的具体步骤为：

(1)设定规则集的总行数量为R，计算规则集每个属性所在列的非空行项所在行C_n的数量，并根据数量值从高到低排序；

(2)若存在某一个属性的C_n的数量值等于R，则选择该属性为树的根节点，并且规则集至少生成一棵决策树；若不存在某一个属性的C_n的数量值等于R，则以当前属性为根节点，其非空项所在行为内容构成一个树进行存储，规则集中其余规则数据进入步骤(1)迭代；

经过步骤(1)和步骤(2)，规则集最终形成N棵决策树；

构建决策树模型的具体步骤为：

删除规则集中行全为空的属性列；

遍历每棵树中的规则集，判断是否为叶子节点，若是叶子节点，生成叶子节点及叶子名称，决策树模型构建完成；若不是叶子节点，对规则集中所有的属性列根据其非空项所在行C_n的数量通过公式(1)进行统计，公式(1)表示为：

式中，

选择排序第1的属性，若该属性的C_n的数量值等于R，则以该属性为分裂节点，该属性非空项所在行对应的规则集通过构建的当前属性分支分裂机制模型去除分支属性，将对应规则集根据属性的值生成对应的数据结构模型，遍历这些分支属性对应的规则集，判断是否为叶子节点，若是叶子节点，生成生成叶子节点及叶子名称；若该属性的C_n的数量值不等于R，选择前N个属性，从N＝1开始，直至前N个属性的非空项所在行覆盖了所有的规则集，遍历前N个属性，每个属性非空项所在行对应的规则集通过当前属性分支分裂机制模型去除分支属性，将每个属性对应规则集根据每个属性的值生成对应的数据结构模型，遍历这些分支属性对应的规则集，判断是否为叶子节点，若是叶子节点，生成叶子节点及叶子名称，决策树模型构建完成；

当前属性分支分裂机制模型是以规则集及选择的属性为输入，以属性的值类别及对应的规则集形式的数据结构为输出的模型，当前属性分支分裂机制模型构建过程中，遍历规则集，通过分裂输入属性项逐步构建决策树，以选择属性的值为key，生成对应的规则集形式为{key，规则集}或{key，规则}的形式数据结构的字典；遍历字典，判断去除属性为空的项后是否存在属性全为空的行，若存在属性全为空的行，只剩决策项，遍历属性全为空的行，拆分对应的key值；若存在属性项值完全一样，决策项目不一样的情况时，遍历这些规则集，存储输出形式为{key，规则}的形式数据结构的字典，其中一个键值key只对应一条规则；否则，存储输出形式为{key，规则集}的形式数据结构的字典，其中一个键值key只对应一个规则集；重复上述过程，直至遍历所有规则集，当前属性分支分裂机制模型构建完成；

2.如权利要求1所述的医疗指南规则集生成可视化决策树集模型的方法，其特征在于，以一阶逻辑的方式获取医疗指南的决策知识，并采用txt文本格式或excel格式以第一行为属性行、第一行最后一列为决策结果列的数据结构化形式整理成规则集。

3.一种医疗指南规则集生成可视化决策树集模型的系统，其特征在于，包括：

决策树模型构建单元，用于对规则集进行拆分，在以不补充缺失值状态的情况下，统计决策树的数量；并分别取N棵树中所对应的规则集，以规则集为输入，以一棵决策树为输出构建决策树模型，生成每棵决策树的数据结构模型；

统计决策树数量的具体步骤为：

经过步骤(1)和步骤(2)，规则集最终形成N棵决策树；

构建决策树模型的具体步骤为：

删除规则集中行全为空的属性列；

式中，

4.如权利要求3所述的医疗指南规则集生成可视化决策树集模型的系统，其特征在于，所述决策树模型构建单元包括：

计算单元，用于对规则集进行拆分，在以不补充缺失值状态的情况下，统计决策树的数量；

根节点生成模块，用于判断规则集中的属性是否为根节点，并生成根节点；

叶子节点生成模块，用于判断规则集中的属性是否为叶子节点，并生成叶子节点；

属性判断模块，用于判断规则集中的属性不是叶子节点时，该属性非空项所在行是否覆盖所有规则集；

当前属性分支分裂机制模型构建模块，用于以当前属性为分裂属性，以该属性值为key，以剩余属性的规则集所在行为value，构建出当前属性分裂出的一个数据结构，用于下一步生成树迭代，所述当前属性分支分裂机制模型构建完成；

决策树模型构建模块，直至遍历规则集中的所有属性，无叶子节点生成，所述决策树模型构建完成。

5.一种电子装置，该电子装置包括处理器、存储器以及存储在所述存储器并可在所述处理器上与进行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1或2所述的医疗指南规则集生成可视化决策树模型的方法的步骤。

6.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中包括计算机程序，所述计算机程序被处理器执行时，实现如权利要求1或2所述的医疗指南规则集生成可视化决策树模型的方法的步骤。