CN111309852B - 生成可视化决策树集模型的方法、系统、装置及存储介质 - Google Patents
生成可视化决策树集模型的方法、系统、装置及存储介质 Download PDFInfo
- Publication number
- CN111309852B CN111309852B CN202010181551.8A CN202010181551A CN111309852B CN 111309852 B CN111309852 B CN 111309852B CN 202010181551 A CN202010181551 A CN 202010181551A CN 111309852 B CN111309852 B CN 111309852B
- Authority
- CN
- China
- Prior art keywords
- attribute
- rule set
- rule
- decision tree
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003066 decision tree Methods 0.000 title claims abstract description 139
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000000007 visual effect Effects 0.000 title claims abstract description 21
- 238000012800 visualization Methods 0.000 claims abstract description 34
- 238000012545 processing Methods 0.000 claims abstract description 11
- 230000001502 supplementing effect Effects 0.000 claims abstract description 8
- 230000007246 mechanism Effects 0.000 claims description 24
- 238000010276 construction Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 230000006399 behavior Effects 0.000 claims description 6
- 150000001875 compounds Chemical class 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims 1
- 230000001568 sexual effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/322—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H70/00—ICT specially adapted for the handling or processing of medical references
- G16H70/20—ICT specially adapted for the handling or processing of medical references relating to practices or guidelines
Abstract
本发明涉及一种生成可视化决策树(集)模型的方法、系统、装置及存储介质,其中的方法包括:将医疗指南中的决策知识以数据结构化的形式整理为规则集;对规则集进行拆分,在以不补充缺失值状态的情况下,统计决策树的数量N,N≥1;分别取N棵决策树中所对应的规则集,以规则集为输入,以一棵决策树为输出构建决策树模型,生成每棵决策树的数据结构模型;将构建的每棵决策树的数据结构模型进行可视化处理,生成可视化决策树模型,并将可视化决策树模型以图像的形式进行保存。本发明确保了生成的决策树(集)与原始规则集具有推理等效性,可视化效果好。
Description
技术领域
本发明属于数据处理技术领域,涉及医疗数据处理技术,具体地说,涉及一种医疗指南规则集生成可视化决策树集模型的方法、系统、装置及存储介质。
背景技术
基于医疗指南研发人工智能辅助决策支持系统是医疗人工智能的重要应用场景之一。医疗临床智能决策支持系统作为一种医疗人工智能系统,包括基于医疗指南规则形成的逻辑规则,从而构建本体模型形成的逻辑推理系统,是人工智能领域专家系统的进一步发展。该实现方式是首先理解医疗业务知识,从医疗资料、医疗指南、医疗文献中抽取医疗概念、属性等,并将文本描述的文字语言按照逻辑规则语言(如:SWRL)等形成规则集,最终形成基于医疗指南的知识图谱,构建临床辅助决策支持系统。
在构建医疗指南的过程中,需要通过人工或技术手段实现从医疗指南文本资料到满足计算机系统应用需求的指示和规则,医疗指南中的规则描述分为不同的应用场景和情形,因此会形成包括众多规则的规则集。规则集的构建完全是医疗指南文字描述转换成计算机可以理解的逻辑化语言,规则集构建后需要经过医学专家的确认才能保证规则的有效性,然后用于构建辅助决策系统。而规则的描述一般为自然逻辑语言描述,医学人员难以理解,因此,需要将所有规则集转化为可视化决策树,使医学人员可以直观理解。
国外对于从规则集生成可视化决策树算法有一定的研究,但多是从规则集中根据一定的算法处理对原始规则集进行一定的修改生成的决策树,如RBDT-1,RBDT-2方法等。另外还有一些决策树的生成算法,如机器学习常用算法ID3、C4.5算法等,该类算法是从真实世界的数据集中提取规则进而生成决策树,该算法还必须有一个前提条件,就是必须满足数据的齐整性和完备性,即所有的规则涉及的指标每条规则中都必须有值,而基于医疗指南生成的规则多数存在指标项缺失的情况,不能保证生成的决策树与原始规则集完全等效,可视化效果差。
国内学者也有相关研究,如根据ID3从数据集生成的规则集,利用AO、AD、MVD属性选择算法进行树的分裂属性的选择,描述了一种从规则到决策树的生成方法。但是没有描述针对在树的构造过程中所有备选属性都存在交错属性值缺失情况下的具体树的构造情形,不能保证生成的决策数与原始规则集完全等效,可视化效果差。
上述方法还必须保证规则集可以构成一棵树为前提,如果规则集不能构成一棵树,则上述方法都不能应用,因此以上方法都不能满足医疗指南规则集生成决策树集的实际的需求。
发明内容
本发明针对现有技术存在的上述问题,提供了一种医疗指南规则集生成可视化决策树集模型的方法、系统、装置及存储介质。
为了达到上述目的,本发明提供了一种医疗指南规则集生成可视化决策树集模型的方法,含有以下步骤:
将医疗指南中的决策知识以数据结构化的形式整理为规则集;
对规则集进行拆分,在以不补充缺失值状态的情况下,统计决策树的数量为N,N≥1;
分别取N棵决策树中所对应的规则集,以规则集为输入,以一棵决策树为输出构建决策树模型,生成每棵决策树的数据结构模型;
将构建的每棵决策树的数据结构模型进行可视化处理,生成可视化决策树模型,并将可视化决策树模型以图像的形式进行保存。
优选的,以一阶逻辑的方式获取医疗指南的决策知识,并采用txt文本格式或excel格式以第一行为属性行、第一行最后一列为决策结果列的数据结构化形式整理成规则集。
优选的,统计决策树数量的具体步骤为:
(1)设定规则集的总行数量为R,计算规则集每个属性所在列的非空行项所在行的数量,并根据数量值从高到低排序;
(2)若存在某一个属性的的数量值等于R,则选择该属性为树的根节点,并且规则集至少生成一棵决策树;若不存在某一个属性的的数量值等于R,则以当前属性为根节点,其非空项所在行为内容构成一个树进行存储,规则集中其余规则数据进入步骤(1)迭代;
经过步骤(1)和步骤(2),规则集最终形成N棵决策树。
优选的,构建决策树模型的具体步骤为:
删除规则集中行全为空的属性列;
遍历每棵树中的规则集,判断是否为叶子节点,若是叶子节点,生成叶子节点及叶子名称,决策书模型构建完成;若不是叶子节点,对规则集中所有的属性列根据其非空项所在行的数量通过公式(1)进行统计,公式(1)表示为:
选择排序第1的属性,若该属性的的数量值等于R,则以该属性为分裂节点,该属性非空项所在行对应的规则集通过构建的当前属性分支分裂机制模型去除分支属性,将对应规则集根据属性的值生成对应的数据结构模型,遍历这些分支属性对应的规则集,判断是否为叶子节点,若是叶子节点,生成叶子节点及叶子名称;若该属性的的数量值不等于R,选择前N个属性,从N=1开始,直至前N个属性的非空项所在行覆盖了所有的规则集,遍历前N个属性,每个属性非空项所在行对应的规则集通过当前属性分支分裂机制模型去除分支属性,将每个属性对应规则集根据每个属性的值生成对应的数据结构模型,遍历这些分支属性对应的规则集,判断是否为叶子节点,若是叶子节点,生成叶子节点及叶子名称,决策树模型构建完成。
优选的,当前属性分支分裂机制模型是以规则集及选择的属性为输入,以属性的值类别及对应的规则集形式的数据结构为输出的模型,当前属性分支分裂机制模型构建过程中,
遍历规则集,通过分裂输入属性项逐步构建决策树,以选择属性的值为key,生成对应的规则集形式为{key,规则集}或{key,规则}的形式数据结构的字典;
遍历字典,判断去除属性为空的项后是否存在属性全为空的行,若存在属性全为空的行,只剩决策项,遍历属性全为空的行,拆分对应的key值;若存在属性项值完全一样,决策项目不一样的情况时,遍历这些规则集,存储输出形式为{key,规则}的形式数据结构的字典,其中一个键值key只对应一条规则;否则,存储输出形式为{key,规则集}的形式数据结构的字典,其中一个键值key只对应一个规则集;重复上述过程,直至遍历所有规则集,当前属性分支分裂机制模型构建完成。
第二方面,为了达到上述目的,本发明还提供了一种医疗指南规则集生成可视化决策树模型的系统,包括:
指南规则化单元,用于将医疗指南中的决策知识以数据结构化的形式整理为规则集;
决策树模型构建模块,用于对规则集进行拆分,在以不补充缺失值状态的情况下,统计决策树的数量;并用于分别取N棵树中所对应的规则集,以规则集为输入,以一棵决策树为输出构建决策树模型,生成每棵决策树的数据结构模型;
可视化单元,用于将构建的每棵决策树的数据结构模型进行可视化处理,生成可视化决策树模型,并将可视化决策树模型以图像的形式进行保存。
第三方面,为了达到上述目的,本发明还提供了一种电子装置,该电子装置包括处理器、存储器以及存储在所述存储器并可在所述处理器上与进行的计算机程序,所述处理器执行所述计算机程序时实现上述医疗指南规则集生成可视化决策树模型的方法的步骤。
第四方面,为了达到上述目的,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质中包括计算机程序,所述计算机程序被处理器执行时,实现上述医疗指南规则集生成可视化决策树模型的方法的步骤。
与现有技术相比,本发明的优点和积极效果在于:
(1)本发明在构建可视化决策树模型的过程中,首先判断生成决策树的规则集能够生成一棵树,如果不能,则生成多棵决策树(即决策树集),且规则集是基于医学指南形成的,医疗场景的任何指标限制条件都不能缺失,确保了生成的决策树集与原始规则集具有推理等效性,通过本发明构建的决策树模型不仅能够生成一棵可视化决策树,还可以生成多棵决策树,即生成可视化决策树集。
(2)本发明在决策树的分裂属性的选择上充分考虑各种属性缺失值的情况,当备选属性都存在值缺失情况下,通过属性覆盖的规则集的数量从大到小排序,通过遍历选择前N个首先可以覆盖所有规则集的多个属性分别同时进行树的分裂,解决了属性条件完全相同但结论不同的规则集的结论分别单独成叶子节点的情况,该情况在医疗场景的多指南情况中为常见情况,方便为叶子节点标记指南归属标记。
(3)本发明生成的决策树图形中在树的枝上进行指标值的描述,节点作为指标描述,可视化效果更好,医学人员更容易理解。
附图说明
图1为本发明所述医疗指南规则集生成可视化决策树集模型的方法的流程图;
图2为本发明实施例构建决策树模型的流程图;
图3为本发明实施例规则集示意图;
图4-5为本发明实施例生成的决策树示意图;
图6为本发明实施例医疗指南规则集生成可视化决策树集模型的系统结构框图;
图7为本发明实施例电子装置的结构框图。
具体实施方式
下面,通过示例性的实施方式对本发明进行具体描述。然而应当理解,在没有进一步叙述的情况下,一个实施方式中的元件、结构和特征也可以有益地结合到其他实施方式中。
本发明实施例可以应用于计算机系统/服务器等电子设备,可与众多其他通用或专用计算系统环境或配置一起操作。适于与计算机系统/服务器等电子设备仪器使用的众所周知的计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、基于微处理器的系统、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境等等。
针对现有医疗临床智能辅助决策系统中,对从医疗指南中抽取决策知识生成规则集,并将规则集生成可视化决策树过程中,存在在不进行缺失数据处理的情况下不能保证生成一棵树,且不能保证生成的树与原始规则集完全等效,生成的树可视化结果的直观性差等问题,本发明提供了一种生成可视化决策树模型的方法、系统、装置及存储介质。通过首先判断生成树的规则集能否生成一棵树,若不能,则生成多棵树的方式构建决策树模型,规则集是基于医疗指南形成的,医疗场景的任何指标限制条件都不能缺失,确保了生成的决策树集与原始规则集具有推理等效性。
以下结合附图及具体实施例对本发明上述生成可视化决策树模型的方法、系统、装置及存储介质进行详细描述。
实施例1:参见图1,本实施例提供了一种医疗指南规则集生成可视化决策树集模型的方法,含有以下步骤:
S1、将医疗指南中的决策知识以数据结构化的形式整理为规则集。
具体地,以一阶逻辑的方式获取医疗指南的决策知识,并采用txt文本格式或excel格式以第一行为属性行、第一行最后一列为决策结果列的数据结构化形式整理成规则集,其中,规则集结构化空属性标记为空。
S2、对规则集进行拆分,在以不补充缺失值状态的情况下,统计决策树的数量为N,N≥1;分别取N棵决策树中所对应的规则集,以规则集为输入,以一棵决策树为输出构建决策树模型,生成每棵决策树的数据结构模型。
具体地,参见图2,构建决策树模型的具体步骤为:
(一)统计决策树数量
(1)设定规则集的总行数量为R,计算规则集每个属性所在列的非空行项所在行的数量,并根据数量值从高到低排序;
(2)若存在某一个属性的的数量值等于R,则选择该属性为树的根节点,并且规则集至少生成一棵决策树;若不存在某一个属性的的数量值等于R,则以当前属性为根节点,其非空项所在行为内容构成一个树进行存储,规则集中其余规则数据进入步骤(1)迭代;
经过步骤(1)和步骤(2),规则集最终形成N棵决策树。
(二)构建决策树模型
(1)删除规则集中行全为空的属性列;
(2)遍历每棵树中的规则集,判断是否为叶子节点,若是叶子节点,生成叶子节点及叶子名称,决策书模型构建完成。若不是叶子节点,对规则集中所有的属性列根据其非空项所在行的数量通过公式(1)进行统计,公式(1)表示为:
选择排序第1的属性,若该属性的的数量值等于R,则以该属性为分裂节点,该属性非空项所在行对应的规则集通过构建的当前属性分支分裂机制模型去除分支属性,将对应规则集根据属性的值生成对应的数据结构模型,遍历这些分支属性对应的规则集,判断是否为叶子节点,若是叶子节点,生成叶子节点及叶子名称;若该属性的的数量值不等于R,选择前N个属性,从N=1开始,直至前N个属性的非空项所在行覆盖了所有的规则集,遍历前N个属性,每个属性非空项所在行对应的规则集通过当前属性分支分裂机制模型去除分支属性,将每个属性对应规则集根据每个属性的值生成对应的数据结构模型,遍历这些分支属性对应的规则集,判断是否为叶子节点,若是叶子节点,生成叶子节点及叶子名称,决策树模型构建完成。
具体地,当前属性分支分裂机制模型是以规则集及选择的属性为输入,以属性的值类别及对应的规则集形式的数据结构为输出的模型,当前属性分支分裂机制模型构建过程中,
遍历规则集,通过分裂输入属性项逐步构建决策树,以选择属性的值为key,生成对应的规则集形式为{key,规则集}或{key,规则}的形式数据结构的字典;
遍历字典,判断去除属性为空的项后是否存在属性全为空的行,若存在属性全为空的行,只剩决策项,遍历属性全为空的行,拆分对应的key值;若存在属性项值完全一样,决策项目不一样的情况时,遍历这些规则集,存储输出形式为{key,规则}的形式数据结构的字典,其中一个键值key只对应一条规则;否则,存储输出形式为{key,规则集}的形式数据结构的字典,其中一个键值key只对应一个规则集;重复上述过程,直至遍历所有规则集,当前属性分支分裂机制模型构建完成。
S3、将构建的每棵决策树的数据结构模型进行可视化处理,生成可视化决策树模型,并将可视化决策树模型以图像的形式进行保存。
为了更好地说明上述方法的可视化效果。以图3所示的规则集为例,通过本实施上述方法构建的可视化决策树模型参见图4、图5,由图4、图5可清楚的了解医疗指南规则集中的规则。
本实施例上述方法,以属性非空的行所覆盖的规则的数量从大到校的顺序排列,根据增1迭代方法选择能够覆盖所有规则项的最少属性为树的分支属性(叶子节点),在属性和值都相同决策项不同的情况下,以多枝叶的数据形式和可视化方式展现,树的分支数量完全匹配等效原有规则及数量,对于医疗多指南对于同一业务的指导下由较好的区分和标记特性,可视化效果更好,医学人员更容易理解。
实施例2:参见图6,本实施例提供了一种医疗指南规则集生成可视化决策树模型的系统,包括:
指南规则化单元1,用于将医疗指南中的决策知识以数据结构化的形式整理为规则集;
决策树模型构建单元2,用于对规则集进行拆分,在以不补充缺失值状态的情况下,统计决策树的数量;并分别取N棵树中所对应的规则集,以规则集为输入,以一棵决策树为输出构建决策树模型,生成每棵决策树的数据结构模型;
可视化单元3,用于将构建的每棵决策树的数据结构模型进行可视化处理,生成可视化决策树模型,并将可视化决策树模型以图像的形式进行保存。
具体地,所述决策树模型构建单元2包括:
计算单元21,用于对规则集进行拆分,在以不补充缺失值状态的情况下,统计决策树的数量;
根节点生成模块22,用于判断规则集中的属性是否为根节点,并生成根节点;
叶子节点生成模块23,用于判断规则集中的属性是否为叶子节点,并生成叶子节点;
属性判断模块24,用于判断规则集中的属性不是叶子节点时,该属性非空项所在行是否覆盖所有规则集;
当前属性分支分裂机制模型构建模块25,用于以当前属性为分裂属性,以该属性值为key,以剩余属性的规则集所在行为value,构建出当前属性分裂出的一个数据结构,用于下一步生成树迭代,所述当前属性分支分裂机制模型构建完成;
决策树模型构建模块26,直至遍历规则集中的所有属性,无叶子节点生成,所述决策树模型构建完成。
本实施例提供的系统,指南规则化单元1、决策树模型构建单元2、可视化单元3实现的功能与实施例1中的方法一一对应,此处不在赘述。
本实施例上述系统,将医疗指南的规则集以一棵树或多棵树通过多枝叶的数据形式和可视化方式展现,树的分支数量完全匹配等效原有规则集数量,该方式对于医疗多指南对于同一业务的指导情况下有较好的区分和标记特性。可视化效果更好,医学人员更容易理解。
实施例3:参见图7,本实施例提供了一种电子装置4,该电子装置4包括处理器41、存储器42以及存储在所述存储器42并可在所述处理器41上与进行的计算机程序43,所述处理器执行所述计算机程序时实现实施例1所述医疗指南规则集生成可视化决策树模型的方法的步骤,为了避免重复,此处不在赘述。处理器执行所述计算机程序时实现实施例2中所述医疗指南规则集生成可视化决策树模型的系统中各模块/单元的功能,为了避免重复,这里同样不再赘述。
实施例4:本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质中包括计算机程序,所述计算机程序被处理器执行时,实现上述医疗指南规则集生成可视化决策树模型的方法的步骤。或者该计算机程序被处理器执行时实现实施例2中所述医疗指南规则集生成可视化决策树模型的系统中各模块/单元的功能,为了避免重复,这里同样不再赘述。
上述实施例用来解释本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明做出的任何修改和改变,都落入本发明的保护范围。
Claims (6)
1.一种医疗指南规则集生成可视化决策树集模型的方法,其特征在于,含有以下步骤:
将医疗指南中的决策知识以数据结构化的形式整理为规则集;
对规则集进行拆分,在以不补充缺失值状态的情况下,统计决策树的数量为N,N≥1;分别取N棵决策树中所对应的规则集,以规则集为输入,以一棵决策树为输出构建决策树模型,生成每棵决策树的数据结构模型;
统计决策树数量的具体步骤为:
(1)设定规则集的总行数量为R,计算规则集每个属性所在列的非空行项所在行Cn的数量,并根据数量值从高到低排序;
(2)若存在某一个属性的Cn的数量值等于R,则选择该属性为树的根节点,并且规则集至少生成一棵决策树;若不存在某一个属性的Cn的数量值等于R,则以当前属性为根节点,其非空项所在行为内容构成一个树进行存储,规则集中其余规则数据进入步骤(1)迭代;
经过步骤(1)和步骤(2),规则集最终形成N棵决策树;
构建决策树模型的具体步骤为:
删除规则集中行全为空的属性列;
遍历每棵树中的规则集,判断是否为叶子节点,若是叶子节点,生成叶子节点及叶子名称,决策树模型构建完成;若不是叶子节点,对规则集中所有的属性列根据其非空项所在行Cn的数量通过公式(1)进行统计,公式(1)表示为:
选择排序第1的属性,若该属性的Cn的数量值等于R,则以该属性为分裂节点,该属性非空项所在行对应的规则集通过构建的当前属性分支分裂机制模型去除分支属性,将对应规则集根据属性的值生成对应的数据结构模型,遍历这些分支属性对应的规则集,判断是否为叶子节点,若是叶子节点,生成生成叶子节点及叶子名称;若该属性的Cn的数量值不等于R,选择前N个属性,从N=1开始,直至前N个属性的非空项所在行覆盖了所有的规则集,遍历前N个属性,每个属性非空项所在行对应的规则集通过当前属性分支分裂机制模型去除分支属性,将每个属性对应规则集根据每个属性的值生成对应的数据结构模型,遍历这些分支属性对应的规则集,判断是否为叶子节点,若是叶子节点,生成叶子节点及叶子名称,决策树模型构建完成;
当前属性分支分裂机制模型是以规则集及选择的属性为输入,以属性的值类别及对应的规则集形式的数据结构为输出的模型,当前属性分支分裂机制模型构建过程中,遍历规则集,通过分裂输入属性项逐步构建决策树,以选择属性的值为key,生成对应的规则集形式为{key,规则集}或{key,规则}的形式数据结构的字典;遍历字典,判断去除属性为空的项后是否存在属性全为空的行,若存在属性全为空的行,只剩决策项,遍历属性全为空的行,拆分对应的key值;若存在属性项值完全一样,决策项目不一样的情况时,遍历这些规则集,存储输出形式为{key,规则}的形式数据结构的字典,其中一个键值key只对应一条规则;否则,存储输出形式为{key,规则集}的形式数据结构的字典,其中一个键值key只对应一个规则集;重复上述过程,直至遍历所有规则集,当前属性分支分裂机制模型构建完成;
将构建的每棵决策树的数据结构模型进行可视化处理,生成可视化决策树模型,并将可视化决策树模型以图像的形式进行保存。
2.如权利要求1所述的医疗指南规则集生成可视化决策树集模型的方法,其特征在于,以一阶逻辑的方式获取医疗指南的决策知识,并采用txt文本格式或excel格式以第一行为属性行、第一行最后一列为决策结果列的数据结构化形式整理成规则集。
3.一种医疗指南规则集生成可视化决策树集模型的系统,其特征在于,包括:
指南规则化单元,用于将医疗指南中的决策知识以数据结构化的形式整理为规则集;
决策树模型构建单元,用于对规则集进行拆分,在以不补充缺失值状态的情况下,统计决策树的数量;并分别取N棵树中所对应的规则集,以规则集为输入,以一棵决策树为输出构建决策树模型,生成每棵决策树的数据结构模型;
统计决策树数量的具体步骤为:
(1)设定规则集的总行数量为R,计算规则集每个属性所在列的非空行项所在行Cn的数量,并根据数量值从高到低排序;
(2)若存在某一个属性的Cn的数量值等于R,则选择该属性为树的根节点,并且规则集至少生成一棵决策树;若不存在某一个属性的Cn的数量值等于R,则以当前属性为根节点,其非空项所在行为内容构成一个树进行存储,规则集中其余规则数据进入步骤(1)迭代;
经过步骤(1)和步骤(2),规则集最终形成N棵决策树;
构建决策树模型的具体步骤为:
删除规则集中行全为空的属性列;
遍历每棵树中的规则集,判断是否为叶子节点,若是叶子节点,生成叶子节点及叶子名称,决策树模型构建完成;若不是叶子节点,对规则集中所有的属性列根据其非空项所在行Cn的数量通过公式(1)进行统计,公式(1)表示为:
选择排序第1的属性,若该属性的Cn的数量值等于R,则以该属性为分裂节点,该属性非空项所在行对应的规则集通过构建的当前属性分支分裂机制模型去除分支属性,将对应规则集根据属性的值生成对应的数据结构模型,遍历这些分支属性对应的规则集,判断是否为叶子节点,若是叶子节点,生成生成叶子节点及叶子名称;若该属性的Cn的数量值不等于R,选择前N个属性,从N=1开始,直至前N个属性的非空项所在行覆盖了所有的规则集,遍历前N个属性,每个属性非空项所在行对应的规则集通过当前属性分支分裂机制模型去除分支属性,将每个属性对应规则集根据每个属性的值生成对应的数据结构模型,遍历这些分支属性对应的规则集,判断是否为叶子节点,若是叶子节点,生成叶子节点及叶子名称,决策树模型构建完成;
当前属性分支分裂机制模型是以规则集及选择的属性为输入,以属性的值类别及对应的规则集形式的数据结构为输出的模型,当前属性分支分裂机制模型构建过程中,遍历规则集,通过分裂输入属性项逐步构建决策树,以选择属性的值为key,生成对应的规则集形式为{key,规则集}或{key,规则}的形式数据结构的字典;遍历字典,判断去除属性为空的项后是否存在属性全为空的行,若存在属性全为空的行,只剩决策项,遍历属性全为空的行,拆分对应的key值;若存在属性项值完全一样,决策项目不一样的情况时,遍历这些规则集,存储输出形式为{key,规则}的形式数据结构的字典,其中一个键值key只对应一条规则;否则,存储输出形式为{key,规则集}的形式数据结构的字典,其中一个键值key只对应一个规则集;重复上述过程,直至遍历所有规则集,当前属性分支分裂机制模型构建完成;
可视化单元,用于将构建的每棵决策树的数据结构模型进行可视化处理,生成可视化决策树模型,并将可视化决策树模型以图像的形式进行保存。
4.如权利要求3所述的医疗指南规则集生成可视化决策树集模型的系统,其特征在于,所述决策树模型构建单元包括:
计算单元,用于对规则集进行拆分,在以不补充缺失值状态的情况下,统计决策树的数量;
根节点生成模块,用于判断规则集中的属性是否为根节点,并生成根节点;
叶子节点生成模块,用于判断规则集中的属性是否为叶子节点,并生成叶子节点;
属性判断模块,用于判断规则集中的属性不是叶子节点时,该属性非空项所在行是否覆盖所有规则集;
当前属性分支分裂机制模型构建模块,用于以当前属性为分裂属性,以该属性值为key,以剩余属性的规则集所在行为value,构建出当前属性分裂出的一个数据结构,用于下一步生成树迭代,所述当前属性分支分裂机制模型构建完成;
决策树模型构建模块,直至遍历规则集中的所有属性,无叶子节点生成,所述决策树模型构建完成。
5.一种电子装置,该电子装置包括处理器、存储器以及存储在所述存储器并可在所述处理器上与进行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1或2所述的医疗指南规则集生成可视化决策树模型的方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括计算机程序,所述计算机程序被处理器执行时,实现如权利要求1或2所述的医疗指南规则集生成可视化决策树模型的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010181551.8A CN111309852B (zh) | 2020-03-16 | 2020-03-16 | 生成可视化决策树集模型的方法、系统、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010181551.8A CN111309852B (zh) | 2020-03-16 | 2020-03-16 | 生成可视化决策树集模型的方法、系统、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111309852A CN111309852A (zh) | 2020-06-19 |
CN111309852B true CN111309852B (zh) | 2021-09-03 |
Family
ID=71162064
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010181551.8A Active CN111309852B (zh) | 2020-03-16 | 2020-03-16 | 生成可视化决策树集模型的方法、系统、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111309852B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111986809A (zh) * | 2020-08-10 | 2020-11-24 | 武汉麦咚健康科技有限公司 | 一种用于医生辅助判断的高血压药物推荐系统和方法 |
CN116883175A (zh) * | 2023-07-10 | 2023-10-13 | 青岛闪收付信息技术有限公司 | 一种投融资活动决策生成方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168995A (zh) * | 2017-03-29 | 2017-09-15 | 联想(北京)有限公司 | 一种数据处理方法及服务器 |
CN107577756A (zh) * | 2017-08-31 | 2018-01-12 | 南通大学 | 一种基于多层迭代的改进递归数据流匹配方法 |
CN107729555A (zh) * | 2017-11-07 | 2018-02-23 | 太原理工大学 | 一种海量大数据分布式预测方法及系统 |
CN108399748A (zh) * | 2018-03-08 | 2018-08-14 | 重庆邮电大学 | 一种基于随机森林与聚类算法的道路旅行时间预测方法 |
CN110222708A (zh) * | 2019-04-29 | 2019-09-10 | 中国科学院计算技术研究所 | 一种基于集成决策树的跌倒检测方法和系统 |
CN110263998A (zh) * | 2019-06-19 | 2019-09-20 | 大唐(赤峰)新能源有限公司 | 多源数值天气预报集合双层修正方法 |
CN110289095A (zh) * | 2019-06-28 | 2019-09-27 | 青岛百洋智能科技股份有限公司 | 一种股骨颈骨折临床智能辅助决策方法及系统 |
CN110598803A (zh) * | 2019-09-26 | 2019-12-20 | 南京邮电大学 | 一种基于决策树算法的小区感知识别方法及装置 |
CN110610767A (zh) * | 2019-08-01 | 2019-12-24 | 平安科技(深圳)有限公司 | 发病率监测方法、装置、设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9875386B2 (en) * | 2011-11-15 | 2018-01-23 | Futurewei Technologies, Inc. | System and method for randomized point set geometry verification for image identification |
CN108960514B (zh) * | 2016-04-27 | 2022-09-06 | 第四范式(北京)技术有限公司 | 展示预测模型的方法、装置及调整预测模型的方法、装置 |
US10878336B2 (en) * | 2016-06-24 | 2020-12-29 | Intel Corporation | Technologies for detection of minority events |
CN110727659B (zh) * | 2019-10-24 | 2023-08-18 | 深圳前海微众银行股份有限公司 | 基于sql语句的决策树模型生成方法、装置、设备及介质 |
CN110782340B (zh) * | 2019-10-25 | 2021-09-07 | 深圳前海微众银行股份有限公司 | 决策树模型的交互式建模方法、装置、设备及存储介质 |
-
2020
- 2020-03-16 CN CN202010181551.8A patent/CN111309852B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168995A (zh) * | 2017-03-29 | 2017-09-15 | 联想(北京)有限公司 | 一种数据处理方法及服务器 |
CN107577756A (zh) * | 2017-08-31 | 2018-01-12 | 南通大学 | 一种基于多层迭代的改进递归数据流匹配方法 |
CN107729555A (zh) * | 2017-11-07 | 2018-02-23 | 太原理工大学 | 一种海量大数据分布式预测方法及系统 |
CN108399748A (zh) * | 2018-03-08 | 2018-08-14 | 重庆邮电大学 | 一种基于随机森林与聚类算法的道路旅行时间预测方法 |
CN110222708A (zh) * | 2019-04-29 | 2019-09-10 | 中国科学院计算技术研究所 | 一种基于集成决策树的跌倒检测方法和系统 |
CN110263998A (zh) * | 2019-06-19 | 2019-09-20 | 大唐(赤峰)新能源有限公司 | 多源数值天气预报集合双层修正方法 |
CN110289095A (zh) * | 2019-06-28 | 2019-09-27 | 青岛百洋智能科技股份有限公司 | 一种股骨颈骨折临床智能辅助决策方法及系统 |
CN110610767A (zh) * | 2019-08-01 | 2019-12-24 | 平安科技(深圳)有限公司 | 发病率监测方法、装置、设备及存储介质 |
CN110598803A (zh) * | 2019-09-26 | 2019-12-20 | 南京邮电大学 | 一种基于决策树算法的小区感知识别方法及装置 |
Non-Patent Citations (3)
Title |
---|
Decision tree classifiers for automated medical diagnosis;Ahmad Taher Azar 等;《Neural Computing & Applications》;20131130;2387-2403 * |
基于决策树算法的医疗大数据;彭程 等;《计算机应用技术》;20180925(第9期);70-74 * |
有序决策系统的知识更新理论及其高效算法;李少勇;《中国博士学位论文全文数据库 信息科技辑》;20151115(第11期);I138-13 * |
Also Published As
Publication number | Publication date |
---|---|
CN111309852A (zh) | 2020-06-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Colton | Automated theory formation in pure mathematics | |
US10115061B2 (en) | Motif recognition | |
EP3561689A1 (en) | Knowledge graph data structures and uses thereof | |
US20130262371A1 (en) | Method and apparatus for computer assisted innovation | |
CN111309852B (zh) | 生成可视化决策树集模型的方法、系统、装置及存储介质 | |
CN111259154B (zh) | 一种数据处理方法、装置、计算机设备及存储介质 | |
CN103678436A (zh) | 信息处理系统和信息处理方法 | |
Upadhyay et al. | Semantic knowledge extraction from research documents | |
CN112463989A (zh) | 一种基于知识图谱的信息获取方法及系统 | |
CN113946326A (zh) | 一种基于ast和规则库、知识库的可视化代码生成方法 | |
CN111858962B (zh) | 数据处理方法、装置及计算机可读存储介质 | |
CN113779190A (zh) | 事件因果关系识别方法、装置、电子设备与存储介质 | |
CN113722477B (zh) | 基于多任务学习的网民情绪识别方法、系统及电子设备 | |
CN115827885A (zh) | 一种运维知识图谱的构建方法、装置及电子设备 | |
CN115470328A (zh) | 基于知识图谱的开放领域问答方法及相关设备 | |
CN112507185B (zh) | 用户肖像的确定方法和装置 | |
CN115358477A (zh) | 一种作战想定随机生成系统及其应用 | |
CN113641791A (zh) | 专家推荐方法、电子设备及存储介质 | |
Zhou et al. | Research on personalized e-learning based on decision tree and RETE algorithm | |
CN113407704A (zh) | 文本匹配方法、装置、设备及计算机可读存储介质 | |
CN113392220A (zh) | 一种知识图谱生成方法、装置、计算机设备及存储介质 | |
CN105808522A (zh) | 一种语义联想的方法及装置 | |
Pinto et al. | A graph knowledge-base for auditing human resources public management | |
CN113052712B (zh) | 社交数据的分析方法、系统及存储介质 | |
Zhang et al. | Learning to order sub-questions for complex question answering |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder |
Address after: 266000 Room 201, building 1, 88 Kaifeng Road, Shibei District, Qingdao City, Shandong Province Patentee after: Baiyang Intelligent Technology Group Co.,Ltd. Address before: 266000 Room 201, building 1, 88 Kaifeng Road, Shibei District, Qingdao City, Shandong Province Patentee before: Qingdao Baiyang Intelligent Technology Co.,Ltd. |
|
CP01 | Change in the name or title of a patent holder |