CN113990510A

CN113990510A - 基于机器学习的急性脑梗死中药方剂治疗效果预测系统

Info

Publication number: CN113990510A
Application number: CN202111273816.8A
Authority: CN
Inventors: 王正中; 耿世超; 李小宁; 王琳; 廖星; 胡瑞学; 李慧敏
Original assignee: INSTITUTE OF BASIC RESEARCH IN CLINICAL MEDICINE CHINA ACADEMY OF CHINESE MEDICAL SCIENCES; Shandong Normal University
Current assignee: INSTITUTE OF BASIC RESEARCH IN CLINICAL MEDICINE CHINA ACADEMY OF CHINESE MEDICAL SCIENCES; Shandong Normal University
Priority date: 2021-10-29
Filing date: 2021-10-29
Publication date: 2022-01-28

Abstract

本发明公开了基于机器学习的急性脑梗死中药方剂治疗效果预测系统，包括：获取模块，获取待预测的急性脑梗死中药方剂；模型生成模块，将待预测的急性脑梗死中药方剂中的每一种中药作为一个节点，为当前方剂中包含的所有中药两两之间建立无向边，生成复杂网络模型；贴近度计算模块，基于复杂网络模型，计算每个节点的相对贴近度；特征选择模块，对待预测的急性脑梗死中药方剂中所有节点的相对贴近度按照降序进行排序，选择排序靠前的若干种相对贴近度作为当前中药方剂样本的特征；预测模块，基于当前中药方剂样本的特征和训练后的机器学习模型，得到中药方剂的治疗效果预测结果。通过训练后的随机森林模型，实现对急性脑梗死疾病的药物疗效预测。

Description

基于机器学习的急性脑梗死中药方剂治疗效果预测系统

技术领域

本发明涉及药物疗效预测技术领域，特别是涉及基于机器学习的急性脑梗死中药方剂治疗效果预测系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

目前对急性脑梗死的药物研发，面临药效不足、药物不良反应评估不全等问题，因此继续发展新的针对急性脑梗死疾病的药物治疗效果预测系统。

发明人发现，现有的药物疗效筛选方法往往没有考虑中药方剂，或者没有考虑到中药方剂中哪些中药才是影响治疗效果的关键药物；导致，现有的药物疗效分析系统的药物疗效预测精度不够准确。

针对中国发明专利，授权公告号CN109411033B，专利名称：一种基于复杂网络的药物疗效筛选方法，发明人认为，虽然其解决了药物疗效的筛选，但是其没有解决急性脑梗死这类疾病的药物疗效筛选，更没有解决针对急性脑梗死这类疾病的中药类方剂的药物疗效筛选。

发明内容

为了解决现有技术的不足，本发明提供了基于机器学习的急性脑梗死中药方剂治疗效果预测系统；

第一方面，本发明提供了基于机器学习的急性脑梗死中药方剂治疗效果预测系统；

基于机器学习的急性脑梗死中药方剂治疗效果预测系统，包括：

获取模块，其被配置为：获取待预测的急性脑梗死中药方剂；

模型生成模块，其被配置为：将所述待预测的急性脑梗死中药方剂中的每一种中药作为一个节点，为当前方剂中包含的所有中药两两之间建立无向边，生成复杂网络模型；

贴近度计算模块，其被配置为：基于所述复杂网络模型，计算每个节点的相对贴近度；

特征选择模块，其被配置为：对待预测的急性脑梗死中药方剂中所有节点的相对贴近度按照降序进行排序，选择排序靠前的若干种相对贴近度作为当前中药方剂样本的特征；

预测模块，其被配置为：基于当前中药方剂样本的特征和训练后的机器学习模型，得到当前中药方剂的治疗效果预测结果。

第二方面，本发明还提供了一种电子设备，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

其中，所述计算机可读指令被所述处理器运行时，执行以下步骤：

获取待预测的急性脑梗死中药方剂；

将所述待预测的急性脑梗死中药方剂中的每一种中药作为一个节点，为当前方剂中包含的所有中药两两之间建立无向边，生成复杂网络模型；

基于所述复杂网络模型，计算每个节点的相对贴近度；

对待预测的急性脑梗死中药方剂中所有节点的相对贴近度按照降序进行排序，选择排序靠前的若干种相对贴近度作为当前中药方剂样本的特征；

基于当前中药方剂样本的特征和训练后的机器学习模型，得到当前中药方剂的治疗效果预测结果。

第三方面，本发明还提供了一种存储介质，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行以下步骤：

获取待预测的急性脑梗死中药方剂；

基于所述复杂网络模型，计算每个节点的相对贴近度；

与现有技术相比，本发明的有益效果是：

1、本发明通过训练后的随机森林模型，实现对急性脑梗死这类疾病的药物疗效预测；

2、本发明通过构造同一篇中药文献的复杂网络模型，并且通过计算复杂网络模型中每个节点的节点属性矩阵，进而得到每个节点的相对贴近度，解决了每个中药方剂中最重要若干种中药的筛选，为随机森林模型的高精度训练做了铺垫。

3、能够大量减少模型训练所需要的参数，并对方剂的治疗总有效率改善、BI评分改善、FIB水平改善、PV改善、HSV水平改善和Lp-PLA2水平改善6个结局指标进行有效预测。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为实施例一的系统功能模块图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

复杂网络(Complex Network)，是指具有自组织、自相似、吸引子、小世界、无标度中部分或全部性质的网络。在我们的现实生活中，许多复杂系统都可以建模成一种复杂网络进行分析。复杂网络不仅是一种数据的表现形式，它同样也是一种科学研究的手段，复杂网络方面的研究目前受到了广泛的关注和研究。

随机森林(Random Forest)是一种灵活的、便于使用的机器学习算法，即使没有超参数调整，大多数情况下也会带来好的结果。它可以用来进行分类和回归任务。

通过复杂网络计算每个药物节点的相对贴近度进而生成训练和测试样本，对随机森林模型进行训练。

实施例一

本实施例提供了基于机器学习的急性脑梗死中药方剂治疗效果预测系统；

如图1所示，基于机器学习的急性脑梗死中药方剂治疗效果预测系统，包括：

进一步地，所述特征选择模块与预测模块之间，还设有特征预处理模块；

所述特征预处理模块，被配置为：对选择的当前中药方剂样本的特征进行归一化处理和降维处理。

进一步地，所述获取模块：获取待预测的急性脑梗死中药方剂；其中，一幅中药方剂中包括若干种中药名称。

进一步地，所述模型生成模块：将所述待预测的急性脑梗死中药方剂中的每一种中药为一个节点，为当前方剂中包含的所有中药两两之间建立无向边，生成无向无权复杂网络模型；具体包括：

将所述待预测的急性脑梗死中药方剂中的每一种中药为一个节点，为当前方剂中包含的所有中药两两之间建立无向边，生成复杂网络模型。

进一步地，所述贴近度计算模块：基于所述复杂网络模型，计算每个节点的相对贴近度；具体步骤包括：

基于所述复杂网络模型，计算每个节点的若干个属性；所述每个节点的属性，包括：每个节点的度、每个节点的中介中心性、每个节点的接近中心性和每个节点的邻接信息熵；

基于每个节点的所有属性，计算每个节点的相对贴近度。

其中，每个节点的度，其计算方式为：遍历复杂网络邻接矩阵，将每一行数字相加即为这一行对应的节点度。

其中，每个节点的中介中心性，其计算公式为：

其中，u为待计算节点；p为节点s和节点t之间最短路径的总数；p(u)为s与t之间通过节点u的最短路径的数量。

其中，每个节点的接近中心性，其计算方式为：计算所有节点对之间的最短路径的基础上，计算每个节点到其他各节点的距离之和，然后对得到的和求倒数，以确定每个节点的接近中心性。

其中，每个节点的邻接信息熵，其计算方式为：计算节点i的邻居节点j的邻居节点度之和A_j；用节点i的度除以A_j得到节点被其邻居节点选择的概率P_ij；计算节点i邻接信息熵E_i：

E_i＝-∑(P_ijlog₂P_ij)。

其中，计算每个节点的相对贴近度，具体包括：

将节点的度d、节点的中介中心性bc、节点的接近中心性cc和节点的邻接信息熵ae作为决策矩阵的四列数据，决策矩阵D＝{x_ij}_m*n形式如下：

将决策矩阵元素x_ij标准化为r_ij：

对决策矩阵的每个元素进行标准化处理，然后对标准化处理后的每个元素设置1/4权重；

然后对设置权重后的决策矩阵元素v_ij进行标准化处理：

得到标准化后的加权决策矩阵。

基于标准化后的加权决策矩阵，计算每个节点的相对贴近度；具体包括：

取标准化后的加权决策矩阵每列的最大值作为最优解，将最优解加入到最优解集合；

取标准化后的加权决策矩阵每列的最小值作为最劣解，将最劣解加入到最劣解集合；

利用最优解集合、最劣解集合以及标准化后的加权决策矩阵每行数据，计算节点的相对熵；

基于每个节点的相对熵，计算每个节点的相对贴近度。

其中，取标准化后的加权决策矩阵每列的最大值作为最优解，将最优解加入到最优解集合；具体包括：

其中，A⁺表示最优解集合，T₁和T₂分别表示福利标准和成本标准，v为T₁和T₂中的元素。i为A⁺中四个元素的序号，对应加权决策矩阵的四列。

其中，取标准化后的加权决策矩阵每列的最小值作为最劣解，将最劣解加入到最劣解集合；具体包括：

其中，A^-表示最劣解集合，T₁和T₂分别表示福利标准和成本标准，v为T₁和T₂中的元素。i为A^-中四个元素的序号，对应加权决策矩阵的四列。

其中，利用最优解集合、最劣解集合以及标准化后的加权决策矩阵每行数据计算节点的相对熵；具体包括：

其中，

表示最优解对应的相对熵，

表示最劣解对应的相对熵，

表示最优解集合中的元素，

表示最劣解集合中的元素，v_i表示决策矩阵中节点对应的元素。

基于每个节点的相对熵，计算每个节点的相对贴近度；具体包括：

其中，C_i表示每个节点的相对贴近度，

表示最优解对应的相对熵，

表示最劣解对应的相对熵。

进一步地，所述特征选择模块：对待预测的急性脑梗死中药方剂中所有节点的相对贴近度按照降序进行排序，选择排序靠前的若干种相对贴近度作为当前中药方剂样本的特征；具体包括：

对待预测的急性脑梗死中药方剂中所有节点的相对贴近度按照降序进行排序，选择排序靠前的十种相对贴近度，作为当前中药方剂样本的特征；

其中，对于不足十个相对贴近度的样本特征，采用当前方剂已有相对贴近度的平均值进行补全。

进一步地，所述预测模块：基于当前中药方剂样本的特征和训练后的机器学习模型，得到当前中药方剂的治疗效果预测结果；具体包括：

将当前中药方剂样本的特征，输入到训练后的机器学习模型中，得到当前中药方剂的治疗效果预测结果。

进一步地，所述训练后的机器学习模型，为训练后的随机森林模型。

进一步地，所述当前中药方剂的治疗效果预测结果，包括：治疗总有效率改善、Barthel指数(患者日常生活活动的功能状态)评分改善、FIB(Fibrinogen，又称为血纤维蛋白原)水平改善、PV(polycythemia vera，真性红细胞增多)改善、HSV(Herpes simplexvirus，单纯疱疹病毒)水平改善和Lp-PLA2(Lipoprotein-associated phospholipaseA2，脂蛋白相关磷脂酶A2)水平改善六类指标；符合指标的置1，不符合指标的置0。

进一步地，所述训练后的机器学习模型，其训练过程包括：

构建训练集和测试集；所述训练集和测试集均为已知治疗效果标签的急性脑梗死中药方剂特征；设训练集和测试集比例为4:1；

将训练集，输入到随机森林模型中，对模型进行训练；

将测试集，输入到随机森林模型中，对模型进行测试，得到训练后的机器学习模型。

进一步地，首先通过人工提取了1500余篇文献中治疗急性脑梗死的中药方剂，及其对应的结局指标。以中药为节点，出现在同一篇文献中的中药间建立无向边从而完成复杂网络建模。通过节点属性矩阵计算出每个中药对应的相对贴近度进而生成每个方剂对应的样本，使用样本对随机森林模型进行训练，使之对方剂的结局指标进行预测。

构建训练集的过程中，通过人工提取文献中的急性脑梗死中药方剂及其对应的治疗总有效率改善、BI评分改善、FIB水平改善、PV改善、HSV水平改善和Lp-PLA2水平改善6个结局指标，符合的指标置1，否则置0。

进一步地，将训练集，输入到随机森林模型中，对模型进行训练；具体包括：

(1)设训练样本总数为N，有放回地抽取N次，每次抽取1个，最终形成了N个样本。这选择好了的N个样本用来训练一个决策树，作为决策树根节点处的样本；

(2)每个样本有10个属性，在决策树的每个节点需要分裂时，随机从这10个属性中选取出m个属性，满足条件m<<10。然后从这m个属性中采用某种策略(信息增益)来选择1个属性作为该节点的分裂属性；

(3)决策树形成过程中每个节点都要按照步骤(2)来分裂，一直到不能够再分裂为止。整个决策树形成过程中没有进行剪枝；

(4)按照步骤(1)～(3)建立大量的决策树，通过投票表决结果，决定样本对应的结局标签为1或0；

(5)利用测试集验证模型准确率，输出ROC曲线。

样本来源详实可靠，样本中药方剂来自PubMed、Embase、Web of Science和Cochrane Library自建库到2020年9月发表或更新的中医药治疗脑梗死的系统评价和/或Meta分析。使用节点相对贴近度生成样本大大减少了样本包含的属性数量，减少了模型训练负担。模型预测准确率和AUC高。

复杂网络中共包含400个节点，即400个中药，通常的方剂样本是一个长度为400的向量，每个方剂中药物出现的位置置1，未出现的位置置0，即下列形式：

表1药物样本示例表

使用每个方剂包含的药物所对应的相对贴近度C_i替换药物，每个方剂取最大的10个相对贴近度构成下列形式的新样本：

表2相对贴近度样本示例表

处理样本并训练随机森林模型：

首先利用样本中的列平均值补足不足10个药物的方剂的药物相对贴近度，以4:1的比例划分训练集和测试集。

用x表示样本中的数据，用x^*表述归一化后的数据。利用下式对样本数据作归一化处理：

使用主成分分析方法对样本数据作降维操作后训练随机森林模型。

实施例二

本实施例还提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器、以及一个或多个计算机程序；其中，处理器与存储器连接，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行以下步骤：

获取待预测的急性脑梗死中药方剂；

基于所述复杂网络模型，计算每个节点的相对贴近度；

实施例三

本实施例还提供了一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，执行以下步骤：

获取待预测的急性脑梗死中药方剂；

基于所述复杂网络模型，计算每个节点的相对贴近度；

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于机器学习的急性脑梗死中药方剂治疗效果预测系统，其特征是，包括：

2.如权利要求1所述的基于机器学习的急性脑梗死中药方剂治疗效果预测系统，其特征是，所述特征选择模块与预测模块之间，还设有特征预处理模块；

3.如权利要求1所述的基于机器学习的急性脑梗死中药方剂治疗效果预测系统，其特征是，所述将所述待预测的急性脑梗死中药方剂中的每一种中药作为一个节点，为当前方剂中包含的所有中药两两之间建立无向边，生成复杂网络模型；具体包括：

4.如权利要求1所述的基于机器学习的急性脑梗死中药方剂治疗效果预测系统，其特征是，所述基于所述复杂网络模型，计算每个节点的相对贴近度；具体步骤包括：

基于每个节点的所有属性，计算每个节点的相对贴近度。

5.如权利要求1所述的基于机器学习的急性脑梗死中药方剂治疗效果预测系统，其特征是，所述基于所述复杂网络模型，计算每个节点的相对贴近度；具体步骤包括：

基于每个节点的度、每个节点的中介中心性、每个节点的接近中心性和每个节点的邻接信息熵，构建标准化后的加权决策矩阵；

基于每个节点的相对熵，计算每个节点的相对贴近度。

6.如权利要求1所述的基于机器学习的急性脑梗死中药方剂治疗效果预测系统，其特征是，所述对待预测的急性脑梗死中药方剂中所有节点的相对贴近度按照降序进行排序，选择排序靠前的若干种相对贴近度作为当前中药方剂样本的特征；具体包括：

对待预测的急性脑梗死中药方剂中所有节点的相对贴近度按照降序进行排序，选择排序靠前的若干种相对贴近度，作为当前中药方剂样本的特征；

其中，对于不足若干种相对贴近度的样本特征，采用当前方剂已有相对贴近度的平均值进行补全。

7.如权利要求1所述的基于机器学习的急性脑梗死中药方剂治疗效果预测系统，其特征是，所述基于当前中药方剂样本的特征和训练后的机器学习模型，得到当前中药方剂的治疗效果预测结果；具体包括：

8.如权利要求1所述的基于机器学习的急性脑梗死中药方剂治疗效果预测系统，其特征是，所述训练后的机器学习模型，其训练过程包括：

构建训练集和测试集；所述训练集和测试集均为已知治疗效果标签的急性脑梗死中药方剂特征；设训练集和测试集比例；

将训练集，输入到随机森林模型中，对模型进行训练；

9.一种电子设备，其特征是，包括：

存储器，用于非暂时性存储计算机可读指令；以及

处理器，用于运行所述计算机可读指令，

获取待预测的急性脑梗死中药方剂；

基于所述复杂网络模型，计算每个节点的相对贴近度；

10.一种存储介质，其特征是，非暂时性地存储计算机可读指令，其中，当所述非暂时性计算机可读指令由计算机执行时，执行以下步骤：

获取待预测的急性脑梗死中药方剂；

基于所述复杂网络模型，计算每个节点的相对贴近度；