CN113053540A

CN113053540A - 一种用于中药核心药物识别的社区发现方法

Info

Publication number: CN113053540A
Application number: CN202110354293.3A
Authority: CN
Inventors: 张云; 刘勇国; 李巧勤; 杨尚明; 朱嘉静
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2021-06-29
Anticipated expiration: 2041-04-01
Also published as: CN113053540B

Abstract

本发明公开一种用于中药核心药物识别的社区发现方法，应用于中药方剂核心药物研究领域，针对现有技术识别中药核心药物准确率不高的问题；本发明通过设计药物节点传播能力、吸引能力、发射能力和接收能力，细粒度地衡量药物节点重要性；并首次提出标签融合思想，融合不同ID但相似的功效标签，减少冗余标签和迭代时间，快速地获得高质量的药物社区结果，以识别准确的核心药物。

Description

一种用于中药核心药物识别的社区发现方法

技术领域

本发明属于中药方剂核心药物研究领域，特别涉及一种中药方剂核心药物识别技术。

背景技术

中药方剂讲究“君臣佐使”配伍原则，即中药方剂一般由君药、臣药、佐药、使药四个部分组成：1)君药是对主证或主病起主要治疗作用的药物，它体现了方剂的主攻方向，其药力居方中之首，是组方中不可缺少的药物；2)臣药是辅助君药加强治疗主证或主病的药物；3)佐药一为佐助药，用于治疗次要兼证，二为佐制药，用以消除或减缓君药、臣药的毒性；4)使药：一是引经药，引方中诸药直达病所的药物，二是调和药，即调和诸药的作用，使其共同发挥治病的效果。综上，一个方剂的君药和臣药是核心药物，即在方剂中经常一起搭配的治疗某种疾病的重要药物组合。但是目前大量的方剂并没有记录方剂的君臣佐使信息，因此，设计有效的核心药物发现方法，有利于中医“君臣佐使”的配伍理论的研究。

目前关于中药方剂核心药物发现的研究主要有以下三个方向：

1)基于关联规则的方法：通过关联规则挖掘药物在方剂中共同出现的规律，将共现概率高的药物组合识别为方剂的核心药物。

2)基于社区发现的方法：通过建立药物网络，采用社区发现的手段，研究网络的内在结构，发现药物社区，针对每个药物社区，识别药物节点重要性，将重要性高的药物识别为核心药物。

3)实验方法：通过分析方剂药物的主要化学成分，选择具有主要化学成分的药物为该方剂的核心药物。

上述方法为中药核心药物的研究奠定了基础，但存在如下缺点：

1)基于关联规则的方法依赖于药物出现的频次，较难发现出现次数少但疗效好的核心药物；

2)基于社区发现的方法受限于构建药物网络的方剂数据较少，不能在较小的药物网络中发现针对特定疾病的全部核心药物。目前流行的社区发现算法主要是基于标签传播的算法，其主要问题是，第一，考虑节点重要性因素单一，不能准确地体现节点的重要程度；第二，只关注节点，没有关注标签，特别是标签的相似性没有关注；

3)实验方法成本高，操作过程复杂。

发明内容

为解决上述技术问题，本发明提供一种用于中药核心药物识别的社区发现方法，通过考虑节点本身和邻居节点，设计了节点传播能力、吸引能力、发射能力和接收能力的多能力模型，更细粒度地衡量节点的重要性；同时算法考虑标签的相似性，对相似度高的标签进行融合，减少冗余标签，减少算法迭代次数，提高发现药物社区和重要药物节点的准确度和稳定性，提高核心药物识别的准确度。

本发明采用的技术方案为：一种用于中药核心药物识别的社区发现方法，包括：

首先，将药物作为节点，两个药物共同出现在同一方剂中作为边，将药物功效作为标签；

然后，计算节点之间的最短距离；计算节点相似性；计算标签的相似性；计算每个节点的传播能力、吸引能力、发射能力、接收能力；并将药物节点按传播能力的大小从小到大进行排序；

其次，进行标签发射、标签融合与标签接收的处理；

最后，根据标签分布，将具有相同标签的节点划分为同一药物社区，识别为可以对同类证候有效的药物；在每个药物社区中，将传播能力Top-3的节点识别为该类证候的核心药物。

本发明的有益效果：本发明提供一种用于中药核心药物识别的社区发现方法，通过设计药物节点传播能力、吸引能力、发射能力和接收能力，细粒度地衡量药物节点重要性；并首次提出标签融合思想，融合不同ID但相似的功效标签，减少冗余标签和迭代时间，快速地获得高质量的药物社区结果，以识别核心药物。与现有技术相比，本发明具备以下优点：

1、本发明设计了节点的传播能力，吸引能力，发射能力和接收能力的多能力模型，可以更细粒度地衡量药物节点的重要性，降低了对药物节点重要性的计算误差，增加了准确度；

2、药物节点传播能力考虑了全局的节点中心性和局部的节点度数信息，可以更准确的体现药物节点的重要性，提高药物社区检测的准确度和稳定性；

3、本发明首次提出了标签融合策略，将相似度高的不同ID的功效标签进行融合，减少了冗余标签和算法迭代时间，提高了药物社区发现的准确率和稳定性；

4、本发明的方法适用范围广，只要给出药物网络，就可以快速地进行药物社区发现和核心药物识别。

附图说明

图1为本发明的方案实现流程。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

本发明公开了一种用于中药核心药物识别的社区发现方法，其主要步骤包括：初始化、选择待更新标签的节点、确定向待更新节点传播标签的节点集合、标签发射、标签融合、标签接收、终止判断和后处理。总体流程如图1所示。其中基于标签传播的社区发现算法与核心药物发现问题的对应关系如表1所示。

表1核心药物发现问题与基于标签传播的社区发现算法的对应关系

核心药物发现	基于标签传播的社区发现算法
		药物	节点
两个药物共同出现在同一方剂中	边
		药物功效	标签
对同类证候有效的药物集合	社区
		对该类证候有效的核心药物	社区中的重要节点

首先给出一些基础定义：

(1)给定药物网络G＝(V,E)，其中V＝{v₁,...,v_i,...,v_N}是药物节点的集合，v_i表示第i个药物节点，N是药物节点个数，E＝{e₁,...,e_j,...,e_M}是边的集合，表示药物共同出现在一个方剂中，e_j表示第j条边，M是边的条数。

(2)标签内存：药物网络中每个药物节点的标签内存

定义为：

用来存储药物节点的功效标签，其中，

是药物节点v_i的第j个功效标签，其归属系数为

h是功效标签的个数。

(3)药物节点v_i的邻居集合：

(4)药物网络中两个药物节点v_i，v_j之间的最短路径距离：d(v_i，v_j)，可以利用迪杰斯特拉(Dijkstra)算法进行计算。两个药物节点v_i，v_j之间的相似性：

节点标签的相似性：

(5)药物节点v_i的紧密性集中度：

药物节点v_i的全局中心性：centrality(v_i)＝C(v_i)*D(v_i)，其中，D(v_i)表示药物节点v_i的度数。

(6)提出药物节点具有传播能力(节点标签传播的范围)、吸引能力(节点获取标签的范围)、接受能力(接收标签的个数)和发射能力(传播标签的个数)的多能力模型，以更细粒度地衡量药物节点在药物网络中的重要性：

1)传播能力P(v_i)：

公式的第一项表示药物节点本身在药物网络的传播能力，由药物节点的紧密性集中度和度数相乘，紧密性集中度度量药物节点的中心程度，度数度量药物节点的重要程度，两者共同度量药物节点本身在药物网络中的影响，药物节点越处于中心位置，度数越大，影响越大，从而传播能力越大；第二项体现药物节点邻居的传播能力，直观反映为两个度数和中心性相同的药物节点，如果药物节点邻居影响力更大，那么药物节点影响更大，从而传播能力越大。药物节点本身的传播能力和来自邻居的传播能力共同体现药物节点总的传播能力。其中，参数α是一个调节因子，用来平衡药物节点本身的传播能力和来自邻居的传播能力，α∈[0，1]。

2)吸引能力A(v_i)：

|A(v_i)|＝|-P(v_i)|

3)发射能力L(v_i)：

β是用来控制药物节点可以发射的功效标签个数的参数，β∈[0，1]。发射能力与药物节点的传播能力成正比，药物节点的传播能力越大，可以向外传播的功效标签个数越多。

4)接收能力R(v_i)：

R(v_i)＝γ

γ是用来控制药物节点可以接收的功效标签个数的参数，γ∈[1，∞]。

一种用于中药核心药物识别的社区发现方法具体步骤如下：

1.初始化

初始化药物节点标签(标签初始化为节点的ID，归属系数为1，代表药物的主要功效)，计算药物节点之间的最短距离，计算药物节点相似性，计算功效标签的相似性，计算每个药物节点的传播能力，吸引能力，发射能力和接收能力，并将药物节点按传播能力的大小从小到大进行排序。具体如下：

(1)给每个药物节点v_i∈y赋一个独特的功效标签，其初始归属系数为1，即

(2)利用迪杰斯特拉(Dijkstra)算法计算两个药物节点v_i，v_j之间的最短路径距离d(v_i，v_j)；

(3)计算两个药物节点之间的相似性S(v_i，v_j)，并作为其功效标签的相似性；

(4)计算每个药物节点的度数D(v_i)；

(5)计算每个药物节点的四种能力值P(v_i)，A(v_i)，L(v_i)，R(v_i)；

(6)将药物节点按传播能力升序排序，得到list(V)，方便后续从传播能力小的开始更新。如果药物节点传播能力相同，则按节点ID的顺序进行排序。

2.选择待更新标签的节点

从已经排序好的药物节点列表list(V)中选择传播能力最小的药物节点v_i，将药物节点v_i从list(V)中移除。因为传播能力最小的药物节点一般最先受到传播能力大的药物节点影响，所有优先更新传播能力最小的药物节点的功效标签，以提高算法的稳定性。

3.确定向待更新节点传播标签的节点集合

首先根据待更新标签的药物节点的吸引能力，确定待更新标签的药物节点可以获取功效标签的其他药物节点集合，在该集合内的药物节点的传播能力如果覆盖了待更新药物节点，则该药物节点加入能够向待更新功效标签的药物节点传播标签的节点集合中。具体方法如下：

(1)根据药物节点v_i的吸引能力，确定药物节点可以获取功效标签的药物节点范围，也就是可以向药物节点v_i发射功效标签的药物节点集合：

(2)根据在

范围内的药物节点的传播能力，确定可以向待更新药物节点v_i传播功效标签的药物节点集合：

有益效果：通过待更新标签的节点的吸引能力和其他节点的传播能力来确定可以传播标签的节点集合，从而考虑更多的网络拓扑信息，避免只考虑直接邻居节点的情况。

4.标签发射

按药物节点的发射能力发射标签内存中的功效标签，归属系数大的功效标签先发射，传播到待更新功效标签的药物节点v_i。具体如下：

(1)药物节点

向药物节点v_i发射L(v_j)个功效标签，如果药物节点v_j的功效标签不足L(v_j)个，则全部发射；

(2)当集合

中的药物节点传播的功效标签中有相同的标签时，合并相同的功效标签，其归属系数相加；

(3)对功效标签归属系数进行归一化。

有益效果：传统的标签传播只考虑单个标签的传播，忽略了节点标签内存在多个标签的信息，因此本算法考虑传播节点的多个标签，从而利用更多的标签信息。

5.标签融合

在待更新标签药物节点在接收标签之前，将相似高的不同ID的功效标签进行融合，以减少冗余标签和利用可能被过滤的标签信息。功效标签是药物节点属性的体现，药物节点之间存在相似性，功效标签之间应该也存在相似性。相同的功效标签需要合并，相似性高的功效标签也应该进行合并，合并之后可以减少冗余的标签，增加标签保留的概率，同时防止一些标签被过滤，减少迭代时间，加快算法收敛，从而增加标签代表药物功效的信息，提高药物社区和核心药物发现的准确率。

(1)对待更新节点的标签集合

中的功效标签按归属系数大小从小到大排序；

(2)从归属系数最小的功效标签开始，选择与归属系数最小的功效标签相似性大于相似性阈值λ且最大的功效标签进行融合(相似性阈值λ将通过参数讨论实验，设置λ从0到1间隔0.1进行实验获得最优值)；

(3)融合两个功效标签l_i和

保留归属系数大的功效标签l_i，其归属系数更新为：

(4)重复上述步骤，融合两个功效标签，直到没有两个功效标签相似性大于相似性阈值λ为止；

6.标签接收

根据药物节点的接收能力过滤归属系数小的功效标签，保证功效标签的代表性，防止接收到代表性过小的功效标签。

(1)药物节点v_i可以接收的功效标签个数与节点的接收能力R(v_i)有关，从标签归属系数大的功效标签开始接收，直到个数达到R(v_i)，如果到达的功效标签总数小于R(v_i)，则全部接收；

(2)为了保持功效标签代表性，保留归属系数大于

的功效标签，然后归一化标签的归属系数，得到更新后的集合；

(3)按归属系数对药物节点的功效标签集合进行排序，得到药物节点的更新标签内存；

(4)所有药物节点的标签内存是否完成一次更新，如果是，则进入步骤7，如果没有，则返回步骤2选择待更新的节点。

7.终止判断

判断算法是否可以进入后处理阶段。计算拥有各类功效标签的最小节点数的集合m_t，当m_t＝m_t-1时，算法停止迭代，进入步骤8进行后处理，当m_t≠m_t-1时，返回步骤2，开始下一轮迭代更新。

8.后处理

根据功效标签分布，将具有相同功效标签的药物节点划分为同一药物社区，识别为可以对同类证候有效的药物。在每个社区中，将传播能力Top-3的药物识别为该类证候的核心药物。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。