CN103365978A

CN103365978A - 基于lda主题模型的中医药数据挖掘方法

Info

Publication number: CN103365978A
Application number: CN2013102760211A
Authority: CN
Inventors: 姜晓红; 严海明; 商任翔; 吴朝晖; 陈英芝
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2013-07-01
Filing date: 2013-07-01
Publication date: 2013-10-23
Anticipated expiration: 2033-07-01
Also published as: CN103365978B

Abstract

本发明涉及中医药信息检索领域，公开了一种基于LDA主题模型的中医药数据挖掘方法，包括以下具体步骤：1）先在LDA模型中确定处方-主题和主题-药剂两组先验，处方-主题和主题-药剂分别由超参数α和β确定，使用AS方式对两组先验进行先验假设；2）确定LDA模型中的主题数目；3）采用Gibbs采样方法对上述LDA模型进行求解；4）生成LDA模型的语义RDF文档，将LDA模型的结果映射至四元组，并用语义RDF文档进行表示；5）将药剂和处方进行关联，建立处方-主题-药剂的可视化结构网络G。本发明的优点在于，适用于海量中药处方的处理和挖掘，并可以得到可视化的结构模型。

Description

基于LDA主题模型的中医药数据挖掘方法

技术领域

本发明涉及中医药信息检索领域，特别涉及一种基于LDA主题模型的中医药数据挖掘方法。

背景技术

本发明涉及机器学习领域内主题模型的相关内容，主要有向量空间模型，奇异值分解与LSA，概率隐含语义分析pLSA，潜在狄利克雷分配LDA等。

向量空间模型被广泛应用在信息检索领域，最初由Salton在TREC项目中使用BOW（Bag Of Words）模型，即文档中单词具有可交换性（Exchangeability）来刻画单词和文本的关系。在他的模型中，单词的语义是独立于文本的，每个单词是单词空间中的一个维度，用这样的方法可以描述整个语料库（文档的集合）。

潜在语义分析（Latent Semantic Analysis）就是在文档和单词之间引入一个隐含语义层，原有的文档-单词关系变成了文档-隐含语义-单词。它使用奇异值分解（SVD，singular value decomposition）来挖掘这个层隐含的关系。

类似于LSA，概率隐含语义分析（pLSA，Probability Latent Semantic Analysis）也在文档-单词之间引入了一个隐含语义空间，不过pLSA是用概率模型来描绘的。在pLSA中，文本是由共现矩阵表达，即(d,w)对。其中(di,wj)表示文档di和单词wj共同出现，即文档标号为i的文档里面出现了单词j。这里需要强调的是Bag-Of-Words模型忽略掉文档里面单词出现次序，语料库里面的文档的次序默认也是忽略的。

潜在狄利克雷分配LDA是一种层次贝叶斯模型。它的概率图模型如图1所示。图中M表示文档的总数目，N是一个文档中的单词数目。α是每个文档的主题分布的狄利克雷先验参数，β是每个主题的单词分布的狄利克雷先验参数，即P(w|z)；θ是语料库中的每个文档与T个主题的多项分布（MultinomialDistribution）。

可以看出LDA是一个三层贝叶斯概率模型，它和PLSA最大的区别是增加了对主题的混合权重θ引进了Dirichlet先验，用一个超参数（即参数的参数）α来产生参数θ。

由于中医药处方/药物数据具有其特殊性：中医药处方/药物成分记录不完全符合BOW模型，因此采用上述方法对现有的中药处方进行信息检索无法准确地得到中药处方/药物数据，因此，需要开发一种可以进一步准确地挖掘处方/药物数据的方法。

发明内容

本发明针对现有方法无法有效地得到中医药处方中隐含的关系信息的缺点，提供了一种新型的基于LDA主题模型的中医药数据挖掘方法。

为实现上述目的，本发明可采取下述技术方案：

基于LDA主题模型的中医药数据挖掘方法，包括以下具体步骤：

1）先在LDA模型中确定处方-主题和主题-药剂两组先验，处方-主题和主题-药剂分别由超参数α和β确定，使用AS方式对两组先验进行先验假设，所述AS方式为：处方-主题分布采用非对称的先验，主题-药剂分布采用对称的先验；

2）确定LDA模型中的主题数目；

3）采用Gibbs采样方法对上述LDA模型进行求解；

4）生成LDA模型的语义RDF文档，所述语义RDF文档包括一个四元组集合，所述四元组包括主体，谓词，客体，权重，将LDA模型的结果映射至四元组，并用语义RDF文档进行表示；

5）将药剂和处方进行关联，建立处方-主题-药剂的可视化结构网络G，该结构网络G由顶点集合V和边集合E组成，即G＝(V，E)，顶点集合V是包含处方、主题和药剂的本体的集合，边集合E是主题和药剂之间的关系的集合，其中，建立可视化结构网络G的步骤包括：对于语义RDF文档中的四元组集合中的每一个四元组，如果该四元组的权重高于预设的概率阈值p，则将该四元组加入所述可视化结构网络G中，将该四元组的主体和客体并入顶点集合V，将该四元组的谓词并入边集合E，当全部四元组均加入所述可视化结构网络G后，即得到最终的中医药主题模型网络图。

作为优选，还包括预处理步骤：将所有处方划分为T个主题，用θ_z表示每个主题z在药剂库V上的多项分布，用φ_d表示每个处方d对T个主题的多项分布，其中，处方d的生成方式包括：采样φ_d～Dir(α)，对于处方中的每个药剂w，采样一个主题标签z～Multi(φ_d)，并生成与该主题标签z相对应的w～Multi(θ_z)，其中θ_(.)～Dir(β)，Dir表示狄利克雷分布，Multi表示多项分布。

作为优选，所述步骤3还包括以下具体步骤：

预处理：进行中药处方文档转换，修改文档向量集合{w}使得

得到{w′}，其中重量(w_m，n)为处方中药剂的重量，重量(d_m)为每个处方的重量；

初始化：遍历每个中药处方文档中的每一个单词，对Z_m，n采样，使得Z_m，n=k～Multi(1/k)，令文档-主题计数

加1，令主题-单词计数

加1，令文档-主题计数n_m加1，令主题-单词计数n_k加1；

Gibbs采样：遍历每个中药处方文档中的每一个单词，令计数

n_m、n_k分别减1；令当前单词满足

令计数

分别加1；检查收敛性，如果收敛且未达到迭代次数上限，分别从参数集合Φ和Θ中读取参数；

其中，{w}为文档向量集合，K为主题数目，

{n_m}，{n_k}分别为计数统计及其计数和，{p(z_i|.)}为条件概率数组，{z}为主题相关度集合，Φ、Θ分别为多项分布参数集合。

本发明由于采用了以上技术方案，具有显著的技术效果：

采用药剂重量而非普通文档中的词频进行数据处理，并相应地改进了Gibbs-LDA算法来适应上述对数据处理手段的变更，达到准确地求解中医药处方数据的LDA模型参数的目的，同时，将处理所得到的数据采用结构网络的方式输出，更易于可视化操作，可以准确地表达出中医药处方和药剂之间的特殊关联，从而解决了现有技术无法对其进行准确分析的难题。进一步地，通过改进现有的Gibbs采样方法，令推导过程得以简化，求解效果良好，并减少了数据处理的时间。

附图说明

图1为潜在狄利克雷分配LDA的概率图模型示意图。

图2为中医药主题模型网络结果示意图。

图3为本发明所使用的数据挖掘系统的结构示意图。

具体实施方式

下面结合实施例对本发明作进一步的详细描述。

实施例1

本发明使用基于B/S架构的数据挖掘系统，如图3所示，该应用系统包括服务端和客户端，其中，客户端为应用层，包括第三方平台的数据挖掘应用模块，数据挖掘方案制定模块和方案执行模块。服务端包括服务层、汇聚层和资源层，其中，服务层包括公用数据挖掘接口和DartSpora系统调用接口，汇聚层包括资源管理模块、权限管理模块和挖掘方案管理模块，资源层包括数据库、本地文件系统、分布式文件系统、数据挖掘算法库、并行分布式数据挖掘算法库和领域相关数据挖掘算法库。

服务端，资源层与汇聚层之间的数据传输格式为JDBC、JSDL、ExampleSet等格式，其中ExampleSet为自定义序列化格式，可以用于算子之间数据传输；汇聚层与服务层之间传输的数据格式为XML，所有的算子（Operator）和实验都是通过XML来配置的；服务端和客户端与一般WEB容器类似，主要传输HTML、js、图片等静态文件和Ajax使用到的XML、JSON格式的动态数据。

假设所有处方的集合一共有T个主题，每个主题用z表示为药剂库V上面的多项分布θ_z；进一步假设每个处方d对这T个主题也是一个多项分布φ_d。由于处方的来源是不同的医师所开出的药方，这些药方被上传到本地文件系统或者分布式文件系统内，对药方/药剂的数据关联进行挖掘的过程，也同时是一个对所有的中医药药方的数据进行检索的过程。

下面描述一个处方的生成过程：

对不同的服务器中的药方进行采样φ_d～Dir(α)；

对于处方中的每个药剂w，进行以下操作：

采样一个主题标签z～Multi(φ_d)；

生成对应的w～Multi(θ_z)。

其中θ_(.)～Dir(β)，Dir表示狄利克雷分布，Multi表示多项分布。

将上述处方应用与以下的中医药数据挖掘。

先验的假定。在中医药LDA模型中，有处方-主题、主题-药剂两组先验，他们由超参数alpha和beta确定。实际上pLSA是LDA模型的MAP（MaximumA Posteriori）估计，先验采用的是对称的狄利克雷概率。

先验假设有两种方式：1)一个对称的（Symmetry）；2）另外一个是非对称的（Asymmetric）。他们一共有四种组合：

AA:处方-主题、主题-药剂分布都采用非对称的先验；

AS:处方-主题分布采用非对称的先验，而主题-药剂分布采用对称的先验；

SA：处方-主题分布采用对称的先验，而主题-药剂分布采用非对称的先验；

SS：处方-主题、主题-药剂都采用对称的先验；

我们采用上述的AS的方式。

确定LDA主题模型中主题的数目，这是该模型非常关键的一个问题。由于中医药理论体系中的一个重要分支是五行理论，所以我们将中医药主题模型的主题数目设为5.

改进Gibbs采样方法。标准的LDA的模型求解过程是一个最优化的问题，一般采用极大似然估计法。实际中一般使用以下三种不精确的方法进行模型的求解：

基于Gibbs采样的方法；

基于变分法的期望最大化（EM）方法；

基于期望推荐的方法。

基于Gibbs采样的方法推导起来简单，并且求解效果良好，但是一般的Gibbs-LDA算法是用于处理文本数据的，而中医药处方/药物数据具有其特殊性：中医药处方/药物成分记录不完全符合BOW模型，因为其药剂大多是通过重量来描述的，而不是普通文档中的词频。所以需要改进Gibbs-LDA算法来求解中医药处方数据的LDA模型参数。

生成主题模型的语义RDF（Resource Description Framework）文档。统一资源描述框架RDF是用于描述网络资源的W3C标准，它使用XML进行编写，包含一组三元组（Triple），即：一个主体（Subject）、一个谓词（Predicate或属性，Property）和一个客体（Object）。由于通过主题模型挖掘所得的结果中含有权重，为了表达方便，这里可以将RDF扩展为四元组（主体，客体，谓词，权重），从而我们便可以将主题模型挖掘所得的结果用四元组的RDF图来进行表达了。

主题模型可视化，如图1所示，中药药剂和处方的关系可以关联起来，读取本地文件系统或者分布式文件系统上的药方，并建立一个处方-主题-药剂网络，该网络能够展示他们三者的关系。假设最终网络图G是由顶点集合V和边集合E组成，即G=<E,V>，顶点V是本体（ontology）的集合，包含处方、主题和药剂，即V=...；边集合E是由处方-主题的关系，主题-药剂的关系E之间的边的集合，即E=....。中医药主题模型网络图生产算法如下：

算法：GRAPH-GENERATE

输入：语义RDF文档中的四元组集合{w}，概率阈值p

输出：中医药主题模型网络图G=（V,E）

for w∈{w}do

if w_权重＞p then

将该条记录加入结果：

1.V＝V∪W_subject∪W_object

2.E＝E∪W_predicate

done

在中医药数据中，由于处方/药物包含的中草药药剂并不是以“词频”的形式来表示其在这个文档中的“重要性”即p(w|d)，而一个处方/药物里面的中草药并没有“词频”这个概念，一个中草药一般只出现一次，所以，如果直接采用Gibbs-LDA算法，各个一个文档中的词频都是相等的，这样不能够很好地对实际情况进行建模，所以需要对原始的Gibbs-LDA算法进行改进。一个简单而有效的方法是利用中草药重量信息，一个处方/药物里面中草药的重量占比更能够很好地描述它在这个处方/药剂里面的重要程度（实际中，药物的作用机理是中草药里面的化学成分的含量，为了简化模型，这里使用中草药药剂重量来描述它的重要程度）。

改进的Gibbs-LDA算法主要过程如下：

算法Improved-GibbsLDA({w}，α，β,K)

输入：文档向量集合{w}（其中，文档向量集合{w}是药物/处方的集合，通过映射存储于本地文件系统或者分布式文件系统内的处方的集合可以得到上述文档向量集合{w}），超参数α，β，主题数目K

全局数据：计数统计

及其计数和{n_m}，{n_k}，条件概率数组{p(z_i|.)}

输出：主题相关度集合{z}，多项分布参数集合φ和Θ，超参数α，β

//文档预处理：{w}转换为{w′}

for all文档m∈[1,M]do

for all单词n∈[1,N_m]in文档m do

修改w_m,n，使得

//初始化

将所有参数置为0：

n_m，n_k

for all文档m∈[1,M]do

for all单词n∈[1,N_m]in文档m do

对Z_m,n采样，使得Z_m,n=k～Multi(1/K)

增加文档-主题计数：

增加主题-单词计数：

增加文档-主题计数：n_m+＝1

增加主题-单词计数：n_k+＝1

//初始化结束

//Gibbs采样

while not finished do

for all文档m∈[1,M]do

for all单词n∈[1,N_m]in文档m do

//当前单词w_m,n

减少计数：

n_m-＝1；n_k-＝1

//多项分布采样，更新参数

更新分布参数

p (z_{i} | z_{&Not; i}, w) = \frac{p (\overset{&RightArrow;}{w}, \overset{&RightArrow;}{z})}{p (\overset{&RightArrow;}{w}, {\overset{&RightArrow;}{z}}_{&Not; i})}

= \frac{p (\overset{&RightArrow;}{w} | \overset{&RightArrow;}{z})}{p ({\overset{&RightArrow;}{w}}_{&Not; i} | {\overset{&RightArrow;}{z}}_{&Not; i}) p (\overset{&RightArrow;}{w})} \cdot \frac{p (\overset{&RightArrow;}{z})}{p ({\overset{&RightArrow;}{z}}_{&Not; i})} &Proportional; \frac{Δ ({\overset{&RightArrow;}{n}}_{z} + \overset{&RightArrow;}{β})}{Δ ({\overset{&RightArrow;}{n}}_{z, &Not; i} + \overset{&RightArrow;}{β})} \cdot \frac{Δ ({\overset{&RightArrow;}{n}}_{m} + \overset{&RightArrow;}{α})}{Δ ({\overset{&RightArrow;}{n}}_{m, &Not; i} + \overset{&RightArrow;}{α})}

= \frac{Γ (n_{k}^{(t)} + β_{t}) Γ (Σ_{t = 1}^{v} n_{k, &Not; i}^{(t)} + β_{t})}{Γ (n_{k, &Not; i}^{(t)} + β_{t}) Γ (Σ_{t = 1}^{v} n_{k}^{(t)} + β_{t})} \cdot \frac{Γ (n_{m}^{(k)} + α_{t})}{Γ (n_{m, &Not; i}^{(k)} + α_{t})}

= \frac{n_{k, &Not; i}^{(t)} + β_{t}}{Σ_{t = 1}^{v} n_{k, &Not; i}^{(t)} + β_{t}} \cdot \frac{n_{m, &Not; i}^{(k)} + α_{k}}{[Σ_{k = 1}^{k} n_{m}^{(k)} + α_{t}] - 1} &Proportional; \frac{n_{k, &Not; i}^{(t)} + β_{t}}{Σ_{t = 1}^{v} n_{k, &Not; i}^{(t)} + β_{t}} (n_{m, &Not; i}^{(k)} + α_{k})

使之满足

增加计数：

n_{m}^{(\tilde{k})} + = 1; n_{\tilde{k}}^{(t)} + = 1; n_{\tilde{m}} + = 1; n_{\tilde{k}} + = 1

//检查收敛性，并读取参数

if收敛并且没有达到迭代次数上限then

//读取归一化参数

依据以下公式从参数集合φ中读取参数

依据以下公式

从参数集合Θ中读取参数

可以看出上述Improved-GibbsLDA算法主要体现在增加了对文档的预处理工作，该步骤能够使得处方/药物里面的中草药的重量占比正比于它对处方/药物的“贡献率”，这样能够更好地对现实中的情况进行建模，也能够提升实验的效果。

下面是一个处方和药剂所对应的关系表：

应用上述数据挖掘方法对上述处方和药剂之间的对应关系进行挖掘，得到以下的主题挖掘结果：

上表展示了5个主题，按照由高到低的顺序，排列着药剂对该主题的“贡献”程度，即P(w|z)。

可以看出，主题4中的大多药物和清热相关，主题3中大多大多药物作用是活血化瘀，主题2中大多数药物作用于肝脾，主题1中药物大多和养胃相关，而主题0中药物主要是“补气健脾清热养阴”。

总之，以上所述仅为本发明的较佳实施例，凡依本发明申请专利范围所作的均等变化与修饰，皆应属本发明专利的涵盖范围。

Claims

1.一种基于LDA主题模型的中医药数据挖掘方法，包括以下具体步骤：

2）确定LDA模型中的主题数目；

3）采用Gibbs采样方法对上述LDA模型进行求解；

5）将药剂和处方进行关联，建立处方-主题-药剂的可视化结构网络G，该结构网络G由顶点集合V和边集合E组成，即G＝(V,E)，顶点集合V是包含处方、主题和药剂的本体的集合，边集合E是主题和药剂之间的关系的集合，其中，建立可视化结构网络G的步骤包括：对于语义RDF文档中的四元组集合中的每一个四元组，如果该四元组的权重高于预设的概率阈值p，则将该四元组加入所述可视化结构网络G中，将该四元组的主体和客体并入顶点集合V，将该四元组的谓词并入边集合E，当全部四元组均加入所述可视化结构网络G后，即得到最终的中医药主题模型网络图。

2.根据权利要求1所述的基于LDA主题模型的中医药数据挖掘方法，其特征在于，还包括预处理步骤：将所有处方划分为T个主题，用θ_z表示每个主题z在药剂库V上的多项分布，用φ_d表示每个处方d对T个主题的多项分布，其中，处方d的生成方式包括：采样φ_d～Dir(α)，对于处方中的每个药剂w，采样一个主题标签z～Multi(φ_d)，并生成与该主题标签z相对应的w～Multi(θ_z)，其中θ_(.)～Dir(β)，Dir表示狄利克雷分布，Multi表示多项分布。

3.根据权利要求1所述的基于LDA主题模型的中医药数据挖掘方法，其特征在于，所述步骤3还包括以下具体步骤：

预处理：进行中药处方文档转换，修改文档向量集合{w}使得

初始化：遍历每个中药处方文档中的每一个单词，对Z_m，n采样，使得Z_m，m＝k～Multi(1/k)，令文档-主题计数

加1，令主题-单词计数

加1，令文档-主题计数n_m加1，令主题-单词计数n_k加1；

Gibbs采样：遍历每个中药处方文档中的每一个单词，令计数

n_m、n_k分别减1；令当前单词满足

令计数

其中，{w}为文档向量集合，K为主题数目，