CN103365978A - 基于lda主题模型的中医药数据挖掘方法 - Google Patents

基于lda主题模型的中医药数据挖掘方法 Download PDF

Info

Publication number
CN103365978A
CN103365978A CN2013102760211A CN201310276021A CN103365978A CN 103365978 A CN103365978 A CN 103365978A CN 2013102760211 A CN2013102760211 A CN 2013102760211A CN 201310276021 A CN201310276021 A CN 201310276021A CN 103365978 A CN103365978 A CN 103365978A
Authority
CN
China
Prior art keywords
theme
prescription
chinese medicine
document
medicament
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013102760211A
Other languages
English (en)
Other versions
CN103365978B (zh
Inventor
姜晓红
严海明
商任翔
吴朝晖
陈英芝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201310276021.1A priority Critical patent/CN103365978B/zh
Publication of CN103365978A publication Critical patent/CN103365978A/zh
Application granted granted Critical
Publication of CN103365978B publication Critical patent/CN103365978B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明涉及中医药信息检索领域,公开了一种基于LDA主题模型的中医药数据挖掘方法,包括以下具体步骤:1)先在LDA模型中确定处方-主题和主题-药剂两组先验,处方-主题和主题-药剂分别由超参数α和β确定,使用AS方式对两组先验进行先验假设;2)确定LDA模型中的主题数目;3)采用Gibbs采样方法对上述LDA模型进行求解;4)生成LDA模型的语义RDF文档,将LDA模型的结果映射至四元组,并用语义RDF文档进行表示;5)将药剂和处方进行关联,建立处方-主题-药剂的可视化结构网络G。本发明的优点在于,适用于海量中药处方的处理和挖掘,并可以得到可视化的结构模型。

Description

基于LDA主题模型的中医药数据挖掘方法
技术领域
本发明涉及中医药信息检索领域,特别涉及一种基于LDA主题模型的中医药数据挖掘方法。
背景技术
本发明涉及机器学习领域内主题模型的相关内容,主要有向量空间模型,奇异值分解与LSA,概率隐含语义分析pLSA,潜在狄利克雷分配LDA等。
向量空间模型被广泛应用在信息检索领域,最初由Salton在TREC项目中使用BOW(Bag Of Words)模型,即文档中单词具有可交换性(Exchangeability)来刻画单词和文本的关系。在他的模型中,单词的语义是独立于文本的,每个单词是单词空间中的一个维度,用这样的方法可以描述整个语料库(文档的集合)。
潜在语义分析(Latent Semantic Analysis)就是在文档和单词之间引入一个隐含语义层,原有的文档-单词关系变成了文档-隐含语义-单词。它使用奇异值分解(SVD,singular value decomposition)来挖掘这个层隐含的关系。
类似于LSA,概率隐含语义分析(pLSA,Probability Latent Semantic Analysis)也在文档-单词之间引入了一个隐含语义空间,不过pLSA是用概率模型来描绘的。在pLSA中,文本是由共现矩阵表达,即(d,w)对。其中(di,wj)表示文档di和单词wj共同出现,即文档标号为i的文档里面出现了单词j。这里需要强调的是Bag-Of-Words模型忽略掉文档里面单词出现次序,语料库里面的文档的次序默认也是忽略的。
潜在狄利克雷分配LDA是一种层次贝叶斯模型。它的概率图模型如图1所示。图中M表示文档的总数目,N是一个文档中的单词数目。α是每个文档的主题分布的狄利克雷先验参数,β是每个主题的单词分布的狄利克雷先验参数,即P(w|z);θ是语料库中的每个文档与T个主题的多项分布(MultinomialDistribution)。
可以看出LDA是一个三层贝叶斯概率模型,它和PLSA最大的区别是增加了对主题的混合权重θ引进了Dirichlet先验,用一个超参数(即参数的参数)α来产生参数θ。
由于中医药处方/药物数据具有其特殊性:中医药处方/药物成分记录不完全符合BOW模型,因此采用上述方法对现有的中药处方进行信息检索无法准确地得到中药处方/药物数据,因此,需要开发一种可以进一步准确地挖掘处方/药物数据的方法。
发明内容
本发明针对现有方法无法有效地得到中医药处方中隐含的关系信息的缺点,提供了一种新型的基于LDA主题模型的中医药数据挖掘方法。
为实现上述目的,本发明可采取下述技术方案:
基于LDA主题模型的中医药数据挖掘方法,包括以下具体步骤:
1)先在LDA模型中确定处方-主题和主题-药剂两组先验,处方-主题和主题-药剂分别由超参数α和β确定,使用AS方式对两组先验进行先验假设,所述AS方式为:处方-主题分布采用非对称的先验,主题-药剂分布采用对称的先验;
2)确定LDA模型中的主题数目;
3)采用Gibbs采样方法对上述LDA模型进行求解;
4)生成LDA模型的语义RDF文档,所述语义RDF文档包括一个四元组集合,所述四元组包括主体,谓词,客体,权重,将LDA模型的结果映射至四元组,并用语义RDF文档进行表示;
5)将药剂和处方进行关联,建立处方-主题-药剂的可视化结构网络G,该结构网络G由顶点集合V和边集合E组成,即G=(V,E),顶点集合V是包含处方、主题和药剂的本体的集合,边集合E是主题和药剂之间的关系的集合,其中,建立可视化结构网络G的步骤包括:对于语义RDF文档中的四元组集合中的每一个四元组,如果该四元组的权重高于预设的概率阈值p,则将该四元组加入所述可视化结构网络G中,将该四元组的主体和客体并入顶点集合V,将该四元组的谓词并入边集合E,当全部四元组均加入所述可视化结构网络G后,即得到最终的中医药主题模型网络图。
作为优选,还包括预处理步骤:将所有处方划分为T个主题,用θz表示每个主题z在药剂库V上的多项分布,用φd表示每个处方d对T个主题的多项分布,其中,处方d的生成方式包括:采样φd~Dir(α),对于处方中的每个药剂w,采样一个主题标签z~Multi(φd),并生成与该主题标签z相对应的w~Multi(θz),其中θ(.)~Dir(β),Dir表示狄利克雷分布,Multi表示多项分布。
作为优选,所述步骤3还包括以下具体步骤:
预处理:进行中药处方文档转换,修改文档向量集合{w}使得
Figure BDA00003446234800031
Figure BDA00003446234800032
得到{w′},其中重量(wm,n)为处方中药剂的重量,重量(dm)为每个处方的重量;
初始化:遍历每个中药处方文档中的每一个单词,对Zm,n采样,使得Zm,n=k~Multi(1/k),令文档-主题计数
Figure BDA00003446234800033
加1,令主题-单词计数
Figure BDA00003446234800034
加1,令文档-主题计数nm加1,令主题-单词计数nk加1;
Gibbs采样:遍历每个中药处方文档中的每一个单词,令计数
Figure BDA00003446234800035
nm、nk分别减1;令当前单词满足
Figure BDA00003446234800036
令计数
Figure BDA00003446234800037
分别加1;检查收敛性,如果收敛且未达到迭代次数上限,分别从参数集合ΦΘ中读取参数;
其中,{w}为文档向量集合,K为主题数目,
Figure BDA00003446234800038
{nm},{nk}分别为计数统计及其计数和,{p(zi|.)}为条件概率数组,{z}为主题相关度集合,ΦΘ分别为多项分布参数集合。
本发明由于采用了以上技术方案,具有显著的技术效果:
采用药剂重量而非普通文档中的词频进行数据处理,并相应地改进了Gibbs-LDA算法来适应上述对数据处理手段的变更,达到准确地求解中医药处方数据的LDA模型参数的目的,同时,将处理所得到的数据采用结构网络的方式输出,更易于可视化操作,可以准确地表达出中医药处方和药剂之间的特殊关联,从而解决了现有技术无法对其进行准确分析的难题。进一步地,通过改进现有的Gibbs采样方法,令推导过程得以简化,求解效果良好,并减少了数据处理的时间。
附图说明
图1为潜在狄利克雷分配LDA的概率图模型示意图。
图2为中医药主题模型网络结果示意图。
图3为本发明所使用的数据挖掘系统的结构示意图。
具体实施方式
下面结合实施例对本发明作进一步的详细描述。
实施例1
本发明使用基于B/S架构的数据挖掘系统,如图3所示,该应用系统包括服务端和客户端,其中,客户端为应用层,包括第三方平台的数据挖掘应用模块,数据挖掘方案制定模块和方案执行模块。服务端包括服务层、汇聚层和资源层,其中,服务层包括公用数据挖掘接口和DartSpora系统调用接口,汇聚层包括资源管理模块、权限管理模块和挖掘方案管理模块,资源层包括数据库、本地文件系统、分布式文件系统、数据挖掘算法库、并行分布式数据挖掘算法库和领域相关数据挖掘算法库。
服务端,资源层与汇聚层之间的数据传输格式为JDBC、JSDL、ExampleSet等格式,其中ExampleSet为自定义序列化格式,可以用于算子之间数据传输;汇聚层与服务层之间传输的数据格式为XML,所有的算子(Operator)和实验都是通过XML来配置的;服务端和客户端与一般WEB容器类似,主要传输HTML、js、图片等静态文件和Ajax使用到的XML、JSON格式的动态数据。
假设所有处方的集合一共有T个主题,每个主题用z表示为药剂库V上面的多项分布θz;进一步假设每个处方d对这T个主题也是一个多项分布φd。由于处方的来源是不同的医师所开出的药方,这些药方被上传到本地文件系统或者分布式文件系统内,对药方/药剂的数据关联进行挖掘的过程,也同时是一个对所有的中医药药方的数据进行检索的过程。
下面描述一个处方的生成过程:
对不同的服务器中的药方进行采样φd~Dir(α);
对于处方中的每个药剂w,进行以下操作:
采样一个主题标签z~Multi(φd);
生成对应的w~Multi(θz)。
其中θ(.)~Dir(β),Dir表示狄利克雷分布,Multi表示多项分布。
将上述处方应用与以下的中医药数据挖掘。
先验的假定。在中医药LDA模型中,有处方-主题、主题-药剂两组先验,他们由超参数alpha和beta确定。实际上pLSA是LDA模型的MAP(MaximumA Posteriori)估计,先验采用的是对称的狄利克雷概率。
先验假设有两种方式:1)一个对称的(Symmetry);2)另外一个是非对称的(Asymmetric)。他们一共有四种组合:
AA:处方-主题、主题-药剂分布都采用非对称的先验;
AS:处方-主题分布采用非对称的先验,而主题-药剂分布采用对称的先验;
SA:处方-主题分布采用对称的先验,而主题-药剂分布采用非对称的先验;
SS:处方-主题、主题-药剂都采用对称的先验;
我们采用上述的AS的方式。
确定LDA主题模型中主题的数目,这是该模型非常关键的一个问题。由于中医药理论体系中的一个重要分支是五行理论,所以我们将中医药主题模型的主题数目设为5.
改进Gibbs采样方法。标准的LDA的模型求解过程是一个最优化的问题,一般采用极大似然估计法。实际中一般使用以下三种不精确的方法进行模型的求解:
基于Gibbs采样的方法;
基于变分法的期望最大化(EM)方法;
基于期望推荐的方法。
基于Gibbs采样的方法推导起来简单,并且求解效果良好,但是一般的Gibbs-LDA算法是用于处理文本数据的,而中医药处方/药物数据具有其特殊性:中医药处方/药物成分记录不完全符合BOW模型,因为其药剂大多是通过重量来描述的,而不是普通文档中的词频。所以需要改进Gibbs-LDA算法来求解中医药处方数据的LDA模型参数。
生成主题模型的语义RDF(Resource Description Framework)文档。统一资源描述框架RDF是用于描述网络资源的W3C标准,它使用XML进行编写,包含一组三元组(Triple),即:一个主体(Subject)、一个谓词(Predicate或属性,Property)和一个客体(Object)。由于通过主题模型挖掘所得的结果中含有权重,为了表达方便,这里可以将RDF扩展为四元组(主体,客体,谓词,权重),从而我们便可以将主题模型挖掘所得的结果用四元组的RDF图来进行表达了。
主题模型可视化,如图1所示,中药药剂和处方的关系可以关联起来,读取本地文件系统或者分布式文件系统上的药方,并建立一个处方-主题-药剂网络,该网络能够展示他们三者的关系。假设最终网络图G是由顶点集合V和边集合E组成,即G=<E,V>,顶点V是本体(ontology)的集合,包含处方、主题和药剂,即V=...;边集合E是由处方-主题的关系,主题-药剂的关系E之间的边的集合,即E=....。中医药主题模型网络图生产算法如下:
算法:GRAPH-GENERATE
输入:语义RDF文档中的四元组集合{w},概率阈值p
输出:中医药主题模型网络图G=(V,E)
for w∈{w}do
if w权重>p then
将该条记录加入结果:
1.V=V∪Wsubject∪Wobject
2.E=E∪Wpredicate
done
在中医药数据中,由于处方/药物包含的中草药药剂并不是以“词频”的形式来表示其在这个文档中的“重要性”即p(w|d),而一个处方/药物里面的中草药并没有“词频”这个概念,一个中草药一般只出现一次,所以,如果直接采用Gibbs-LDA算法,各个一个文档中的词频都是相等的,这样不能够很好地对实际情况进行建模,所以需要对原始的Gibbs-LDA算法进行改进。一个简单而有效的方法是利用中草药重量信息,一个处方/药物里面中草药的重量占比更能够很好地描述它在这个处方/药剂里面的重要程度(实际中,药物的作用机理是中草药里面的化学成分的含量,为了简化模型,这里使用中草药药剂重量来描述它的重要程度)。
改进的Gibbs-LDA算法主要过程如下:
算法Improved-GibbsLDA({w},α,β,K)
输入:文档向量集合{w}(其中,文档向量集合{w}是药物/处方的集合,通过映射存储于本地文件系统或者分布式文件系统内的处方的集合可以得到上述文档向量集合{w}),超参数α,β,主题数目K
全局数据:计数统计
Figure BDA00003446234800071
及其计数和{nm},{nk},条件概率数组{p(zi|.)}
输出:主题相关度集合{z},多项分布参数集合φΘ,超参数α,β
//文档预处理:{w}转换为{w′}
for all文档m∈[1,M]do
for all单词n∈[1,Nm]in文档m do
修改wm,n,使得
//初始化
将所有参数置为0:
Figure BDA00003446234800073
nm,nk
for all文档m∈[1,M]do
for all单词n∈[1,Nm]in文档m do
对Zm,n采样,使得Zm,n=k~Multi(1/K)
增加文档-主题计数:
Figure BDA00003446234800074
增加主题-单词计数:
Figure BDA00003446234800075
增加文档-主题计数:nm+=1
增加主题-单词计数:nk+=1
//初始化结束
//Gibbs采样
while not finished do
for all文档m∈[1,M]do
for all单词n∈[1,Nm]in文档m do
//当前单词wm,n
减少计数:
Figure BDA00003446234800081
Figure BDA00003446234800082
nm-=1;nk-=1
//多项分布采样,更新参数
更新分布参数 p ( z i | z &Not; i , w ) = p ( w &RightArrow; , z &RightArrow; ) p ( w &RightArrow; , z &RightArrow; &Not; i )
= p ( w &RightArrow; | z &RightArrow; ) p ( w &RightArrow; &Not; i | z &RightArrow; &Not; i ) p ( w &RightArrow; ) &CenterDot; p ( z &RightArrow; ) p ( z &RightArrow; &Not; i ) &Proportional; &Delta; ( n &RightArrow; z + &beta; &RightArrow; ) &Delta; ( n &RightArrow; z , &Not; i + &beta; &RightArrow; ) &CenterDot; &Delta; ( n &RightArrow; m + &alpha; &RightArrow; ) &Delta; ( n &RightArrow; m , &Not; i + &alpha; &RightArrow; )
= &Gamma; ( n k ( t ) + &beta; t ) &Gamma; ( &Sigma; t = 1 v n k , &Not; i ( t ) + &beta; t ) &Gamma; ( n k , &Not; i ( t ) + &beta; t ) &Gamma; ( &Sigma; t = 1 v n k ( t ) + &beta; t ) &CenterDot; &Gamma; ( n m ( k ) + &alpha; t ) &Gamma; ( n m , &Not; i ( k ) + &alpha; t )
= n k , &Not; i ( t ) + &beta; t &Sigma; t = 1 v n k , &Not; i ( t ) + &beta; t &CenterDot; n m , &Not; i ( k ) + &alpha; k [ &Sigma; k = 1 k n m ( k ) + &alpha; t ] - 1 &Proportional; n k , &Not; i ( t ) + &beta; t &Sigma; t = 1 v n k , &Not; i ( t ) + &beta; t ( n m , &Not; i ( k ) + &alpha; k )
使之满足
Figure BDA00003446234800087
增加计数: n m ( k ~ ) + = 1 ; n k ~ ( t ) + = 1 ; n m ~ + = 1 ; n k ~ + = 1
//检查收敛性,并读取参数
if收敛并且没有达到迭代次数上限then
//读取归一化参数
依据以下公式从参数集合φ中读取参数
依据以下公式
Figure BDA000034462348000810
从参数集合Θ中读取参数
可以看出上述Improved-GibbsLDA算法主要体现在增加了对文档的预处理工作,该步骤能够使得处方/药物里面的中草药的重量占比正比于它对处方/药物的“贡献率”,这样能够更好地对现实中的情况进行建模,也能够提升实验的效果。
下面是一个处方和药剂所对应的关系表:
应用上述数据挖掘方法对上述处方和药剂之间的对应关系进行挖掘,得到以下的主题挖掘结果:
上表展示了5个主题,按照由高到低的顺序,排列着药剂对该主题的“贡献”程度,即P(w|z)。
可以看出,主题4中的大多药物和清热相关,主题3中大多大多药物作用是活血化瘀,主题2中大多数药物作用于肝脾,主题1中药物大多和养胃相关,而主题0中药物主要是“补气健脾清热养阴”。
总之,以上所述仅为本发明的较佳实施例,凡依本发明申请专利范围所作的均等变化与修饰,皆应属本发明专利的涵盖范围。

Claims (3)

1.一种基于LDA主题模型的中医药数据挖掘方法,包括以下具体步骤:
1)先在LDA模型中确定处方-主题和主题-药剂两组先验,处方-主题和主题-药剂分别由超参数α和β确定,使用AS方式对两组先验进行先验假设,所述AS方式为:处方-主题分布采用非对称的先验,主题-药剂分布采用对称的先验;
2)确定LDA模型中的主题数目;
3)采用Gibbs采样方法对上述LDA模型进行求解;
4)生成LDA模型的语义RDF文档,所述语义RDF文档包括一个四元组集合,所述四元组包括主体,谓词,客体,权重,将LDA模型的结果映射至四元组,并用语义RDF文档进行表示;
5)将药剂和处方进行关联,建立处方-主题-药剂的可视化结构网络G,该结构网络G由顶点集合V和边集合E组成,即G=(V,E),顶点集合V是包含处方、主题和药剂的本体的集合,边集合E是主题和药剂之间的关系的集合,其中,建立可视化结构网络G的步骤包括:对于语义RDF文档中的四元组集合中的每一个四元组,如果该四元组的权重高于预设的概率阈值p,则将该四元组加入所述可视化结构网络G中,将该四元组的主体和客体并入顶点集合V,将该四元组的谓词并入边集合E,当全部四元组均加入所述可视化结构网络G后,即得到最终的中医药主题模型网络图。
2.根据权利要求1所述的基于LDA主题模型的中医药数据挖掘方法,其特征在于,还包括预处理步骤:将所有处方划分为T个主题,用θz表示每个主题z在药剂库V上的多项分布,用φd表示每个处方d对T个主题的多项分布,其中,处方d的生成方式包括:采样φd~Dir(α),对于处方中的每个药剂w,采样一个主题标签z~Multi(φd),并生成与该主题标签z相对应的w~Multi(θz),其中θ(.)~Dir(β),Dir表示狄利克雷分布,Multi表示多项分布。
3.根据权利要求1所述的基于LDA主题模型的中医药数据挖掘方法,其特征在于,所述步骤3还包括以下具体步骤:
预处理:进行中药处方文档转换,修改文档向量集合{w}使得
Figure FDA00003446234700011
Figure FDA00003446234700021
得到{w′},其中重量(wm,n)为处方中药剂的重量,重量(dm)为每个处方的重量;
初始化:遍历每个中药处方文档中的每一个单词,对Zm,n采样,使得Zm,m=k~Multi(1/k),令文档-主题计数
Figure FDA00003446234700022
加1,令主题-单词计数
Figure FDA00003446234700023
加1,令文档-主题计数nm加1,令主题-单词计数nk加1;
Gibbs采样:遍历每个中药处方文档中的每一个单词,令计数
Figure FDA00003446234700024
nm、nk分别减1;令当前单词满足
Figure FDA00003446234700025
令计数
Figure FDA00003446234700026
分别加1;检查收敛性,如果收敛且未达到迭代次数上限,分别从参数集合ΦΘ中读取参数;
其中,{w}为文档向量集合,K为主题数目,
Figure FDA00003446234700027
{nm},{nk}分别为计数统计及其计数和,{p(zi|.)}为条件概率数组,{z}为主题相关度集合,ΦΘ分别为多项分布参数集合。
CN201310276021.1A 2013-07-01 2013-07-01 基于lda主题模型的中医药数据挖掘方法 Active CN103365978B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310276021.1A CN103365978B (zh) 2013-07-01 2013-07-01 基于lda主题模型的中医药数据挖掘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310276021.1A CN103365978B (zh) 2013-07-01 2013-07-01 基于lda主题模型的中医药数据挖掘方法

Publications (2)

Publication Number Publication Date
CN103365978A true CN103365978A (zh) 2013-10-23
CN103365978B CN103365978B (zh) 2017-03-29

Family

ID=49367319

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310276021.1A Active CN103365978B (zh) 2013-07-01 2013-07-01 基于lda主题模型的中医药数据挖掘方法

Country Status (1)

Country Link
CN (1) CN103365978B (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678599A (zh) * 2013-12-13 2014-03-26 北京奇虎科技有限公司 基于plsa算法判断文档相关性的方法及装置
CN103778207A (zh) * 2014-01-15 2014-05-07 杭州电子科技大学 基于lda的新闻评论的话题挖掘方法
CN105139211A (zh) * 2014-12-19 2015-12-09 Tcl集团股份有限公司 产品简介生成方法及系统
CN106055538A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
CN106844416A (zh) * 2016-11-17 2017-06-13 中国科学院计算技术研究所 一种子话题挖掘方法
CN106919997A (zh) * 2015-12-28 2017-07-04 航天信息股份有限公司 一种基于lda的电子商务的用户消费预测方法
CN106971306A (zh) * 2016-01-12 2017-07-21 阿里巴巴集团控股有限公司 产品问题的识别方法及系统
CN107169287A (zh) * 2017-05-17 2017-09-15 云南中医学院 中医减肥决策支持系统的数据分析和处方挖掘方法
CN108647236A (zh) * 2018-03-30 2018-10-12 山东管理学院 一种基于词共现的中药处方向量空间模型方法及装置
CN108717862A (zh) * 2018-04-10 2018-10-30 四川骏逸富顿科技有限公司 一种基于机器学习的智能审方开方模型
CN109063094A (zh) * 2018-07-27 2018-12-21 吉首大学 一种建立中医药知识图谱的方法
CN109065174A (zh) * 2018-07-27 2018-12-21 合肥工业大学 考虑相似约束的病历主题获取方法及装置
CN109657040A (zh) * 2018-11-16 2019-04-19 湖南科技大学 融合多源异构信息的标签推荐方法
CN110299206A (zh) * 2018-03-21 2019-10-01 华东师范大学 一种多内容隐含狄利克雷分布模型及中医医案隐含病机挖掘方法
CN110609821A (zh) * 2018-05-29 2019-12-24 南京大学 一种用于刑罚推断的主题模型ptm
CN111241846A (zh) * 2020-01-15 2020-06-05 沈阳工业大学 一种主题挖掘模型中主题维度自适应确定方法
CN111477295A (zh) * 2020-04-10 2020-07-31 电子科技大学 一种基于隐语义模型的中医组方推荐方法及系统
CN112233804A (zh) * 2020-09-25 2021-01-15 上海中医药大学 一种经方智能推荐方法及应用该方法的设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710333A (zh) * 2009-11-26 2010-05-19 西北工业大学 基于遗传算法的网络文本分割方法
CN101968798A (zh) * 2010-09-10 2011-02-09 中国科学技术大学 基于在线软约束lda算法的社区推荐方法
US20120095952A1 (en) * 2010-10-19 2012-04-19 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization
CN102439597A (zh) * 2011-07-13 2012-05-02 华为技术有限公司 基于潜在狄利克雷模型的参数推断方法、计算装置及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101710333A (zh) * 2009-11-26 2010-05-19 西北工业大学 基于遗传算法的网络文本分割方法
CN101968798A (zh) * 2010-09-10 2011-02-09 中国科学技术大学 基于在线软约束lda算法的社区推荐方法
US20120095952A1 (en) * 2010-10-19 2012-04-19 Xerox Corporation Collapsed gibbs sampler for sparse topic models and discrete matrix factorization
CN102439597A (zh) * 2011-07-13 2012-05-02 华为技术有限公司 基于潜在狄利克雷模型的参数推断方法、计算装置及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LAN DU 等: "Sequential Latent Dirichlet Allocation: Discover Underlying Topic Structures within a Document", 《2010 IEEE INTERNATIONAL CONFERENCE ON DATA MINING》 *
余传明 等: "基于 LDA 模型的评论热点挖掘:原理与实现", 《情报理论与实践》 *
张金松 等: "基于主题模型的文献引用贡献分析", 《图书情报工作》 *
柴艳妹 等: "本体推理在智能照片管理系统中的应用", 《计算机工程》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103678599A (zh) * 2013-12-13 2014-03-26 北京奇虎科技有限公司 基于plsa算法判断文档相关性的方法及装置
CN103678599B (zh) * 2013-12-13 2016-10-26 北京奇虎科技有限公司 基于plsa算法判断文档相关性的方法及装置
CN103778207B (zh) * 2014-01-15 2017-03-01 杭州电子科技大学 基于lda的新闻评论的话题挖掘方法
CN103778207A (zh) * 2014-01-15 2014-05-07 杭州电子科技大学 基于lda的新闻评论的话题挖掘方法
CN105139211A (zh) * 2014-12-19 2015-12-09 Tcl集团股份有限公司 产品简介生成方法及系统
CN105139211B (zh) * 2014-12-19 2021-06-22 Tcl科技集团股份有限公司 产品简介生成方法及系统
CN106919997A (zh) * 2015-12-28 2017-07-04 航天信息股份有限公司 一种基于lda的电子商务的用户消费预测方法
CN106971306A (zh) * 2016-01-12 2017-07-21 阿里巴巴集团控股有限公司 产品问题的识别方法及系统
CN106055538B (zh) * 2016-05-26 2019-03-08 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
CN106055538A (zh) * 2016-05-26 2016-10-26 达而观信息科技(上海)有限公司 主题模型和语义分析相结合的文本标签自动抽取方法
CN106844416A (zh) * 2016-11-17 2017-06-13 中国科学院计算技术研究所 一种子话题挖掘方法
CN107169287A (zh) * 2017-05-17 2017-09-15 云南中医学院 中医减肥决策支持系统的数据分析和处方挖掘方法
CN110299206A (zh) * 2018-03-21 2019-10-01 华东师范大学 一种多内容隐含狄利克雷分布模型及中医医案隐含病机挖掘方法
CN108647236B (zh) * 2018-03-30 2021-07-13 山东管理学院 一种基于词共现的中药处方向量空间模型方法及装置
CN108647236A (zh) * 2018-03-30 2018-10-12 山东管理学院 一种基于词共现的中药处方向量空间模型方法及装置
CN108717862A (zh) * 2018-04-10 2018-10-30 四川骏逸富顿科技有限公司 一种基于机器学习的智能审方开方模型
CN110609821A (zh) * 2018-05-29 2019-12-24 南京大学 一种用于刑罚推断的主题模型ptm
CN109063094A (zh) * 2018-07-27 2018-12-21 吉首大学 一种建立中医药知识图谱的方法
CN109065174A (zh) * 2018-07-27 2018-12-21 合肥工业大学 考虑相似约束的病历主题获取方法及装置
CN109065174B (zh) * 2018-07-27 2022-02-18 合肥工业大学 考虑相似约束的病历主题获取方法及装置
CN109657040A (zh) * 2018-11-16 2019-04-19 湖南科技大学 融合多源异构信息的标签推荐方法
CN111241846A (zh) * 2020-01-15 2020-06-05 沈阳工业大学 一种主题挖掘模型中主题维度自适应确定方法
CN111241846B (zh) * 2020-01-15 2023-05-26 沈阳工业大学 一种主题挖掘模型中主题维度自适应确定方法
CN111477295A (zh) * 2020-04-10 2020-07-31 电子科技大学 一种基于隐语义模型的中医组方推荐方法及系统
CN111477295B (zh) * 2020-04-10 2022-06-03 电子科技大学 一种基于隐语义模型的中医组方推荐方法及系统
CN112233804A (zh) * 2020-09-25 2021-01-15 上海中医药大学 一种经方智能推荐方法及应用该方法的设备
CN112233804B (zh) * 2020-09-25 2023-10-20 上海中医药大学 一种经方智能推荐方法及应用该方法的设备

Also Published As

Publication number Publication date
CN103365978B (zh) 2017-03-29

Similar Documents

Publication Publication Date Title
CN103365978A (zh) 基于lda主题模型的中医药数据挖掘方法
CN108509551B (zh) 一种基于Spark环境下的微博网络关键用户挖掘系统及方法
US10255272B2 (en) Adjustment of document relationship graphs
Munawar et al. Big data in construction: current applications and future opportunities
Patel-Schneider Analyzing schema. org
Perez et al. Ringo: Interactive graph analytics on big-memory machines
Khine et al. A review of polyglot persistence in the big data world
Hoheisel et al. Convergence of a local regularization approach for mathematical programmes with complementarity or vanishing constraints
Britten et al. FieldML, a proposed open standard for the Physiome project for mathematical model representation
Cauley et al. Distributed non-equilibrium Green’s function algorithms for the simulation of nanoelectronic devices with scattering
CN106778880A (zh) 基于多模态深度玻尔兹曼机的微博话题表示及主题发现方法
Li et al. Medical big data analysis in hospital information system
Wang et al. FPGA-Based implementation and synchronization design of a new five-dimensional hyperchaotic system
Hao et al. R-KG: a novel method for implementing a robot intelligent service
Silalahi et al. Developing indonesian medicinal plant ontology using socio-technical approach
Hawash et al. Reversible circuit synthesis time reduction based on subtree-circuit mapping
CN110489667A (zh) 基于用户画像的智能公文流转技术
KR20130013233A (ko) 관계형 데이터베이스의 owl 온톨로지 변환방법 및 그 장치
Liu DKG-PIPD: A Novel Method About Building Deep Knowledge Graph
Dombayci et al. On the process of building a process systems engineering ontology using a semi-automatic construction approach
Ryan et al. Large-scale interactive visualizations of nearly 12,000 digital games
CN107122494A (zh) 基于社团发现的主题模型构建方法
Noraziah et al. Empirical study on medicinal herbs information system (MHIS) in Malaysia
Correa Publio et al. ML-Schema: exposing the semantics of machine learning with schemas and ontologies
Wang et al. MULTI-NETVIS: visual analytics for multivariate network

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant