CN109446320A

CN109446320A - 一种基于lda的生物医药技术主题挖掘方法

Info

Publication number: CN109446320A
Application number: CN201811147587.3A
Authority: CN
Inventors: 姜迪; 叶波; 马军
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-09-29
Filing date: 2018-09-29
Publication date: 2019-03-08

Abstract

本发明涉及一种基于LDA的生物医药技术主题挖掘方法，属于信息检索技术领域。本发明首先采用LDA把一篇文档看作是一个所包含的词的向量的组合，使得文本可以转化为用数学方法进行表示的向量，然后利用评价函数Perplexity(困惑度)确定语义主题数K，最后计算每一篇文档d_i在所有Topic上的一个概率值p，得到了两个矩阵，一个doc‑Topic矩阵，一个word‑Topic矩阵，这样LDA就将文档和词，投射到了一组Topic上，试图通过Topic找出文档与词间，文档与文档间，词与词之间潜在的关系。LDA属于无监督算法，每个Topic并不会要求指定条件，但聚类后，通过统计出各个Topic上词的概率分布，那些在该Topic上概率高的词，能非常好的描述该Topic的意义。

Description

一种基于LDA的生物医药技术主题挖掘方法

技术领域

本发明涉及一种基于LDA的生物医药技术主题挖掘方法，属于信息检索技术领域。

背景技术

在数据挖掘技术扩展到专利文献挖掘之前，对于技术主题分析方法主要是通过IPC分类号反映技术主题以及通过人工阅读专利文献的方法进行主题分类。通过IPC分类号的技术主题分析不能深入到专利文本内容，同时IPC分类号对技术主题的划分往往不能满足分析需求。对专利文献采用人工标引的方法对技术主题分析虽然准确度高，但要求分析人员具有较强的技术领域背景，且效率低不灵活^[59]，在面对海量专利文献时便显得捉襟见肘。如今各个领域技术交叉渗透非常广泛，技术主题挖掘面临着更多的困难。数据挖掘技术的发展则为专利技术主题挖掘提供了强有力的支撑。数据挖掘技术可以从专利文本中提取技术术语，根据技术术语对专利进行技术主题聚类，这样不仅弥补了传统方法上的不足，还可以深入到专利文本的技术核心。

发明内容

本发明要解决的技术问题是提供一种基于LDA的生物医药技术主题挖掘方法，用以解决挖掘生物医药技术主题、生物医药信息检索问题。

本发明的技术方案是：一种基于LDA的生物医药技术主题挖掘方法，所述方法的具体步骤如下：

Step1、构建LDA主题模型；

Step1.1、构建文档层、主题层，词汇层，其中主题是文档的多项式概率分布，词汇是主题的多项式概率分布；

Step2、LDA参数估计；

Step2.1、采用Gibbs随机采样对LDA主题模型中间参数求解；

Step2.2、分布的参数估计；

Step3、评价函数Perplexity确定语义主题参数K；

Step4、计算每一篇文档d_i在所有Topic上的一个概率值p。

所述步骤Step1.1构建文档层、主题层，词汇层的具体步骤如下：

Step1.1.1、使用单词集V＝{w₁，w₂，...，w_v}组成，将文本集合中的每一篇文本进行分词、词性标注及停用词过滤等预处理后，将所有单词组合得到单词集V，w表示集合中的单词；

Step1.1.2、由主题集φ＝{z₁，z₂，...，z_k}组成，式中的z_k表示主题i，主题表示文本里的深层语义，在这里它被表示为概率分布的形式，单词层的单词属于每一个主题的概率组成了主题曾的多项分布式中的p_k,j即代表单词w_j处于主题z_k下的概率。

Step1.2.3、使用主题概率分布来表示文档集合θ＝{θ₁，θ₂，...，θ_v},式中的θ_d＝{θ_d,1，θ_d,2，...，θ_d,k}也代表一篇文本的主题概率分布，其中p_d,z为文档d属于主题z的概率。

所述步骤Step2.1采用Gibbs随机采样对LDA主题模型中间参数求解具体步骤如下：

Step2.1.1、求解训练文本集D中的所有文档d_i的马尔可夫初始状态，具体操作是对文档id分词和过滤后获取所有表示文档的单词，将每一个单词w_n都随机划分至一个主题下；

Step2.1.2、通过初试状态对所有文档d_i的分词和过滤处理后获取单词集，然后根据马尔可夫的过程，为每个当前的单词进行随机采样得到该单词的所属主题。此为求解的下一个状态，明确了单词-主题分布Z_-n后，接着对单词w_n迭代求解，获得其属于每个主题下的概率p(z_n＝k|w_n)，求解方式如下式所示：

Step2.1.3、迭代进行上一步的计算求解，完成一定的次数且达到收敛要求时，获得马尔可夫过程的终态。

所述步骤Step2.2分布的参数估计具体步骤如下：

其中，N^DK代表V*K的一个矩阵，表示文档d中属于主题t的单词数量，N^CW代表D*K的一个矩阵，表示所有文档集合中属于主题t的单词w的数量。

所述步骤Step3评价函数Perplexity确定语义主题参数K具体步骤如下：

困惑度评估主题模型对于待处理数据的预估能力，其中困惑度值越小，模型预估能力越强，模型的扩展性越强，反之越弱。困惑度公式如下：

所述步骤Step4计算每一篇文档d_i在所有Topic上的一个概率值p的具体步骤如下：

每篇文档都会得到一个概率的集合d_i＝(dp₁，dp₂，...，dp_m)；同样的文档中的所有词也会求出它对应每个Topic的概率，w_i＝(wp₁，wp₂，...，wp_m)；这样就得到了两个矩阵，一个doc-Topic矩阵，一个word-Topic矩阵。

本发明的有益效果是：本发明创新性地对生物医药专利文本引入了LDA主题模型，LDA主题模型有效的降低的数据的稀疏性，将原来的特征空间映射到了一个新的topic的特征空间。针对专利文本的特有属性，通过模型参数估计、语义主题数的确定，构建LDA主题模型，实现了对大量专利文本中潜在的技术主题及主题分布的非监督自动识别与获取。

附图说明

图1是本发明总体流程图；

图2是本发明生物医药专利主题分类图；

图3是本发明江苏省主题分类结果图；

图4是本发明江苏省生物医药专利主题分布图；

图5是本发明云南省生物医药专利主题分布图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

一种基于LDA的生物医药技术主题挖掘方法，所述方法的具体步骤如下：

Step1、构建LDA主题模型；

Step2、LDA参数估计；

Step2.1、采用Gibbs随机采样对LDA主题模型中间参数求解；

Step2.2、分布的参数估计；

Step3、评价函数Perplexity确定语义主题参数K；

Step4、计算每一篇文档d_i在所有Topic上的一个概率值p。

所述步骤Step2.2分布的参数估计具体步骤如下：

收集数据库中生物医药专利文档10000条，词汇总数为541729个，实验设置聚类主题数为8，迭代次数为500次，根据方法获得专利主题分类如图2所示。在后续的具体实施例中，均按照该主题为分析基准，分析具体省份专利主题挖掘结果。

江苏省生物医药专利主题挖掘分析

生物医药专利文本收集：从专利数据库中收集检索到江苏省生物医药专利73646件，LDA主题模型及分析：专利LDA主题分类结果如图3所示。将技术主题专利数量制作成分布图，如图4所示。大部分专利集中在Topic0、Topic3、Topic4、Topic6、Topic7这五个技术主题上。可见在植物基因工程、生物疫苗、抗肿瘤药物、基因的快速检测及鉴定以及外用药物、制剂方面是如今研发的热点主题，但是随着近年来在这些领域专利在全国范围内的申请量急剧增加，目前在技术上已接近了瓶颈。可重点围绕Topic2开展相关专利技术开展相关研究，必将促进该主题的突破发展。

云南省生物医药专利主题挖掘分析

生物医药专利文本收集：从专利数据库中收集检索到云南省生物医药专利10000件，LDA主题模型及分析：专利LDA主题分类结果及技术主题专利数量制作成分布图，如图5所示。大部分专利集中在Topic0、Topic3、Topic4、Topic6、Topic7这五个技术主题上，整体趋势与江苏省一致。但Topic1和Topic2的专利相对匮乏，开展相关专利技术开展相关研究，必将促进该主题的突破发展。对照云南省的Topic1和Topic2，其恰好是中药、天然药、民族药的提取、加工以及微生物发酵工程，尤其是三七提取物总皂苷。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种基于LDA的生物医药技术主题挖掘方法，其特征在于：

Step1、构建LDA主题模型；

Step2、LDA参数估计；

Step2.1、采用Gibbs随机采样对LDA主题模型中间参数求解；

Step2.2、分布的参数估计；

Step3、评价函数Perplexity确定语义主题参数K；

Step4、计算每一篇文档d_i在所有Topic上的一个概率值p。

2.根据权利要求1所述的基于LDA的生物医药技术主题挖掘方法，其特征在于：所述步骤Step1.1构建文档层、主题层，词汇层的具体步骤如下：

Step1.1.2、由主题集φ＝{z₁，z₂，...，z_k}组成，式中的z_k表示主题i，主题表示文本里的深层语义，在这里它被表示为概率分布的形式，单词层的单词属于每一个主题的概率组成了主题曾的多项分布式中的p_k,j即代表单词w_j处于主题z_k下的概率；

3.根据权利要求1所述的基于LDA的生物医药技术主题挖掘方法，其特征在于：

Step2.1.1、求解训练文本集D中的所有文档d_i的马尔可夫初始状态；

Step2.1.2、通过初试状态对所有文档d_i的分词和过滤处理后获取单词集，然后根据马尔可夫的过程，为每个当前的单词进行随机采样得到该单词的所属主题；