CN109446320A - 一种基于lda的生物医药技术主题挖掘方法 - Google Patents
一种基于lda的生物医药技术主题挖掘方法 Download PDFInfo
- Publication number
- CN109446320A CN109446320A CN201811147587.3A CN201811147587A CN109446320A CN 109446320 A CN109446320 A CN 109446320A CN 201811147587 A CN201811147587 A CN 201811147587A CN 109446320 A CN109446320 A CN 109446320A
- Authority
- CN
- China
- Prior art keywords
- theme
- document
- word
- topic
- lda
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 239000003814 drug Substances 0.000 title claims abstract description 27
- 238000000034 method Methods 0.000 title claims abstract description 22
- 238000005516 engineering process Methods 0.000 title claims abstract description 19
- 230000009193 crawling Effects 0.000 title claims abstract description 11
- 238000005070 sampling Methods 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 6
- 238000011156 evaluation Methods 0.000 claims description 5
- 239000000203 mixture Substances 0.000 claims description 4
- 238000002203 pretreatment Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 abstract description 10
- 238000004458 analytical method Methods 0.000 description 10
- 238000007418 data mining Methods 0.000 description 3
- 238000009412 basement excavation Methods 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 229940079593 drug Drugs 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 239000002246 antineoplastic agent Substances 0.000 description 1
- 229940041181 antineoplastic drug Drugs 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000000855 fermentation Methods 0.000 description 1
- 230000004151 fermentation Effects 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000000813 microbial effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于LDA的生物医药技术主题挖掘方法,属于信息检索技术领域。本发明首先采用LDA把一篇文档看作是一个所包含的词的向量的组合,使得文本可以转化为用数学方法进行表示的向量,然后利用评价函数Perplexity(困惑度)确定语义主题数K,最后计算每一篇文档di在所有Topic上的一个概率值p,得到了两个矩阵,一个doc‑Topic矩阵,一个word‑Topic矩阵,这样LDA就将文档和词,投射到了一组Topic上,试图通过Topic找出文档与词间,文档与文档间,词与词之间潜在的关系。LDA属于无监督算法,每个Topic并不会要求指定条件,但聚类后,通过统计出各个Topic上词的概率分布,那些在该Topic上概率高的词,能非常好的描述该Topic的意义。
Description
技术领域
本发明涉及一种基于LDA的生物医药技术主题挖掘方法,属于信息检索技术领域。
背景技术
在数据挖掘技术扩展到专利文献挖掘之前,对于技术主题分析方法主要是通过IPC分类号反映技术主题以及通过人工阅读专利文献的方法进行主题分类。通过IPC分类号的技术主题分析不能深入到专利文本内容,同时IPC分类号对技术主题的划分往往不能满足分析需求。对专利文献采用人工标引的方法对技术主题分析虽然准确度高,但要求分析人员具有较强的技术领域背景,且效率低不灵活[59],在面对海量专利文献时便显得捉襟见肘。如今各个领域技术交叉渗透非常广泛,技术主题挖掘面临着更多的困难。数据挖掘技术的发展则为专利技术主题挖掘提供了强有力的支撑。数据挖掘技术可以从专利文本中提取技术术语,根据技术术语对专利进行技术主题聚类,这样不仅弥补了传统方法上的不足,还可以深入到专利文本的技术核心。
发明内容
本发明要解决的技术问题是提供一种基于LDA的生物医药技术主题挖掘方法,用以解决挖掘生物医药技术主题、生物医药信息检索问题。
本发明的技术方案是:一种基于LDA的生物医药技术主题挖掘方法,所述方法的具体步骤如下:
Step1、构建LDA主题模型;
Step1.1、构建文档层、主题层,词汇层,其中主题是文档的多项式概率分布,词汇是主题的多项式概率分布;
Step2、LDA参数估计;
Step2.1、采用Gibbs随机采样对LDA主题模型中间参数求解;
Step2.2、分布的参数估计;
Step3、评价函数Perplexity确定语义主题参数K;
Step4、计算每一篇文档di在所有Topic上的一个概率值p。
所述步骤Step1.1构建文档层、主题层,词汇层的具体步骤如下:
Step1.1.1、使用单词集V={w1,w2,...,wv}组成,将文本集合中的每一篇文本进行分词、词性标注及停用词过滤等预处理后,将所有单词组合得到单词集V,w表示集合中的单词;
Step1.1.2、由主题集φ={z1,z2,...,zk}组成,式中的zk表示主题i,主题表示文本里的深层语义,在这里它被表示为概率分布的形式,单词层的单词属于每一个主题的概率组成了主题曾的多项分布式中的pk,j即代表单词wj处于主题zk下的概率。
Step1.2.3、使用主题概率分布来表示文档集合θ={θ1,θ2,...,θv},式中的θd={θd,1,θd,2,...,θd,k}也代表一篇文本的主题概率分布,其中pd,z为文档d属于主题z的概率。
所述步骤Step2.1采用Gibbs随机采样对LDA主题模型中间参数求解具体步骤如下:
Step2.1.1、求解训练文本集D中的所有文档di的马尔可夫初始状态,具体操作是对文档id分词和过滤后获取所有表示文档的单词,将每一个单词wn都随机划分至一个主题下;
Step2.1.2、通过初试状态对所有文档di的分词和过滤处理后获取单词集,然后根据马尔可夫的过程,为每个当前的单词进行随机采样得到该单词的所属主题。此为求解的下一个状态,明确了单词-主题分布Z-n后,接着对单词wn迭代求解,获得其属于每个主题下的概率p(zn=k|wn),求解方式如下式所示:
Step2.1.3、迭代进行上一步的计算求解,完成一定的次数且达到收敛要求时,获得马尔可夫过程的终态。
所述步骤Step2.2分布的参数估计具体步骤如下:
其中,NDK代表V*K的一个矩阵,表示文档d中属于主题t的单词数量,NCW代表D*K的一个矩阵,表示所有文档集合中属于主题t的单词w的数量。
所述步骤Step3评价函数Perplexity确定语义主题参数K具体步骤如下:
困惑度评估主题模型对于待处理数据的预估能力,其中困惑度值越小,模型预估能力越强,模型的扩展性越强,反之越弱。困惑度公式如下:
所述步骤Step4计算每一篇文档di在所有Topic上的一个概率值p的具体步骤如下:
每篇文档都会得到一个概率的集合di=(dp1,dp2,...,dpm);同样的文档中的所有词也会求出它对应每个Topic的概率,wi=(wp1,wp2,...,wpm);这样就得到了两个矩阵,一个doc-Topic矩阵,一个word-Topic矩阵。
本发明的有益效果是:本发明创新性地对生物医药专利文本引入了LDA主题模型,LDA主题模型有效的降低的数据的稀疏性,将原来的特征空间映射到了一个新的topic的特征空间。针对专利文本的特有属性,通过模型参数估计、语义主题数的确定,构建LDA主题模型,实现了对大量专利文本中潜在的技术主题及主题分布的非监督自动识别与获取。
附图说明
图1是本发明总体流程图;
图2是本发明生物医药专利主题分类图;
图3是本发明江苏省主题分类结果图;
图4是本发明江苏省生物医药专利主题分布图;
图5是本发明云南省生物医药专利主题分布图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
一种基于LDA的生物医药技术主题挖掘方法,所述方法的具体步骤如下:
Step1、构建LDA主题模型;
Step1.1、构建文档层、主题层,词汇层,其中主题是文档的多项式概率分布,词汇是主题的多项式概率分布;
Step2、LDA参数估计;
Step2.1、采用Gibbs随机采样对LDA主题模型中间参数求解;
Step2.2、分布的参数估计;
Step3、评价函数Perplexity确定语义主题参数K;
Step4、计算每一篇文档di在所有Topic上的一个概率值p。
所述步骤Step1.1构建文档层、主题层,词汇层的具体步骤如下:
Step1.1.1、使用单词集V={w1,w2,...,wv}组成,将文本集合中的每一篇文本进行分词、词性标注及停用词过滤等预处理后,将所有单词组合得到单词集V,w表示集合中的单词;
Step1.1.2、由主题集φ={z1,z2,...,zk}组成,式中的zk表示主题i,主题表示文本里的深层语义,在这里它被表示为概率分布的形式,单词层的单词属于每一个主题的概率组成了主题曾的多项分布式中的pk,j即代表单词wj处于主题zk下的概率。
Step1.2.3、使用主题概率分布来表示文档集合θ={θ1,θ2,...,θv},式中的θd={θd,1,θd,2,...,θd,k}也代表一篇文本的主题概率分布,其中pd,z为文档d属于主题z的概率。
所述步骤Step2.1采用Gibbs随机采样对LDA主题模型中间参数求解具体步骤如下:
Step2.1.1、求解训练文本集D中的所有文档di的马尔可夫初始状态,具体操作是对文档id分词和过滤后获取所有表示文档的单词,将每一个单词wn都随机划分至一个主题下;
Step2.1.2、通过初试状态对所有文档di的分词和过滤处理后获取单词集,然后根据马尔可夫的过程,为每个当前的单词进行随机采样得到该单词的所属主题。此为求解的下一个状态,明确了单词-主题分布Z-n后,接着对单词wn迭代求解,获得其属于每个主题下的概率p(zn=k|wn),求解方式如下式所示:
Step2.1.3、迭代进行上一步的计算求解,完成一定的次数且达到收敛要求时,获得马尔可夫过程的终态。
所述步骤Step2.2分布的参数估计具体步骤如下:
其中,NDK代表V*K的一个矩阵,表示文档d中属于主题t的单词数量,NCW代表D*K的一个矩阵,表示所有文档集合中属于主题t的单词w的数量。
所述步骤Step3评价函数Perplexity确定语义主题参数K具体步骤如下:
困惑度评估主题模型对于待处理数据的预估能力,其中困惑度值越小,模型预估能力越强,模型的扩展性越强,反之越弱。困惑度公式如下:
所述步骤Step4计算每一篇文档di在所有Topic上的一个概率值p的具体步骤如下:
每篇文档都会得到一个概率的集合di=(dp1,dp2,...,dpm);同样的文档中的所有词也会求出它对应每个Topic的概率,wi=(wp1,wp2,...,wpm);这样就得到了两个矩阵,一个doc-Topic矩阵,一个word-Topic矩阵。
收集数据库中生物医药专利文档10000条,词汇总数为541729个,实验设置聚类主题数为8,迭代次数为500次,根据方法获得专利主题分类如图2所示。在后续的具体实施例中,均按照该主题为分析基准,分析具体省份专利主题挖掘结果。
江苏省生物医药专利主题挖掘分析
生物医药专利文本收集:从专利数据库中收集检索到江苏省生物医药专利73646件,LDA主题模型及分析:专利LDA主题分类结果如图3所示。将技术主题专利数量制作成分布图,如图4所示。大部分专利集中在Topic0、Topic3、Topic4、Topic6、Topic7这五个技术主题上。可见在植物基因工程、生物疫苗、抗肿瘤药物、基因的快速检测及鉴定以及外用药物、制剂方面是如今研发的热点主题,但是随着近年来在这些领域专利在全国范围内的申请量急剧增加,目前在技术上已接近了瓶颈。可重点围绕Topic2开展相关专利技术开展相关研究,必将促进该主题的突破发展。
云南省生物医药专利主题挖掘分析
生物医药专利文本收集:从专利数据库中收集检索到云南省生物医药专利10000件,LDA主题模型及分析:专利LDA主题分类结果及技术主题专利数量制作成分布图,如图5所示。大部分专利集中在Topic0、Topic3、Topic4、Topic6、Topic7这五个技术主题上,整体趋势与江苏省一致。但Topic1和Topic2的专利相对匮乏,开展相关专利技术开展相关研究,必将促进该主题的突破发展。对照云南省的Topic1和Topic2,其恰好是中药、天然药、民族药的提取、加工以及微生物发酵工程,尤其是三七提取物总皂苷。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (3)
1.一种基于LDA的生物医药技术主题挖掘方法,其特征在于:
Step1、构建LDA主题模型;
Step1.1、构建文档层、主题层,词汇层,其中主题是文档的多项式概率分布,词汇是主题的多项式概率分布;
Step2、LDA参数估计;
Step2.1、采用Gibbs随机采样对LDA主题模型中间参数求解;
Step2.2、分布的参数估计;
Step3、评价函数Perplexity确定语义主题参数K;
Step4、计算每一篇文档di在所有Topic上的一个概率值p。
2.根据权利要求1所述的基于LDA的生物医药技术主题挖掘方法,其特征在于:所述步骤Step1.1构建文档层、主题层,词汇层的具体步骤如下:
Step1.1.1、使用单词集V={w1,w2,...,wv}组成,将文本集合中的每一篇文本进行分词、词性标注及停用词过滤等预处理后,将所有单词组合得到单词集V,w表示集合中的单词;
Step1.1.2、由主题集φ={z1,z2,...,zk}组成,式中的zk表示主题i,主题表示文本里的深层语义,在这里它被表示为概率分布的形式,单词层的单词属于每一个主题的概率组成了主题曾的多项分布式中的pk,j即代表单词wj处于主题zk下的概率;
Step1.2.3、使用主题概率分布来表示文档集合θ={θ1,θ2,...,θv},式中的θd={θd,1,θd,2,...,θd,k}也代表一篇文本的主题概率分布,其中pd,z为文档d属于主题z的概率。
3.根据权利要求1所述的基于LDA的生物医药技术主题挖掘方法,其特征在于:
所述步骤Step2.1采用Gibbs随机采样对LDA主题模型中间参数求解具体步骤如下:
Step2.1.1、求解训练文本集D中的所有文档di的马尔可夫初始状态;
Step2.1.2、通过初试状态对所有文档di的分词和过滤处理后获取单词集,然后根据马尔可夫的过程,为每个当前的单词进行随机采样得到该单词的所属主题;
Step2.1.3、迭代进行上一步的计算求解,完成一定的次数且达到收敛要求时,获得马尔可夫过程的终态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811147587.3A CN109446320A (zh) | 2018-09-29 | 2018-09-29 | 一种基于lda的生物医药技术主题挖掘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811147587.3A CN109446320A (zh) | 2018-09-29 | 2018-09-29 | 一种基于lda的生物医药技术主题挖掘方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109446320A true CN109446320A (zh) | 2019-03-08 |
Family
ID=65544635
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811147587.3A Pending CN109446320A (zh) | 2018-09-29 | 2018-09-29 | 一种基于lda的生物医药技术主题挖掘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109446320A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046228A (zh) * | 2019-04-18 | 2019-07-23 | 合肥工业大学 | 短文本主题识别方法和系统 |
CN111241846A (zh) * | 2020-01-15 | 2020-06-05 | 沈阳工业大学 | 一种主题挖掘模型中主题维度自适应确定方法 |
CN112069394A (zh) * | 2020-08-14 | 2020-12-11 | 上海风秩科技有限公司 | 文本信息的挖掘方法及装置 |
CN112966494A (zh) * | 2021-03-03 | 2021-06-15 | 浪潮云信息技术股份公司 | 一种基于领域专利数据的技术创新主题挖掘方法 |
CN113010643A (zh) * | 2021-03-22 | 2021-06-22 | 平安科技(深圳)有限公司 | 佛学领域词汇的处理方法、装置、设备及存储介质 |
CN113297839A (zh) * | 2021-03-03 | 2021-08-24 | 浪潮云信息技术股份公司 | 一种专利技术领域的创新主题挖掘方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104991956A (zh) * | 2015-07-21 | 2015-10-21 | 中国人民解放军信息工程大学 | 基于主题概率模型的微博传播群体划分与账户活跃度评估方法 |
CN105956130A (zh) * | 2016-05-09 | 2016-09-21 | 浙江农林大学 | 多信息融合的科研文献主题发现和跟踪方法及其系统 |
CN107180028A (zh) * | 2016-03-09 | 2017-09-19 | 广州网律互联网科技有限公司 | 一种基于lda与退火算法组合的推荐技术 |
-
2018
- 2018-09-29 CN CN201811147587.3A patent/CN109446320A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104991956A (zh) * | 2015-07-21 | 2015-10-21 | 中国人民解放军信息工程大学 | 基于主题概率模型的微博传播群体划分与账户活跃度评估方法 |
CN107180028A (zh) * | 2016-03-09 | 2017-09-19 | 广州网律互联网科技有限公司 | 一种基于lda与退火算法组合的推荐技术 |
CN105956130A (zh) * | 2016-05-09 | 2016-09-21 | 浙江农林大学 | 多信息融合的科研文献主题发现和跟踪方法及其系统 |
Non-Patent Citations (4)
Title |
---|
万家华: "基于mixtureLDA的微博主题挖掘", 《南京师范大学学报(工程技术版)》 * |
史庆伟 等: "基于微博文本的词对主题演化模型", 《计算机应用》 * |
姚立等: "基于主题模型的改进随机森林算法在文本分类中的应用", 《计算机应用与软件》 * |
陈亮: "面向专利分析的Patent Classification LDA模型", 《情报学报》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046228A (zh) * | 2019-04-18 | 2019-07-23 | 合肥工业大学 | 短文本主题识别方法和系统 |
CN111241846A (zh) * | 2020-01-15 | 2020-06-05 | 沈阳工业大学 | 一种主题挖掘模型中主题维度自适应确定方法 |
CN111241846B (zh) * | 2020-01-15 | 2023-05-26 | 沈阳工业大学 | 一种主题挖掘模型中主题维度自适应确定方法 |
CN112069394A (zh) * | 2020-08-14 | 2020-12-11 | 上海风秩科技有限公司 | 文本信息的挖掘方法及装置 |
CN112069394B (zh) * | 2020-08-14 | 2023-09-29 | 上海风秩科技有限公司 | 文本信息的挖掘方法及装置 |
CN112966494A (zh) * | 2021-03-03 | 2021-06-15 | 浪潮云信息技术股份公司 | 一种基于领域专利数据的技术创新主题挖掘方法 |
CN113297839A (zh) * | 2021-03-03 | 2021-08-24 | 浪潮云信息技术股份公司 | 一种专利技术领域的创新主题挖掘方法 |
CN113297839B (zh) * | 2021-03-03 | 2023-04-21 | 浪潮云信息技术股份公司 | 一种专利技术领域的创新主题挖掘方法 |
CN113010643A (zh) * | 2021-03-22 | 2021-06-22 | 平安科技(深圳)有限公司 | 佛学领域词汇的处理方法、装置、设备及存储介质 |
CN113010643B (zh) * | 2021-03-22 | 2023-07-21 | 平安科技(深圳)有限公司 | 佛学领域词汇的处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446320A (zh) | 一种基于lda的生物医药技术主题挖掘方法 | |
CN112084790B (zh) | 一种基于预训练卷积神经网络的关系抽取方法及系统 | |
CN111966917B (zh) | 一种基于预训练语言模型的事件检测与摘要方法 | |
CN104199972B (zh) | 一种基于深度学习的命名实体关系抽取与构建方法 | |
CN108399163A (zh) | 结合词聚合与词组合语义特征的文本相似性度量方法 | |
CN109697285A (zh) | 增强语义表示的层次BiLSTM中文电子病历疾病编码标注方法 | |
CN108182976A (zh) | 一种基于神经网络的临床医学信息提取方法 | |
CN102890698B (zh) | 微博话题标签自动化描述方法 | |
CN104462053A (zh) | 一种文本内的基于语义特征的人称代词指代消解方法 | |
CN109284397A (zh) | 一种领域词典的构建方法、装置、设备及存储介质 | |
CN108073570A (zh) | 一种基于隐马尔可夫模型的词义消歧方法 | |
CN106095749A (zh) | 一种基于深度学习的文本关键词提取方法 | |
CN105912570B (zh) | 基于隐马尔可夫模型的英文简历关键字段抽取方法 | |
CN105808524A (zh) | 一种基于专利文献摘要的专利自动分类方法 | |
CN111143571B (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN103955703A (zh) | 一种基于朴素贝叶斯的医疗影像疾病分类方法 | |
CN105956130B (zh) | 多信息融合的科研文献主题发现和跟踪方法及其系统 | |
CN110188359B (zh) | 一种文本实体抽取方法 | |
CN109213997A (zh) | 一种基于双向长短时记忆网络模型的中文分词方法 | |
CN111160034B (zh) | 一种实体词的标注方法、装置、存储介质及设备 | |
CN114328939B (zh) | 基于大数据的自然语言处理模型构建方法 | |
CN104408087A (zh) | 作弊文本的识别方法和系统 | |
CN108763192A (zh) | 用于文本处理的实体关系抽取方法及装置 | |
CN107229613B (zh) | 一种基于向量空间模型的英汉语料提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190308 |
|
RJ01 | Rejection of invention patent application after publication |