CN106708959A - 一种基于医学文献数据库的组合药物识别与排序方法 - Google Patents

一种基于医学文献数据库的组合药物识别与排序方法 Download PDF

Info

Publication number
CN106708959A
CN106708959A CN201611083333.0A CN201611083333A CN106708959A CN 106708959 A CN106708959 A CN 106708959A CN 201611083333 A CN201611083333 A CN 201611083333A CN 106708959 A CN106708959 A CN 106708959A
Authority
CN
China
Prior art keywords
medicine
document
feature
word
medical literature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611083333.0A
Other languages
English (en)
Inventor
李学明
张琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201611083333.0A priority Critical patent/CN106708959A/zh
Publication of CN106708959A publication Critical patent/CN106708959A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

本发明公开了一种基于医学文献数据库的组合药物识别与排序方法,首先抓取公开的医学文献数据库上的医学文献摘要并识别其中的药物实体;然后使用文本挖掘中的抽取特征的方法抽取特征,使用机器学习中的分类算法对药物进行分类,分类算法的参数使用优化算法进行优化;最后使用Medrank进行组合药物排序,得到关于某种疾病的组合用药推荐方案。本发明提供的组合药物识别与排序方法,针对海量的以及每年以指数级增长的医学文献,医学研究者无法阅读并发现其中的规律这一难题,利用文本挖掘技术和机器学习相关知识解决这一问题,可快速了解到文献中治疗某种疾病的组合药物的排序结果以及历年的变化趋势,减少医学研究者阅读海量文献的压力。

Description

一种基于医学文献数据库的组合药物识别与排序方法
技术领域
本发明涉及计算机技术在医学临床技术领域,特别是一种基于医学文献数据库的组合药物识别与排序方法。
背景技术
众所周知,医学文献已经成为医学研究者和工作者重要的信息来源,但在信息爆炸的当今社会,医学信息也在大量爆发。据统计,医学信息资源占据约30%以上互联网信息资源,医学文献的数量正以惊人的速度增长,全球医药类期刊近3万种,每年发表论文200多万篇并且以每年7%速度递增,医学文献的日益更新成为医学研究者和工作者的一大挑战。临床医生平均每天必须阅读大量的专业文献,才可能跟上现代医学发展的速度,这对医生会造成很大的工作压力,也没有办法全方位地评价所有相关的文献。所以如何从医学文献数据库中学习到先进的医学知识,获得针对某种疾病的最佳治疗方案以辅助医生进行诊断成为急需解决的问题。
目前,针对从医学文献中通过计算机相关技术获得针对某种疾病的治疗药物这一问题,已经存在的排序方法有MedRank排序方法。基于医学文献数据库的MedRank方法做的工作是从MEDLINE数据库中提取数据构建了一个医学信息网,然后应用net-clus中排名的方法解决“给定疾病名称,寻找最有效的K种方法”。该方法首先给定疾病,从medline(Medlars online医学文献联机数据库)中提取信息构建疾病的星型网络,然后经过medrank算法选出top-k最佳治疗方案,最后利用专家评审评估实验结果。虽然该方法提出了如何科学地对医学文献进行排序的方法,但存在一个问题,MedRank实际提供的是针对某一种疾病的所有涉及的单药的排名,可是现在很多文献提出的针对某一种疾病的治疗方案涉及到多种药物组合,在MedRank中针对这样的文献,就会将文献中提到的多种药物的关系统一定义为并列关系,即每一种药物都对该病有治疗的效果,这对文献想要表达的意思进行了曲解,对结果也造成一定的误差。
发明内容
本发明的目的是提出一种基于医学文献数据库的组合药物识别与排序方法。
本发明的目的是通过以下技术方案来实现的:
本发明提供的基于医学文献数据库的组合药物识别与排序方法,包括以下步骤:
S1:在医学文献数据库中抓取出包含指定疾病的文章信息,利用药物实体识别出含多种 药物的文献信息;将文章中的摘要信息和标题信息作为数据集;
S2:将数据集中的一部分作为训练集和测试集进行人工标注,标记为药物为组合关系的文献和非组合关系的文献;
S3:使用文本挖掘中的特征选择方法CHI卡方统计法抽取分类关键词,并使用TF/IDF对每一个关键词进行加权作为特征,选择的分类特征包括分类关键词,药物是否出现在同一句话中,词特征、词性特征、逻辑特征以及依存句法特征,将训练集和测试集中的特征进行抽取;
S4:使用支持向量机训练分类模型,同时使用遗传优化算法进行优化参数;
S5:得到分类的含多种药物和药物之间存在组合关系的文献,将文献作为medrank的输入,使用medrank进行排序得到推荐结果。
进一步,所述抽取包含指定疾病的文章并识别出包含多种药物的文献的具体步骤如下:
S11:MEDLINE文献数据库提供的mesh词是美国国立医学图书馆编制的权威性主题词表,某篇文献的mesh词可以作为该文献的关键词;针对某一种疾病,在MEDLINE文献数据库抽取出mesh词包含这种疾病的文献信息。得到摘要信息和文献标题信息。
S12:针对上一步得到的结果,借助已有的药物实体识别出摘要中的药物,将摘要中含多个药物的文章抽取出来作为数据集。
进一步,所述抽取分类关键词的具体步骤如下:
S31:将得到的数据集中的摘要信息和标题信息进行人工标记,标记为药物为组合关系的文献和药物为非组合关系的文献;
S32:将文本使用向量空间模型进行表示,给定一个文档D(t11;t22;...;tnn),D符合两个标准:
1)各特征项tk(1≤k≤n)互异;
2)各个特征项tk无先后顺序关系;
S33:使用文本挖掘中文本特征抽取方法χ2统计法和阈值进行抽取分类关键词;
按照以下公式计算得特征项的CHI值:
其中,N表示训练集的总数,A表示属于Cj类且包含ti的文档频数,B表示不属于Cj类且包含ti的文档频数,C表示属于Cj类但不包含ti的文档频数,D表示不属于Cj类且不包含ti的文档频数;CHI为特征项ti对Cj的值;
再根据阈值挑选出符合要求的特征项作为分类关键词;
S34:使用TF-IDF计算出每一个被选中的关键词的权重,权重公式为:
其中,ωij表示TF-IDF值;tfij表示特征项在文档中出现的频数;
S35:抽取分类关键词的特征。
进一步,所述抽取分类关键词的特征的具体步骤如下:
S351:将训练数据集中的摘要进行词性标注、语义处理和句法分析;
S352:抽取分类特征,按照以下方式判断两种药物是否为组合关系:
1)关键词特征:按照以下公式处理关键词特征:
Fk=ωaKatKt
其中,ka为摘要关键词,kt为标题关键词;d1为一种药物;d2为另一种药物;
2)词特征:包含d1左边的单词,d2右边的单词,d1与d2中间的单词;
3)词性特征:将第二项词特征集中的每一个词的词性作为词特征的补充;
4)逻辑特征:包含药物之间的距离,每一个药物离它关键词的最短距离,药物之间其他药物的个数,药物之间的标点符号以及动词的个数;
5)依存句法分析特征:
进一步,所述分类模型按照以下方式进行建立:
S41:将所有特征进行量化和归一化预处理;
S42:使用支持向量机建立分类模型,选用RBF作为核函数,并使用遗传算法、粒子群算法对带有的参数c和g进行寻优;
进一步,所述medrank进行排序的具体步骤如下:
S51:使用分类模型判断所有的文献中的药物关系,并将药物关系为组合的提取出来作为 数据集;
S52:将得到的数据集进行预处理,并将medrank中输入时需要的药物由单个药物换成数据集中的组合药物;
S53:使用medrank进行排序,得到top10的结果作为推荐结果反馈给用户。
由于采用了上述技术方案,本发明具有如下的优点:
本发明公开了一种基于医学文献数据库的组合药物识别与排序方法,首先抓取公开的医学文献数据库(例如medline或pubMed)上的医学文献摘要,并识别其中的药物实体;然后使用文本挖掘中的抽取特征的方法抽取特征,使用机器学习中的分类算法对文本中提到的药物进行分类,分类为组合关系或非组合关系,分类算法的参数使用优化算法进行优化;最后使用Medrank进行组合药物的排序,得到关于某种疾病的组合用药的推荐方案。本发明提供的基于医学文献数据库的组合药物识别与排序方法,针对海量的以及每年以指数级增长的医学文献,医学研究者无法阅读并发现其中的规律这一难题,利用文本挖掘技术判别文献中提及的药物之间的关系,使用medRank进行排序,让医学工作者可以快速了解到文献中治疗某种疾病的组合药物的排序结果以及历年的变化趋势,使用计算机进行统一阅读文章,减少医学研究者阅读海量文献的压力。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
本发明的附图说明如下。
图1为本发明的基于医学文献数据库的组合药物识别与排序方法原理图。
图2为本发明的基于医学文献数据库的组合药物识别与排序方法流程图。
图3为排名前10的组合药物的历年变化趋势图。
图4为2013欧洲高血压指南中的药物评估示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
实施例1
如图1所示,图1为原理图;本实施例提供的一种基于医学文献数据库的组合药物识别 与排序方法,首先使用文本挖掘的方法在满足要求的摘要中抽取分类特征,其次使用机器学习中的支持向量机模型进行分类,并使用遗传算法对支持向量机模型的参数进行优化;自此可以识别出含多种药物并且药物之间存在组合关系的文献,最后使用medrank算法对这些文献进行排序,得到针对某种疾病的组合药物的推荐结果。
其中,抽取分类特征可以使用JAVA语言简单的实现,使用支持向量机模型进行分类可以使用台湾大学林智仁(Lin Chih-Jen)教授等开发设计的一个简单、易于使用和快速有效的SVM模式识别与回归的软件包LIBSVM进行实现,MEDRANK可以使用Java语言进行实现。
实施例2
本实施例提供的方法如下:
首先在MEDLINE文献数据库中抓取出包含指定疾病的文章信息,利用药物实体识别出含多种药物的文献信息;将文章中的摘要信息和标题信息作为数据集,其次将这些数据集中的一部分作为训练集和测试集进行人工标注,标记为药物为组合关系的文献和非组合关系的文献;然后使用文本挖掘中的特征选择方法CHI卡方统计法抽取分类关键词,并使用TF/IDF对每一个关键词进行加权作为特征,选择的分类特征包括分类关键词,药物是否出现在同一句话中,这句话的词特征、词性特征、逻辑特征以及依存句法特征,将训练集和测试集中的这些特征进行抽取;然后使用支持向量机训练分类模型,期间使用遗传算法等优化算法进行优化参数,最后得到分类好的含多种药物并药物之间存在组合关系的文献,将这些文献作为medrank的输入,最后使用medrank得到推荐结果。
所述方法的具体实施步骤如下:
抽取包含指定疾病的文章并识别出包含多种药物的文献:
①MEDLINE文献数据库提供的mesh词是美国国立医学图书馆编制的权威性主题词表,某篇文献的mesh词可以作为该文献的关键词。针对某一种疾病,在MEDLINE文献数据库抽取出mesh词包含这种疾病的文献信息。得到摘要信息和文献标题信息。
②针对上一步得到的结果,借助已有的药物实体识别出摘要中的药物,将摘要中含多个药物的文章抽取出来作为数据集。
抽取分类关键词:
①将得到的数据集中的摘要信息和标题信息进行人工标记,标记为药物为组合关系的文献和药物为非组合关系的文献。
②将文本使用向量空间模型进行表示。给定一个文档D(t11;t22;...;tnn),D符合两个 标准:
其中,t1表示特征项;ω1表示权值;
1)各特征项tk(1≤k≤n)互异(没有重复);
2)各个特征项tk无先后顺序关系。
③使用文本挖掘中文本特征抽取方法χ2统计法(CHI)和阈值进行抽取分类关键词。
令N表示训练集的总数,A表示属于Cj类且包含ti的文档频数,B表示不属于Cj类且包含ti的文档频数,C表示属于Cj类但不包含ti的文档频数,D表示不属于Cj类且不包含ti的文档频数。那么特征项ti对Cj的CHI值为
由式(1)得特征项的CHI值,再根据阈值挑选出符合要求的特征项作为分类关键词
④使用TF-IDF计算出每一个被选中的关键词的权重。权重公式为
其中,N表示文本数量;ni表示特征项的文本数量;
抽取分类特征:
①将训练数据集中的摘要进行词性标注、语义处理和句法分析。
②抽取分类特征,以判断两种药物是否为组合关系为例,一种药物d1和另一种药物d2的分类特征包含:
1)关键词特征:(2)中的摘要关键词ka和标题关键词kt,并包含他们各自的权重,关键词特征为Fk=ωaKatKt
2)词特征:包含d1左边的单词,d2右边的单词,d1与d2中间的单词。
3)词性特征:将第二项词特征集中的每一个词的词性作为词特征的补充,避免词特征的稀疏性。
4)逻辑特征:包含药物之间的距离,每一个药物离它关键词的最短距离,药物之间其他药物的个数,药物之间的标点符号以及动词的个数。如下表为逻辑特征集合信息:
5)依存句法分析特征:本实施例提供的依存句法分析是一种自然语言处理方法,将其引入到组合关系判断的特征中以提高有效性;它将句子分析成一颗依存句法树,描述出各个词语之间的依存关系,即指出了词语之间在句法上的搭配关系,这种关系是与语义相关联的,使用stanford parser工具包进行抽取依存句法特征。
其特征主要包含:
建立分类模型:
①将所有特征进行量化、归一化等预处理
②使用支持向量机建立分类模型,选用RBF作为核函数,并使用遗传算法、粒子群算法对带有的参数c和g进行寻优。
使用Medrank进行排序,得到推荐结果:
①使用(4)建立的模型判断所有的文献中的药物关系,并将药物关系为组合的提取出来作为这一步的数据集。
②将得到的数据集进行预处理,并将medrank中输入时需要的药物由单个药物换成数据集中的组合药物。
③使用medrank进行排序,得到top10的结果作为推荐结果反馈给用户。
实施例3
本实施样例使用了medline医学文献数据集从1966年到2015的数据。使用medline提供的xml数据集。数据集的格式如下表:
其中每一个文献信息以<medlinecitation>开始,以</medlinecitation>结束。包含的关键字段说明如下:
该样例研究的疾病为高血压。
2、具体步骤:
抓取mesh词中包含关键词”humans”and”hypertension”的文献信息;
抓取摘要中含多个药物实体的文献,获得7911篇摘要作为原始语料;
将其中部分摘要进行人工标注。标注为有组合关系的摘要和没有组合关系的摘要;
使用文本挖掘中的文本表示方法和文本特征选择的方法进行抽取分类关键词。最终选择出20个分类关键词,并使用TF-IDF计算他们的权重。
词性标注及句法分析:
将包含两个及两个以上药物名称的句子进行筛选,共有13829个句子,然后使用Stanford-postagger(http://nlp.stanford.edu/software/tagger.shtml)和Stanfordparser(http://nlp.stanford.edu/downloads/lex-parser.shtml)对这些句子进行词性标注和句法分析。
相关特征提取:
按照训练和测试SVM模型的特征向量提取方法,从以上预处理语料中提取相应的关键词特征、词特征、词性特征、逻辑特征以及依存句法特征,将这些文字特征量化和归一化,最终使用分类模型判断出药物之间的关系。
使用medrank进行排序:
将包含判断为组合关系的药物和这些组合药物的文章作为medrank的输入,使用medrank进行排序,得到top10的结果作为推荐结果。
3、结果展示
使用SVM方法,从高血压疾病语料中得到的组合药物提取关系数据规模如下:
文献类型 总篇数 RCT meta-analysis CCT
总文献 104341 10514 1035 1943
包含多种药物 7911 3302 90 434
包含多种药物并包含组合关系 1494 698 12 94
(1)SVM分类模型评估
在试验中,将语料按照2:1的比例,将上面抽取的特征进行训练和测试,分别使用GA遗传算法、PSO粒子群算法和ACO蚁群算法进行优化,将每一种方法平均运行10次,得到的评估结果如下:
(2)使用Medrank排序的结果top10,图中排序以图中右边圆点为序,从上到下以下为序号1-10号,具体如下表所示:
排序 药物 Rank值
1 ACEI/Diuretics 0.112119243623751
2 Diuretics/beta-blockers 0.0988539395513666
3 ARB/CCB 0.0914880340922919
4 ARB/Diuretics 0.0842115325977008
5 ACEI/Diuretics/CCB 0.0814042172347778
6 ACEI/CCB 0.0765599208986826
7 Diuretics/CCB 0.0764788475817838
8 beta-blockers/CCB 0.036307025033064
9 ACEI/beta-blockers 0.0255887658929991
10 ACEI/Diuretics/beta-blockers 0.025152439415279
如图3所示,表示药物在不同年份的使用情况;图3为排名前10的组合药物的历年变化
趋势图,说明如下:
(1)横坐标为年份,例如1963-1983代表的是发表时间大于等于1963,小于1983的文献数据;all代表所以年份的数据
(2)纵坐标指的是相对排名,值为10代表排在第一位,以此类推。
4、结果评估
如图4所示,图4为指南中给出的药物,使用2013欧洲高血压指南进行评估:其中,图中六边形的六个顶点从最上面起顺时针依次分别为:Thiazide Diuretics;Angioensin-receptou blockers(ARB);Calcium antagonists(CCB);ACE inhibitors(ACEI);OtherAntihypertensives(OTHER);Beta-blockers;图中右边六边形的三条边为绿色,最上面的顶点到下面两个点的连线为绿色,最下面的点到右边上面的点的连线为红色;绿色线为推荐组合用药,虚线为一般推荐组合用药,红色为不能组合用药。
推荐药物与结果的对比表如下:
排序 药物 推荐
1 ACEI/Diuretics
2 Diuretics/beta-blockers
3 ARB/CCB
4 ARB/Diuretics
5 ACEI/Diuretics/CCB
6 ACEI/CCB
7 Diuretics/CCB
8 beta-blockers/CCB 一般
9 ACEI/beta-blockers 一般
10 ACEI/Diuretics/beta-blockers 一般
从结果可以看出,排名前7的组合药物都是指南中推荐用药,说明结果的正确性。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的保护范围当中。

Claims (6)

1.一种基于医学文献数据库的组合药物识别与排序方法,其特征在于:包括以下步骤:
S1:在医学文献数据库中抓取出包含指定疾病的文章信息,利用药物实体识别出含多种药物的文献信息;将文章中的摘要信息和标题信息作为数据集;
S2:将数据集中的一部分作为训练集和测试集进行人工标注,标记为药物为组合关系的文献和非组合关系的文献;
S3:使用文本挖掘中的特征选择方法CHI卡方统计法抽取分类关键词,并使用TF/IDF对每一个关键词进行加权作为特征,选择的分类特征包括分类关键词,药物是否出现在同一句话中,词特征、词性特征、逻辑特征以及依存句法特征,将训练集和测试集中的特征进行抽取;
S4:使用支持向量机训练分类模型,同时使用遗传优化算法进行优化参数;
S5:得到分类的含多种药物和药物之间存在组合关系的文献,将文献作为medrank的输入,使用medrank进行排序得到推荐结果。
2.如权利要求1所述的基于医学文献数据库的组合药物识别与排序方法,其特征在于:所述抽取包含指定疾病的文章并识别出包含多种药物的文献的具体步骤如下:
S11:MEDLINE文献数据库提供的mesh词是美国国立医学图书馆编制的权威性主题词表,某篇文献的mesh词可以作为该文献的关键词;针对某一种疾病,在MEDLINE文献数据库抽取出mesh词包含这种疾病的文献信息。得到摘要信息和文献标题信息。
S12:针对上一步得到的结果,借助已有的药物实体识别出摘要中的药物,将摘要中含多个药物的文章抽取出来作为数据集。
3.如权利要求1所述的基于医学文献数据库的组合药物识别与排序方法,其特征在于:所述抽取分类关键词的具体步骤如下:
S31:将得到的数据集中的摘要信息和标题信息进行人工标记,标记为药物为组合关系的文献和药物为非组合关系的文献;
S32:将文本使用向量空间模型进行表示,给定一个文档D(t11;t22;...;tnn),D符合两个标准:
1)各特征项tk(1≤k≤n)互异;
2)各个特征项tk无先后顺序关系;
S33:使用文本挖掘中文本特征抽取方法χ2统计法和阈值进行抽取分类关键词;
按照以下公式计算得特征项的CHI值:
&chi; 2 ( t i , C j ) = N &times; ( A &times; D - C &times; B ) 2 ( A + C ) &times; ( B + D ) &times; ( A + B ) &times; ( C + D ) - - - ( 1 )
其中,N表示训练集的总数,A表示属于Cj类且包含ti的文档频数,B表示不属于Cj类且包含ti的文档频数,C表示属于Cj类但不包含ti的文档频数,D表示不属于Cj类且不包含ti的文档频数;CHI为特征项ti对Cj的值;
再根据阈值挑选出符合要求的特征项作为分类关键词;
S34:使用TF-IDF计算出每一个被选中的关键词的权重,权重公式为:
&omega; i j = tf i j &times; l o g N n i - - - ( 2 ) ;
其中,ωij表示TF-IDF值;tfij表示特征项在文档中出现的频数;
S35:抽取分类关键词的特征。
4.如权利要求1所述的基于医学文献数据库的组合药物识别与排序方法,其特征在于:所述抽取分类关键词的特征的具体步骤如下:
S351:将训练数据集中的摘要进行词性标注、语义处理和句法分析;
S352:抽取分类特征,按照以下方式判断两种药物是否为组合关系:
1)关键词特征:按照以下公式处理关键词特征:
Fk=ωaKatKt
其中,ka为摘要关键词,kt为标题关键词;d1为一种药物;d2为另一种药物;
2)词特征:包含d1左边的单词,d2右边的单词,d1与d2中间的单词;
3)词性特征:将第二项词特征集中的每一个词的词性作为词特征的补充;
4)逻辑特征:包含药物之间的距离,每一个药物离它关键词的最短距离,药物之间其他药物的个数,药物之间的标点符号以及动词的个数;
5)依存句法分析特征。
5.如权利要求1所述的基于医学文献数据库的组合药物识别与排序方法,其特征在于:所述分类模型按照以下方式进行建立:
S41:将所有特征进行量化和归一化预处理;
S42:使用支持向量机建立分类模型,选用RBF作为核函数,并使用遗传算法、粒子群算法对带有的参数c和g进行寻优。
6.如权利要求1所述的基于医学文献数据库的组合药物识别与排序方法,其特征在于:所述medrank进行排序的具体步骤如下:
S51:使用分类模型判断所有的文献中的药物关系,并将药物关系为组合的提取出来作为数据集;
S52:将得到的数据集进行预处理,并将medrank中输入时需要的药物由单个药物换成数据集中的组合药物;
S53:使用medrank进行排序,得到top10的结果作为推荐结果反馈给用户。
CN201611083333.0A 2016-11-30 2016-11-30 一种基于医学文献数据库的组合药物识别与排序方法 Pending CN106708959A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611083333.0A CN106708959A (zh) 2016-11-30 2016-11-30 一种基于医学文献数据库的组合药物识别与排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611083333.0A CN106708959A (zh) 2016-11-30 2016-11-30 一种基于医学文献数据库的组合药物识别与排序方法

Publications (1)

Publication Number Publication Date
CN106708959A true CN106708959A (zh) 2017-05-24

Family

ID=58934325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611083333.0A Pending CN106708959A (zh) 2016-11-30 2016-11-30 一种基于医学文献数据库的组合药物识别与排序方法

Country Status (1)

Country Link
CN (1) CN106708959A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415959A (zh) * 2018-02-06 2018-08-17 北京捷通华声科技股份有限公司 一种文本分类方法及装置
CN109300550A (zh) * 2018-11-09 2019-02-01 天津新开心生活科技有限公司 医学数据关系挖掘方法及装置
CN109712685A (zh) * 2019-01-24 2019-05-03 湘潭大学 一种基于多目标进化算法的药方药剂构建方法及系统
CN110196978A (zh) * 2019-06-04 2019-09-03 重庆大学 一种关注关联词的实体关系抽取方法
CN110555103A (zh) * 2019-07-22 2019-12-10 中国人民解放军总医院 生物医学实体展示平台的构建方法、装置和计算机设备
CN110675962A (zh) * 2019-09-10 2020-01-10 电子科技大学 一种基于机器学习和文本规则的中药药理作用识别方法及系统
CN111986817A (zh) * 2020-08-21 2020-11-24 南通大学 一种通过ace2筛选新冠covid-19治疗药物的方法
CN112528018A (zh) * 2020-12-01 2021-03-19 天津中科智能识别产业技术研究院有限公司 一种基于文本挖掘的热点新闻发现方法
CN112651244A (zh) * 2020-12-25 2021-04-13 上海交通大学 一种基于论文摘要QA的TopK实体抽取方法与系统
CN113316720A (zh) * 2019-01-15 2021-08-27 国际商业机器公司 使用机器学习确定患者的药物有效性排序
WO2021174695A1 (zh) * 2020-03-04 2021-09-10 平安科技(深圳)有限公司 基于机器学习的药物识别方法及相关设备
WO2022198625A1 (zh) * 2021-03-26 2022-09-29 深圳华大基因股份有限公司 变异文献解读知识库的构建方法、解读方法及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080201280A1 (en) * 2007-02-16 2008-08-21 Huber Martin Medical ontologies for machine learning and decision support
CN101819601A (zh) * 2010-05-11 2010-09-01 同方知网(北京)技术有限公司 学术文献自动分类的方法
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN104750844A (zh) * 2015-04-09 2015-07-01 中南大学 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN105260437A (zh) * 2015-09-30 2016-01-20 陈一飞 文本分类特征选择方法及其在生物医药文本分类中的应用
CN106156482A (zh) * 2016-01-18 2016-11-23 袁洪 基于文献数据的药物推荐方法、装置及服务器

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080201280A1 (en) * 2007-02-16 2008-08-21 Huber Martin Medical ontologies for machine learning and decision support
CN101819601A (zh) * 2010-05-11 2010-09-01 同方知网(北京)技术有限公司 学术文献自动分类的方法
CN103440329A (zh) * 2013-09-04 2013-12-11 北京邮电大学 权威作者和高质量论文推荐系统和推荐方法
CN104750844A (zh) * 2015-04-09 2015-07-01 中南大学 基于tf-igm的文本特征向量生成方法和装置及文本分类方法和装置
CN105260437A (zh) * 2015-09-30 2016-01-20 陈一飞 文本分类特征选择方法及其在生物医药文本分类中的应用
CN106156482A (zh) * 2016-01-18 2016-11-23 袁洪 基于文献数据的药物推荐方法、装置及服务器

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
CHEN L, LI X, HAN J.: "MedRank: discovering influential medical treatments from literature by information network analysis" *
LING CHEN: "MedRank: Discovering Influential Medical Treatments from Literature by Information Network Analysis" *
刘光徽;胡俊;於东军;: "基于多视角特征组合与随机森林的G蛋白偶联受体与药物相互作用预测" *
刘培磊: "蛋白质相互作用有向关系抽取的研究与实现" *
徐爽: "基于突发监测的全身炎症反应综合征治疗药物研究趋势分析" *
李朋;余中心;李宁;肖兵;赵耀;文俊浩;: "基于异构网络分析的智能医疗推荐系统研究" *
杨仑: "面向基因的文献组学中枢纽(hub)法则提出及其应用" *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108415959A (zh) * 2018-02-06 2018-08-17 北京捷通华声科技股份有限公司 一种文本分类方法及装置
CN109300550A (zh) * 2018-11-09 2019-02-01 天津新开心生活科技有限公司 医学数据关系挖掘方法及装置
CN109300550B (zh) * 2018-11-09 2021-11-26 天津新开心生活科技有限公司 医学数据关系挖掘方法及装置
CN113316720A (zh) * 2019-01-15 2021-08-27 国际商业机器公司 使用机器学习确定患者的药物有效性排序
CN109712685A (zh) * 2019-01-24 2019-05-03 湘潭大学 一种基于多目标进化算法的药方药剂构建方法及系统
CN110196978A (zh) * 2019-06-04 2019-09-03 重庆大学 一种关注关联词的实体关系抽取方法
CN110555103A (zh) * 2019-07-22 2019-12-10 中国人民解放军总医院 生物医学实体展示平台的构建方法、装置和计算机设备
CN110675962A (zh) * 2019-09-10 2020-01-10 电子科技大学 一种基于机器学习和文本规则的中药药理作用识别方法及系统
WO2021174695A1 (zh) * 2020-03-04 2021-09-10 平安科技(深圳)有限公司 基于机器学习的药物识别方法及相关设备
CN111986817A (zh) * 2020-08-21 2020-11-24 南通大学 一种通过ace2筛选新冠covid-19治疗药物的方法
CN112528018A (zh) * 2020-12-01 2021-03-19 天津中科智能识别产业技术研究院有限公司 一种基于文本挖掘的热点新闻发现方法
CN112651244A (zh) * 2020-12-25 2021-04-13 上海交通大学 一种基于论文摘要QA的TopK实体抽取方法与系统
WO2022198625A1 (zh) * 2021-03-26 2022-09-29 深圳华大基因股份有限公司 变异文献解读知识库的构建方法、解读方法及电子设备

Similar Documents

Publication Publication Date Title
CN106708959A (zh) 一种基于医学文献数据库的组合药物识别与排序方法
Wongkoblap et al. Researching mental health disorders in the era of social media: systematic review
Ginn et al. Mining Twitter for adverse drug reaction mentions: a corpus and classification benchmark
Ball et al. TextHunter–a user friendly tool for extracting generic concepts from free text in clinical research
JP5544602B2 (ja) 単語意味関係抽出装置及び単語意味関係抽出方法
Wang et al. A drug-adverse event extraction algorithm to support pharmacovigilance knowledge mining from PubMed citations
Szlosek et al. Using machine learning and natural language processing algorithms to automate the evaluation of clinical decision support in electronic medical record systems
JP6301966B2 (ja) データ分析システム、データ分析方法、データ分析のためのプログラム、及び、このプログラムの記録媒体
CN112635011A (zh) 疾病诊断方法、疾病诊断系统和可读存储介质
Wu et al. Detecting abbreviations in discharge summaries using machine learning methods
CN106960003A (zh) 抄袭检测中的基于机器学习的源检索的查询生成方法
Hayes et al. Toward improved artificial intelligence in requirements engineering: metadata for tracing datasets
WO2021150313A1 (en) Contrastive learning for question answering (qa)
CN109977231B (zh) 一种基于情感衰变因子的抑郁情绪分析方法
Rijo et al. Decision Support System to Diagnosis and Classification of Epilepsy in Children.
Basu et al. A novel framework to expedite systematic reviews by automatically building information extraction training corpora
Sevani et al. Detection of Hate Speech by Employing Support Vector Machine with Word2Vec Model
CN116629385A (zh) 一种gpt模型优化方法和装置
CN110750712A (zh) 基于数据驱动的软件安全需求推荐方法
Eckert et al. Semantic role labeling tools for biomedical question answering: a study of selected tools on the BioASQ datasets
Zhu et al. Twitter Sentiment analysis of covid vaccines
Viscosi et al. Selection of diagnosis with oncologic relevance information from histopathology free text reports: A machine learning approach
Jimeno-Yepes et al. A bottom-up approach to MEDLINE indexing recommendations
Jasch Information extraction from clinical trials
Gyawali et al. Grading the quality of medical evidence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination