CN108874755A - 基于MeSH的医学文献集相似性度量方法 - Google Patents
基于MeSH的医学文献集相似性度量方法 Download PDFInfo
- Publication number
- CN108874755A CN108874755A CN201810685265.8A CN201810685265A CN108874755A CN 108874755 A CN108874755 A CN 108874755A CN 201810685265 A CN201810685265 A CN 201810685265A CN 108874755 A CN108874755 A CN 108874755A
- Authority
- CN
- China
- Prior art keywords
- document
- descriptor
- archives
- mesh
- search
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 239000011159 matrix material Substances 0.000 claims abstract description 23
- 239000003814 drug Substances 0.000 claims abstract description 14
- 201000010099 disease Diseases 0.000 claims abstract description 12
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 12
- 239000012141 concentrate Substances 0.000 claims description 2
- 108090000623 proteins and genes Proteins 0.000 description 9
- 206010028980 Neoplasm Diseases 0.000 description 6
- 101000969812 Homo sapiens Multidrug resistance-associated protein 1 Proteins 0.000 description 4
- 102100021339 Multidrug resistance-associated protein 1 Human genes 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000004060 metabolic process Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000009412 basement excavation Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000002068 genetic effect Effects 0.000 description 2
- 230000006916 protein interaction Effects 0.000 description 2
- 208000034100 susceptibility to 1 basal cell carcinoma Diseases 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 102000004855 Multi drug resistance-associated proteins Human genes 0.000 description 1
- 108090001099 Multi drug resistance-associated proteins Proteins 0.000 description 1
- 101100268917 Oryctolagus cuniculus ACOX2 gene Proteins 0.000 description 1
- 102000002067 Protein Subunits Human genes 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- UCONUSSAWGCZMV-UHFFFAOYSA-N Tetrahydro-cannabinol-carbonsaeure Natural products O1C(C)(C)C2CCC(C)=CC2C2=C1C=C(CCCCC)C(C(O)=O)=C2O UCONUSSAWGCZMV-UHFFFAOYSA-N 0.000 description 1
- 102000004243 Tubulin Human genes 0.000 description 1
- 108090000704 Tubulin Proteins 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000026731 phosphorylation Effects 0.000 description 1
- 238000006366 phosphorylation reaction Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于MeSH的医学文献集相似性度量方法,其包括获取与疾病或基因相关的搜索主题词;检索与所述搜索主题词相关的文献,并采用同一搜索主题词检索得到的所有文献形成主题词文献集;采用主题词文献集中每篇文献在其内包含的医学主题词的权重值,将文献映射到向量空间构建成MeSH空间矩阵;计算主题词文献集A在MeSH空间矩阵中医学主题词g的权重值;根据主题词文献集在所有医学主题词的权重值,构建主题词文献集A的矢量式;计算MeSH空间矩阵中文献集A与文献集B的余弦相似度。
Description
技术领域
本发明涉及文献之间相似度的计算,具体涉及基于MeSH(Vetor Space Model,向量空间模型)的医学文献集相似性度量方法。
背景技术
传统的医学文献集相似度计算方法,有通过人工标定将原始医学文献数据转化为疾病和基因的关系并记录在数据库中,建立了遗传关联数据库;也有通过遗传数据库提取了疾病和一千七百多种基因的关系,创建了人类疾病网络;还有通过特征向量中心、中介中心性等数据指标得到了疾病相关的基因网络。但是基于人工标定的文献关系挖掘,审核需要精力,无法满足文献新增速度;基于语义的文献挖掘,涉及自然语言处理,计算量太大,限制了挖掘的总样本数。且大多数文献相似度的计算算法,仅仅能感知文献的字面含义,无法在文献的隐含语义层面来进步挖掘相似性。
发明内容
针对现有技术中的上述不足,本发明提供的基于MeSH的医学文献集相似性度量方法解决了传统方法仅仅感知文献表面意义,无法挖掘隐含信息的相似性的问题。
为了达到上述发明目的,本发明采用的技术方案为:
提供一种基于MeSH的医学文献集相似性度量方法,其包括:
获取与疾病或基因相关的搜索主题词;
检索与所述搜索主题词相关的文献,并采用同一搜索主题词检索得到的所有文献形成主题词文献集;
采用主题词文献集中每篇文献在其内包含的医学主题词的权重值,将文献映射到向量空间构建成MeSH空间矩阵;
计算主题词文献集A在MeSH空间矩阵中医学主题词g的权重值WAn:
其中,f是指含搜索主题词A的文献总数;nAj为与搜索主题词A相关的文章中,第j篇文章对应的MeSH主题词的个数;ej为第j篇文献被引用的次数;k为f篇文献中包含医学主题词g的篇数,1≤g≤m,m为医学主题的总个数;ei为第i篇文献被引用的次数;f’为搜索主题词B对应的文献集与搜索主题词A的文献集交集的数量;qg为包含医学主题词g的文章数量;
根据主题词文献集A在所有医学主题词的权重值,构建主题词文献集A的矢量式:WA=(wA1,wA2,…,wAm);
计算MeSH空间矩阵中主题词文献集A与主题词文献集B的余弦相似度:
其中,WBg为主题词文献集B与MeSH空间矩阵中医学主题词g的权重值。
本发明的有益效果为:本方案能够将包含搜索主题词的所有文献集归类成单独的一个集合,之后再通过医学主题词计算两个集合的相似度关联起来,通过集合之间相关性可以更加全面地找到疾病与疾病、疾病与基因之间地关系,从而为治疗疾病提供可靠的诊断和治疗指导。
本方案通过研究搜索主体词和文献内容上同时感知医学文献集的相似性,通过文献集间的相互引用,提供更精准的关系挖掘;通过本方案提供的方法能够应对海量文献数据和多个主题的应用场景,提供快速高效的相似度计算,极大程度上节省了人力资源。
附图说明
图1为基于MeSH的医学文献集相似性度量方法的流程图。
图2为文献映射到向量空间模型示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
参考图1,图1示出了基于MeSH的医学文献集相似性度量方法的流程图;如图1所示,该方法100包括步骤101至步骤106。
在步骤101中,获取与疾病或基因相关的搜索主题词。以癌症为例,癌症有很多种类型(BRCA、THCA、UCEC、BLCA...),有的是外界因素造成的,有的是基因病变引起的,在通过搜索主题词检索癌症时就可以把所有与癌症相关的文献、由于基因与癌症相关的文献全部检索出来。
在步骤102,检索与所述搜索主题词相关的文献,并采用同一搜索主题词检索得到的所有文献形成主题词文献集。
在实施时,本方案优选检索与所述搜索主题词相关的文献进一步包括:
采用文献ID检索接口从Pubmed生物医学文献库中获取包含搜索主题词的文献的ID;
根据所述文献的ID,采用文献详细信息接口和文献引用关系接口从Pubmed生物医学文献库中获取与ID对应的文献的详细信息;
将同一搜索主题词检索得到的所有文献及每篇文献对应的ID和详细信息归类在一起形成主题词文献集。
其中,详细信息包括标题、摘要、发表年份、被引用文章ID、引用文章ID、MeSH主题词、期刊信息和作者信息。
Pubmed是目前世界上最大的生物医学文献库,数据源来自medline等专业数据库,覆盖了全球千余种生物医学期刊的千万篇医学文章。其文献的信息主要由五部分构成:作者信息、关键词信息、发表期刊信息、引文信息、内容信息。MeSH(Medical SubjectHeadings)收词广泛、注释详细、主题词与文献主题的契合程度高,是当今医学领域使用最广泛、权威的医学词表。
在步骤103,采用主题词文献集中每篇文献在其内包含的医学主题词的权重值,将文献映射到向量空间构建成MeSH空间矩阵。
选用MeSH(医学主题词)作为MeSH空间矩阵的特征项集合,主要是因为MeSH是二次文献标引的重要依据,其所选的词具有严格控制,且有一整套健全的参照系统,能够很好地概括主题且准确率较高。
在本发明的一个实施例中,所述采用主题词文献集中每篇文献与其内包含的医学主题词的权重值,将文献映射到向量空间构建成MeSH空间矩阵进一步包括步骤201至步骤205:
在步骤201中,提取主题词文献集中每篇文献的医学主题词及所有主题词文献集中的所有医学主题词,并采用所有医学主题词构成主题词集;
在步骤202中,当文献中存在主题词集中的医学主题词时,则采用1标记该医学主题词,否则采用0标记该医学主题词;
文献对应的矢量结果(其中1代表该文献中含有对应位置的MeSH词,0代表不含有该MeSH词),表示在VSM空间中有对应MeSH位置有n个标记为1。
在步骤203中,当所有主题词文献集中的文献的医学主题词采用1或0标记完成后,采用标记完成后的所有文献形成文献与医学主题词矩阵;
在步骤204中,计算文献在其内被标记为1的医学主题词的权重值,如图2所示,根据同一文献在其内所有被标记为1的医学主题词的权重值将文献映射到向量空间:
di=(Wi1,Wi2,...,Wix)
其中,di为主题词文献集d中的第i篇文献;Wix为di与其包含的医学主题词x的权重值,x为di中的医学主题词的总数量;
在步骤205中,采用所有被映射到向量空间的文献形成MeSH空间矩阵。
在步骤104,计算主题词文献集A在MeSH空间矩阵中医学主题词g的权重值WAm:
其中,f是指含搜索主题词A的文献总数;nAj为与搜索主题词A相关的文章中,第j篇文章对应的MeSH主题词的个数;ej为第j篇文献被引用的次数;k为f篇文献中包含医学主题词g的篇数,1≤g≤m,m为医学主题的总个数;ei为第i篇文献被引用的次数;f’为搜索主题词B对应的文献集与搜索主题词A的文献集交集的数量;qg为包含医学主题词g的文章数量;
在步骤105,根据主题词文献集A在所有医学主题词的权重值,构建主题词文献集A的矢量式:WA=(wA1,wA2,…,wAm)。
在步骤106,计算MeSH空间矩阵中主题词文献集A与主题词文献集B的余弦相似度:
其中,WBg为主题词文献集B在MeSH空间矩阵中医学主题词g的权重值。
下面以基因ABCC1为例对本方案的相似性度量方法进行详细说明:
S1、获取基于基因ABCC1的文献集
S1.1、使用Pubmed提供的API接口:首先使用接口获取ABCC1对应的文章ID(包含769篇文章ID),存入本地数据库;
S1.2、使用Pubmed提供的API接口:文献详细信息接口和文献引用关系接口获取每篇文献的详细信息(标题、摘要、发表年份、被引用文章ID、引用文章ID、MeSH主题词、期刊信息、作者信息);
S1.3、将文献的详细信息存入数据库中对应文献ID下,针对检索主题词ABCC1文献集:ABCC1、文献ID、文献信息三大类目录,处理的文献时间范围为1966年1月1日至2017年11月1日,本次检索累计获取了40450个基因类型对应的4372543篇文章。
S2、实现主题词文献集的矢量表达式
S2.1、通过主题词文献集构建出整个医学文献库的MeSH向量空间,假设文献集D中有3篇文献,每篇文献有3个不同的特征项(W1,W2,W3),由于特征项之间相互独立且每篇文献在各个特征项的权重值各不相同,那么映射到向量空间每篇文献可表示为di=(Wi1,Wi2,Wi3);
其中,Wi1为第i篇文献在第1个医学主题词的权重值;Wi2为第i篇文献在第2个医学主题词的权重值;Wi3为第i篇文献在第3个医学主题词的权重值,当文献数量由3扩至n,特征项维度由3扩至m时,可以用表示第i篇文献在第1个医学主题词的权重值di=(Wi1,Wi2,...,Wix)。
S2.2、针对已经建立好的本地医学文献库,通过文献的MeSH,得到进而得到“文献集-MeSH”关系,用MeSH建立VSM,MeSH=(MeSH1,MeSH2,…,MeSHm),m=29372为文献使用的2017版本MeSH主题词数,获取文献中的MeSH主题词,获取c篇文献中的MeSH主题词,如:
ID=27908733的文献包含17个主题词(Amino Acid Sequence、Binding Sites、Cell Line,Tumor、Humans、Multidrug Resistance-Associated Proteins、chemistry、metabolism、Phosphorylation、Protein Binding、Protein Interaction Domains andMotifs、Protein Interaction Maps、Protein Subunits、chemistry、metabolism、Tubulin、chemistry、metabolism),得到给文献对应的矢量结果 表示在VSM空间中对应MeSH位置有17个标记为1;
S2.3、通过(2.2)形成“文献-MeSH”矩阵”;
S3、计算单个MeSH权重值
因为每篇文献被引用次数不同,导致该文献的MeSH词的影响力不同,从PageRank算法角度出发,一篇文献被文献集内文献引用越多,其影响力就越大,计算每个医学主题词的权重值:
S4、计算医学文献集之间的相似性
S4.1、通过(3)可以获得文献集ABCC1的矢量结果:
WABBC1=(wABBC11,wABBC12,…,wABBC1m)
通过(3)可以获得文献集B的矢量结果:
WAKIRP=(wKIRP11,wKIRP12,…,wKIRPm)
S4.2、利用VSM计算文献集A与文献集B的余弦相似度:
上述采用本方案的方法的文献集相似度进行ROC性能评估,得到阈值为0.52,而本实施例中获得最终的相似度值0.63(采用为加ei的方法,得到相似度值为0.47,而根据高阈值对应高的筛选效果,可知本方法能够达到比较好的医学实体相似度计算研究),即将相似度值与阈值有了一个关联性对比,对于后续的研究有极大的帮助。
综上所述,本方案重点研究基于MeSH和VSM的文献集相似度度量方法,提高对文献集背后的医学实体关联性的研究效率,通过本方案可以挖掘医学文献集背后的医学实体的关联性。
Claims (4)
1.基于MeSH的医学文献集相似性度量方法,其特征在于,包括:
获取与疾病或基因相关的搜索主题词;
检索与所述搜索主题词相关的文献,并采用同一搜索主题词检索得到的所有文献形成主题词文献集;
采用主题词文献集中每篇文献在其内包含的医学主题词的权重值,将文献映射到向量空间构建成MeSH空间矩阵;
计算主题词文献集A在MeSH空间矩阵中医学主题词g的权重值WAm:
其中,f是指含搜索主题词A的文献总数;nAj为与搜索主题词A相关的文章中,第j篇文章对应的MeSH主题词的个数;ej为第j篇文献被引用的次数;k为f篇文献中包含医学主题词g的篇数,1≤g≤m,m为医学主题的总个数;ei为第i篇文献被引用的次数;f’为搜索主题词B对应的文献集与搜索主题词A的文献集交集的数量;qg为包含医学主题词g的文章数量;
根据主题词文献集A在所有医学主题词的权重值,构建主题词文献集A的矢量式:WA=(wA1,wA2,…,wAm);
计算MeSH空间矩阵中主题词文献集A与主题词文献集B的余弦相似度:
其中,WBg为主题词文献集B在MeSH空间矩阵中医学主题词g的权重值。
2.根据权利要求1所述的基于MeSH的医学文献集相似性度量方法,其特征在于,所述采用主题词文献集中每篇文献与其内包含的医学主题词的权重值,将文献映射到向量空间构建成MeSH空间矩阵进一步包括:
提取主题词文献集中每篇文献的医学主题词及所有主题词文献集中的所有医学主题词,并采用所有医学主题词构成主题词集;
当文献中存在主题词集中的医学主题词时,则采用1标记该医学主题词,否则采用0标记该医学主题词;
当所有主题词文献集中的文献的医学主题词采用1或0标记完成后,采用标记完成后的所有文献形成文献与医学主题词矩阵;
计算文献在其内被标记为1的医学主题词的权重值,并根据同一文献在其内所有被标记为1的医学主题词的权重值将文献映射到向量空间:
di=(Wi1,Wi2,...,Wix)
其中,di为主题词文献集d中的第i篇文献;Wix为di在其包含的医学主题词x的权重值,x为di中的医学主题词的总数量;
采用所有被映射到向量空间的文献形成MeSH空间矩阵。
3.根据权利要求1或2所述的基于MeSH的医学文献集相似性度量方法,其特征在于,所述检索与所述搜索主题词相关的文献进一步包括:
采用文献ID检索接口从Pubmed生物医学文献库中获取包含搜索主题词的文献的ID;
根据所述文献的ID,采用文献详细信息接口和文献引用关系接口从Pubmed生物医学文献库中获取与ID对应的文献的详细信息;
将同一搜索主题词检索得到的所有文献及每篇文献对应的ID和详细信息归类在一起形成主题词文献集。
4.根据权利要求3所述的基于MeSH的医学文献集相似性度量方法,其特征在于,所述详细信息包括标题、摘要、发表年份、被引用文章ID、引用文章ID、MeSH主题词、期刊信息和作者信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810685265.8A CN108874755B (zh) | 2018-06-28 | 2018-06-28 | 基于MeSH的医学文献集相似性度量方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810685265.8A CN108874755B (zh) | 2018-06-28 | 2018-06-28 | 基于MeSH的医学文献集相似性度量方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108874755A true CN108874755A (zh) | 2018-11-23 |
CN108874755B CN108874755B (zh) | 2020-12-08 |
Family
ID=64295441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810685265.8A Expired - Fee Related CN108874755B (zh) | 2018-06-28 | 2018-06-28 | 基于MeSH的医学文献集相似性度量方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108874755B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109741791A (zh) * | 2018-12-29 | 2019-05-10 | 人和未来生物科技(长沙)有限公司 | 一种面向PubMed论文库的作者学科方向数据挖掘方法及系统 |
CN109857731A (zh) * | 2019-01-11 | 2019-06-07 | 吉林大学 | 一种生物医学实体关系的文献检索系统及检索方法 |
CN111581162A (zh) * | 2020-05-06 | 2020-08-25 | 上海海事大学 | 一种基于本体的海量文献数据的聚类方法 |
CN111581960A (zh) * | 2020-05-06 | 2020-08-25 | 上海海事大学 | 一种获取医学文本语义相似度的方法 |
CN115658851A (zh) * | 2022-12-27 | 2023-01-31 | 药融云数字科技(成都)有限公司 | 基于主题的医学文献检索方法、系统、存储介质及终端 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100070448A1 (en) * | 2002-06-24 | 2010-03-18 | Nosa Omoigui | System and method for knowledge retrieval, management, delivery and presentation |
CN106708969A (zh) * | 2016-12-02 | 2017-05-24 | 山西大学 | 文献资源主题聚类共现潜在语义向量空间模型语义核方法 |
CN107247780A (zh) * | 2017-06-12 | 2017-10-13 | 北京理工大学 | 一种基于知识本体的专利文献相似性度量方法 |
-
2018
- 2018-06-28 CN CN201810685265.8A patent/CN108874755B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100070448A1 (en) * | 2002-06-24 | 2010-03-18 | Nosa Omoigui | System and method for knowledge retrieval, management, delivery and presentation |
CN106708969A (zh) * | 2016-12-02 | 2017-05-24 | 山西大学 | 文献资源主题聚类共现潜在语义向量空间模型语义核方法 |
CN107247780A (zh) * | 2017-06-12 | 2017-10-13 | 北京理工大学 | 一种基于知识本体的专利文献相似性度量方法 |
Non-Patent Citations (4)
Title |
---|
GERARD SALTON等: "TERM-WEIGHTING APPROACHES IN AUTOMATIC TEXT RETRIEVAL", 《INFORMATION PROCESSING & MANAGEMENT》 * |
JEONGWOO KIM等: "IMA: Identifying disease-related genes using MeSH terms and association rules", 《JOURNAL OF BIOMEDICAL INFORMATICS》 * |
冯亚宁: "基于文献挖掘的结直肠癌临床-组学关联分析方法研究与应用", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
鲁文斌: "泛癌生物标志物的识别及信息检索平台实现", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109741791A (zh) * | 2018-12-29 | 2019-05-10 | 人和未来生物科技(长沙)有限公司 | 一种面向PubMed论文库的作者学科方向数据挖掘方法及系统 |
CN109857731A (zh) * | 2019-01-11 | 2019-06-07 | 吉林大学 | 一种生物医学实体关系的文献检索系统及检索方法 |
CN111581162A (zh) * | 2020-05-06 | 2020-08-25 | 上海海事大学 | 一种基于本体的海量文献数据的聚类方法 |
CN111581960A (zh) * | 2020-05-06 | 2020-08-25 | 上海海事大学 | 一种获取医学文本语义相似度的方法 |
CN111581162B (zh) * | 2020-05-06 | 2022-09-06 | 上海海事大学 | 一种基于本体的海量文献数据的聚类方法 |
CN111581960B (zh) * | 2020-05-06 | 2023-09-29 | 上海海事大学 | 一种获取医学文本语义相似度的方法 |
CN115658851A (zh) * | 2022-12-27 | 2023-01-31 | 药融云数字科技(成都)有限公司 | 基于主题的医学文献检索方法、系统、存储介质及终端 |
Also Published As
Publication number | Publication date |
---|---|
CN108874755B (zh) | 2020-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108874755A (zh) | 基于MeSH的医学文献集相似性度量方法 | |
Zaremba-Niedzwiedzka et al. | Asgard archaea illuminate the origin of eukaryotic cellular complexity | |
CN106295796B (zh) | 基于深度学习的实体链接方法 | |
US8341112B2 (en) | Annotation by search | |
Kim et al. | Multilingual named entity recognition using parallel data and metadata from wikipedia | |
CN110147499B (zh) | 打标签方法、推荐方法及记录介质 | |
Xing et al. | A gene–phenotype relationship extraction pipeline from the biomedical literature using a representation learning approach | |
Elliott | Survey of author name disambiguation: 2004 to 2010 | |
CN109284498A (zh) | 自提柜推荐方法、自提柜推荐装置和电子装置 | |
CN113868387A (zh) | 一种基于改进tf-idf加权的word2vec医疗相似问题检索方法 | |
Zhou et al. | MeSHSim: An R/Bioconductor package for measuring semantic similarity over MeSH headings and MEDLINE documents | |
CN108345694A (zh) | 一种基于主题数据库的文献检索方法及系统 | |
Kim et al. | Automatic annotation of bibliographical references in digital humanities books, articles and blogs | |
Sanchez-Mazas et al. | Past human migrations in East Asia | |
CN108763218A (zh) | 一种基于crf的影视检索实体识别方法 | |
Vintar et al. | TermFrame: a systematic approach to Karst Terminology | |
Sallaberry et al. | A semantic approach for geospatial information extraction from unstructured documents | |
Lyal | Digitising legacy zoological taxonomic literature: Processes, products and using the output | |
CN102982072A (zh) | 一种可视化概念检测器及构造语义场的方法 | |
Passonneau et al. | Relation between agreement measures on human labeling and machine learning performance: Results from an art history image indexing domain | |
Wołk et al. | Harvesting comparable corpora and mining them for equivalent bilingual sentences using statistical classification and analogy-based heuristics | |
CN112328743B (zh) | 代码搜索方法、装置、可读存储介质和电子设备 | |
Finsterwald et al. | The movie mashup application MoMa: geolocalizing and finding movies | |
Banuqitah et al. | Two level self-supervised relation extraction from MEDLINE using UMLS | |
Dolloff et al. | Methods for the specification and validation of geolocation accuracy and predicted accuracy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201208 |