CN115659047A - 基于混合算法的医疗文献检索方法 - Google Patents

基于混合算法的医疗文献检索方法 Download PDF

Info

Publication number
CN115659047A
CN115659047A CN202211410896.1A CN202211410896A CN115659047A CN 115659047 A CN115659047 A CN 115659047A CN 202211410896 A CN202211410896 A CN 202211410896A CN 115659047 A CN115659047 A CN 115659047A
Authority
CN
China
Prior art keywords
retrieval
algorithm
abstract
score
scores
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211410896.1A
Other languages
English (en)
Other versions
CN115659047B (zh
Inventor
张子成
曹伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Huiningjie Information Technology Co ltd
Original Assignee
Nanjing Huiningjie Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Huiningjie Information Technology Co ltd filed Critical Nanjing Huiningjie Information Technology Co ltd
Priority to CN202211410896.1A priority Critical patent/CN115659047B/zh
Publication of CN115659047A publication Critical patent/CN115659047A/zh
Application granted granted Critical
Publication of CN115659047B publication Critical patent/CN115659047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于混合算法的医疗文献检索方法,对查询词进行扩展,采用改进的BM25算法作为一次检索的基础算法,根据标准化得分降序排序得出检索文献;对一次检索得到的文献进行基于聚类的摘要提取,采用基于Biobert模型的摘要、标题与检索任务的相似度匹配方法计算摘要相似度得分与标题相似度得分;将一次检索得到的文献的得分标准化,使其与标题相似度得分与摘要相似度得分处于同一等级,将三种得分相加并降序排序输出最后的检索结果。本发明所述的基于混合算法的医疗文献检索方法,在检索的两大指标P@10、R‑Prec上均有提高;通过实验与现有算法对比,验证本发明所提出的算法的有效性,其综合性能优于现有算法。

Description

基于混合算法的医疗文献检索方法
技术领域
本发明涉及医疗数据信息检索领域,尤其涉及一种基于混合算法的医疗文献检索方法。
背景技术
精准医疗是将现代科学技术手段与传统医学方法相结合,科学地细化人体功能和疾病性质,系统优化人类疾病预防和保健的原则和做法,以有效、安全、经济的医疗服务实现个人和社会健康效益最大化的一种新的医学范式。在精准医疗中,为每个患者选择适当的诊断方法,以实现最小的医源性损害,最小的医疗成本和患者最佳的康复。随着医疗技术的进步,生物医学文章的数量呈指数级增长。在海量文章数据库中找到与患者症状相匹配的相关文章变得越来越困难。
因此,本发明提供一种基于混合算法的医疗文献检索方法。
发明内容
为解决现有技术中存在的不足,本发明的目的在于,提供一种基于混合算法的医疗文献检索方法。
为实现本发明的目的,本发明所采用的技术方案是:
一种基于混合算法的医疗文献检索方法,包括以下步骤:
(1)对查询词进行扩展,采用改进的BM25算法作为一次检索的基础算法,根据标准化得分降序排序得出检索文献;
(2)对一次检索得到的文献进行基于聚类的摘要提取,采用基于Biobert模型的摘要、标题与检索任务的相似度匹配方法计算摘要相似度得分与标题相似度得分;
(3)将一次检索得到的文献的得分标准化,使其与标题相似度得分与摘要相似度得分处于同一等级,将三种得分相加并降序排序输出最后的检索结果排序列表。
进一步地,步骤(1)中,将病人信息输入到医学数据库中获取查询扩展信息,将病人信息与查询扩展信息输入到改进的BM25算法之中得出摘要得分、词得分和共现得分,将三种得分进行标准化相加并按分值降序排序得出检索文献;病人信息包含疾病、基本信息、基因和其他。
进一步地,步骤(1)中,改进的BM25算法为:
(1.1)定义摘要得分:
Figure BDA0003938203100000021
其中,IDF为检索语素qi的IDF分数,k1、b1为调整因子,fi为qi的频率在d中,qfi是qi在query中出现的频率,dl是文档d的文本长度,avgdl是所有文档的平均文本长度;
(1.2)提出一个词列表wordlist用于合并一个检索文档的chemical words,MeSHheadings,keywords,并对其得分定义如下:
Figure BDA0003938203100000022
其中,tfw为每个检索语素的IDF值之和,k1、b1为调整因子,dwl是文档d的wordlist的单词数量,avgdwl是所有文档的wordlist平均单词数量;
(1.3)定义共现得分,即检索语素中的疾病与基因,在摘要和wordlist中共同出现的话,记作共现得分:
Figure BDA0003938203100000023
其中,IDFword(gi,d)表示基因gi为查询Q中的基因;
(1.4)将三种得分进行标准化相加,标准化的方法采用max-min方法公式如:
Figure BDA0003938203100000024
其中,xnorm表示标准化后的值,x表示标准化前的值,min(X)表示待标准化数列的最小值,max(X)表示待标准化数列的最大值。
进一步地,步骤(2)中,基于聚类的摘要提取的具体流程为,采用biobert预训练模型将摘要中的每一句话生成句向量,得到句子级别的向量表示;使用k-mean聚类算法对句子进行聚类,得到N个类别;从每个类别中选取距离中心最近的句子,直到整体长度到达512个单词为止,形成新的摘要文本。
进一步地,步骤(2)中,采用Biobert模型的相似度计算过程为,将输入送入BERT前,在首部加入[CLS],在摘要/标题之间加入[SEP]作为分隔;然后得到BERT的输出句子对的词向量层,取[CLS]完成相似度计算任务;设取到的[CLS]对应的词向量层为c,计算P=sigmoid(cW')获取摘要/标题与查询任务之间的相似度,使用[0,1]输出logit[CLS]令牌T[CLS]作为输入文档和查询任务的匹配分数。
进一步地,步骤(2)中,将检索任务分为相同基因不同疾病和疾病相同基因不同;将疾病、基本信息、基因提取放在摘要抽取后的头部,并对疾病相同基因不同或者基因相同疾病不同的内容进行负样本生成。
本发明的有益效果在于,与现有技术相比,本发明对一次检索得到的文献再进行基于聚类的摘要提取,采用基于Biobert模型的摘要、标题与检索任务的相似度匹配方法计算摘要相似度得分与标题相似度得分;本发明所述的基于混合算法的医疗文献检索方法,在检索的两大指标P@10、R-Prec上均有提高。通过实验与现有算法对比,验证本发明所提出的算法的有效性,其综合性能优于现有算法。
附图说明
图1是本发明所述的基于混合算法的医疗文献检索方法示意图;
图2是bert模型示意图。
具体实施方式
下面结合附图和实施例对本发明的技术方案作进一步的说明。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本申请的保护范围。
如图1所示,本发明所述的基于混合算法的医疗文献检索方法,具体包括以下步骤:
(1)对查询词进行扩展,采用改进的BM25算法作为一次检索的基础算法,根据标准化得分得到top1000的医学文章;
将病人信息和医学文章信息输入系统,病人信息包含疾病diease、基本信息demographic、基因gene和其他等,医学文章信息包含标题title、摘要abstract、医学主题词MeSH headings、化学词列表chemical list和关键词列表keyword list等;并对将病人信息输入到医学数据库MeSH lbrary中获取查询扩展信息,将病人信息与查询扩展信息输入到改进的BM25算法之中得出摘要得分、词word得分和共现得分,进行标准化处理并按分值降序排序得出top1000的医学文章。
改进的BM25算法:
(1.1)首先定义摘要得分:
Figure BDA0003938203100000031
其中,IDF为检索语素qi的IDF分数,其中,k1、b1为调整因子,通常根据经验设定,fi为qi的频率在d中,qfi是qi在query中出现的频率,dl是文档d的文本长度,avgdl是所有文档的平均文本长度。
(1.2)提出了一个词列表wordlist用于合并一个检索文档的chemical words,MeSH headings,keywords,并对其得分定义如下:
Figure BDA0003938203100000041
其中,tfw为每个检索语素的IDF值之和,k1、b1为调整因子,通常根据经验设定,dwl是文档d的wordlist的单词数量,avgdwl是所有文档的wordlist平均单词数量。
(1.3)定义共现得分,即检索语素中的疾病与基因(包括扩展词),在摘要和wordlist中共同出现的话,记作共现得分:
Figure BDA0003938203100000042
其中,IDFword(gi,d)表示基因gi为查询Q中的基因,因为有些任务包含多种基因。
(1.4)为了与本发明的相似度方法的得分处于同一水平线上,我们将三种得分进行标准化相加,标准化的方法采用max-min方法公式如:
Figure BDA0003938203100000043
其中,xnorm表示标准化后的值,x表示标准化前的值,min(X)表示待标准化数列的最小值,max(X)表示待标准化数列的最大值。算法中我们还增加了查询扩展对Mesh进行了扩展。
改进的bm25算法缩放因子用普遍的常规参数,如表1所示。
表1
Figure BDA0003938203100000044
(2)对一次检索得到的top1000文献进行基于聚类的摘要提取,采用基于Biobert模型的摘要、标题与检索任务的相似度匹配方法计算摘要相似度得分与标题相似度得分;
因为Biobert模型对文本的限制为512个单词,因此对于摘要需要做进一步精简,需要对关键内容进行提取。本发明采用抽取式的摘要生成方法,最大程度的保留原始摘要的写作风格和含义。
本发明采用基于聚类的摘要提取方法,具体流程如下:采用biobert预训练模型将摘要中的每一句话生成句向量,得到句子级别的向量表示,为一个1×768维的向量。使用k-mean聚类算法对句子进行聚类,得到N个类别。从每个类别中选取距离中心最近的句子,直到整体长度到达512个单词为止,形成新的摘要文本。
文档与检索任务的相似性匹配,是信息检索过程中的重要步骤,本发明采用bert模型中的Sentence Pair Classification Task的相似度计算,来对摘要、标题和查询任务进行建模训练,模型结构如图2所示。
将输入送入BERT前,在首部加入[CLS],在摘要/标题之间加入[SEP]作为分隔;然后得到BERT的输出(句子对的词向量层),取[CLS]即可完成相似度计算任务;设取到的[CLS]对应的词向量层为c,计算P=sigmoid(cW')获取摘要/标题与查询任务之间的相似度,因为训练语料是标注相关与不相关的,所以使用[0,1]输出logit[CLS]令牌T[CLS]作为输入文档和查询任务的匹配分数。
在训练样本生成期间,我们通过分析检索任务的基因与疾病对训练效果的影响,采取了训练样本优化策略,并通过实验证明了这种策略的有效性。
将检索任务分为2种:相同基因不同疾病和疾病相同基因不同。为了排除检索任务与文档匹配的干扰,我们将disease、gene和demographic提取放在摘要抽取后的头部,并对疾病相同基因不同或者基因相同疾病不同的内容进行负样本生成。
文档相似性匹配算法,我们分别为摘要和标题与查询任务做了相似度匹配,因为摘要与标题长度相差比较明显,所以我们采用了不同的参数进行训练,匹配度算法的训练参数设置如表2所示。
表2
Figure BDA0003938203100000051
Figure BDA0003938203100000061
(3)将改进的BM25得分标准化,使其与标题相似度得分与摘要相似度得分处于同一等级后将三种得分相加并降序排序输出最后的结果排序列表。
Figure BDA0003938203100000062
其中,xnorm表示归一化后的值,x表示归一化前的值,min(X)表示待标准化序列的最小值,max(X)表示待标准化序列的最大值。
通过实验与现有算法对比,验证本发明所提出的算法的有效性,其综合性能优于现有算法。
如表3所示,从2017-2019的评价结果中,对于文献的初筛选,对于人类精准医疗是个筛选要素,疾病基因等共同出现也是判断相关性的重要因素,因此对于BM25算法中,我们采用了共现的方法,提高疾病与基因,基因与基因之间的共现得分,提高了潜在相关文献的得分,我们在计算检索要素时也将人类作为基础检索的检索要素之一,用于区分人类与动物实验。
如表4所示,为2017-2019年PM检索任务,从检索中我们不难看出disease和gene为固定表达,年龄和性别在检索时需要做分类处理,我们对其分类标准如表5所示,我们算法采用正则表达式从摘要中提取年纪,比如years-old/year old/years old都进行提取形成对应的类别,提取将摘要中的女人,男人,女孩,男孩等表达性别的词汇提取形成对应的类别,如果摘要中不包含基本信息,我们会从医学主题词中寻找匹配项进行提取。
表3
Figure BDA0003938203100000063
表4
Figure BDA0003938203100000064
Figure BDA0003938203100000071
表5
Figure BDA0003938203100000072
通过对2017-2019年的数据分析,我们可以将检索任务分为2种:相同基因不同疾病和疾病相同基因不同。相同基因不同疾病如表6所示,相同疾病不同基因的如表7所示。为了排除检索任务与文档匹配的干扰,我们将疾病、基因和基本信息提取放在摘要抽取后的头部,并对疾病相同基因不同或者基因相同疾病不同的内容进行负样本生成如表8所示。
表6
Figure BDA0003938203100000081
表7
主题 疾病 基因
2018-1 黑色素瘤 BRAF(V600E)
2018-2 黑色素瘤 BRAF(V600K)
2018-3 黑色素瘤 BRAF(V600R)
表8
Figure BDA0003938203100000082
数据来源主要分为baseline数据集和评价数据集,baseline采用的是trec组委会提供的pubmed文献元数据的下载,具体数据如表9所示,本发明使用的元数据包含PMID,文章标题,文章摘要,化学词,Mesh词和关键词。在2017-2019年的TREC-PM任务中,总共有120个患者病例和63387个qrels(文档相关性判断)如表10所示。
表9
Name Value
摘要数量 29,137,637
标题数量 29,137,637
化学词数量 13,670,358
医学主体词数量 25,389,659
关键词数量 5,435,471
表10
Year Queries Documents(rel./irrel.)
2017 30 3,875/18,767
2018 50 5,588/16,841
2019 40 5,544/12,772
采用评价数据集训练,取80%的数据作为训练集,20%的数据作为验证集,我们采用biobert作为预训练模型生成词向量,实验结果如表11所示。从结果上我们可以看出,本发明方法在训练集的召回率、F1得分,验证集的准确率、召回率和F1得分均要优于现有算法,这是因为我们采用了负样本生成的方法,降低了相似样本之间的干扰。
表11
Dataset P R F1
训练集(bert) 0.9814 0.9384 0.9594
验证集(bert) 0.9266 0.9147 0.9206
训练集(biobert) 0.9636 0.9656 0.9641
验证集(biobert) 0.9519 0.9552 0.9530
为了进一步验证本发明算法的有效性,我们选择qrels中80%数据作为训练,20%数据作为验证,使用检索出来的top 500提交评价,实验对比结果如表12所示。
表12
Figure BDA0003938203100000091
Figure BDA0003938203100000101
从实验结果可以看出,现有算法采用的baseline检索算法为Solr eDisMax算法,其一次检索的P@10和R-Prec较低,为0.52和0.2307,采用二次排序算法过后,其P@10和R-Prec提高较为明显,采用Baseline+REL达到了0.6750和0.3912,Baseline+REL+ABS达到了0.6985和0.3627。
而本发明算法的baseline检索算法一次检索的P@10和R-Prec就达到了0.5775和0.4225,Baseline+Abstract达到了0.6725和0.4636,Baseline+Abstract+title达到了0.6725和0.4716,可以看出本发明算法的P@10略低于现有算法,而R-Prec远高于现有算法。
其中,P@10,是相关文档在前10个结果中的比例。R-prec,给定R个相关文档的查询,R-prec定义为第R个文档的精确度。
本发明算法并没有进行任何的人工干预和针对指标的特别优化,采用的都为常规参数,因此本文算法具有更强的普适性。从表12中可以看出对P@10的优化会对R-Prec产生一定的下降,因此我们为了综合评价算法质量,参考了F1得分的计算方式,我们新增一个评价指标为P@10*R-Prec,本发明的最优P@10*R-Prec为0.3172,而现有技术的则为0.2533,因此本发明的算法在普适性和综合性能方面具有优势。
本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述,但是本领域技术人员应该理解,以上实施示例仅为本发明的优选实施方案,详尽的说明只是为了帮助读者更好地理解本发明精神,而并非对本发明保护范围的限制,相反,任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims (6)

1.一种基于混合算法的医疗文献检索方法,其特征在于,包括以下步骤:
(1)对查询词进行扩展,采用改进的BM25算法作为一次检索的基础算法,根据标准化得分降序排序得出检索文献;
(2)对一次检索得到的文献进行基于聚类的摘要提取,采用基于Biobert模型的摘要、标题与检索任务的相似度匹配方法计算摘要相似度得分与标题相似度得分;
(3)将一次检索得到的文献的得分标准化,使其与标题相似度得分与摘要相似度得分处于同一等级,将三种得分相加并降序排序输出最后的检索结果排序列表。
2.根据权利要求1所述的基于混合算法的医疗文献检索方法,其特征在于,步骤(1)中,将病人信息输入到医学数据库中获取查询扩展信息,将病人信息与查询扩展信息输入到改进的BM25算法之中得出摘要得分、词得分和共现得分,将三种得分进行标准化相加并按分值降序排序得出检索文献;病人信息包含疾病、基本信息、基因和其他。
3.根据权利要求1所述的基于混合算法的医疗文献检索方法,其特征在于,步骤(1)中,改进的BM25算法为:
(1.1)定义摘要得分:
Figure FDA0003938203090000011
其中,IDF为检索语素qi的IDF分数,k1、b1为调整因子,fi为qi的频率在d中,qfi是qi在query中出现的频率,dl是文档d的文本长度,avgdl是所有文档的平均文本长度;
(1.2)提出一个词列表wordlist用于合并一个检索文档的chemical words,MeSHheadings,keywords,并对其得分定义如下:
Figure FDA0003938203090000012
其中,tfw为每个检索语素的IDF值之和,k1、b1为调整因子,dwl是文档d的wordlist的单词数量,avgdwl是所有文档的wordlist平均单词数量;
(1.3)定义共现得分,即检索语素中的疾病与基因,在摘要和wordlist中共同出现的话,记作共现得分:
Figure FDA0003938203090000013
其中,IDFword(gi,d)表示基因gi为查询Q中的基因;
(1.4)将三种得分进行标准化相加,标准化的方法采用max-min方法公式如:
Figure FDA0003938203090000014
其中,xnorm表示标准化后的值,x表示标准化前的值,min(X)表示待标准化数列的最小值,max(X)表示待标准化数列的最大值。
4.根据权利要求1所述的基于混合算法的医疗文献检索方法,其特征在于,步骤(2)中,基于聚类的摘要提取的具体流程为,采用biobert预训练模型将摘要中的每一句话生成句向量,得到句子级别的向量表示;使用k-mean聚类算法对句子进行聚类,得到N个类别;从每个类别中选取距离中心最近的句子,直到整体长度到达512个单词为止,形成新的摘要文本。
5.根据权利要求1所述的基于混合算法的医疗文献检索方法,其特征在于,步骤(2)中,采用Biobert模型的相似度计算过程为,将输入送入BERT前,在首部加入[CLS],在摘要/标题之间加入[SEP]作为分隔;然后得到BERT的输出句子对的词向量层,取[CLS]完成相似度计算任务;设取到的[CLS]对应的词向量层为c,计算P=sigmoid(cW')获取摘要/标题与查询任务之间的相似度,使用[0,1]输出logit[CLS]令牌T[CLS]作为输入文档和查询任务的匹配分数。
6.根据权利要求1所述的基于混合算法的医疗文献检索方法,其特征在于,步骤(2)中,将检索任务分为相同基因不同疾病和疾病相同基因不同;将疾病、基本信息、基因提取放在摘要抽取后的头部,并对疾病相同基因不同或者基因相同疾病不同的内容进行负样本生成。
CN202211410896.1A 2022-11-11 2022-11-11 基于混合算法的医疗文献检索方法 Active CN115659047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211410896.1A CN115659047B (zh) 2022-11-11 2022-11-11 基于混合算法的医疗文献检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211410896.1A CN115659047B (zh) 2022-11-11 2022-11-11 基于混合算法的医疗文献检索方法

Publications (2)

Publication Number Publication Date
CN115659047A true CN115659047A (zh) 2023-01-31
CN115659047B CN115659047B (zh) 2023-07-28

Family

ID=85021753

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211410896.1A Active CN115659047B (zh) 2022-11-11 2022-11-11 基于混合算法的医疗文献检索方法

Country Status (1)

Country Link
CN (1) CN115659047B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750819A (zh) * 2015-03-31 2015-07-01 大连理工大学 一种基于词分组排序算法的生物医学文献检索方法及系统
CN108334573A (zh) * 2018-01-22 2018-07-27 北京工业大学 基于聚类信息的高相关微博检索方法
CN113239181A (zh) * 2021-05-14 2021-08-10 廖伟智 基于深度学习的科技文献引文推荐方法
WO2021179688A1 (zh) * 2020-10-23 2021-09-16 平安科技(深圳)有限公司 医学文献检索方法、装置、电子设备及存储介质
CN114691826A (zh) * 2022-03-10 2022-07-01 南京云设智能科技有限公司 基于共现分析和谱聚类的医疗数据信息检索方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104750819A (zh) * 2015-03-31 2015-07-01 大连理工大学 一种基于词分组排序算法的生物医学文献检索方法及系统
CN108334573A (zh) * 2018-01-22 2018-07-27 北京工业大学 基于聚类信息的高相关微博检索方法
WO2021179688A1 (zh) * 2020-10-23 2021-09-16 平安科技(深圳)有限公司 医学文献检索方法、装置、电子设备及存储介质
CN113239181A (zh) * 2021-05-14 2021-08-10 廖伟智 基于深度学习的科技文献引文推荐方法
CN114691826A (zh) * 2022-03-10 2022-07-01 南京云设智能科技有限公司 基于共现分析和谱聚类的医疗数据信息检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZICHENG ZHANG: "An imporoved BM25 algorithm for clinical decision support in Precision Medicine based on co-word analysis and Cuckoo Search", 《BMC MEDICAL INFORMATICS AND DECISION MAKING, pages 1 - 15 *

Also Published As

Publication number Publication date
CN115659047B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN110059311B (zh) 一种面向司法文本数据的关键词提取方法及系统
CN107993724B (zh) 一种医学智能问答数据处理的方法及装置
Zesch et al. Approximate matching for evaluating keyphrase extraction
CN109960756B (zh) 新闻事件信息归纳方法
El-Shishtawy et al. Arabic keyphrase extraction using linguistic knowledge and machine learning techniques
Lin et al. A simple but effective method for Indonesian automatic text summarisation
Schulze et al. Entity-supported summarization of biomedical abstracts
CN110674296A (zh) 一种基于关键词的资讯摘要提取方法及系统
Xu et al. Learning to refine expansion terms for biomedical information retrieval using semantic resources
Savoy Elena Ferrante Unmasked
Aljohani et al. An in-text citation classification predictive model for a scholarly search system
Zhou et al. Team Cat-Garfield at TREC 2018 Precision Medicine Track.
Chen et al. Knowledge abstraction matching for medical question answering
Mutlu et al. Enhanced sentence representation for extractive text summarization: Investigating the syntactic and semantic features and their contribution to sentence scoring
Xu et al. Two-stage supervised ranking for emotion cause extraction
Tohabar et al. Bengali fake news detection using machine learning and effectiveness of sentiment as a feature
Rakhsha et al. Detecting adverse drug reactions from social media based on multichannel convolutional neural networks modified by support vector machine
Gao et al. Chinese micro-blog sentiment analysis based on semantic features and PAD model
Belbachir et al. Using language models to improve opinion detection
Ramani et al. An Explorative Study on Extractive Text Summarization through k-means, LSA, and TextRank
CN115659047B (zh) 基于混合算法的医疗文献检索方法
Yang et al. Automatic summarization of mouse gene information by clustering and sentence extraction from MEDLINE abstracts
Canbay et al. Binary background model with geometric mean for author-independent authorship verification
Lad Keyword Extraction from Conversation Text Document and Recommending Document using Fuzzy Logic Based Weight Matrix Method.
CN111241846A (zh) 一种主题挖掘模型中主题维度自适应确定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant