CN115659047A

CN115659047A - 基于混合算法的医疗文献检索方法

Info

Publication number: CN115659047A
Application number: CN202211410896.1A
Authority: CN
Inventors: 张子成; 曹伟
Original assignee: Nanjing Huiningjie Information Technology Co ltd
Current assignee: Nanjing Huiningjie Information Technology Co ltd
Priority date: 2022-11-11
Filing date: 2022-11-11
Publication date: 2023-01-31
Anticipated expiration: 2042-11-11
Also published as: CN115659047B

Abstract

本发明公开了一种基于混合算法的医疗文献检索方法，对查询词进行扩展，采用改进的BM25算法作为一次检索的基础算法，根据标准化得分降序排序得出检索文献；对一次检索得到的文献进行基于聚类的摘要提取，采用基于Biobert模型的摘要、标题与检索任务的相似度匹配方法计算摘要相似度得分与标题相似度得分；将一次检索得到的文献的得分标准化，使其与标题相似度得分与摘要相似度得分处于同一等级，将三种得分相加并降序排序输出最后的检索结果。本发明所述的基于混合算法的医疗文献检索方法，在检索的两大指标P@10、R‑Prec上均有提高；通过实验与现有算法对比，验证本发明所提出的算法的有效性，其综合性能优于现有算法。

Description

基于混合算法的医疗文献检索方法

技术领域

本发明涉及医疗数据信息检索领域，尤其涉及一种基于混合算法的医疗文献检索方法。

背景技术

精准医疗是将现代科学技术手段与传统医学方法相结合，科学地细化人体功能和疾病性质，系统优化人类疾病预防和保健的原则和做法，以有效、安全、经济的医疗服务实现个人和社会健康效益最大化的一种新的医学范式。在精准医疗中，为每个患者选择适当的诊断方法，以实现最小的医源性损害，最小的医疗成本和患者最佳的康复。随着医疗技术的进步，生物医学文章的数量呈指数级增长。在海量文章数据库中找到与患者症状相匹配的相关文章变得越来越困难。

因此，本发明提供一种基于混合算法的医疗文献检索方法。

发明内容

为解决现有技术中存在的不足，本发明的目的在于，提供一种基于混合算法的医疗文献检索方法。

为实现本发明的目的，本发明所采用的技术方案是：

一种基于混合算法的医疗文献检索方法，包括以下步骤：

(1)对查询词进行扩展，采用改进的BM25算法作为一次检索的基础算法，根据标准化得分降序排序得出检索文献；

(2)对一次检索得到的文献进行基于聚类的摘要提取，采用基于Biobert模型的摘要、标题与检索任务的相似度匹配方法计算摘要相似度得分与标题相似度得分；

(3)将一次检索得到的文献的得分标准化，使其与标题相似度得分与摘要相似度得分处于同一等级，将三种得分相加并降序排序输出最后的检索结果排序列表。

进一步地，步骤(1)中，将病人信息输入到医学数据库中获取查询扩展信息，将病人信息与查询扩展信息输入到改进的BM25算法之中得出摘要得分、词得分和共现得分，将三种得分进行标准化相加并按分值降序排序得出检索文献；病人信息包含疾病、基本信息、基因和其他。

进一步地，步骤(1)中，改进的BM25算法为：

(1.1)定义摘要得分：

其中，IDF为检索语素q_i的IDF分数，k1、b1为调整因子，fi为qi的频率在d中，qfi是qi在query中出现的频率，dl是文档d的文本长度，avgdl是所有文档的平均文本长度；

(1.2)提出一个词列表wordlist用于合并一个检索文档的chemical words,MeSHheadings,keywords，并对其得分定义如下：

其中，tfw为每个检索语素的IDF值之和，k1、b1为调整因子，dwl是文档d的wordlist的单词数量，avgdwl是所有文档的wordlist平均单词数量；

(1.3)定义共现得分，即检索语素中的疾病与基因，在摘要和wordlist中共同出现的话，记作共现得分：

其中，IDF_word(g_i,d)表示基因g_i为查询Q中的基因；

(1.4)将三种得分进行标准化相加，标准化的方法采用max-min方法公式如：

其中，x_norm表示标准化后的值，x表示标准化前的值，min(X)表示待标准化数列的最小值，max(X)表示待标准化数列的最大值。

进一步地，步骤(2)中，基于聚类的摘要提取的具体流程为，采用biobert预训练模型将摘要中的每一句话生成句向量，得到句子级别的向量表示；使用k-mean聚类算法对句子进行聚类，得到N个类别；从每个类别中选取距离中心最近的句子，直到整体长度到达512个单词为止，形成新的摘要文本。

进一步地，步骤(2)中，采用Biobert模型的相似度计算过程为，将输入送入BERT前，在首部加入[CLS]，在摘要/标题之间加入[SEP]作为分隔；然后得到BERT的输出句子对的词向量层，取[CLS]完成相似度计算任务；设取到的[CLS]对应的词向量层为c，计算P＝sigmoid(cW')获取摘要/标题与查询任务之间的相似度，使用[0,1]输出logit[CLS]令牌T[CLS]作为输入文档和查询任务的匹配分数。

进一步地，步骤(2)中，将检索任务分为相同基因不同疾病和疾病相同基因不同；将疾病、基本信息、基因提取放在摘要抽取后的头部，并对疾病相同基因不同或者基因相同疾病不同的内容进行负样本生成。

本发明的有益效果在于，与现有技术相比，本发明对一次检索得到的文献再进行基于聚类的摘要提取，采用基于Biobert模型的摘要、标题与检索任务的相似度匹配方法计算摘要相似度得分与标题相似度得分；本发明所述的基于混合算法的医疗文献检索方法，在检索的两大指标P@10、R-Prec上均有提高。通过实验与现有算法对比，验证本发明所提出的算法的有效性，其综合性能优于现有算法。

附图说明

图1是本发明所述的基于混合算法的医疗文献检索方法示意图；

图2是bert模型示意图。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本申请的保护范围。

如图1所示，本发明所述的基于混合算法的医疗文献检索方法，具体包括以下步骤：

(1)对查询词进行扩展，采用改进的BM25算法作为一次检索的基础算法，根据标准化得分得到top1000的医学文章；

将病人信息和医学文章信息输入系统，病人信息包含疾病diease、基本信息demographic、基因gene和其他等，医学文章信息包含标题title、摘要abstract、医学主题词MeSH headings、化学词列表chemical list和关键词列表keyword list等；并对将病人信息输入到医学数据库MeSH lbrary中获取查询扩展信息，将病人信息与查询扩展信息输入到改进的BM25算法之中得出摘要得分、词word得分和共现得分，进行标准化处理并按分值降序排序得出top1000的医学文章。

改进的BM25算法：

(1.1)首先定义摘要得分：

其中，IDF为检索语素q_i的IDF分数，其中，k1、b1为调整因子，通常根据经验设定，fi为qi的频率在d中，qfi是qi在query中出现的频率，dl是文档d的文本长度，avgdl是所有文档的平均文本长度。

(1.2)提出了一个词列表wordlist用于合并一个检索文档的chemical words,MeSH headings,keywords，并对其得分定义如下：

其中，tfw为每个检索语素的IDF值之和，k1、b1为调整因子，通常根据经验设定，dwl是文档d的wordlist的单词数量，avgdwl是所有文档的wordlist平均单词数量。

(1.3)定义共现得分，即检索语素中的疾病与基因(包括扩展词)，在摘要和wordlist中共同出现的话，记作共现得分：

其中，IDF_word(g_i,d)表示基因g_i为查询Q中的基因，因为有些任务包含多种基因。

(1.4)为了与本发明的相似度方法的得分处于同一水平线上，我们将三种得分进行标准化相加，标准化的方法采用max-min方法公式如：

其中，x_norm表示标准化后的值，x表示标准化前的值，min(X)表示待标准化数列的最小值，max(X)表示待标准化数列的最大值。算法中我们还增加了查询扩展对Mesh进行了扩展。

改进的bm25算法缩放因子用普遍的常规参数，如表1所示。

表1

(2)对一次检索得到的top1000文献进行基于聚类的摘要提取，采用基于Biobert模型的摘要、标题与检索任务的相似度匹配方法计算摘要相似度得分与标题相似度得分；

因为Biobert模型对文本的限制为512个单词，因此对于摘要需要做进一步精简，需要对关键内容进行提取。本发明采用抽取式的摘要生成方法，最大程度的保留原始摘要的写作风格和含义。

本发明采用基于聚类的摘要提取方法，具体流程如下：采用biobert预训练模型将摘要中的每一句话生成句向量，得到句子级别的向量表示，为一个1×768维的向量。使用k-mean聚类算法对句子进行聚类，得到N个类别。从每个类别中选取距离中心最近的句子，直到整体长度到达512个单词为止，形成新的摘要文本。

文档与检索任务的相似性匹配，是信息检索过程中的重要步骤，本发明采用bert模型中的Sentence Pair Classification Task的相似度计算，来对摘要、标题和查询任务进行建模训练，模型结构如图2所示。

将输入送入BERT前，在首部加入[CLS]，在摘要/标题之间加入[SEP]作为分隔；然后得到BERT的输出(句子对的词向量层)，取[CLS]即可完成相似度计算任务；设取到的[CLS]对应的词向量层为c，计算P＝sigmoid(cW')获取摘要/标题与查询任务之间的相似度，因为训练语料是标注相关与不相关的，所以使用[0,1]输出logit[CLS]令牌T[CLS]作为输入文档和查询任务的匹配分数。

在训练样本生成期间，我们通过分析检索任务的基因与疾病对训练效果的影响，采取了训练样本优化策略，并通过实验证明了这种策略的有效性。

将检索任务分为2种：相同基因不同疾病和疾病相同基因不同。为了排除检索任务与文档匹配的干扰，我们将disease、gene和demographic提取放在摘要抽取后的头部，并对疾病相同基因不同或者基因相同疾病不同的内容进行负样本生成。

文档相似性匹配算法，我们分别为摘要和标题与查询任务做了相似度匹配，因为摘要与标题长度相差比较明显，所以我们采用了不同的参数进行训练，匹配度算法的训练参数设置如表2所示。

表2

(3)将改进的BM25得分标准化，使其与标题相似度得分与摘要相似度得分处于同一等级后将三种得分相加并降序排序输出最后的结果排序列表。

其中，x_norm表示归一化后的值，x表示归一化前的值，min(X)表示待标准化序列的最小值，max(X)表示待标准化序列的最大值。

通过实验与现有算法对比，验证本发明所提出的算法的有效性，其综合性能优于现有算法。

如表3所示，从2017-2019的评价结果中，对于文献的初筛选，对于人类精准医疗是个筛选要素，疾病基因等共同出现也是判断相关性的重要因素，因此对于BM25算法中，我们采用了共现的方法，提高疾病与基因，基因与基因之间的共现得分，提高了潜在相关文献的得分，我们在计算检索要素时也将人类作为基础检索的检索要素之一，用于区分人类与动物实验。

如表4所示，为2017-2019年PM检索任务，从检索中我们不难看出disease和gene为固定表达，年龄和性别在检索时需要做分类处理，我们对其分类标准如表5所示，我们算法采用正则表达式从摘要中提取年纪，比如years-old/year old/years old都进行提取形成对应的类别，提取将摘要中的女人，男人，女孩，男孩等表达性别的词汇提取形成对应的类别，如果摘要中不包含基本信息，我们会从医学主题词中寻找匹配项进行提取。

表3

表4

表5

通过对2017-2019年的数据分析，我们可以将检索任务分为2种：相同基因不同疾病和疾病相同基因不同。相同基因不同疾病如表6所示，相同疾病不同基因的如表7所示。为了排除检索任务与文档匹配的干扰，我们将疾病、基因和基本信息提取放在摘要抽取后的头部，并对疾病相同基因不同或者基因相同疾病不同的内容进行负样本生成如表8所示。

表6

表7

主题	疾病	基因
			2018-1	黑色素瘤	BRAF(V600E)
2018-2	黑色素瘤	BRAF(V600K)
			2018-3	黑色素瘤	BRAF(V600R)

表8

数据来源主要分为baseline数据集和评价数据集，baseline采用的是trec组委会提供的pubmed文献元数据的下载，具体数据如表9所示，本发明使用的元数据包含PMID，文章标题，文章摘要，化学词，Mesh词和关键词。在2017-2019年的TREC-PM任务中，总共有120个患者病例和63387个qrels(文档相关性判断)如表10所示。

表9

Name	Value
		摘要数量	29,137,637
标题数量	29,137,637
		化学词数量	13,670,358
医学主体词数量	25,389,659
		关键词数量	5,435,471

表10

Year	Queries	Documents(rel./irrel.)
			2017	30	3,875/18,767
2018	50	5,588/16,841
			2019	40	5,544/12,772

采用评价数据集训练，取80％的数据作为训练集，20％的数据作为验证集，我们采用biobert作为预训练模型生成词向量，实验结果如表11所示。从结果上我们可以看出，本发明方法在训练集的召回率、F1得分，验证集的准确率、召回率和F1得分均要优于现有算法，这是因为我们采用了负样本生成的方法，降低了相似样本之间的干扰。

表11

Dataset	P	R	F1
				训练集(bert)	0.9814	0.9384	0.9594
验证集(bert)	0.9266	0.9147	0.9206
				训练集(biobert)	0.9636	0.9656	0.9641
验证集(biobert)	0.9519	0.9552	0.9530

为了进一步验证本发明算法的有效性，我们选择qrels中80％数据作为训练，20％数据作为验证，使用检索出来的top 500提交评价，实验对比结果如表12所示。

表12

从实验结果可以看出，现有算法采用的baseline检索算法为Solr eDisMax算法，其一次检索的P@10和R-Prec较低，为0.52和0.2307，采用二次排序算法过后，其P@10和R-Prec提高较为明显，采用Baseline+REL达到了0.6750和0.3912，Baseline+REL+ABS达到了0.6985和0.3627。

而本发明算法的baseline检索算法一次检索的P@10和R-Prec就达到了0.5775和0.4225，Baseline+Abstract达到了0.6725和0.4636，Baseline+Abstract+title达到了0.6725和0.4716，可以看出本发明算法的P@10略低于现有算法，而R-Prec远高于现有算法。

其中，P@10，是相关文档在前10个结果中的比例。R-prec，给定R个相关文档的查询，R-prec定义为第R个文档的精确度。

本发明算法并没有进行任何的人工干预和针对指标的特别优化，采用的都为常规参数，因此本文算法具有更强的普适性。从表12中可以看出对P@10的优化会对R-Prec产生一定的下降，因此我们为了综合评价算法质量，参考了F1得分的计算方式，我们新增一个评价指标为P@10*R-Prec，本发明的最优P@10*R-Prec为0.3172，而现有技术的则为0.2533，因此本发明的算法在普适性和综合性能方面具有优势。

本发明申请人结合说明书附图对本发明的实施示例做了详细的说明与描述，但是本领域技术人员应该理解，以上实施示例仅为本发明的优选实施方案，详尽的说明只是为了帮助读者更好地理解本发明精神，而并非对本发明保护范围的限制，相反，任何基于本发明的发明精神所作的任何改进或修饰都应当落在本发明的保护范围之内。

Claims

1.一种基于混合算法的医疗文献检索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于混合算法的医疗文献检索方法，其特征在于，步骤(1)中，将病人信息输入到医学数据库中获取查询扩展信息，将病人信息与查询扩展信息输入到改进的BM25算法之中得出摘要得分、词得分和共现得分，将三种得分进行标准化相加并按分值降序排序得出检索文献；病人信息包含疾病、基本信息、基因和其他。

3.根据权利要求1所述的基于混合算法的医疗文献检索方法，其特征在于，步骤(1)中，改进的BM25算法为：

(1.1)定义摘要得分：

其中，IDF_word(g_i,d)表示基因g_i为查询Q中的基因；

4.根据权利要求1所述的基于混合算法的医疗文献检索方法，其特征在于，步骤(2)中，基于聚类的摘要提取的具体流程为，采用biobert预训练模型将摘要中的每一句话生成句向量，得到句子级别的向量表示；使用k-mean聚类算法对句子进行聚类，得到N个类别；从每个类别中选取距离中心最近的句子，直到整体长度到达512个单词为止，形成新的摘要文本。

5.根据权利要求1所述的基于混合算法的医疗文献检索方法，其特征在于，步骤(2)中，采用Biobert模型的相似度计算过程为，将输入送入BERT前，在首部加入[CLS]，在摘要/标题之间加入[SEP]作为分隔；然后得到BERT的输出句子对的词向量层，取[CLS]完成相似度计算任务；设取到的[CLS]对应的词向量层为c，计算P＝sigmoid(cW')获取摘要/标题与查询任务之间的相似度，使用[0,1]输出logit[CLS]令牌T[CLS]作为输入文档和查询任务的匹配分数。

6.根据权利要求1所述的基于混合算法的医疗文献检索方法，其特征在于，步骤(2)中，将检索任务分为相同基因不同疾病和疾病相同基因不同；将疾病、基本信息、基因提取放在摘要抽取后的头部，并对疾病相同基因不同或者基因相同疾病不同的内容进行负样本生成。