CN108733745B

CN108733745B - 一种基于医学知识的查询扩展方法

Info

Publication number: CN108733745B
Application number: CN201810290217.9A
Authority: CN
Inventors: 胡琴敏; 陈素; 贺赟
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2018-03-30
Filing date: 2018-03-30
Publication date: 2021-10-15
Anticipated expiration: 2038-03-30
Also published as: CN108733745A

Abstract

本发明公开了一种基于医学知识的查询扩展方法，包括步骤：1）结合BM25，PL2，LM和TF‑IDF检索模型的检索结果，得到每个查询对应的前1000个相关文档；2）将查询的数目*1000的文档词向量化并求得每个查询和对应的前5个相关文档中每个句子的相似度，进行筛选；3）利用mesh词表映射得到剩下句子中的医学词；4）采用meshRank+DRF方法来计算每个候选词作为扩展词的概率；5）选择前k%的词作为查询的扩展词。本发明能够减少检索过程中术语不匹配的问题，从而提高检索的召回率和准确率。在挑选扩展词的过程中，通过句子相似度筛选出与查询相似的句子，再通过meshRank的方法以及DFR模型筛选出扩展词，从而减少错误的扩展词带来的噪音，因为错误的扩展词会降低检索的准确率。

Description

一种基于医学知识的查询扩展方法

技术领域

本发明涉及查询扩展，具体来说，涉及一种基于医学知识的查询扩展方法。

背景技术

传统的IR系统是根据给定查询中的关键词的统计信息来计算文章与查询的有关性。这些文章按其有关性排列，并将排名中的前几位作为答案返回。

术语不匹配是IR中的一个开放性研究问题，主要原因是自然语言的固有含糊性，例如同义词(具有相同含义的不同词)和多义词(具有不同含义的相同词)。作为提高IR系统性能的有效方法之一，查询扩展是用更多的术语来扩展原始查询，这些术语能够更好的捕获和表达用户的信息需求。其中一个优点是可以通过扩展条件检索到更多的有关文档，通常扩展词为原始词汇的同义词，这种方式能增加召回率。在某些情况下，查询扩展还可以通过扩展术语和更多的上下文信息来提高精度。

在TREC CDS的任务中，我们旨在找到满足临床任务的专业文章，因此我们提出了一个基于医学知识的查询扩展方法来支持医疗IR中的临床决策。

发明内容

本发明的目的是在TREC CDS的任务中，旨在找到满足临床任务的专业文章而提出的一种基于医学知识的查询扩展方法，以此来支持医疗IR中的临床决策，以克服目前现有技术的不足。

实现本发明目的的具体技术方案是：

一种基于医学知识的查询扩展方法，该方法包括以下具体步骤：

步骤1：使用Terrier平台对查询进行检索，检索模型包括BM25，PL2，LM和TF-IDF，每个模型都会返回与查询有关的前1000个有关文档和对应的检索得分，然后将四个检索模型得到的检索结果整合(整合格式为文档ID，BM25值，PL2值，LM值，TF-IDF值)，接着将所有BM25的值，PL2的值，LM的值和TF-IDF的值分别归一化，并对每一个文档，将这个四个值求和作为文档最后的得分，最后将结果进行排序，按文档最后的得分从高到低进行排序，并选择前1000个文档作为查询的有关文档；

步骤2：利用fasttext工具将查询的数目*1000的文档词向量化，将句子中每个词向量的对应维数求和平均，最后得到向量即为句子的向量表示，再利用cos求每个查询和对应的前5个有关文档中每个句子的相似度，然后选择前p％的句子作为查询的相似句；

步骤3：利用mesh词表映射得到剩下句子中的医学词；

步骤4：根据如果扩展候选词C_i最终选择为候选词，C_j和C_i有很高的相似度，那么C_j就应该有很大的概率作为扩展词这样的想法，便提出了meshRank+DRF的方法来计算每个候选词作为扩展词的概率；

步骤5：选择前k％的词作为查询的扩展词。

本发明的有益效果为：通过基于医学知识的查询扩展的方法，能够减少检索过程中术语不匹配的问题，从而提高检索的召回率和准确率。在挑选扩展词的过程中，通过句子相似度筛选出与查询相似的句子，再通过meshRank的方法以及DFR模型筛选出扩展词，从而减少错误的扩展词带来的噪音，因为错误的扩展词会降低检索的准确率。

附图说明

图1为本发明流程图。

具体实施方式

下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，基于本发明中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明的一种基于医学知识的查询扩展方法，包括以下步骤：

步骤1：使用Terrier平台对查询进行检索，检索模型包括BM25，PL2，LM和TF-IDF，每个模型都会返回与查询有关的前1000个有关文档和对应的检索得分，然后将四个检索模型得到的检索结果整合(整合格式为文档ID，BM25值，PL2值，LM值，TF-IDF值)，接着将所有BM25的值，PL2的值，LM的值和TF-IDF的值分别归一化，并对每一个文档，将这个四个值求和作为文档最后的得分，最后将结果进行排序，按文档最后的得分从高到低进行排序，并选择前1000个文档作为查询的有关文档。

步骤3：利用mesh词表映射得到剩下句子中的医学词；

步骤4：根据如果扩展候选词C_i最终选择为候选词，C_j和C_i有很高的相似度，那么C_j就应该有很大的概率作为扩展词这样的想法，便提出了meshRank+DRF的方法来计算每个候选词作为扩展词的概率。；

步骤5：选择前k％的词作为查询的扩展词。

实施例

具体应用时，对于给定的数据集和查询。本实实施例所示的一种基于医学知识的查询扩展方法，包括以下步骤：

1.查询样例：78M w/pmh of CABG in early[**Month(only)3**]at[**Hospital64406**]

(transferred to nursing home for rehab on[**12-8**]after severalfalls out of bed.)He was then readmitted to[**Hospital6 1749**]on[**3120-12-11**]after developing acute pulmonary edema/CHF/unresponsiveness？.There was aquestion whether he had a small MI；he reportedly had a small NQWMI.Heimproved with diuresis and was not intubated..Yesterday,he was noted to havea melanotic stool earlier this evening and then approximately 9loose BM w/some melena and some frank blood just prior to transfer,unclear quantity。

检索数据集：TREC2016数据集

首先利用Terrier平台对TREC数据集建索引，然后再使用Terrier平台对查询进行检索，检索模型包括BM25，PL2，LM和TF-IDF，每个模型都会返回与查询有关的前1000个有关文档和对应的检索得分，然后将四个检索模型得到的检索结果整合(整合格式为文档ID，BM25值，PL2值，LM值，TF-IDF值)，接着将所有BM25的值，PL2的值，LM的值和TF-IDF的值分别归一化，并对每一个文档，将这个四个值求和作为文档最后的得分，最后将结果进行排序，按文档最后的得分从高到低进行排序，并选择前1000个文档作为查询的有关文档。

2.利用fasttext对得到的所有有关文档进行词向量化。同时对每个查询的前5个有关文档按照“.”进行分割，根据词向量化的结果计算每个查询前5个文档中的每个句子和查询的相似度。按照相似度的从高到低排序，选择前p％的句子(认为这些句子与查询有关)。3.对选择的句子进行mesh词表映射，得到的便是每次查询对应的扩展词候选集。

4.如果扩展候选词C_i最终选择为候选词，C_j和C_i有很高的相似度，那么C_j就应该有很大的概率作为扩展词。meshRank算法的定义如下：

对于语义关系，将知识树中两个词之间的语义有关度定义为下式；语义有关度越大，

两个词之间的语义关系越强。

其中SemRel(c_i,c_j)是c_i和c_j之间的语义有关度，distance(c_i,c_j)是知识树中c_i和c_j的距

离，距离的计算公式如下式所示：

distance(n₁,n₂)＝depth(n₁)+depth(n₂)-2*depth(CommonNode(n₁,n₂))

其中depth(n₁)表示为树节点的深度，CommonNode(n₁,n₂)表示两个节点之间的共同边数。

由上述计算，得出meshRank的矩阵：

然后通过下面的式子迭代计算出M，最后得到的M向量就是每个候选词的meshRank值：

M^k+1＝A·M^k(k＝0,1,2,3...)

同时，本发明还考虑了候选词的统计信息，DFR模型选择更具信息的词汇。利用

Bose-Einstein统计计算候选词的随机性，计算公式如下：

根据Stirling’s formula来近似这些因子，可以得到统计信息的得分为：

所以对每个候选词作为扩展词的得分为：

其中N代表文档的数目，F_i代表医学词c_i在数据集中出现的次数，tf_ik代表医学词c_i在文

档K中出现的次数。

5.将候选词按照得分从高到低排序，选择前k％作为查询的扩展词。

本发明利用了外部知识提高了检索的表现，不仅利用meshRnak和DFR模型选择扩展词，同时也利用词向量计算文档句子和查询相似度的方法，减少噪音，降低错误扩展词对检索性能的影响。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于医学知识的查询扩展方法，其特征在于，该方法包括以下具体步骤：

步骤1：使用Terrier平台对查询进行检索，检索模型为BM25、PL2、LM和TF-IDF，每个查询模型会返回与查询有关的前1000个文档和对应的检索得分，将四个检索模型得到的检索结果整合，整合格式为文档ID，BM25值，PL2值，LM值，TF-IDF值，接着将所有BM25的值，PL2的值，LM的值和TF-IDF的值分别归一化，并对每一个文档ID，将这个四个值求和作为文档最后的得分，按文档最后的得分从高到低进行排序，并选择前1000个文档作为查询的有关文档；

步骤2：利用fasttext工具将查询的数目*1000的文档词向量化，将句子中每个词向量的对应维数求和平均，得到向量即为句子的向量表示，再利用cos求每个查询和对应的前5个有关文档中每个句子的相似度，然后选择前p％的句子作为查询的相似句；

步骤3：利用mesh词表映射得到剩下句子中的医学词；

步骤4：根据若扩展候选词C_i最终选择为候选词，C_j和C_i有很高的相似度，那么C_j就应该有很大的概率作为扩展词的定义，采用meshRank+DFR方法来计算每个候选词作为扩展词的概率；

步骤5：选择前k％的词作为查询的扩展词；其中：

步骤4所述meshRank+DFR方法来计算每个候选词作为扩展词的概率，具体为：

meshRank算法：

对于语义关系，将知识树中两个词之间的语义有关度定义为下式；语义有关度越大，两个词之间的语义关系越强；

其中SemRel(c_i,c_j)是C_i和C_j之间的语义有关度，distance(c_i,c_j)是知识树中C_i和C_j的距离，距离的计算公式如下式所示：

distance(n₁,n₂)＝depth(n₁)+depth(n₂)-2*depth(CommonNode(n₁,n₂))

其中depth(n₁)表示为树节点的深度，CommonNode(n₁,n₂)表示两个节点之间的共同边数；

由上述计算，得出meshRank的矩阵：

通过下式迭代计算出M，最后得到的M向量就是每个候选词的meshRank值：

M^k+1＝A·M^k(k＝0,1,2,3...)

其中k代表当前迭代的次数；

根据DFR模型选择更具信息的词汇；利用Bose-Einstein统计计算候选词的随机性，计算公式如下：

根据Stirling’s formula来近似这些因子，得到统计信息的得分为：

StatisticInf(tf_ik)＝-log₂(N-1)-log₂(e)+f(N+F_i-1,N+F_i-tf_ik-2)-f(F_i,F_i-tf_ik)

所以对每个候选词作为扩展词的得分为：

其中N代表文档的数目，F_i代表医学词c_i在数据集中出现的次数，tf_ik代表医学词c_i在文档K中出现的次数。