CN108733745B - 一种基于医学知识的查询扩展方法 - Google Patents

一种基于医学知识的查询扩展方法 Download PDF

Info

Publication number
CN108733745B
CN108733745B CN201810290217.9A CN201810290217A CN108733745B CN 108733745 B CN108733745 B CN 108733745B CN 201810290217 A CN201810290217 A CN 201810290217A CN 108733745 B CN108733745 B CN 108733745B
Authority
CN
China
Prior art keywords
words
query
expansion
word
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810290217.9A
Other languages
English (en)
Other versions
CN108733745A (zh
Inventor
胡琴敏
陈素
贺赟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201810290217.9A priority Critical patent/CN108733745B/zh
Publication of CN108733745A publication Critical patent/CN108733745A/zh
Application granted granted Critical
Publication of CN108733745B publication Critical patent/CN108733745B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于医学知识的查询扩展方法,包括步骤:1)结合BM25,PL2,LM和TF‑IDF检索模型的检索结果,得到每个查询对应的前1000个相关文档;2)将查询的数目*1000的文档词向量化并求得每个查询和对应的前5个相关文档中每个句子的相似度,进行筛选;3)利用mesh词表映射得到剩下句子中的医学词;4)采用meshRank+DRF方法来计算每个候选词作为扩展词的概率;5)选择前k%的词作为查询的扩展词。本发明能够减少检索过程中术语不匹配的问题,从而提高检索的召回率和准确率。在挑选扩展词的过程中,通过句子相似度筛选出与查询相似的句子,再通过meshRank的方法以及DFR模型筛选出扩展词,从而减少错误的扩展词带来的噪音,因为错误的扩展词会降低检索的准确率。

Description

一种基于医学知识的查询扩展方法
技术领域
本发明涉及查询扩展,具体来说,涉及一种基于医学知识的查询扩展方法。
背景技术
传统的IR系统是根据给定查询中的关键词的统计信息来计算文章与查询的有关性。这些文章按其有关性排列,并将排名中的前几位作为答案返回。
术语不匹配是IR中的一个开放性研究问题,主要原因是自然语言的固有含糊性,例如同义词(具有相同含义的不同词)和多义词(具有不同含义的相同词)。作为提高IR系统性能的有效方法之一,查询扩展是用更多的术语来扩展原始查询,这些术语能够更好的捕获和表达用户的信息需求。其中一个优点是可以通过扩展条件检索到更多的有关文档,通常扩展词为原始词汇的同义词,这种方式能增加召回率。在某些情况下,查询扩展还可以通过扩展术语和更多的上下文信息来提高精度。
在TREC CDS的任务中,我们旨在找到满足临床任务的专业文章,因此我们提出了一个基于医学知识的查询扩展方法来支持医疗IR中的临床决策。
发明内容
本发明的目的是在TREC CDS的任务中,旨在找到满足临床任务的专业文章而提出的一种基于医学知识的查询扩展方法,以此来支持医疗IR中的临床决策,以克服目前现有技术的不足。
实现本发明目的的具体技术方案是:
一种基于医学知识的查询扩展方法,该方法包括以下具体步骤:
步骤1:使用Terrier平台对查询进行检索,检索模型包括BM25,PL2,LM和TF-IDF,每个模型都会返回与查询有关的前1000个有关文档和对应的检索得分,然后将四个检索模型得到的检索结果整合(整合格式为文档ID,BM25值,PL2值,LM值,TF-IDF值),接着将所有BM25的值,PL2的值,LM的值和TF-IDF的值分别归一化,并对每一个文档,将这个四个值求和作为文档最后的得分,最后将结果进行排序,按文档最后的得分从高到低进行排序,并选择前1000个文档作为查询的有关文档;
步骤2:利用fasttext工具将查询的数目*1000的文档词向量化,将句子中每个词向量的对应维数求和平均,最后得到向量即为句子的向量表示,再利用cos求每个查询和对应的前5个有关文档中每个句子的相似度,然后选择前p%的句子作为查询的相似句;
步骤3:利用mesh词表映射得到剩下句子中的医学词;
步骤4:根据如果扩展候选词Ci最终选择为候选词,Cj和Ci有很高的相似度,那么Cj就应该有很大的概率作为扩展词这样的想法,便提出了meshRank+DRF的方法来计算每个候选词作为扩展词的概率;
步骤5:选择前k%的词作为查询的扩展词。
本发明的有益效果为:通过基于医学知识的查询扩展的方法,能够减少检索过程中术语不匹配的问题,从而提高检索的召回率和准确率。在挑选扩展词的过程中,通过句子相似度筛选出与查询相似的句子,再通过meshRank的方法以及DFR模型筛选出扩展词,从而减少错误的扩展词带来的噪音,因为错误的扩展词会降低检索的准确率。
附图说明
图1为本发明流程图。
具体实施方式
下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明的一种基于医学知识的查询扩展方法,包括以下步骤:
步骤1:使用Terrier平台对查询进行检索,检索模型包括BM25,PL2,LM和TF-IDF,每个模型都会返回与查询有关的前1000个有关文档和对应的检索得分,然后将四个检索模型得到的检索结果整合(整合格式为文档ID,BM25值,PL2值,LM值,TF-IDF值),接着将所有BM25的值,PL2的值,LM的值和TF-IDF的值分别归一化,并对每一个文档,将这个四个值求和作为文档最后的得分,最后将结果进行排序,按文档最后的得分从高到低进行排序,并选择前1000个文档作为查询的有关文档。
步骤2:利用fasttext工具将查询的数目*1000的文档词向量化,将句子中每个词向量的对应维数求和平均,最后得到向量即为句子的向量表示,再利用cos求每个查询和对应的前5个有关文档中每个句子的相似度,然后选择前p%的句子作为查询的相似句;
步骤3:利用mesh词表映射得到剩下句子中的医学词;
步骤4:根据如果扩展候选词Ci最终选择为候选词,Cj和Ci有很高的相似度,那么Cj就应该有很大的概率作为扩展词这样的想法,便提出了meshRank+DRF的方法来计算每个候选词作为扩展词的概率。;
步骤5:选择前k%的词作为查询的扩展词。
实施例
具体应用时,对于给定的数据集和查询。本实实施例所示的一种基于医学知识的查询扩展方法,包括以下步骤:
1.查询样例:78M w/pmh of CABG in early[**Month(only)3**]at[**Hospital64406**]
(transferred to nursing home for rehab on[**12-8**]after severalfalls out of bed.)He was then readmitted to[**Hospital6 1749**]on[**3120-12-11**]after developing acute pulmonary edema/CHF/unresponsiveness?.There was aquestion whether he had a small MI;he reportedly had a small NQWMI.Heimproved with diuresis and was not intubated..Yesterday,he was noted to havea melanotic stool earlier this evening and then approximately 9loose BM w/some melena and some frank blood just prior to transfer,unclear quantity。
检索数据集:TREC2016数据集
首先利用Terrier平台对TREC数据集建索引,然后再使用Terrier平台对查询进行检索,检索模型包括BM25,PL2,LM和TF-IDF,每个模型都会返回与查询有关的前1000个有关文档和对应的检索得分,然后将四个检索模型得到的检索结果整合(整合格式为文档ID,BM25值,PL2值,LM值,TF-IDF值),接着将所有BM25的值,PL2的值,LM的值和TF-IDF的值分别归一化,并对每一个文档,将这个四个值求和作为文档最后的得分,最后将结果进行排序,按文档最后的得分从高到低进行排序,并选择前1000个文档作为查询的有关文档。
2.利用fasttext对得到的所有有关文档进行词向量化。同时对每个查询的前5个有关文档按照“.”进行分割,根据词向量化的结果计算每个查询前5个文档中的每个句子和查询的相似度。按照相似度的从高到低排序,选择前p%的句子(认为这些句子与查询有关)。3.对选择的句子进行mesh词表映射,得到的便是每次查询对应的扩展词候选集。
4.如果扩展候选词Ci最终选择为候选词,Cj和Ci有很高的相似度,那么Cj就应该有很大的概率作为扩展词。meshRank算法的定义如下:
Figure BDA0001617284820000031
对于语义关系,将知识树中两个词之间的语义有关度定义为下式;语义有关度越大,
两个词之间的语义关系越强。
Figure BDA0001617284820000032
其中SemRel(ci,cj)是ci和cj之间的语义有关度,distance(ci,cj)是知识树中ci和cj的距
离,距离的计算公式如下式所示:
distance(n1,n2)=depth(n1)+depth(n2)-2*depth(CommonNode(n1,n2))
其中depth(n1)表示为树节点的深度,CommonNode(n1,n2)表示两个节点之间的共同边数。
由上述计算,得出meshRank的矩阵:
Figure BDA0001617284820000041
然后通过下面的式子迭代计算出M,最后得到的M向量就是每个候选词的meshRank值:
Mk+1=A·Mk(k=0,1,2,3...)
同时,本发明还考虑了候选词的统计信息,DFR模型选择更具信息的词汇。利用
Bose-Einstein统计计算候选词的随机性,计算公式如下:
Figure BDA0001617284820000042
根据Stirling’s formula来近似这些因子,可以得到统计信息的得分为:
Figure BDA0001617284820000043
所以对每个候选词作为扩展词的得分为:
Figure BDA0001617284820000044
其中N代表文档的数目,Fi代表医学词ci在数据集中出现的次数,tfik代表医学词ci在文
档K中出现的次数。
5.将候选词按照得分从高到低排序,选择前k%作为查询的扩展词。
本发明利用了外部知识提高了检索的表现,不仅利用meshRnak和DFR模型选择扩展词,同时也利用词向量计算文档句子和查询相似度的方法,减少噪音,降低错误扩展词对检索性能的影响。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于医学知识的查询扩展方法,其特征在于,该方法包括以下具体步骤:
步骤1:使用Terrier平台对查询进行检索,检索模型为BM25、PL2、LM和TF-IDF,每个查询模型会返回与查询有关的前1000个文档和对应的检索得分,将四个检索模型得到的检索结果整合,整合格式为文档ID,BM25值,PL2值,LM值,TF-IDF值,接着将所有BM25的值,PL2的值,LM的值和TF-IDF的值分别归一化,并对每一个文档ID,将这个四个值求和作为文档最后的得分,按文档最后的得分从高到低进行排序,并选择前1000个文档作为查询的有关文档;
步骤2:利用fasttext工具将查询的数目*1000的文档词向量化,将句子中每个词向量的对应维数求和平均,得到向量即为句子的向量表示,再利用cos求每个查询和对应的前5个有关文档中每个句子的相似度,然后选择前p%的句子作为查询的相似句;
步骤3:利用mesh词表映射得到剩下句子中的医学词;
步骤4:根据若扩展候选词Ci最终选择为候选词,Cj和Ci有很高的相似度,那么Cj就应该有很大的概率作为扩展词的定义,采用meshRank+DFR方法来计算每个候选词作为扩展词的概率;
步骤5:选择前k%的词作为查询的扩展词;其中:
步骤4所述meshRank+DFR方法来计算每个候选词作为扩展词的概率,具体为:
meshRank算法:
Figure FDA0003167246770000011
对于语义关系,将知识树中两个词之间的语义有关度定义为下式;语义有关度越大,两个词之间的语义关系越强;
Figure FDA0003167246770000012
其中SemRel(ci,cj)是Ci和Cj之间的语义有关度,distance(ci,cj)是知识树中Ci和Cj的距离,距离的计算公式如下式所示:
distance(n1,n2)=depth(n1)+depth(n2)-2*depth(CommonNode(n1,n2))
其中depth(n1)表示为树节点的深度,CommonNode(n1,n2)表示两个节点之间的共同边数;
由上述计算,得出meshRank的矩阵:
Figure FDA0003167246770000013
通过下式迭代计算出M,最后得到的M向量就是每个候选词的meshRank值:
Mk+1=A·Mk(k=0,1,2,3...)
其中k代表当前迭代的次数;
根据DFR模型选择更具信息的词汇;利用Bose-Einstein统计计算候选词的随机性,计算公式如下:
Figure FDA0003167246770000021
根据Stirling’s formula来近似这些因子,得到统计信息的得分为:
StatisticInf(tfik)=-log2(N-1)-log2(e)+f(N+Fi-1,N+Fi-tfik-2)-f(Fi,Fi-tfik)
Figure FDA0003167246770000022
所以对每个候选词作为扩展词的得分为:
Figure FDA0003167246770000023
其中N代表文档的数目,Fi代表医学词ci在数据集中出现的次数,tfik代表医学词ci在文档K中出现的次数。
CN201810290217.9A 2018-03-30 2018-03-30 一种基于医学知识的查询扩展方法 Active CN108733745B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810290217.9A CN108733745B (zh) 2018-03-30 2018-03-30 一种基于医学知识的查询扩展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810290217.9A CN108733745B (zh) 2018-03-30 2018-03-30 一种基于医学知识的查询扩展方法

Publications (2)

Publication Number Publication Date
CN108733745A CN108733745A (zh) 2018-11-02
CN108733745B true CN108733745B (zh) 2021-10-15

Family

ID=63940612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810290217.9A Active CN108733745B (zh) 2018-03-30 2018-03-30 一种基于医学知识的查询扩展方法

Country Status (1)

Country Link
CN (1) CN108733745B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815312B (zh) * 2018-12-27 2021-11-19 达闼科技(北京)有限公司 一种文档查询的方法、装置、计算设备及计算机存储介质
CN111611372A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 搜索结果的排序方法及装置、音乐搜索方法及装置
CN110287288B (zh) * 2019-06-18 2022-02-18 北京百度网讯科技有限公司 推荐文档的方法和装置
CN112307190B (zh) * 2020-10-31 2023-07-25 平安科技(深圳)有限公司 医学文献排序方法、装置、电子设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876979A (zh) * 2009-04-28 2010-11-03 株式会社理光 查询扩展方法及查询扩展设备
CN103150382A (zh) * 2013-03-14 2013-06-12 中国科学院计算技术研究所 基于开放知识库的短文本语义概念自动化扩展方法及系统
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法
CN107066589A (zh) * 2017-04-17 2017-08-18 河南工业大学 一种基于综合知识的实体语义和词频的排序方法及装置
CN107247745A (zh) * 2017-05-23 2017-10-13 华中师范大学 一种基于伪相关反馈模型的信息检索方法及系统
CN107291914A (zh) * 2017-06-27 2017-10-24 达而观信息科技(上海)有限公司 一种生成搜索引擎查询扩展词的方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG11201702935SA (en) * 2014-10-13 2017-05-30 Kim Seng Kee Emulating manual system of filing using electronic document and electronic file
US10740374B2 (en) * 2016-06-30 2020-08-11 International Business Machines Corporation Log-aided automatic query expansion based on model mapping

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876979A (zh) * 2009-04-28 2010-11-03 株式会社理光 查询扩展方法及查询扩展设备
CN103150382A (zh) * 2013-03-14 2013-06-12 中国科学院计算技术研究所 基于开放知识库的短文本语义概念自动化扩展方法及系统
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法
CN107066589A (zh) * 2017-04-17 2017-08-18 河南工业大学 一种基于综合知识的实体语义和词频的排序方法及装置
CN107247745A (zh) * 2017-05-23 2017-10-13 华中师范大学 一种基于伪相关反馈模型的信息检索方法及系统
CN107291914A (zh) * 2017-06-27 2017-10-24 达而观信息科技(上海)有限公司 一种生成搜索引擎查询扩展词的方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Cluster-Based Approach for Semantic Similarity in the Biomedical Domain;Hisham Al-Mubaid等;《2006 International Conference of the IEEE Engineering in Medicine and Biology Society》;20060903;第2713-2717页 *
基于上下文的查询扩展;李卫疆等;《计算机研究与发展》;20100215(第02期);第300-304页 *
电子病历检索中基于词权调整的查询重构;王文斌等;《计算机应用与软件》;20160415(第04期);第80-83、133页 *

Also Published As

Publication number Publication date
CN108733745A (zh) 2018-11-02

Similar Documents

Publication Publication Date Title
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
Xiong et al. Query expansion with freebase
CN108733745B (zh) 一种基于医学知识的查询扩展方法
US9317569B2 (en) Displaying search results with edges/entity relationships in regions/quadrants on a display device
Sharma et al. Stemming algorithms: a comparative study and their analysis
CN108846050B (zh) 基于多模型融合的核心工艺知识智能推送方法及系统
US20160078047A1 (en) Method for obtaining search suggestions from fuzzy score matching and population frequencies
CN111832289B (zh) 一种基于聚类和高斯lda的服务发现方法
WO2016025412A1 (en) Generating and using a knowledge-enhanced model
US20140149429A1 (en) Web search ranking
US20130066898A1 (en) Matching target strings to known strings
CN110399392B (zh) 语义关系数据库运算
CN115618113A (zh) 一种基于知识图谱表示学习的搜索召回方法和系统
Galhotra et al. Efficient and effective ER with progressive blocking
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
CN107679124B (zh) 一种基于动态规划算法的知识图谱中文问答检索方法
Michelson et al. Unsupervised information extraction from unstructured, ungrammatical data sources on the world wide web
CN116501875B (zh) 一种基于自然语言和知识图谱的文档处理方法和系统
Balaneshin-kordan et al. Sequential query expansion using concept graph
CN112800023A (zh) 一种基于语义分类的多模型数据分布式存储和分级查询方法
Khin et al. Query classification based information retrieval system
CN117057346A (zh) 一种基于加权TextRank和K-means的领域关键词抽取方法
CN113505190B (zh) 地址信息修正方法、装置、计算机设备和存储介质
Muthukrishnan et al. Simultaneous similarity learning and feature-weight learning for document clustering
CN112199461B (zh) 基于块索引结构的文档检索方法、装置、介质和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant