CN108733745A - 一种基于医学知识的查询扩展方法 - Google Patents

一种基于医学知识的查询扩展方法 Download PDF

Info

Publication number
CN108733745A
CN108733745A CN201810290217.9A CN201810290217A CN108733745A CN 108733745 A CN108733745 A CN 108733745A CN 201810290217 A CN201810290217 A CN 201810290217A CN 108733745 A CN108733745 A CN 108733745A
Authority
CN
China
Prior art keywords
word
sentence
inquiry
document
retrieval
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810290217.9A
Other languages
English (en)
Other versions
CN108733745B (zh
Inventor
胡琴敏
陈素
贺赟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201810290217.9A priority Critical patent/CN108733745B/zh
Publication of CN108733745A publication Critical patent/CN108733745A/zh
Application granted granted Critical
Publication of CN108733745B publication Critical patent/CN108733745B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于医学知识的查询扩展方法,包括步骤:1)结合BM25,PL2,LM和TF‑IDF检索模型的检索结果,得到每个查询对应的前1000个相关文档;2)将查询的数目*1000的文档词向量化并求得每个查询和对应的前5个相关文档中每个句子的相似度,进行筛选;3)利用mesh词表映射得到剩下句子中的医学词;4)采用meshRank+DRF方法来计算每个候选词作为扩展词的概率;5)选择前k%的词作为查询的扩展词。本发明能够减少检索过程中术语不匹配的问题,从而提高检索的召回率和准确率。在挑选扩展词的过程中,通过句子相似度筛选出与查询相似的句子,再通过meshRank的方法以及DFR模型筛选出扩展词,从而减少错误的扩展词带来的噪音,因为错误的扩展词会降低检索的准确率。

Description

一种基于医学知识的查询扩展方法
技术领域
本发明涉及查询扩展,具体来说,涉及一种基于医学知识的查询扩展方法。
背景技术
传统的IR系统是根据给定查询中的关键词的统计信息来计算文章与查询的有关性。这些文章按其有关性排列,并将排名中的前几位作为答案返回。
术语不匹配是IR中的一个开放性研究问题,主要原因是自然语言的固有含糊性,例如同义词(具有相同含义的不同词)和多义词(具有不同含义的相同词)。作为提高IR系统性能的有效方法之一,查询扩展是用更多的术语来扩展原始查询,这些术语能够更好的捕获和表达用户的信息需求。其中一个优点是可以通过扩展条件检索到更多的有关文档,通常扩展词为原始词汇的同义词,这种方式能增加召回率。在某些情况下,查询扩展还可以通过扩展术语和更多的上下文信息来提高精度。
在TREC CDS的任务中,我们旨在找到满足临床任务的专业文章,因此我们提出了一个基于医学知识的查询扩展方法来支持医疗IR中的临床决策。
发明内容
本发明的目的是在TREC CDS的任务中,旨在找到满足临床任务的专业文章而提出的一种基于医学知识的查询扩展方法,以此来支持医疗IR中的临床决策,以克服目前现有技术的不足。
实现本发明目的的具体技术方案是:
一种基于医学知识的查询扩展方法,该方法包括以下具体步骤:
步骤1:使用Terrier平台对查询进行检索,检索模型包括BM25,PL2,LM和TF-IDF,每个模型都会返回与查询有关的前1000个有关文档和对应的检索得分,然后将四个检索模型得到的检索结果整合(整合格式为文档ID,BM25值,PL2值,LM值,TF-IDF值),接着将所有BM25的值,PL2的值,LM的值和TF-IDF的值分别归一化,并对每一个文档,将这个四个值求和作为文档最后的得分,最后将结果进行排序,按文档最后的得分从高到低进行排序,并选择前1000个文档作为查询的有关文档;
步骤2:利用fasttext工具将查询的数目*1000的文档词向量化,将句子中每个词向量的对应维数求和平均,最后得到向量即为句子的向量表示,再利用cos求每个查询和对应的前5个有关文档中每个句子的相似度,然后选择前p%的句子作为查询的相似句;
步骤3:利用mesh词表映射得到剩下句子中的医学词;
步骤4:根据如果扩展候选词Ci最终选择为候选词,Cj和Ci有很高的相似度,那么Cj就应该有很大的概率作为扩展词这样的想法,便提出了meshRank+DRF的方法来计算每个候选词作为扩展词的概率;
步骤5:选择前k%的词作为查询的扩展词。
本发明的有益效果为:通过基于医学知识的查询扩展的方法,能够减少检索过程中术语不匹配的问题,从而提高检索的召回率和准确率。在挑选扩展词的过程中,通过句子相似度筛选出与查询相似的句子,再通过meshRank的方法以及DFR模型筛选出扩展词,从而减少错误的扩展词带来的噪音,因为错误的扩展词会降低检索的准确率。
附图说明
图1为本发明流程图。
具体实施方式
下面将结合附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明的一种基于医学知识的查询扩展方法,包括以下步骤:
步骤1:使用Terrier平台对查询进行检索,检索模型包括BM25,PL2,LM和TF-IDF,每个模型都会返回与查询有关的前1000个有关文档和对应的检索得分,然后将四个检索模型得到的检索结果整合(整合格式为文档ID,BM25值,PL2值,LM值,TF-IDF值),接着将所有BM25的值,PL2的值,LM的值和TF-IDF的值分别归一化,并对每一个文档,将这个四个值求和作为文档最后的得分,最后将结果进行排序,按文档最后的得分从高到低进行排序,并选择前1000个文档作为查询的有关文档。
步骤2:利用fasttext工具将查询的数目*1000的文档词向量化,将句子中每个词向量的对应维数求和平均,最后得到向量即为句子的向量表示,再利用cos求每个查询和对应的前5个有关文档中每个句子的相似度,然后选择前p%的句子作为查询的相似句;
步骤3:利用mesh词表映射得到剩下句子中的医学词;
步骤4:根据如果扩展候选词Ci最终选择为候选词,Cj和Ci有很高的相似度,那么Cj就应该有很大的概率作为扩展词这样的想法,便提出了meshRank+DRF的方法来计算每个候选词作为扩展词的概率。;
步骤5:选择前k%的词作为查询的扩展词。
实施例
具体应用时,对于给定的数据集和查询。本实实施例所示的一种基于医学知识的查询扩展方法,包括以下步骤:
1.查询样例:78M w/pmh of CABG in early[**Month(only)3**]at[**Hospital64406**]
(transferred to nursing home for rehab on[**12-8**]after severalfalls out of bed.)He was then readmitted to[**Hospital6 1749**]on[**3120-12-11**]after developing acute pulmonary edema/CHF/unresponsiveness?.There was aquestion whether he had a small MI;he reportedly had a small NQWMI.Heimproved with diuresis and was not intubated..Yesterday,he was noted to havea melanotic stool earlier this evening and then approximately 9loose BM w/some melena and some frank blood just prior to transfer,unclear quantity。
检索数据集:TREC2016数据集
首先利用Terrier平台对TREC数据集建索引,然后再使用Terrier平台对查询进行检索,检索模型包括BM25,PL2,LM和TF-IDF,每个模型都会返回与查询有关的前1000个有关文档和对应的检索得分,然后将四个检索模型得到的检索结果整合(整合格式为文档ID,BM25值,PL2值,LM值,TF-IDF值),接着将所有BM25的值,PL2的值,LM的值和TF-IDF的值分别归一化,并对每一个文档,将这个四个值求和作为文档最后的得分,最后将结果进行排序,按文档最后的得分从高到低进行排序,并选择前1000个文档作为查询的有关文档。
2.利用fasttext对得到的所有有关文档进行词向量化。同时对每个查询的前5个有关文档按照“.”进行分割,根据词向量化的结果计算每个查询前5个文档中的每个句子和查询的相似度。按照相似度的从高到低排序,选择前p%的句子(认为这些句子与查询有关)。3.对选择的句子进行mesh词表映射,得到的便是每次查询对应的扩展词候选集。
4.如果扩展候选词Ci最终选择为候选词,Cj和Ci有很高的相似度,那么Cj就应该有很大的概率作为扩展词。meshRank算法的定义如下:
对于语义关系,将知识树中两个词之间的语义有关度定义为下式;语义有关度越大,
两个词之间的语义关系越强。
其中SemRel(ci,cj)是ci和cj之间的语义有关度,distance(ci,cj)是知识树中ci和cj的距
离,距离的计算公式如下式所示:
distance(n1,n2)=depth(n1)+depth(n2)-2*depth(CommonNode(n1,n2))
其中depth(n1)表示为树节点的深度,CommonNode(n1,n2)表示两个节点之间的共同边数。
由上述计算,得出meshRank的矩阵:
然后通过下面的式子迭代计算出M,最后得到的M向量就是每个候选词的meshRank值:
Mk+1=A·Mk(k=0,1,2,3...)
同时,本发明还考虑了候选词的统计信息,DFR模型选择更具信息的词汇。利用
Bose-Einstein统计计算候选词的随机性,计算公式如下:
根据Stirling’s formula来近似这些因子,可以得到统计信息的得分为:
所以对每个候选词作为扩展词的得分为:
其中N代表文档的数目,Fi代表医学词ci在数据集中出现的次数,tfik代表医学词ci在文
档K中出现的次数。
5.将候选词按照得分从高到低排序,选择前k%作为查询的扩展词。
本发明利用了外部知识提高了检索的表现,不仅利用meshRnak和DFR模型选择扩展词,同时也利用词向量计算文档句子和查询相似度的方法,减少噪音,降低错误扩展词对检索性能的影响。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种基于医学知识的查询扩展方法,其特征在于,该方法包括以下具体步骤:
步骤1:使用Terrier平台对查询进行检索,检索模型为BM25、PL2、LM和TF-IDF,每个查询模型会返回与查询有关的前1000个文档和对应的检索得分,将四个检索模型得到的检索结果整合,整合格式为文档ID,BM25值,PL2值,LM值,TF-IDF值,接着将所有BM25的值,PL2的值,LM的值和TF-IDF的值分别归一化,并对每一个文档ID,将这个四个值求和作为文档最后的得分,按文档最后的得分从高到低进行排序,并选择前1000个文档作为查询的有关文档;
步骤2:利用fasttext工具将查询的数目*1000的文档词向量化,将句子中每个词向量的对应维数求和平均,得到向量即为句子的向量表示,再利用cos求每个查询和对应的前5个有关文档中每个句子的相似度,然后选择前p%的句子作为查询的相似句;
步骤3:利用mesh词表映射得到剩下句子中的医学词;
步骤4:根据若扩展候选词Ci最终选择为候选词,Cj和Ci有很高的相似度,那么Cj就应该有很大的概率作为扩展词的定义,采用meshRank+DRF方法来计算每个候选词作为扩展词的概率;
步骤5:选择前k%的词作为查询的扩展词;其中:
步骤4所述meshRank+DRF方法来计算每个候选词作为扩展词的概率,具体为:
meshRank算法:
对于语义关系,将知识树中两个词之间的语义有关度定义为下式;语义有关度越大,两个词之间的语义关系越强;
其中SemRel(ci,cj)是Ci和Cj之间的语义有关度,distance(ci,cj)是知识树中Ci和Cj的距离,距离的计算公式如下式所示:
distance(n1,n2)=depth(n1)+depth(n2)-2*depth(CommonNode(n1,n2))
其中depth(n1)表示为树节点的深度,CommonNode(n1,n2)表示两个节点之间的共同边数;
由上述计算,得出meshRank的矩阵:
通过下式迭代计算出M,最后得到的M向量就是每个候选词的meshRank值:
Mk+1=A·Mk(k=0,1,2,3...)
其中k代表当前迭代的次数;
根据DFR模型选择更具信息的词汇;利用Bose-Einstein统计计算候选词的随机性,计算公式如下:
根据Stirling’s formula来近似这些因子,得到统计信息的得分为:
StatisticInf(tfik)=-log2(N-1)-log2(e)+f(N+Fi-1,N+Fi-tfik-2)-f(Fi,Fi-tfik)
所以对每个候选词作为扩展词的得分为:
其中N代表文档的数目,Fi代表医学词ci在数据集中出现的次数,tfik代表医学词ci在文档K中出现的次数。
CN201810290217.9A 2018-03-30 2018-03-30 一种基于医学知识的查询扩展方法 Active CN108733745B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810290217.9A CN108733745B (zh) 2018-03-30 2018-03-30 一种基于医学知识的查询扩展方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810290217.9A CN108733745B (zh) 2018-03-30 2018-03-30 一种基于医学知识的查询扩展方法

Publications (2)

Publication Number Publication Date
CN108733745A true CN108733745A (zh) 2018-11-02
CN108733745B CN108733745B (zh) 2021-10-15

Family

ID=63940612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810290217.9A Active CN108733745B (zh) 2018-03-30 2018-03-30 一种基于医学知识的查询扩展方法

Country Status (1)

Country Link
CN (1) CN108733745B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815312A (zh) * 2018-12-27 2019-05-28 达闼科技(北京)有限公司 一种文档查询的方法、装置、计算设备及计算机存储介质
CN110287288A (zh) * 2019-06-18 2019-09-27 北京百度网讯科技有限公司 推荐文档的方法和装置
CN111611372A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 搜索结果的排序方法及装置、音乐搜索方法及装置
WO2021190662A1 (zh) * 2020-10-31 2021-09-30 平安科技(深圳)有限公司 医学文献排序方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876979A (zh) * 2009-04-28 2010-11-03 株式会社理光 查询扩展方法及查询扩展设备
CN103150382A (zh) * 2013-03-14 2013-06-12 中国科学院计算技术研究所 基于开放知识库的短文本语义概念自动化扩展方法及系统
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法
US20170236130A1 (en) * 2014-10-13 2017-08-17 Kim Seng Kee Emulating Manual System of Filing Using Electronic Document and Electronic File
CN107066589A (zh) * 2017-04-17 2017-08-18 河南工业大学 一种基于综合知识的实体语义和词频的排序方法及装置
CN107247745A (zh) * 2017-05-23 2017-10-13 华中师范大学 一种基于伪相关反馈模型的信息检索方法及系统
CN107291914A (zh) * 2017-06-27 2017-10-24 达而观信息科技(上海)有限公司 一种生成搜索引擎查询扩展词的方法及系统
US20180004752A1 (en) * 2016-06-30 2018-01-04 International Business Machines Corporation Log-Aided Automatic Query Expansion Based on Model Mapping

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101876979A (zh) * 2009-04-28 2010-11-03 株式会社理光 查询扩展方法及查询扩展设备
CN103150382A (zh) * 2013-03-14 2013-06-12 中国科学院计算技术研究所 基于开放知识库的短文本语义概念自动化扩展方法及系统
US20170236130A1 (en) * 2014-10-13 2017-08-17 Kim Seng Kee Emulating Manual System of Filing Using Electronic Document and Electronic File
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法
US20180004752A1 (en) * 2016-06-30 2018-01-04 International Business Machines Corporation Log-Aided Automatic Query Expansion Based on Model Mapping
CN107066589A (zh) * 2017-04-17 2017-08-18 河南工业大学 一种基于综合知识的实体语义和词频的排序方法及装置
CN107247745A (zh) * 2017-05-23 2017-10-13 华中师范大学 一种基于伪相关反馈模型的信息检索方法及系统
CN107291914A (zh) * 2017-06-27 2017-10-24 达而观信息科技(上海)有限公司 一种生成搜索引擎查询扩展词的方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HISHAM AL-MUBAID等: "A Cluster-Based Approach for Semantic Similarity in the Biomedical Domain", 《2006 INTERNATIONAL CONFERENCE OF THE IEEE ENGINEERING IN MEDICINE AND BIOLOGY SOCIETY》 *
李卫疆等: "基于上下文的查询扩展", 《计算机研究与发展》 *
王文斌等: "电子病历检索中基于词权调整的查询重构", 《计算机应用与软件》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815312A (zh) * 2018-12-27 2019-05-28 达闼科技(北京)有限公司 一种文档查询的方法、装置、计算设备及计算机存储介质
CN111611372A (zh) * 2019-02-25 2020-09-01 北京嘀嘀无限科技发展有限公司 搜索结果的排序方法及装置、音乐搜索方法及装置
CN110287288A (zh) * 2019-06-18 2019-09-27 北京百度网讯科技有限公司 推荐文档的方法和装置
CN110287288B (zh) * 2019-06-18 2022-02-18 北京百度网讯科技有限公司 推荐文档的方法和装置
WO2021190662A1 (zh) * 2020-10-31 2021-09-30 平安科技(深圳)有限公司 医学文献排序方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN108733745B (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
EP1622053B1 (en) Phrase identification in an information retrieval system
Bergamaschi et al. Keyword search over relational databases: a metadata approach
JP5369154B2 (ja) クリックディスタンスを用いて検索結果をランク付けするシステムおよび方法
US9317593B2 (en) Modeling topics using statistical distributions
US8280886B2 (en) Determining candidate terms related to terms of a query
JP5461360B2 (ja) スーパーユニットを用いた検索処理のためのシステム及び方法
US7584175B2 (en) Phrase-based generation of document descriptions
US8332439B2 (en) Automatically generating a hierarchy of terms
CA2813644C (en) Phrase-based searching in an information retrieval system
CN108733745A (zh) 一种基于医学知识的查询扩展方法
US8543380B2 (en) Determining a document specificity
CN105045875B (zh) 个性化信息检索方法及装置
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
Lin et al. A similarity-based soft clustering algorithm for documents
US20160012125A1 (en) Inverted table for storing and querying conceptual indices
CN105917364B (zh) 对问答论坛中讨论话题的排名
US8396889B2 (en) Methods for semantics-based citation-pairing information
US20090094209A1 (en) Determining The Depths Of Words And Documents
Wang et al. Indexing by L atent D irichlet A llocation and an E nsemble M odel
Li et al. Schema-free SQL
Zeng et al. iSearch: an interpretation based framework for keyword search in relational databases
WO2016009321A1 (en) System for searching, recommending, and exploring documents through conceptual associations and inverted table for storing and querying conceptual indices
CN111160699A (zh) 一种专家推荐方法及系统
CN108256086A (zh) 数据特征统计分析方法
Li Glowworm Swarm Optimization Algorithm‐and K‐Prototypes Algorithm‐Based Metadata Tree Clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant