CN115658851A - 基于主题的医学文献检索方法、系统、存储介质及终端 - Google Patents
基于主题的医学文献检索方法、系统、存储介质及终端 Download PDFInfo
- Publication number
- CN115658851A CN115658851A CN202211681611.8A CN202211681611A CN115658851A CN 115658851 A CN115658851 A CN 115658851A CN 202211681611 A CN202211681611 A CN 202211681611A CN 115658851 A CN115658851 A CN 115658851A
- Authority
- CN
- China
- Prior art keywords
- word
- retrieval
- standard
- theme
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 239000013598 vector Substances 0.000 claims abstract description 44
- 238000012545 processing Methods 0.000 claims abstract description 23
- 238000004140 cleaning Methods 0.000 claims abstract description 7
- 238000009826 distribution Methods 0.000 claims description 25
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000012549 training Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 4
- 230000014509 gene expression Effects 0.000 description 11
- 238000011160 research Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 8
- 239000003814 drug Substances 0.000 description 6
- 238000005070 sampling Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 4
- 229940079593 drug Drugs 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- -1 targets Substances 0.000 description 3
- 210000004027 cell Anatomy 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 108010078791 Carrier Proteins Proteins 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 102000004310 Ion Channels Human genes 0.000 description 1
- 108090000862 Ion Channels Proteins 0.000 description 1
- 108091008874 T cell receptors Proteins 0.000 description 1
- 102000016266 T-Cell Antigen Receptors Human genes 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003596 drug target Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 210000000987 immune system Anatomy 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 102000004169 proteins and genes Human genes 0.000 description 1
- 108020003175 receptors Proteins 0.000 description 1
- 102000005962 receptors Human genes 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于主题的医学文献检索方法、系统、存储介质及终端,包括:将医学文献中常用词语进行标准化处理,构建规范词表;通过主题模型生成文献的主题集以及主题词集;对输入的检索式进行清洗,得到无序检索词表;遍历匹配所述规范词表,将无序检索词表中的检索词替换为匹配后的规范词,得到规范检索词表,并对规范检索词表中的检索词分配权重;选取其中每一个与规范检索词表中检索词相关的主题词对应的主题,形成各自的主题特征向量;将所述规范检索词表转换为检索式特征向量;计算检索式特征向量和每个主题特征向量的相似度,抽取其中相似度大于一定阈值的主题对应的文献。本发明通过主题揭示文献提高了检索的全面性和准确性。
Description
技术领域
本发明涉及生物医学大数据处理技术领域,尤其涉及基于主题的医学文献检索方法、系统、存储介质及终端。
背景技术
近年来,随着生物医学的不断发展,相关文献也呈爆发趋势,不断增长的文献给人们的查找使用带来了极大的成本。文献中包含大量隐性知识,不同研究方向相互交叉,单凭关键词界定文献的内容存在较大的片面性,全文检索又会带来不必要的冗余信息,单纯的基于字符串匹配的查询已经不能满足文献的查询需求,对于特定用户,该需求更加迫切。
此外,由于文献数据中存在大量自然语言,部分关键词本意相同,但表现形式存在差异,直接检索某个关键词会导致检索不全。同时医学中涉及大量的缩写,尤其是像靶点、药物、适应症等,而缩写一般仅根据首字母或发音来进行,并无详细规范,就导致不同实物的缩写可能会相同,这也为检索带来一定的困难。
发明内容
本发明的目的在于克服现有技术中文献检索存在的问题,提供了基于主题的医学文献检索方法、系统、存储介质及终端。
本发明的目的是通过以下技术方案来实现的:
在第一方案中,提供一种基于主题的医学文献检索方法,包括以下步骤:
S1、将医学文献中常用词语进行标准化处理,构建规范词表;
S2、通过主题模型生成文献的主题集以及主题词集;
S3、对输入的检索式进行清洗,得到无序检索词表;
S4、遍历匹配所述规范词表,将所述无序检索词表中的检索词替换为匹配后的规范词,得到规范检索词表,并对所述规范检索词表中的检索词分配权重;
S5、遍历所述主题词集,选取其中每一个与规范检索词表中检索词相关的主题词对应的主题,形成各自的主题特征向量;将所述规范检索词表转换为检索式特征向量;
S6、计算检索式特征向量和每个主题特征向量的相似度,抽取其中相似度大于一定阈值的主题对应的文献,得到检索结果。
在一个示例中,一种基于主题的医学文献检索方法,所述规范词表中包括规范词、规范缩写词、扩展词以及上/下位词。
在一个示例中,一种基于主题的医学文献检索方法,所述通过主题模型生成文献的主题集以及主题词集,包括:
S21、抽取文献作为训练集,其中,选用文献所有有效字段当作文献的文本内容;
S22、对抽取的有效字段进行预处理,并通过所述规范词表进行规范;
S23、构建训练主题模型,其中基于困惑度选择主题数量K;
S24、使用主题模型处理文献并生成主题集及主题词集,同时获得文献的主题概率分布。
在一个示例中,一种基于主题的医学文献检索方法,所述有效字段包括篇名、摘要以及关键词,同时对篇名、摘要以及关键词赋权重。
在一个示例中,一种基于主题的医学文献检索方法,所述通过主题模型生成文献的主题集以及主题词集,还包括:
S25、构建主题层次结构,其中,根据不同主题间的主题词重叠情况判断主题之间的相似性。
在一个示例中,一种基于主题的医学文献检索方法,所述遍历匹配所述规范词表,将所述无序检索词表中的检索词替换为匹配后的规范词,包括:
若检索词匹配到了规范词,则检索词本身就为规范词;
若检索词匹配到了扩展词,则将该检索词替换为扩展词;
若检索词没有匹配到任何词,则不做处理。
在一个示例中,一种基于主题的医学文献检索方法,所述对所述规范检索词表中的检索词分配权重,包括:
根据检索词匹配到规范词的频次给予权重,频次越高,权重越高。
在第二方案中,提供一种基于主题的医学文献检索系统,所述系统包括:
规范词库,用于将医学文献中常用词语进行标准化处理,构建规范词表;
主题库,用于通过主题模型生成文献的主题集以及主题词集;
检索式预处理模块,用于对输入的检索式进行清洗,得到无序检索词表;
检索式规范模块,用于遍历匹配所述规范词表,将所述无序检索词表中的检索词替换为匹配后的规范词,得到规范检索词表,并对所述规范检索词表中的检索词分配权重;
特征向量生成模块,用于遍历所述主题词集,选取其中每一个与规范检索词表中检索词相关的主题词对应的主题,形成各自的主题特征向量;还用于将所述规范检索词表转换为检索式特征向量;
文献抽取模块,通过计算检索式特征向量和每个主题特征向量的相似度,抽取其中相似度大于一定阈值的主题对应的文献,得到检索结果。
在第三方案中,提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行任意一项所述医学文献检索方法的步骤。
在第四方案中,提供一种终端,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,处理器运行计算机指令时执行任意一项所述医学文献检索方法的步骤。
需要进一步说明的是,上述各选项对应的技术特征在不冲突的情况下可以相互组合或替换构成新的技术方案。
与现有技术相比,本发明有益效果是:
(1)本发明通过构建检索词的规范词表,保证一定检准率的情况下提高检全率,优化检索结果,由于采用了主题这一维度,可检出与原始检索式内检索词无匹配,但是描述主题较为相近的文献,进一步提高了检索结果的全面性,同时,受主题的控制,也将部分有歧义的检索词匹配到的无关文献进行了筛除,提高了检索的准确性。
(2)在一个示例中,对所述规范检索词表中的检索词分配权重,具体地,根据检索词匹配到规范词的频次给予权重,频次越高,权重越高,突出检索的重点,提高检索的准确率。
(3)在一个示例中,提取文献的有效字段包括篇名、摘要以及关键词,同时对篇名、摘要以及关键词赋权重,因为最能表达文献的词可能会同时存在篇名、关键词、摘要中,一并选用也可以提高该部分词的出现频次,更容易筛选出代表文献内容的词组,有利于模型生成主题的准确性,便于后续的文献查找。
(4)在一个示例中,根据不同主题间的主题词重叠情况判断主题之间的相似性,便于确定不同主题是否为同一研究领域,生成三层主题结构,依次为研究领域、研究方向、研究主题,方便做后续的主题分簇与可视化。
附图说明
图1为本发明实施例示出的一种基于主题的医学文献检索方法的流程图;
图2为本发明实施例示出的检索式规范化流程示意图;
图3为本发明实施例示出的具体检索流程示意。
具体实施方式
下面结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明主要通过构建检索词的规范词表,保证一定检准率的情况下提高检全率,优化检索结果,由于采用了主题这一维度,可检出与原始检索式内检索词无匹配,但是描述主题较为相近的文献,进一步提高了检索结果的全面性,同时,受主题的控制,也将部分有歧义的检索词匹配到的无关文献进行了筛除,提高了检索的准确性。
在一示例性实施例中,提供一种基于主题的医学文献检索方法,参见图1,所述方法包括以下步骤:
S1、将医学文献中常用词语进行标准化处理,构建规范词表;
S2、通过主题模型生成文献的主题集以及主题词集;
S3、对输入的检索式进行清洗,得到无序检索词表;
S4、遍历匹配所述规范词表,将所述无序检索词表中的检索词替换为匹配后的规范词,得到规范检索词表,并对所述规范检索词表中的检索词分配权重;
S5、遍历所述主题词集,选取其中每一个与规范检索词表中检索词相关的主题词对应的主题,形成各自的主题特征向量;将所述规范检索词表转换为检索式特征向量;
S6、计算检索式特征向量和每个主题特征向量的相似度,抽取其中相似度大于一定阈值的主题对应的文献,得到检索结果。
具体地,生物医学文献的数据来源为多方公开文献数据源,因为不同来源数据的格式与字段名称并不相同,为实现数据库的融合,方便使用者集成搜索,需对数据进行清洗与规范,将数据存在标准化的数据结构中,依数字对象唯一标识符doi、篇名、作者等字段去重,生成索引,部分文献缺失的字段使用空字符NULL填充。其中,doi的全称是digitalobject unique identifier,是云计算背景下最佳的“大数据”样本存储和应用技术,用于IKE进行协商SA协议统一分配,具有唯一性、持久性、兼容性、互操作性、动态更新的特点。Null在数据库中表示不知道的数据,主要有3种意思:知道数据存在,但不知道具体值;不知道数据是否存在;数据不存在。NULL与0存在一定的关系,0本身有着一些原生的特性诸如:起始,没有,正负的分界线,0/1中的0还可以表示否定。NULL正需要这些特性中的一部分。我们只需要清楚NULL的本质,并在合理的地方才加以利用而非滥用。
规范词表本质上是一种受控词表,它把词汇和同义词、近义词、上位类术语和下位类术语,以及相关关系术语连接起来,常用于辅助检索以及标准化展示。由于文献数据中存在大量自然语言,部分关键词本意相同,但表现形式存在差异,直接检索某个关键词会导致检索不全。同时医学中涉及大量的缩写,尤其是像靶点、药物、适应症等,而缩写一般仅根据首字母或发音来进行,并无详细规范,就导致不同事物的缩写可能会相同,因此,在此发明中,依托于医学主题词表(Medical Subject Headings,简称MeSH)与企业内部数据资源,半人工生成规范词表,用于同义词、近义词、口语词等词的标准化,采用规范词表可以在保证一定检准率的情况下提高检全率,优化检索结果。
在一个示例中,一种基于主题的医学文献检索方法,所述规范词表中包括规范词、规范缩写词、扩展词以及上/下位词。其中,规范词指某个关键词或实体的规范化表达词语;规范缩写词指某个关键词或实体的规范化缩写词语;扩展词指某个关键词或实体的除规范化表达词语外的其他表达词语;上/下位词指某个关键词或实体的规范化表达词语的语义扩展词,表达其种和属。例如:靶点PD-1的规范词为“programmed cell death protein 1”,规范缩写为“PD-1”,扩展词包括“CD279”、“programmed cell death 1”、“programmeddeath 1”、“PD1”等等,这里的所有词都映射到同一个实体。PD-1的上位词为“costimulatory and inhibitory T-cell receptors”,其代表着“PD-1”的一种扩展概念,而PD-1是属于该类概念下的一个靶点。其中,靶点指药物靶点,是药物与机体生物大分子的结合部位。药物作用靶点涉及受体、酶、离子通道、转运体、免疫系统、基因等。
在一个示例中,一种基于主题的医学文献检索方法,所述通过主题模型生成文献的主题集以及主题词集,包括:
S21、抽取文献作为训练集,其中,选用文献所有有效字段当作文献的文本内容;
S22、对抽取的有效字段进行预处理,并通过所述规范词表进行规范;
S23、构建训练主题模型,其中基于困惑度选择主题数量K;
S24、使用主题模型处理文献并生成主题集及主题词集,同时获得文献的主题概率分布。
具体地,主题模型是以非监督学习的方式对文本集的隐含语义结构进行聚类的统计模型,常用于发现文献中的抽象主题,本发明的文本筛选基于主题模型LDA(LatentDirichlet Allocation),LDA是主题模型中的经典模型,基于贝叶斯思想,是典型的三层贝叶斯概率模型,包含词、主题和文档三层结构,就是说,我们认为一篇文章的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到。文档到主题服从多项式分布,主题到词服从多项式分布,其认为生成一篇文档di的步骤包括:
LDA把要预计的主题分布和词分布看作是其先验分布(Dirichlet分布)的随机变量,在预计主题分布、词分布的过程中,它们的先验分布事先由人为给定,通过超参数与控制,而后验分布可由Gibbs采样求解,K个主题相应着K条路径,采样则在这K 条路径中进行。
进一步地,S21中抽取文献作为训练集,为保证主题抽取效果,选用文献所有有效字段当作文献的文本内容,包括篇名、摘要、关键词,同时对篇名、摘要以及关键词赋权重。通常情况下篇名是文章的主旨,关键词是研究涉及的概念,摘要是文章研究的具体介绍,因此可以考虑一并选用当作文献的文本内容,在这之中篇名赋最高权重,关键词次之,摘要权重最小。同时,最能表达文献的词可能会同时存在篇名、关键词、摘要中,一并选用也可以提高该部分词的出现频次,更容易筛选出代表文献内容的词组,有利于模型生成主题的准确性,便于后续的文献查找。
S22中预处理包括采用分词算法对S21中抽取的字段进行分词,设定分词输入的候选词表,保证医学专业名词短语不会被拆分;设定停用词表,用于去除无主要意义的符号、冠词、介词、副词、连词等,进行频词统计,发现无实际意义的高频词,并添加至停用词表;使用规范词表进行词语规范,保证实体文本表示的统一性,方便主题挖掘,同时重复清洗至数据可用。
S23中构建训练主题模型时,主题数量K的选择常基于困惑度,其中困惑度越小,模型预估能力越强,此外,在文档中的主题稀疏性中起作用,通过改变,在主题中的单词稀疏性中起作用,调节可改变主题中包含单词的概率分布。在确定K值的过程中,每个K值都会对应一个困惑度,困惑度会随着K值的增大迅速减小,直到某个范围,才会趋于平稳,从K=1开始,每次让K增加1,计算困惑度所用时间比较长,在一具体实例中,我们采取分段赋值的方式,采用5为变量单位,快速找到困惑度下降的拐点,然后再设定步长为1,进行具体计算,最终确定K值,同时根据广泛经验,给定超参数,进行模型训练,根据结果调整参数,进行迭代。
在一个示例中,一种基于主题的医学文献检索方法,所述通过主题模型生成文献的主题集以及主题词集,还包括:
S25、构建主题层次结构,其中,根据不同主题间的主题词重叠情况判断主题之间的相似性。具体地,构建主题层次结构,不同主题间存在相同的主题词,可借此判断主题之间的相似性,确定是否为同一研究领域。生成三层主题结构,依次为研究领域、研究方向、研究主题,方便做后续的主题分簇与可视化。
进一步地,基于已有的主题模型与规范词表,构建医学文献的检索模块。在传统检索基础上,加入更加专业的规范词表,有利于识别专业名词短语,使用户检索更加方便,避免因短语的多样化表达方式导致漏检;同时结合文献的主题,判断文献所属类别,以此区分同缩写但是不同含义的关键词检出文献,去除噪音,提高检准率。
用户输入检索式s,对检索式s进行处理,采用分词算法进行分词,依据候选词表,保证医学专业名词短语不会被拆分;依据停用词表,去除无主要意义的符号、冠词、介词、副词、连词等,生成无序检索词表。
进一步地,参见图2,遍历规范词表,判断检索词是否存在。此处匹配将会出现三种情况:第一种,检索词匹配到了规范词,即检索词本身就为规范词,则不做处理;第二种,检索词匹配到了扩展词,则将该检索词替换为扩展词;第三种检索词没有匹配到任何词,则不做处理,如图3所示,检索词匹配到规范词表中的词则替换,没有则不做处理,得到规范后的规范检索词表。其中,通过扩展词可以匹配到更多相关文献,提高检全率。
具体地,本申请的检索路径是先使用检索式匹配主题,再通过主题匹配文献。
根据检索词匹配到规范词的频次给予权重,频次越高,权重越高。具体地,传统的文献检索中,用户为了扩大检索范围,会使用多个同义或近义词来进行检索,在这种情况下,检索词表经过规范化后中会出现多个相同的规范词。我们认为,检索式中越多提及的词,即检索词表中频次更高的词,是用户检索策略中的重点。因此,我们将对检索词表进行去重处理,并依据频次给予权重,对于任意的检索词,有,其中代表检索词的权重,代表检索词的频次,F代表总频次。权重越高,说明相关的检索词越重要,突出检索的重点,提高检索的准确率。
进一步地,生成特征向量。为计算检索式与主题的相似度,需将检索式与主题转换为其特征向量。遍历主题,依据主题中的主题词与检索词之间的关联性确定特征向量维度,对于主题,将各主题词的概率作为分量的值;对于检索式,将权重作为分量值,空白分量填充为0,最终得到检索式特征向量A与主题特征向量B。具体地,通过主题模型可以得到固定的主题,主题中的词也是固定的,每篇文献都会对应几个主题,这几个主题中的词,可以理看作是这篇文章的主题词,用户在输入检索式时并不知道主题词具体有哪些,所以在检索时候输入的检索式,也可能不是主题词,这种时候就会返回为空。如果检索式中的检索词匹配到主题词,那就可以进行检索,会首先抽取出包含检索的主题词相关的主题,然后进行相似度计算,筛选出合适的主题,再通过筛选出的主题去找文献。
如图3所示,在确定检索式特征向量A与主题特征向量B后,采用计算余弦相似度的方式,计算检索式与主题的相似度,计算公式如下:
其中,分别代表向量特征A和B的各分量,n为向量长度,结果越大,代表二者相关性更大,结果为0,则代表二者不相关。对于相似度的主题,抽取相关文献,放入检索结果池,若无向量计算,则返回无匹配结果,为确保所有相关的文献都可检索出,此处阈值选为0,在实际检索中,可根据需求进行阈值的灵活设置,此处不理解为对本申请的限制。
最后按序输出文献检索结果,根据该方法得出的结果,由于采用了主题这一维度,可检出与原始检索式内关键词无匹配,但是描述主题较为相近文献,提高了检索结果的全面性;同时,受主题的控制,也将部分有歧义的关键词匹配到的无关文献进行了筛除,提高了检索的准确性。其中,按序输出文献检索结果根据多元指标评价进行排序,其中可以考虑文献的影响力排序,文献的被引数量能较大程度反应文献的影响力。
在另一示例性实施例中,提供一种基于主题的医学文献检索系统,所述系统包括:
规范词库,用于将医学文献中常用词语进行标准化处理,构建规范词表;
主题库,用于通过主题模型生成文献的主题集以及主题词集;
检索式预处理模块,用于对输入的检索式进行清洗,得到无序检索词表;
检索式规范模块,用于遍历匹配所述规范词表,将所述无序检索词表中的检索词替换为匹配后的规范词,得到规范检索词表,并对所述规范检索词表中的检索词分配权重;
特征向量生成模块,用于遍历所述主题词集,选取其中每一个与规范检索词表中检索词相关的主题词对应的主题,形成各自的主题特征向量;还用于将所述规范检索词表转换为检索式特征向量;
文献抽取模块,通过计算检索式特征向量和每个主题特征向量的相似度,抽取其中相似度大于一定阈值的主题对应的文献,得到检索结果。
具体地,规范词库除了构建检索词的规范词表外,还用于将不同来源数据进行统一处理,因为生物医学文献的数据来源为多方公开文献数据源,不同来源数据的格式与字段名称并不相同,为实现数据库的融合,方便使用者集成搜索,需对数据进行清洗与规范,将数据存在标准化的数据结构中,依数字对象唯一标识符doi、篇名、作者等字段去重,生成索引,部分文献缺失的字段使用空字符NULL填充。
主题库以非监督学习的方式对文本集的隐含语义结构进行聚类统计,用于发现文献中的抽象主题。
检索式预处理模块采用分词算法对检索式进行分词,依据候选词表,保证医学专业名词短语不会被拆分;依据停用词表,去除无主要意义的符号、冠词、介词、副词、连词等,生成无序检索词表。
检索式规范模块用于接收规范词库以及检索式预处理模块的信息,并将无序检索词表与规范词库进行遍历匹配,此处匹配将会出现三种情况:第一种,检索词匹配到了规范词,即检索词本身就为规范词,则不做处理;第二种,检索词匹配到了扩展词,则将该检索词替换为扩展词;第三种检索词没有匹配到任何词,则不做处理。
进一步地,特征向量生成模块还用于接收检索式规范模块以及主题库的信息,将规范检索词表与主题库中的主题以及主题词进行匹配,具体地,通过主题模型可以得到固定的主题,主题中的词也是固定的,每篇文献都会对应几个主题,这几个主题中的词,可以理看作是这篇文章的主题词,用户在输入检索式时并不知道主题词具体有哪些,所以在检索时候输入的检索式,也可能不是主题词,这种时候就会返回为空。如果检索式中的检索词匹配到主题词,那就可以进行检索,会首先抽取出包含检索的主题词相关的主题,然后进行相似度计算,筛选出合适的主题,再主题去找文献。
在另一示例性实施例中,本发明提供一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行所述医学文献检索方法的步骤。
基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
在另一示例性实施例中,本发明提供一种终端,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,处理器运行计算机指令时执行所述医学文献检索方法的步骤。
处理器可以是单核或者多核中央处理单元或者特定的集成电路,或者配置成实施本发明的一个或者多个集成电路。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的处理器包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
以上具体实施方式是对本发明的详细说明,不能认定本发明的具体实施方式只局限于这些说明,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演和替代,都应当视为属于本发明的保护范围。
Claims (10)
1.一种基于主题的医学文献检索方法,其特征在于,包括以下步骤:
S1、将医学文献中常用词语进行标准化处理,构建规范词表;
S2、通过主题模型生成文献的主题集以及主题词集;
S3、对输入的检索式进行清洗,得到无序检索词表;
S4、遍历匹配所述规范词表,将所述无序检索词表中的检索词替换为匹配后的规范词,得到规范检索词表,并对所述规范检索词表中的检索词分配权重;
S5、遍历所述主题词集,选取其中每一个与规范检索词表中检索词相关的主题词对应的主题,形成各自的主题特征向量;将所述规范检索词表转换为检索式特征向量;
S6、计算检索式特征向量和每个主题特征向量的相似度,抽取其中相似度大于一定阈值的主题对应的文献,得到检索结果。
2.根据权利要求1所述的一种基于主题的医学文献检索方法,其特征在于,所述规范词表中包括规范词、规范缩写词、扩展词以及上/下位词。
3.根据权利要求1所述的一种基于主题的医学文献检索方法,其特征在于,所述通过主题模型生成文献的主题集以及主题词集,包括:
S21、抽取文献作为训练集,其中,选用文献所有有效字段当作文献的文本内容;
S22、对抽取的有效字段进行预处理,并通过所述规范词表进行规范;
S23、构建训练主题模型,其中基于困惑度选择主题数量K;
S24、使用主题模型处理文献并生成主题集及主题词集,同时获得文献的主题概率分布。
4.根据权利要求3所述的一种基于主题的医学文献检索方法,其特征在于,所述有效字段包括篇名、摘要以及关键词,同时对篇名、摘要以及关键词赋权重。
5.根据权利要求3所述的一种基于主题的医学文献检索方法,其特征在于,所述通过主题模型生成文献的主题集以及主题词集,还包括:
S25、构建主题层次结构,其中,根据不同主题间的主题词重叠情况判断主题之间的相似性。
6.根据权利要求2所述的一种基于主题的医学文献检索方法,其特征在于,所述遍历匹配所述规范词表,将所述无序检索词表中的检索词替换为匹配后的规范词,包括:
若检索词匹配到了规范词,则检索词本身就为规范词;
若检索词匹配到了扩展词,则将该检索词替换为扩展词;
若检索词没有匹配到任何词,则不做处理。
7.根据权利要求1所述的一种基于主题的医学文献检索方法,其特征在于,所述对所述规范检索词表中的检索词分配权重,包括:
根据检索词匹配到规范词的频次给予权重,频次越高,权重越高。
8.一种基于主题的医学文献检索系统,其特征在于,所述系统包括:
规范词库,用于将医学文献中常用词语进行标准化处理,构建规范词表;
主题库,用于通过主题模型生成文献的主题集以及主题词集;
检索式预处理模块,用于对输入的检索式进行清洗,得到无序检索词表;
检索式规范模块,用于遍历匹配所述规范词表,将所述无序检索词表中的检索词替换为匹配后的规范词,得到规范检索词表,并对所述规范检索词表中的检索词分配权重;
特征向量生成模块,用于遍历所述主题词集,选取其中每一个与规范检索词表中检索词相关的主题词对应的主题,形成各自的主题特征向量;还用于将所述规范检索词表转换为检索式特征向量;
文献抽取模块,通过计算检索式特征向量和每个主题特征向量的相似度,抽取其中相似度大于一定阈值的主题对应的文献,得到检索结果。
9.一种存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1-7中任意一项所述医学文献检索方法的步骤。
10.一种终端,包括存储器和处理器,存储器上存储有可在处理器上运行的计算机指令,其特征在于,处理器运行计算机指令时执行权利要求1-7中任意一项所述医学文献检索方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310306749.8A CN116303904A (zh) | 2022-12-27 | 2022-12-27 | 一种医学文献查找方法、系统、存储介质及终端 |
CN202211681611.8A CN115658851B (zh) | 2022-12-27 | 2022-12-27 | 基于主题的医学文献检索方法、系统、存储介质及终端 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211681611.8A CN115658851B (zh) | 2022-12-27 | 2022-12-27 | 基于主题的医学文献检索方法、系统、存储介质及终端 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310306749.8A Division CN116303904A (zh) | 2022-12-27 | 2022-12-27 | 一种医学文献查找方法、系统、存储介质及终端 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115658851A true CN115658851A (zh) | 2023-01-31 |
CN115658851B CN115658851B (zh) | 2023-04-04 |
Family
ID=85022515
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310306749.8A Withdrawn CN116303904A (zh) | 2022-12-27 | 2022-12-27 | 一种医学文献查找方法、系统、存储介质及终端 |
CN202211681611.8A Active CN115658851B (zh) | 2022-12-27 | 2022-12-27 | 基于主题的医学文献检索方法、系统、存储介质及终端 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310306749.8A Withdrawn CN116303904A (zh) | 2022-12-27 | 2022-12-27 | 一种医学文献查找方法、系统、存储介质及终端 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN116303904A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115858739A (zh) * | 2023-03-02 | 2023-03-28 | 中国中医科学院中国医史文献研究所 | 一种中医古籍文献检索系统 |
CN116759078A (zh) * | 2023-08-21 | 2023-09-15 | 药融云数字科技(成都)有限公司 | 支持双语输入的疾病循证方法、系统、存储介质及终端 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577579A (zh) * | 2013-11-08 | 2014-02-12 | 南方电网科学研究院有限责任公司 | 基于用户潜在需求的资源推荐方法及系统 |
CN106055540A (zh) * | 2016-06-01 | 2016-10-26 | 比美特医护在线(北京)科技有限公司 | 一种数据处理方法及装置 |
CN106547864A (zh) * | 2016-10-24 | 2017-03-29 | 湖南科技大学 | 一种基于查询扩展的个性化信息检索方法 |
CN108874755A (zh) * | 2018-06-28 | 2018-11-23 | 电子科技大学 | 基于MeSH的医学文献集相似性度量方法 |
CN111898366A (zh) * | 2020-07-29 | 2020-11-06 | 平安科技(深圳)有限公司 | 文献主题词聚合方法、装置、计算机设备及可读存储介质 |
CN112885478A (zh) * | 2021-01-28 | 2021-06-01 | 平安科技(深圳)有限公司 | 医疗文献的检索方法、装置、电子设备及存储介质 |
-
2022
- 2022-12-27 CN CN202310306749.8A patent/CN116303904A/zh not_active Withdrawn
- 2022-12-27 CN CN202211681611.8A patent/CN115658851B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103577579A (zh) * | 2013-11-08 | 2014-02-12 | 南方电网科学研究院有限责任公司 | 基于用户潜在需求的资源推荐方法及系统 |
CN106055540A (zh) * | 2016-06-01 | 2016-10-26 | 比美特医护在线(北京)科技有限公司 | 一种数据处理方法及装置 |
CN106547864A (zh) * | 2016-10-24 | 2017-03-29 | 湖南科技大学 | 一种基于查询扩展的个性化信息检索方法 |
CN108874755A (zh) * | 2018-06-28 | 2018-11-23 | 电子科技大学 | 基于MeSH的医学文献集相似性度量方法 |
CN111898366A (zh) * | 2020-07-29 | 2020-11-06 | 平安科技(深圳)有限公司 | 文献主题词聚合方法、装置、计算机设备及可读存储介质 |
WO2021139262A1 (zh) * | 2020-07-29 | 2021-07-15 | 平安科技(深圳)有限公司 | 文献主题词聚合方法、装置、计算机设备及可读存储介质 |
CN112885478A (zh) * | 2021-01-28 | 2021-06-01 | 平安科技(深圳)有限公司 | 医疗文献的检索方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
ZHIYONG LU: "PubMed and beyond: a survey of web tools for searching biomedical literature" * |
王诗炜 等: "基于科学论文和技术专利关联关系识别潜在知识发现方法研究综述" * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115858739A (zh) * | 2023-03-02 | 2023-03-28 | 中国中医科学院中国医史文献研究所 | 一种中医古籍文献检索系统 |
CN116759078A (zh) * | 2023-08-21 | 2023-09-15 | 药融云数字科技(成都)有限公司 | 支持双语输入的疾病循证方法、系统、存储介质及终端 |
CN116759078B (zh) * | 2023-08-21 | 2023-12-08 | 药融云数字科技(成都)有限公司 | 支持双语输入的疾病循证方法、系统、存储介质及终端 |
Also Published As
Publication number | Publication date |
---|---|
CN115658851B (zh) | 2023-04-04 |
CN116303904A (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Goyal et al. | Recent named entity recognition and classification techniques: a systematic review | |
Tang et al. | Sentiment embeddings with applications to sentiment analysis | |
Devika et al. | Sentiment analysis: a comparative study on different approaches | |
Alami et al. | Unsupervised neural networks for automatic Arabic text summarization using document clustering and topic modeling | |
CN106709040B (zh) | 一种应用搜索方法和服务器 | |
Cheng et al. | Contextual text understanding in distributional semantic space | |
Hamed et al. | A Question Answering System on Holy Quran Translation Based on Question Expansion Technique and Neural Network Classification. | |
CN115658851B (zh) | 基于主题的医学文献检索方法、系统、存储介质及终端 | |
CN110457708B (zh) | 基于人工智能的词汇挖掘方法、装置、服务器及存储介质 | |
CN111539197B (zh) | 文本匹配方法和装置以及计算机系统和可读存储介质 | |
Martín-Gutiérrez et al. | A deep learning approach for robust detection of bots in twitter using transformers | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
Ferreira et al. | Zero-shot semantic parser for spoken language understanding. | |
CN114911892A (zh) | 用于搜索、检索和排序的交互层神经网络 | |
Gupta et al. | A novel hybrid text summarization system for Punjabi text | |
Liu et al. | Open intent discovery through unsupervised semantic clustering and dependency parsing | |
Palagin et al. | Distributional semantic modeling: A revised technique to train term/word vector space models applying the ontology-related approach | |
Bai et al. | Rumor detection based on a source-replies conversation tree convolutional neural net | |
Prasanth et al. | Effective big data retrieval using deep learning modified neural networks | |
KR102543343B1 (ko) | 인공신경망 기반의 검색어 사전 생성 및 검색 방법 및 장치 | |
Gupta et al. | Songs recommendation using context-based semantic similarity between lyrics | |
Zhang et al. | An approach for named entity disambiguation with knowledge graph | |
Gupta et al. | Recent Query Reformulation Approaches for Information Retrieval System-A Survey | |
Neji et al. | HIR: a hybrid IR ranking model | |
Saeidi et al. | Graph representation learning in document wikification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |