CN116775897A - 知识图谱构建和查询方法、装置、电子设备及存储介质 - Google Patents
知识图谱构建和查询方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116775897A CN116775897A CN202310572803.3A CN202310572803A CN116775897A CN 116775897 A CN116775897 A CN 116775897A CN 202310572803 A CN202310572803 A CN 202310572803A CN 116775897 A CN116775897 A CN 116775897A
- Authority
- CN
- China
- Prior art keywords
- entity
- document
- basic research
- entities
- knowledge graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 63
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000003860 storage Methods 0.000 title abstract description 14
- 238000011160 research Methods 0.000 claims abstract description 225
- 230000001364 causal effect Effects 0.000 claims abstract description 67
- 238000012216 screening Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 22
- 238000002474 experimental method Methods 0.000 claims description 13
- 238000005457 optimization Methods 0.000 claims description 9
- 201000010099 disease Diseases 0.000 abstract description 42
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 abstract description 42
- 238000012549 training Methods 0.000 description 36
- 238000000605 extraction Methods 0.000 description 28
- 238000005516 engineering process Methods 0.000 description 12
- 238000011282 treatment Methods 0.000 description 12
- 238000005065 mining Methods 0.000 description 11
- 230000000875 corresponding effect Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 239000003814 drug Substances 0.000 description 8
- KZMAWJRXKGLWGS-UHFFFAOYSA-N 2-chloro-n-[4-(4-methoxyphenyl)-1,3-thiazol-2-yl]-n-(3-methoxypropyl)acetamide Chemical compound S1C(N(C(=O)CCl)CCCOC)=NC(C=2C=CC(OC)=CC=2)=C1 KZMAWJRXKGLWGS-UHFFFAOYSA-N 0.000 description 7
- 238000013145 classification model Methods 0.000 description 7
- 229940079593 drug Drugs 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 7
- 230000001575 pathological effect Effects 0.000 description 6
- 230000008288 physiological mechanism Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000009412 basement excavation Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 244000005700 microbiome Species 0.000 description 4
- 210000000056 organ Anatomy 0.000 description 4
- 238000005192 partition Methods 0.000 description 4
- 230000008289 pathophysiological mechanism Effects 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000002596 correlated effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000009897 systematic effect Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 108091033409 CRISPR Proteins 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000010197 meta-analysis Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008506 pathogenesis Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004393 prognosis Methods 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 230000019491 signal transduction Effects 0.000 description 2
- 238000010354 CRISPR gene editing Methods 0.000 description 1
- 238000012228 RNA interference-mediated gene silencing Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000006806 disease prevention Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000009368 gene silencing by RNA Effects 0.000 description 1
- 238000001415 gene therapy Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000001404 mediated effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002018 overexpression Effects 0.000 description 1
- 239000013612 plasmid Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 235000019633 pungent taste Nutrition 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000001890 transfection Methods 0.000 description 1
- 239000013603 viral vector Substances 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种知识图谱构建和查询方法、装置、电子设备及存储介质,其中方法包括:获取目标文献集合,目标文献集合包括多个基础研究文献;对各基础研究文献中的语句进行实体识别,得到各基础研究文献所包含的实体对,实体对包括实体以及实体之间的实体关系;基于各基础研究文献所包含实体的类型,确定实体关系的因果强度;基于各基础研究文献的文献引用信息,确定实体对的热度;基于实体、实体关系、因果强度和热度,构建知识图谱。本发明提供的知识图谱构建和查询方法、装置、电子设备及存储介质,可以对海量生物医学数据中的信息进行高效、全面、准确地梳理并构建知识图谱,帮助用户快速获知疾病的根本原因。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种知识图谱构建和查询方法、装置、电子设备及存储介质。
背景技术
随着信息技术的发展,在互联网上拥有的信息资源越来越丰富,信息数据规模越来越巨大,表现形式也越来越多样。如何实现人机间的信息交流,智能地筛选、处理海量的数据是人工智能领域的技术突破重点。
在当今的生物医学研究中,越来越多的生物医学数据被生成和积累,最终以文献、会议摘要、实验数据等形式存留下来。这些数据的快速积累和不断扩大,使得研究人员面临着巨大的挑战,如何从这些庞杂、异质性巨大的数据中提取真正有转化意义的信息和知识,以更好地理解疾病的根本原因及其治疗方法,成为了当前生物医学研究的重要任务。
发明内容
本发明提供一种知识图谱构建和查询方法、装置、电子设备及存储介质,用以解决现有技术中从海量数据中提取的有效信息不全面、不准确,信息挖掘提取效率低的问题。
本发明提供一种知识图谱构建方法,包括:
获取目标文献集合,所述目标文献集合包括多个基础研究文献;
对各基础研究文献中的语句进行实体识别,得到各基础研究文献所包含的实体对,所述实体对包括实体以及所述实体之间的实体关系;
基于各基础研究文献所包含实体的类型,确定所述各基础研究文献所包含实体之间的实体关系的因果强度;
基于各基础研究文献的文献引用信息,确定所述各基础研究文献所包含实体对的热度;
基于所述实体、所述实体关系、所述因果强度和所述热度,构建知识图谱。
根据本发明提供的一种知识图谱构建方法,所述获取目标文献集合,包括:
获取初始文献集合;
基于所述初始文献集合中各初始文献的出版类型,从所述初始文献集合中筛除二次加工文献和临床研究文献,得到候选文献集合;
从所述候选文献集合中筛选基础研究文献,以构建所述目标文献集合。
根据本发明提供的一种知识图谱构建方法,所述基于所述初始文献集合中各初始文献的出版类型,从所述初始文献集合中筛除二次加工文献和临床研究文献,得到候选文献集合,包括:
基于所述初始文献集合中各初始文献的出版类型,从所述初始文献集合中筛除二次加工文献和临床研究文献,得到第一文献集合;
基于所述第一文献集合中各第一文献的出版类型和出版时间,从所述第一文献集合中筛选第二文献,所述第二文献为所述出版类型待更新的第一文献;
将所述第二文献输入文献分类器,得到所述文献分类器输出的所述第二文献的文献类型;
将所述文献类型为非基础研究文献的第二文献从所述第一文献集合中删除,得到所述候选文献集合。
根据本发明提供的一种知识图谱构建方法,所述对各基础研究文献中的语句进行实体识别,得到各基础研究文献所包含的实体对,包括:
获取各基础研究文献的标题文本和摘要文本;
将所述标题文本和摘要文本输入至语句分类器,得到所述语句分类器输出的所述标题文本和摘要文本中各语句的语句类型;
对所述语句类型为待识别的语句进行实体识别,得到各基础研究文献所包含的实体对。
根据本发明提供的一种知识图谱构建方法,所述进行实体识别,得到各基础研究文献所包含的实体对,包括:
对所述语句进行实体识别,得到所述语句中的实体和代词;
将所述实体和所述代词输入至指代关系分类器,得到所述指代关系分类器输出的所述实体与所述代词之间的指代关系;
在所述指代关系为是的情况下,将所述语句中的代词替换为对应实体,得到优化语句;
将所述优化语句,以及所述优化语句中的实体输入实体关系分类器,得到所述实体关系分类器输出的所述实体之间的实体关系。
根据本发明提供的一种知识图谱构建方法,所述进行实体识别,得到各基础研究文献所包含的实体对,还包括:
将所述优化语句,以及所述优化语句中的实体,填充至关系问询模板,得到关系问询语句;
将所述关系问询语句输入问答语言模型,得到所述问答语言模型输出的所述实体关系。
根据本发明提供的一种知识图谱构建方法,所述基于各基础研究文献所包含实体的类型,确定所述各基础研究文献所包含实体之间的实体关系的因果强度,包括:
若所述基础研究文献所包含实体的类型包括干预实验技术实体,则将所述基础研究文献中实体关系的因果强度确定为强相关;
否则将所述基础研究文献中实体关系的因果强度确定为弱相关。
本发明还提供一种查询方法,包括:
获取待查询的目标实体;
基于知识图谱,确定所述目标实体的相关知识信息;
所述知识图谱是基于如上述任一种所述的知识图谱构建方法确定的。
本发明还提供一种知识图谱构建装置,包括:
文献获取单元,用于获取目标文献集合,所述目标文献集合包括多个基础研究文献;
实体获取单元,用于对各基础研究文献中的语句进行实体识别,得到各基础研究文献所包含的实体对,所述实体对包括实体以及所述实体之间的实体关系;
强度确定单元,用于基于各基础研究文献所包含实体的类型,确定所述各基础研究文献所包含实体之间的实体关系的因果强度;
热度确定单元,用于基于各基础研究文献的文献引用信息,确定所述各基础研究文献所包含实体对的热度;
图谱构建单元,基于所述实体、所述实体关系、所述因果强度和所述热度,构建知识图谱。
本发明还提供一种查询装置,包括:
获取单元,用于获取待查询的目标实体;
查询单元,用于基于知识图谱,确定所述目标实体的相关知识信息,所述知识图谱是基于如上述任一项所述的知识图谱构建方法确定的。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述知识图谱构建方法,或查询方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述知识图谱构建方法,或查询方法的步骤。
本发明提供的知识图谱构建和查询方法、装置、电子设备及存储介质,通过获取多个基础研究文献,对各基础研究文献中的语句进行实体识别,全面、准确地挖掘得到实体以及实体之间的实体关系,基于实体、实体关系、因果强度,并结合基于各基础研究文献的相关信息挖掘得到的热度,构建知识图谱,从而使得海量生物医学数据中的信息能够被全面、准确地提炼到知识图谱中,从而提高信息挖掘、提炼的效率和可靠性,降低信息挖掘所需消耗的时间和成本。并且在知识图谱中标示了实体关系的因果强度和热度,使得信息展示更加直观。由此构建得到的知识图谱,可以帮助用户快速获知疾病的根本原因,并对其治疗方法提供新见解。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的知识图谱构建方法的流程示意图;
图2是本发明提供的知识图谱的结构示意图;
图3是本发明提供的知识图谱构建方法中步骤110的流程示意图;
图4是本发明提供的知识图谱构建方法中步骤112的流程示意图;
图5是本发明提供的知识图谱构建方法中步骤120的流程示意图;
图6是本发明提供的知识图谱构建方法中步骤130的流程示意图;
图7是本发明提供的查询方法的流程示意图;
图8是本发明提供的知识图谱构建装置的结构示意图;
图9是本发明提供的查询装置的结构示意图;
图10是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,随着智能信息服务应用的不断发展,机器学习作为一种强大的数据分析和处理工具,已经被广泛应用于生物医学研究中。通过机器学习算法的应用,可以从大规模的生物医学数据中发现新的关联和模式,揭示疾病的潜在机制和治疗靶点,为疾病的根本原因及其治疗方法提供新的见解。
为了能够帮助机器更好地理解文本数据,知识图谱技术应运而生。知识图谱是一种以自然语言处理(NLP)为中心,结合应用数学、图形学、信息可视化的多种技术的知识组织形式和规范。知识图谱本质上是一种语义网络,由代表实体(Entity)的节点和代表实体之间关系的边构成。通俗地讲,知识图谱就是把所有不同种类的信息连接在一起而得到的一个关系网络,通过对错综复杂的文档数据进行有效的加工、处理、整合,转化为简单、清晰的“实体,关系,实体”的三元组,最后聚合大量知识,从而实现知识的快速响应和推理。
现有的医学文献检索数据库PubMed收录了3000余万篇论文,描述了分子、疾病等生物实体之间的关系,一方面,实体间的关系很复杂,而且非结构化的文本数据不易利用,并且由于科研工作的复杂性、论文质量的参差不齐,导致这些实体关系并不是完全可信;另一方面,研究人员不仅关注已经确证的实体关系,同时还关注有迹象但尚待进一步确证的实体关系,从而开展进一步的研究,获得科研成果。对此,本发明实施例提供一种知识图谱构建方法,通过构建系统性、结构化、标示了因果关系强度的实体关系知识图谱,以辅助研究人员做出更准确的数据驱动的企业及研究决策。
图1是本发明提供的知识图谱构建方法的流程示意图,如图1所示,该方法包括:
步骤110,获取目标文献集合,目标文献集合包括多个基础研究文献;
具体地,基础研究是对人体正常生理机制和病理机制的基础性科学研究,具有高因果关系论证强度的优势,可以为临床医学的诊断、治疗、预后提供理论基础和科学支持。基础研究文献是指文献内容与上述基础研究相关的文献,目标文献集合可以是包括多个与上述基础研究相关的文献集合。
目标文献集合可以是从包括有大量医学、生物学、健康学或护理学等相关文献的文献检索数据库中获取得到的,例如可以从PubMed、Web of Science、MedPeer等文献检索数据库中获取得到目标文献集合,本发明实施例对此不作具体限定。
在获取目标文献集合时,可以基于目标特征对文献检索数据库中的所有文献进行筛选,从中筛选出目标涉及基础研究的文献,从而得到目标文献集合。此处的目标特征是指与文献检索数据库中的文献相关并且能够判断文献是否属于基础研究文献的特征,如文献类型、文献的出版类型(publication_type)等。对文献检索数据库中的所有文献进行筛选的方式,可以是通过规则匹配实现,也可以通过文本二分类的方式实现,还可以通过规则匹配结合文本二分类的方式进行实现。本发明实施例对此不作具体限定。
步骤120,对各基础研究文献中的语句进行实体识别,得到各基础研究文献所包含的实体对,实体对包括实体以及实体之间的实体关系;
具体地,在获取到目标文献集合后,对目标基础研究文献中的语句进行实体识别,此处的目标基础研究文献是指目标文献集合中的各基础研究文献,此处的语句是指目标基础研究文献中的文本信息。实体是知识图谱中的最基本元素,不同的实体之间存在不同的关系,即实体关系,当两个实体之间存在关系时,这两个实体以及它们之间的实体关系就构成了实体对。
为了从目标基础研究文献中对疾病发病机制相关生物实体以及实体之间的实体关系进行高效、全面、准确的挖掘,可以预先对实体进行定义,例如,实体可以包括疾病实体、分子实体、药物实体、病生理机制实体、信号通路实体、器官或组织实体、细胞实体、微生物实体、基线特征实体以及实验技术实体,其中,疾病实体、分子实体、药物实体、病生理机制实体、信号通路实体、器官或组织实体、细胞实体、微生物实体以及基线特征实体用于作为知识图谱中的实体节点,实验技术实体用于判别实体之间的实体关系强度。
对于上述预先定义的每一类实体,可以预先构建标准字典,用于实体的抽取和归一化。在预先构建标准字典时,可以基于MeSH(Medical Subject Headings,医学主题词表)、HGNC(HUGO Gene Nomenclature Committee,人类基因命名数据库)和企业自主积累的内部数据进行构建,本发明实施例对此不作具体限定。例如,从MeSH中获取标准字典的相关实体时,可以基于目标需求,预设相适应的纳入和排除规则,从MeSH树状结构中进行过滤。以预先构建标准字典中的疾病实体为例,MeSH包含了各种疾病的主题词汇,在从MeSH中获取疾病相关实体时,可以预设与疾病实体相适应的纳入和排除规则,对MeSH树状结构中的疾病词汇进行过滤,从而构建得到标准字典中的疾病实体。
基于已经预先构建的标准字典中的众多实体,可以对目标基础研究文献中的语句进行实体识别,从而得到目标基础研究文献中所包含的所有实体。在获得众多的实体后,还需要判别实体之间的关系,将这些实体关联起来,从而得到实体之间的实体关系。为了对实体间的关系进行准确判别,提高最终得到的实体关系的可靠性,可以预先基于专家经验对实体关系进行定义,所述实体关系包括但不限于:正向(上调、激活、促进)、负向(下调、失活、抑制)、包含、治疗等;例如,分子A和分子B的实体关系包括但不限于:分子A促进了分子B的功能、分子A抑制了分子B的功能;分子A和信号通路1的实体关系包括但不限于:分子A是信号通路1的一个成员;药物A和疾病B的实体关系包括但不限于:药物A治疗疾病B。
在抽取得到目标基础研究文献所包含的所有实体后,可以基于预先定义的实体关系并结合目标基础研究文献中的语句,对不同实体之间的关系进行判断,得到实体之间的实体关系,从而获得若干实体对。
步骤130,基于各基础研究文献所包含实体的类型,确定各基础研究文献所包含实体之间的实体关系的因果强度;
具体地,实体关系的因果强度是指实体之间的关系强度,在获取得到目标基础研究文献所包含的所有实体后,需要对实体之间的关系进行判别,当判断两个实体之间不存在关系时,表明这两个实体没有关联,则可以确定这两个实体之间的实体关系的因果强度为不相关;当两个实体之间存在关系时,表明这两个实体有关联,则可以确定这两个实体之间的实体关系的因果强度为相关。
为了更好地对实体关系的因果强度进行区分,以便用户快速获知实体间的关系强度,更好地了解疾病的根本原因,可以在实体关系的因果强度为相关时,进一步将因果强度分为强相关和弱相关。为了更清楚、准确的得到实体之间的实体关系的因果强度,可以基于目标基础研究文献所包含实体的类型进行判断,此处实体的类型是指可以用于判别实体间关系强度的一类实体,例如,实体的类型可以为上述预先定义实体中的实验技术实体。实验技术实体是指与整个实验过程中所采取的主要手段和主要方式方法有关的实体,其所包括的技术实体众多,因此基于实验技术实体的具体内容,可以判断目标基础研究文献所包含实体之间的实体关系的因果强度为强相关或弱相关,从而得到准确的实体关系的因果强度。
在根据实验技术实体对实体之间的实体关系的因果强度进行判别时,可以基于预设判别规则进行判断确定。此处的预设判别规则可以为实验技术实体包括预设实验技术实体,由于两个实体之间已经形成了关系,因此,当实验技术实体包括预设实验技术实体时,则可以确定这两个实体之间的实体关系的因果强度为强相关;当实验技术实体不包括预设实验技术实体时,则可以确定这两个实体之间的实体关系的因果强度为弱相关。此处的预设实验技术实体为实验技术实体中可以用于判别两个实体间的实体关系的因果强度为强相关的一类实体,例如,预设实验技术实体可以为干预实验技术实体。需要说明的是,在基于实验技术实体判别实体之间的实体关系的因果强度时,实验技术实体与所需要判别的实体均是基于同一目标基础研究文献抽取得到的。
步骤140,基于各基础研究文献的文献引用信息,确定各基础研究文献所包含实体对的热度;
具体地,文献引用信息是指目标基础研究文献被引用的相关信息和数据,可以用来评价目标基础研究文献的影响力和有用性,文献引用信息包括但不限于下述至少一种:影响因子、JCR(Journal Citation Reports,期刊引用报告)分区、中科院分区、引用数、月平均引用数等。在确定实体对的热度时,可以先基于文献引用信息对每个目标基础研究文献进行打分,获得每个目标基础研究文献的影响力分值,再基于实体对出现的所有目标基础研究文献的影响力分值,获得实体对的热度。
此处,在获得每个目标基础研究文献的影响力分值时,首先获取每个目标基础研究文献的文献引用信息,即影响因子、JCR分区、中科院分区、引用数以及月平均引用数等指标,然后可以对上述所有指标进行综合考量后对目标基础研究文献进行打分,分值可以设定为1~5分,得到的分值即为该目标基础研究文献的影响力分值。也可以基于上述各个指标分别对每个目标基础研究文献进行打分,获得每个指标对应的分值,例如,基于影响因子对目标基础研究文献进行打分时,可以将影响因子划分为0~20%、21%~40%、41%~60%、61%~80%、81%~100%五档,每一档依次对应1分、2分、3分、4分、5分,当获取到目标基础研究文献的影响因子为57%时,可以为该目标基础研究文献打3分,在获得每个指标对应的分值后,将所有指标对应的分值之和作为该目标基础研究文献的影响力分值。本发明实施例对获得目标基础研究文献的影响力分值的方式不作具体限定。
在获得每个目标基础研究文献的影响力分值后,可以基于实体对出现的所有目标基础研究文献进行二次加权打分,从而获得实体对的热度,基于实体对的热度构建知识图谱,可以帮助用户从知识图谱中快速地查询到实体的相关知识信息。
步骤150,基于实体、实体关系、因果强度和热度,构建知识图谱。
具体地,知识图谱本质上是一种语义网络,由代表实体的节点和代表实体之间关系的边构成。在基于目标文献集合中的各基础研究文献获得实体和实体关系后,可以基于实体和实体关系构建知识图谱,每个实体构成知识图谱中的节点,每个实体关系构成知识图谱中实体与实体之间的边连接,实体与实体之间的具体关系(即实体关系的具体内容)构成边的属性。为了使构建的知识图谱更加清楚、全面、准确,可以在实体与实体关系的基础上,还基于实体关系的因果强度和实体对的热度构建知识图谱,例如,可以通过边的粗细表示该实体对的热度,通过不同的颜色表示不同的因果强度,从而便于用户快速从知识图谱中获取相关知识信息。
图2是本发明实施例提供的知识图谱的结构示意图,如图2所示,该知识图谱中包括的实体有疾病1、疾病2、分子1、分子2、分子3、细胞1和细胞2,每个实体构成了一个节点,包括的实体对有(分子1,关系1,细胞1)、(细胞1,关系2,细胞2)、(分子1,关系3,疾病1)、(细胞2,关系3,分子2)、(疾病1,关系4,分子3)以及(分子2,关系5,疾病2),每个实体关系构成了一个边连接,实体关系的具体内容构成了边的属性;边越粗表示实体对的热度越高,如图2中所示的(分子1、关系1、细胞1)、(细胞1,关系2,细胞2)以及(细胞2,关系3,分子2)这三个实体对的热度相对较高;不同因果强度的实体对可用不同颜色进行区分,如图2中所示的分子1和细胞1之间的实体关系的因果强度为强相关。此外,还可通过节点大小表示涉及该实体的基础研究文献的数量,如图2中所示的分子1构成的节点最大,表明涉及分子1的基础研究文献的数量最多。
本发明实施例提供的知识图谱构建方法,通过获取多个基础研究文献,对各基础研究文献中的语句进行实体识别,全面、准确地挖掘得到实体以及实体之间的实体关系,基于实体、实体关系、因果强度,并结合基于各基础研究文献的相关信息挖掘得到的热度,构建知识图谱,从而使得到海量生物医学数据中的信息能够被全面、准确地提炼到知识图谱中,从而提高信息挖掘、提炼的效率和可靠性,降低信息挖掘所需消耗的时间和成本。并且在知识图谱中标示了实体关系的因果强度和热度,使得信息展示更加直观。
由此构建得到的知识图谱,可以帮助用户快速获知疾病的根本原因,并对其治疗方法提供新见解。
基于上述实施例,图3是本发明提供的知识图谱构建方法中步骤110的流程示意图,如图3所示,步骤110包括:
步骤111,获取初始文献集合;
具体地,初始文献集合是指文献检索数据库中的所有文献汇总,初始文献集合可以从不同来源的文献检索数据库中获取得到,如PubMed、Web of Science、MedPeer等,本发明实施例对此不作具体限定。
应理解的是,可以将不同来源获得的初始文献集合合并后,再筛选目标文献集合;也可以先对不同来源获得的初始文献集合进行筛选,基于得到的目标文献集合构建知识图谱,再将知识图谱进行联合,例如,在从PubMed获取得到初始文献集合后,对该初始文献集合进行筛选,得到目标文献集合,基于该目标文献集合可以构建得到第一知识图谱;在从Web of Science获取得到初始文献集合后,对该初始文献集合进行筛选,得到目标文献集合,基于该目标文献集合可以构建得到第二知识图谱。可以将第一知识图谱与第二知识图谱进行联合,得到知识图谱。
步骤112,基于初始文献集合中各初始文献的出版类型,从初始文献集合中筛除二次加工文献和临床研究文献,得到候选文献集合;
具体地,一次文献是人们直接以自己的生产、科研、社会活动等实践经验为依据生产出来的文献,又称为原始文献;二次加工文献是对一次文献进行加工整理后的产物,即对无序的一次文献的外部特征如题名、作者、出处等进行著录,或将其内容压缩成间接、提要或文摘,并加以有序化而形成的文献形式,如目录、综述、指南等。临床研究是以疾病的诊断、治疗、预后、病因和预防为主要研究内容,以患者为主要研究对象,以医疗服务机构为主要研究基地,由多学科人员共同参与组织实施的科学研究活动,临床研究文献是指文献内容与上述科学研究活动相关的文献。与二次加工文献和临床研究文献相比,基础研究文献中的内容与人体正常生理机制和病理机制的基础性科学研究相关,具有高因果关系论证强度的优势,因此,在对初始文献集合进行筛选时,可以基于出版类型进行初筛,从初始文献集合中过滤掉二次加工文献和临床研究文献,从而得到目标涉及基础研究的文献集合,即候选文献集合。
在基于出版类型对初始文献集合进行筛选时,可以通过规则匹配的方式实现,初始文献集合中的每个初始文献至少对应一个出版类型,因此,具体的规则匹配方式可以为:如果初始文献的出版类型包含第一出版类型中的至少一个且不包含第二出版类型中的任意一个,则认为该初始文献为目标涉及基础研究的文献;否则认为该初始文献为二次加工文献或临床研究文献,并将其从初始文献集合中删除。此处的第一出版类型可以包括“Journal Article(期刊文章)”、“Letter(快报)”;第二出版类型可以包括"RandomizedControlled Trial(随机对照试验)"、"Controlled Clinical Trial(对照临床试验)"、"Clinical Trial,Phase I(一期临床试验)"、"Clinical Trial,Phase II(二期临床试验)"、"Clinical Trial,Phase III(三期临床试验)"、"Clinical Trial,Phase IV(四期临床试验)"、"Randomized Controlled Trial,Veterinary(兽医随机对照试验)"、"Systematic Review(系统综述)"、"Meta-Analysis(荟萃分析)"、"Practice Guideline(实践指南)"、"Guideline(指导方针)"。
在基于出版类型对初始文献集合进行筛选时,也可以通过文本二分类模型进行实现,文本二分类模型为常用的文本分类模型,可以依据出版类型将初始文献集合中的所有初始文献划分为两个类别,即基础研究文献和非基础研究文献,将初始文献集合中的各初始文献输入至文本二分类模型,可以得到文本二分类模型输出的该初始文献“是”“否”为基础研究文献,若该初始文献不是基础研究文献,则将其从初始文献集合中删除。
在基于出版类型对初始文献集合进行筛选时,还可以通过规则匹配结合文本二分类的方式进行实现,在此不再赘述。
由于文献检索数据库中提供的出版类型具有一定的时间滞后性,为了保证精确筛选最新出版的基础研究文献,可以在对初始文献集合进行初筛得到候选文献集合后,再对候选文献集合进行精确筛选,从而确保得到的目标文献集合中的文献均为基础研究文献,有利于后续从目标文献集合各基础研究文献中高效、准确地抽取得到实体和实体关系,提高知识图谱构建的效率和准确度。
步骤113,从候选文献集合中筛选基础研究文献,以构建目标文献集合。
具体地,在对候选文献集合进行精确筛选时,可以基于预训练模型加微调的文献分类器进行筛选,首先对候选文献集合中各候选文献的文本数据进行预处理,将其转换为可以输入模型的形式,将经过转换后的文本数据输入至文献分类器,通过文献分类器进行分类,判断该候选文献是否属于基础研究文献,若该候选文献不属于基础研究文献,则将其从候选文献集合中删除,从而基于最终得到的候选文献集合构建目标文献集合。
示例性的,在初始文献集合是从PubMed中获取得到的情况下,上述预训练模型可以选用PubMedBert预训练模型,该模型是在医学领域训练的BERT(Bidirectional EncoderRepresentation from Transformers)模型,其预训练数据来自于PubMed的摘要和全文文章,因此该模型能够理解医学领域的专业术语和语言。在获取预训练模型时,可以从Hugging Face网站的模型库中下载并导入PubMedBert预训练模型,其包括预训练的权重和相应的配置文件,在导入模型时需要指定使用的模型和配置文件。
在获取到PubMedBert预训练模型后,可以使用该预训练模型作为基础,在目标数据集上进行微调。此处的目标数据集是基于上述规则匹配的方式自动构造的训练数据,将满足上述规则的文献数据加入正例,不满足的加入负例,无需人工标注训练数据,从而节省大量时间和资源。为了使模型能够对训练样本进行分类并输出训练样本是否属于基础研究文献,可以在模型的预训练层之上添加一个全连接输出层,用于对训练样本进行分类并判断该训练样本是否属于基础研究文献,此处的训练样本是指训练数据中的样本文献。在微调训练期间,先对目标数据集中的数据进行预处理,将其转换为可以输入模型的形式,得到转换后的文本数据,然后将文本数据输入至预训练模型,文本数据经过预训练模型的输入层和Transformer编码器处理,并在预训练层上提取特征,然后将提取得到的特征输入到全连接层进行分类判断。全连接层的权重和偏置根据训练数据进行更新,以最小化目标数据集上的损失函数,从而得到基于预训练模型加微调的文献分类器。可理解的是,微调训练期间,可以使用相应的训练策略和超参数来优化模型性能。
本发明实施例先基于出版类型对初始文献集合进行初筛,得到候选文献集合,后通过基于预训练模型加微调的文献分类器对候选文献集合进行精确筛选,可以确保得到的目标文献集合中的文献均为基础研究文献,从而有利于后续从目标文献集合的各基础研究文献中高效、准确地抽取得到实体和实体关系,提高知识图谱构建的效率和准确度。
基于上述实施例,图4是本发明提供的知识图谱构建方法中步骤112的流程示意图,如图4所示,步骤112包括:
步骤1121,基于初始文献集合中各初始文献的出版类型,从初始文献集合中筛除二次加工文献和临床研究文献,得到第一文献集合;
具体地,二次加工文献是对一次文献进行加工整理后的产物,其文献内容没有一次文献全面,若基于二次加工文献进行实体识别和抽取,易导致最终构建的知识图谱不够全面;而临床研究文献中的内容与人体正常生理机制和病理机制的基础性科学研究无关,对构建疾病知识图谱的作用不大,因此在对初始文献进行筛选时,需要将二次加工文献和临床研究文献从初始文献集合中删除,从而得到目标涉及基础研究的第一文献集合。
在对初始文献集合进行筛选得到第一文献集合时,可以基于规则匹配的方式实现,也可以通过文本二分类的方式实现,还可以通过规则匹配结合文本二分类的方式实现,本发明实施例对此不作具体限定,具体实现过程可以参考上述步骤112的实施例,在此不再赘述。
由于文献检索数据库中提供的出版类型具有一定的时间滞后性,例如对于PubMed提供的出版类型仅为“Journal Article”且出版时间在12个月以内的文献,通常认为该文献的出版类型仍待更新,因此,为了避免对此类型的文献筛选错误,可以直接使用上述实施例中的文献分类器对此类型的文献进行筛选,从而确保最终筛选得到的文献均为基础研究文献。
步骤1122,基于第一文献集合中各第一文献的出版类型和出版时间,从第一文献集合中筛选第二文献,第二文献为出版类型待更新的第一文献;
具体地,第一文献是指第一文献集合中包括的各基础研究文献,在对初始文献集合进行筛选得到第一文献集合后,由于第一文献集合中可能存在有出版类型待更新的第一文献,此类第一文献的出版类型并不准确,因此,为了对此类第一文献进行精确筛选,可以基于出版类型和出版时间对第一文献集合中所有的第一文献进行筛选,从中筛选出出版类型和出版时间满足预设条件的第一文献,即可得到第二文献。此处出版类型和出版时间满足预设条件的第一文献,即为出版类型待更新的第一文献,也就是上述第二文献。需要说明的是,此处的预设条件可以是出版类型仅为“Journal Article”且出版时间在12个月以内。
在基于出版时间和出版类型对第一文献集合进行筛选时,可以获取第一文献集合中每个第一文献的出版时间和出版类型,将出版时间和出版类型与预设条件进行比较,若满足预设条件,则认为该第一文献的出版类型待更新,可以将该第一文献作为第二文献。
步骤1123,将第二文献输入文献分类器,得到文献分类器输出的第二文献的文献类型;
具体地,此处的文献分类器可为上述实施例中的基于预训练模型加微调的文献分类器,在筛选得到第二文献后,可以先对第二文献的文本数据进行预处理,将其转换为可以输入模型的形式,将经过转换后的文本数据输入至文献分类器,通过文献分类器进行分类,得到文献分类器输出的第二文献的文献类型。此处的文献类型可以用于判断第二文献是否属于基础研究文献。文献类型可以包括若干种,文献分类器可以基于第二文献的内容对第二文献进行分类,输出得到第二文献的文献类型,该文献类型可能为一个或多个。
步骤1124,将文献类型为非基础研究文献的第二文献从第一文献集合中删除,得到候选文献集合。
具体地,在判断第二文献为基础研究文献或非基础研究文献时,可以基于文献分类器输出得到的第二文献的文献类型进行判断,在第二文献的文献类型包含第一文献类型中的至少一个且不包含第二文献类型中的任意一个的情况下,认为该第二文献为基础研究文献;否则认为该第二文献为非基础研究文献。在确定第二文献为非基础研究文献的情况下,将该第二文献从第一文献集合中删除,从而得到候选文献集合。此处的第一文献类型可以包括“Journal Article”、“Letter”;第二文献类型可以包括"Randomized ControlledTrial"、"Controlled Clinical Trial"、"Clinical Trial,Phase I"、"Clinical Trial,Phase II"、"Clinical Trial,Phase III"、"Clinical Trial,Phase IV"、"RandomizedControlled Trial,Veterinary"、"Systematic Review"、"Meta-Analysis"、"PracticeGuideline"、"Guideline"。
本发明实施例先基于出版类型对初始文献集合进行筛选,将初始文献集合中的二次加工文献和临床研究文献删除,得到第一文献集合,然后基于出版类型和出版时间对第一文献集合进行筛选,从中筛选得到出版类型待更新的第一文献,将此类第一文献作为第二文献,最后通过文献分类器对第二文献进行分类判断,可以避免对此类出版类型待更新的文献筛选错误,不仅可以避免遗漏其中的基础研究文献,还可以避免误将其中的非基础研究文献作为目标基础研究文献,从而确保后续从目标文献集合的各基础研究文献中抽取得到的实体及实体关系更加准确、全面。
基于上述任一实施例,图5是本发明提供的知识图谱构建方法中步骤120的流程示意图,如图5所示,步骤120包括:
步骤121,获取各基础研究文献的标题文本和摘要文本;
具体地,在从目标文献集合各基础研究文献的文本中抽取实体及实体关系时,由于各基础研究文献整体的文本篇幅很长,而且其中大部分都是冗余信息,因此,为了提高实体识别抽取的效率,可以将文本的抽取范围设定为标题文本和摘要文本。在获取得到各基础研究文献的文本信息后,可以基于文本信息对标题信息和摘要信息进行提取,从而得到标题文本和摘要文本。
为了进一步提高实体挖掘抽取的效率,可以通过执行下述步骤122和步骤123,对标题文本和摘要文本进行分类判断,从标题文本和摘要文本中区分主要信息和次要信息,将标题文本和摘要文本中包含主要信息的语句进行保留,而将标题文本和摘要文本中包含次要信息的语句进行舍弃,从而针对保留下来的标题文本和摘要文本中的语句进行实体识别,进一步提高实体抽取的效率。
步骤122,将标题文本和摘要文本输入至语句分类器,得到语句分类器输出的标题文本和摘要文本中各语句的语句类型;
具体地,语句分类器是基于人工标注的训练数据对预训练模型进行训练后得到的,用于判断识别标题文本和摘要文本中各语句的语句类型。此处的语句类型包括待识别的语句和无需识别的语句,其中待识别的语句是指标题文本和摘要文本中包含主要信息的语句,无需识别的语句是指标题文本和摘要文本中不包含主要信息的语句,上述主要信息是指与待抽取的实体和实体关系相关的文本信息。
将获取得到的目标基础研究文献的标题文本和摘要文本输入语句分类器,通过语句分类器进行分类,判断该目标基础研究文献的标题文本和摘要文本中各语句的语句类型,若该语句中包含有主要信息,则将该语句保留下来,并输出该语句的语句类型为待识别的语句;若该语句中不包含主要信息,则将该语句进行舍弃。
在执行步骤122之前,可以训练得到语句分类器,具体可以通过如下方式训练得到语句分类器:获取预训练模型,例如PubMedBert预训练模型,收集大量样本标题文本和摘要文本,通过人工对样本标题文本和摘要文本中各语句的语句类型进行标注识别,基于样本标题文本和摘要文本以及人工标注的语句类型,对预训练模型进行训练,得到语句分类器。
步骤123,对语句类型为待识别的语句进行实体识别,得到各基础研究文献所包含的实体对。
具体地,待识别的语句是指标题文本和摘要文本中经过语句分类器分类判断后保留下来的包含有主要信息的语句。在对该类型的语句进行实体识别时,首先,可以基于预先构建的标准字典,使用规则匹配的方案进行实体抽取,将所有预先构建的标准字典中出现过的实体都抽取出来,保证基于标准字典的实体抽取的精确性;其次,由于仍有很多实体或实体别名可能未被预先构建的标准字典包含,可以采用命名实体识别模型进一步对待识别的语句进行实体识别抽取,通过命名实体识别模型对语句中的语义进行解析,从而抽取得到构建知识图谱所需要的实体,确保最终抽取得到的实体更加全面准确。
需要说明的是,此处的命名实体识别模型是自然语言处理领域中一项基础的信息抽取任务模型,用于从给定的文本中识别出其中的命名实体,并对实体进行分类。由于所要抽取的实体种类众多,包括疾病实体、分子实体、药物实体、病生理机制实体、信号通路实体、器官或组织实体、细胞实体、微生物实体、基线特征实体以及实验技术实体等,因此,为了实现对多种实体的抽取,可以在命名实体识别模型上采用多任务的架构进行实现,命名实体识别模型的输入是标题文本和摘要文本中待识别的语句,其输出是多个任务的结果,每个任务是一种实体的抽取,如疾病实体抽取任务、分子实体抽取任务等。
本发明实施例通过获取各基础研究文献的标题文本和摘要文本,将文本的抽取范围设定为标题文本和摘要文本,可以提高实体识别和实体关系抽取的效率,通过语句分类器对标题文本和摘要文本进行分类判断,可以进一步缩小文本抽取的范围,从而提高实体和实体关系抽取的效率,进而提高知识图谱构建的效率。
基于上述实施例,由于标题文本和摘要文本中包含有大量代词,这些代词也可能表示某些实体,为了进一步确保实体以及实体关系识别抽取的全面和准确,可以在多任务架构的命名实体识别模型中添加一个新任务,即抽取标题文本和摘要文本中的代词。为此,步骤120或步骤123中进行实体识别,得到各基础研究文献所包含的实体对,包括:
对语句进行实体识别,得到语句中的实体和代词;
将实体和代词输入至指代关系分类器,得到指代关系分类器输出的实体与代词之间的指代关系;
在指代关系为是的情况下,将语句中的代词替换为对应实体,得到优化语句;
将优化语句,以及优化语句中的实体输入实体关系分类器,得到实体关系分类器输出的实体之间的实体关系。
具体地,在对标题文本和摘要文本中的语句进行实体识别时,可以先基于预先构建的标准字典,利用规则匹配的方式进行实体抽取;然后利用多任务架构的命名实体识别模型进行抽取,得到语句中包含的所有实体和代词。在得到众多的实体以及相关的代词后,需要将实体与实体以及实体与代词关联起来。首先,对于所有的代词和实体,可以使用指代关系分类器判断每个代词和每个实体是否有指代关系,将识别得到的实体和代词以及标题文本和摘要文本输入至指代关系分类器,此处,指代关系分类器采用二分类的方式对代词与实体之间的关系进行分类,判断代词和实体是否有指代关系,在指代关系为是的情况下,表明该代词指代的为该实体,即该代词与该实体等同,可以将该代词替换为该实体;在指代关系为否的情况下,表明该代词与该实体不等同,可以将该代词删掉,从而得到优化语句。
其次,将实体与代词进行关联后,还需要将实体与实体进行关联,从而得到实体之间的实体关系。由于在同一个目标基础研究文献中可能存在同一种实体有很多不同表示的情况,比如一个实体的全称和缩写,因此,在得到优化语句后,可以先基于实体关系分类器对相同实体类别间不同实体的关系进行判断。例如,将优化语句以及优化语句中的实体A和实体B输入实体关系分类器,可以得到实体关系分类器输出的实体A和实体B之间的实体关系。此处的实体关系可以为如下实体关系中的任意一个:实体A等于实体B、实体A包含实体B、实体B包含实体A、实体A和实体B无关。由于相同实体类别间不同实体的关系种类较多,因此可以采用基于多分类模型的实体关系分类器对此种类型的实体关系进行分类判断。
最后,在将实体与代词、以及相同类别间不同表示的实体进行关联后,还需要对所有的实体与实体之间的关系进行判别,得到实体之间的实体关系。此处,对所有的实体与实体之间的关系进行判别,既包含对相同实体类别间的实体之间的实体关系判别,比如疾病实体1和疾病实体2;也包含对不同实体类别间的实体之间的实体关系判别,比如疾病中的某个实体和药物中的某个实体。在得到优化语句后,将优化语句以及优化语句中不同实体类别的两个实体输入实体关系分类器,可以得到实体关系分类器输出的这两个实体之间的实体关系。为了对所有的实体与实体之间的实体关系进行判断,可以采用基于token-classification模型的实体关系分类器进行实现。
本发明实施例中,通过先对语句中的代词进行处理,在代词和实体之间的指代关系为是的情况下,将语句中的代词替换为对应的实体,可以使得到的优化语句的语义更加清楚,便于后续基于优化语句识别得到实体之间的实体关系,从而可以更加高效、全面、准确地对实体关系进行识别挖掘。
基于上述实施例,步骤120或步骤123中进行实体识别,得到各基础研究文献所包含的实体对,还包括:
将优化语句,以及优化语句中的实体,填充至关系问询模板,得到关系问询语句;
将关系问询语句输入问答语言模型,得到问答语言模型输出的实体关系。
具体地,在进行实体识别,挖掘得到实体和实体关系时,还可以使用问答语言模型预测得到。本发明实施例的问答语言模型可以为LLM(Large Language Model)语言模型。在得到优化语句后,将优化语句以及优化语句中已经抽取得到的实体,填充至关系问询模板,即根据优化语句以及优化语句中已经抽取得到的实体,对应替换关系问询模板中的相关内容,从而得到关系问询语句,将关系问询语句作为问答语言模型的输入,通过问答语言模型基于给定的格式进行解析,从而得到问答语言模型输出的实体关系。
示例性的,关系问询模板可以为:
“以下将给出一段生物医学和其中包含的实体,请根据文本语义判断实体间可能的二元关系。输入[文本内容]输入[实体内容],可能存在的实体关系:[实体关系描述]。请按照以下格式“(实体1,实体2,关系)”逐行输出结果。”
上述关系问询模板中,中括号内的内容需要按照优化语句和抽取得到的实体进行相应替换,即可得到关系问询语句。
为了进一步得到更加全面、准确的实体关系,可以将问答语言模型输出的实体关系与上述实施例中基于实体关系分类器得到的实体关系进行合并。
基于上述任一实施例,图6是本发明提供的知识图谱构建方法中步骤130的流程示意图,如图6所示,步骤130包括:
步骤131,若基础研究文献所包含实体的类型包括干预实验技术实体,则将基础研究文献中实体关系的因果强度确定为强相关;
步骤132,否则将基础研究文献中实体关系的因果强度确定为弱相关。
具体地,实体关系的因果强度是指实体之间的关系强度,上述实体的类型是指可以用于判别实体间关系强度的一类实体,本发明实施例中,实体的类型可以为预先定义实体中的实验技术实体。当实体之间存在实体关系时,可以确定实体之间的实体关系的因果强度为相关,在此情况下,可以基于实验技术实体进一步将实体关系的因果强度分为强相关和弱相关,从而帮助用户快速获知实体间的关系强度,更好地基于知识图谱了解疾病的根本原因。
上述干预实验技术实体是指实验技术实体中的一类可以用于判别两个实体间的实体关系的因果强度为强相关的技术实体,干预实验技术实体包括但不限于:CRISPR/Cas9(基因治疗法)、RNA干扰、质粒转染、病毒载体介导的过表达。
可理解的是,在获取实体和实体关系时,是针对每个目标基础研究文献进行识别抽取的,因此,在判断实体关系的因果强度时,也是针对同一目标基础研究文献所包含的实体之间的实体关系进行判断的。在基于实验技术实体包括干预实验技术实体判别实体关系的因果强度时,若同一目标基础研究文献内的两个实体间形成了实体关系,同时实验技术实体包括干预实验技术实体中的至少一个,则将这两个实体间的实体关系的因果强度确定为强相关;若同一目标基础研究文献内的两个实体间形成了实体关系,同时实验技术实体未包括干预实验技术实体中的任意一个,则将这两个实体间的实体关系的因果强度确定为弱相关;若同一目标基础研究文献内的两个实体间未形成实体关系,则将这两个实体间的实体关系的因果强度确定为不相关。
基于上述任一实施例,图7是本发明提供的查询方法的流程示意图,如图7所示,该方法包括:
步骤710,获取待查询的目标实体;
步骤720,基于知识图谱,确定目标实体的相关知识信息,知识图谱是基于上述知识图谱构建方法确定的。
具体地,针对各种来源的基础研究领域文献,可以通过上述实施例提供的方法对疾病发病机制的高通量信息进行高效、全面、准确地梳理,并基于实验技术实体构建因果论证评价体系,从而构建疾病知识图谱,帮助用户快速获知疾病的根本原因,并对其治疗方法提供新见解。在此基础上,可以构建查询系统,以便用户快速查找疾病相关的知识信息。
用户可以通过手机、电脑、平板电脑等形式的用户终端输入待查询的目标实体,将待查询的目标实体发送到查询系统的服务端。此处待查询的目标实体是指与人体正常生理机制和病理机制相关的实体,具体可以为疾病实体、分子实体、药物实体、病生理机制实体、信号通路实体、器官或组织实体、细胞实体、微生物实体以及基线特征实体中的任意一个或多个,本发明实施例对此不作具体限定。知识图谱中包含有上述待查询的目标实体。
在接收到待查询的目标实体后,基于构建的知识图谱进行查找,定位与目标实体对应的节点以及与该节点有连接关系的其他节点或各级子节点,并从知识图谱中截取包含上述目标实体的节点及其连接关系的局部图谱作为该目标实体的相关知识信息返回到用户终端,以供用户查看。
本发明实施例提供的查询方法,通过基于全面、准确的知识图谱实现与人体正常生理机制和病理机制相关的目标实体的相关知识信息的快速检索查询,可以帮助用户快速获知疾病的根本原因,并对疾病治疗方法提供新见解,以便用户做出更准确的数据驱动的企业及研究决策。
基于上述任一实施例,图8是本发明提供的知识图谱构建装置的结构示意图,如图8所示,该装置包括:
文献获取单元810,用于获取目标文献集合,目标文献集合包括多个基础研究文献;
实体获取单元820,用于对各基础研究文献中的语句进行实体识别,得到各基础研究文献所包含的实体对,实体对包括实体以及实体之间的实体关系;
强度确定单元830,用于基于各基础研究文献所包含实体的类型,确定各基础研究文献所包含实体之间的实体关系的因果强度;
热度确定单元840,用于基于各基础研究文献的文献引用信息,确定各基础研究文献所包含实体对的热度;
图谱构建单元850,基于实体、实体关系、因果强度和热度,构建知识图谱。
本发明实施例提供的知识图谱构建装置,通过获取多个基础研究文献,对各基础研究文献中的语句进行实体识别,全面、准确地挖掘得到实体以及实体之间的实体关系,基于实体、实体关系、因果强度,并结合基于各基础研究文献的相关信息挖掘得到的热度,构建知识图谱,从而使得到海量生物医学数据中的信息能够被全面、准确地提炼到知识图谱中,从而提高信息挖掘、提炼的效率和可靠性,降低信息挖掘所需消耗的时间和成本。并且在知识图谱中标示了实体关系的因果强度和热度,使得信息展示更加直观。
由此构建得到的知识图谱,可以帮助用户快速获知疾病的根本原因,并对其治疗方法提供新见解。
基于上述任一实施例,文献获取单元810包括:
初始文献获取子单元,用于获取初始文献集合;
候选文献获取子单元,用于基于初始文献集合中各初始文献的出版类型,从初始文献集合中筛除二次加工文献和临床研究文献,得到候选文献集合;
目标文献构建子单元,用于从候选文献集合中筛选基础研究文献,以构建目标文献集合。
基于上述任一实施例,候选文献获取子单元用于:
基于初始文献集合中各初始文献的出版类型,从初始文献集合中筛除二次加工文献和临床研究文献,得到第一文献集合;
基于第一文献集合中各第一文献的出版类型和出版时间,从第一文献集合中筛选第二文献,第二文献为出版类型待更新的第一文献;
将第二文献输入文献分类器,得到文献分类器输出的第二文献的文献类型;
将文献类型为非基础研究文献的第二文献从第一文献集合中删除,得到候选文献集合。
基于上述任一实施例,实体获取单元820包括:
获取子单元,获取各基础研究文献的标题文本和摘要文本;
分类子单元,将标题文本和摘要文本输入至语句分类器,得到语句分类器输出的标题文本和摘要文本中各语句的语句类型;
识别子单元,用于对语句类型为待识别的语句进行实体识别,得到各基础研究文献所包含的实体对。
基于上述任一实施例,实体获取单元820或识别子单元用于:
对语句进行实体识别,得到语句中的实体和代词;
将实体和代词输入至指代关系分类器,得到指代关系分类器输出的实体与代词之间的指代关系;
在指代关系为是的情况下,将语句中的代词替换为对应实体,得到优化语句;
将优化语句,以及优化语句中的实体输入实体关系分类器,得到实体关系分类器输出的实体之间的实体关系。
基于上述任一实施例,实体获取单元820或识别子单元还用于:
将优化语句,以及优化语句中的实体,填充至关系问询模板,得到关系问询语句;
将关系问询语句输入问答语言模型,得到问答语言模型输出的实体关系。
基于上述任一实施例,强度确定单元830用于:
若基础研究文献所包含实体的类型包括干预实验技术实体,则将基础研究文献中实体关系的因果强度确定为强相关;
否则将基础研究文献中实体关系的因果强度确定为弱相关。
基于上述任一实施例,图9是本发明提供的查询装置的结构示意图,如图9所示,该装置包括:
获取单元910,用于获取待查询的目标实体;
查询单元920,用于基于知识图谱,确定目标实体的相关知识信息,知识图谱是基于上述知识图谱构建方法确定的。
本发明实施例提供的查询装置,通过基于全面、准确的知识图谱实现与人体正常生理机制和病理机制相关的目标实体的相关知识信息的快速检索查询,可以帮助用户快速获知疾病的根本原因,并对疾病治疗方法提供新见解,以便用户做出更准确的数据驱动的企业及研究决策。
图10示例了一种电子设备的实体结构示意图,如图10所示,该电子设备可以包括:处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040,其中,处理器1010,通信接口1020,存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令,以执行知识图谱构建方法,该方法包括:获取目标文献集合,目标文献集合包括多个基础研究文献;对各基础研究文献中的语句进行实体识别,得到各基础研究文献所包含的实体对,实体对包括实体以及实体之间的实体关系;基于各基础研究文献所包含实体的类型,确定各基础研究文献所包含实体之间的实体关系的因果强度;基于各基础研究文献的文献引用信息,确定各基础研究文献所包含实体对的热度;基于实体、实体关系、因果强度和热度,构建知识图谱。
此外,处理器1010可以调用存储器1030中的逻辑指令,以执行查询方法,该方法包括:获取待查询的目标实体;基于知识图谱,确定目标实体的相关知识信息,知识图谱是基于上述知识图谱构建方法确定的。
此外,上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的知识图谱构建方法,该方法包括:获取目标文献集合,目标文献集合包括多个基础研究文献;对各基础研究文献中的语句进行实体识别,得到各基础研究文献所包含的实体对,实体对包括实体以及实体之间的实体关系;基于各基础研究文献所包含实体的类型,确定各基础研究文献所包含实体之间的实体关系的因果强度;基于各基础研究文献的文献引用信息,确定各基础研究文献所包含实体对的热度;基于实体、实体关系、因果强度和热度,构建知识图谱。
此外,计算机还能够执行上述各方法所提供的查询方法,该方法包括:获取待查询的目标实体;基于知识图谱,确定目标实体的相关知识信息,知识图谱是基于上述知识图谱构建方法确定的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的知识图谱构建方法,该方法包括:获取目标文献集合,目标文献集合包括多个基础研究文献;对各基础研究文献中的语句进行实体识别,得到各基础研究文献所包含的实体对,实体对包括实体以及实体之间的实体关系;基于各基础研究文献所包含实体的类型,确定各基础研究文献所包含实体之间的实体关系的因果强度;基于各基础研究文献的文献引用信息,确定各基础研究文献所包含实体对的热度;基于实体、实体关系、因果强度和热度,构建知识图谱。
该计算机程序被处理器执行时实现以执行上述各方法提供的查询方法,该方法包括:获取待查询的目标实体;基于知识图谱,确定目标实体的相关知识信息,知识图谱是基于上述知识图谱构建方法确定的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种知识图谱构建方法,其特征在于,包括:
获取目标文献集合,所述目标文献集合包括多个基础研究文献;
对各基础研究文献中的语句进行实体识别,得到各基础研究文献所包含的实体对,所述实体对包括实体以及所述实体之间的实体关系;
基于各基础研究文献所包含实体的类型,确定所述各基础研究文献所包含实体之间的实体关系的因果强度;
基于各基础研究文献的文献引用信息,确定所述各基础研究文献所包含实体对的热度;
基于所述实体、所述实体关系、所述因果强度和所述热度,构建知识图谱。
2.根据权利要求1所述的知识图谱构建方法,其特征在于,所述获取目标文献集合,包括:
获取初始文献集合;
基于所述初始文献集合中各初始文献的出版类型,从所述初始文献集合中筛除二次加工文献和临床研究文献,得到候选文献集合;
从所述候选文献集合中筛选基础研究文献,以构建所述目标文献集合。
3.根据权利要求2所述的知识图谱构建方法,其特征在于,所述基于所述初始文献集合中各初始文献的出版类型,从所述初始文献集合中筛除二次加工文献和临床研究文献,得到候选文献集合,包括:
基于所述初始文献集合中各初始文献的出版类型,从所述初始文献集合中筛除二次加工文献和临床研究文献,得到第一文献集合;
基于所述第一文献集合中各第一文献的出版类型和出版时间,从所述第一文献集合中筛选第二文献,所述第二文献为所述出版类型待更新的第一文献;
将所述第二文献输入文献分类器,得到所述文献分类器输出的所述第二文献的文献类型;
将所述文献类型为非基础研究文献的第二文献从所述第一文献集合中删除,得到所述候选文献集合。
4.根据权利要求1所述的知识图谱构建方法,其特征在于,所述对各基础研究文献中的语句进行实体识别,得到各基础研究文献所包含的实体对,包括:
获取各基础研究文献的标题文本和摘要文本;
将所述标题文本和摘要文本输入至语句分类器,得到所述语句分类器输出的所述标题文本和摘要文本中各语句的语句类型;
对所述语句类型为待识别的语句进行实体识别,得到各基础研究文献所包含的实体对。
5.根据权利要求1或4所述的知识图谱构建方法,其特征在于,所述进行实体识别,得到各基础研究文献所包含的实体对,包括:
对所述语句进行实体识别,得到所述语句中的实体和代词;
将所述实体和所述代词输入至指代关系分类器,得到所述指代关系分类器输出的所述实体与所述代词之间的指代关系;
在所述指代关系为是的情况下,将所述语句中的代词替换为对应实体,得到优化语句;
将所述优化语句,以及所述优化语句中的实体输入实体关系分类器,得到所述实体关系分类器输出的所述实体之间的实体关系。
6.根据权利要求5所述的知识图谱构建方法,其特征在于,所述进行实体识别,得到各基础研究文献所包含的实体对,还包括:
将所述优化语句,以及所述优化语句中的实体,填充至关系问询模板,得到关系问询语句;
将所述关系问询语句输入问答语言模型,得到所述问答语言模型输出的所述实体关系。
7.根据权利要求1所述的知识图谱构建方法,其特征在于,所述基于各基础研究文献所包含实体的类型,确定所述各基础研究文献所包含实体之间的实体关系的因果强度,包括:
若所述基础研究文献所包含实体的类型包括干预实验技术实体,则将所述基础研究文献中实体关系的因果强度确定为强相关;
否则将所述基础研究文献中实体关系的因果强度确定为弱相关。
8.一种查询方法,其特征在于,包括:
获取待查询的目标实体;
基于知识图谱,确定所述目标实体的相关知识信息;
所述知识图谱是基于如权利要求1至7中任一项所述的知识图谱构建方法确定的。
9.一种知识图谱构建装置,其特征在于,包括:
文献获取单元,用于获取目标文献集合,所述目标文献集合包括多个基础研究文献;
实体获取单元,用于对各基础研究文献中的语句进行实体识别,得到各基础研究文献所包含的实体对,所述实体对包括实体以及所述实体之间的实体关系;
强度确定单元,用于基于各基础研究文献所包含实体的类型,确定所述各基础研究文献所包含实体之间的实体关系的因果强度;
热度确定单元,用于基于各基础研究文献的文献引用信息,确定所述各基础研究文献所包含实体对的热度;
图谱构建单元,基于所述实体、所述实体关系、所述因果强度和所述热度,构建知识图谱。
10.一种查询装置,其特征在于,包括:
获取单元,用于获取待查询的目标实体;
查询单元,用于基于知识图谱,确定所述目标实体的相关知识信息,所述知识图谱是基于如权利要求1至7中任一项所述的知识图谱构建方法确定的。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310572803.3A CN116775897A (zh) | 2023-05-19 | 2023-05-19 | 知识图谱构建和查询方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310572803.3A CN116775897A (zh) | 2023-05-19 | 2023-05-19 | 知识图谱构建和查询方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116775897A true CN116775897A (zh) | 2023-09-19 |
Family
ID=88009012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310572803.3A Pending CN116775897A (zh) | 2023-05-19 | 2023-05-19 | 知识图谱构建和查询方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116775897A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151052A (zh) * | 2023-11-01 | 2023-12-01 | 北京知呱呱科技有限公司 | 一种基于大语言模型和图算法的专利查询报告生成方法 |
-
2023
- 2023-05-19 CN CN202310572803.3A patent/CN116775897A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151052A (zh) * | 2023-11-01 | 2023-12-01 | 北京知呱呱科技有限公司 | 一种基于大语言模型和图算法的专利查询报告生成方法 |
CN117151052B (zh) * | 2023-11-01 | 2024-01-23 | 北京知呱呱科技有限公司 | 一种基于大语言模型和图算法的专利查询报告生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Faes et al. | Automated deep learning design for medical image classification by health-care professionals with no coding experience: a feasibility study | |
CN111414393B (zh) | 一种基于医学知识图谱的语义相似病例检索方法及设备 | |
CN104699741B (zh) | 用于改善对输入问题的回答的方法和装置 | |
CN104699730A (zh) | 用于识别候选答案之间的关系的方法和系统 | |
AU2020407062A1 (en) | Unsupervised taxonomy extraction from medical clinical trials | |
US20130060793A1 (en) | Extracting information from medical documents | |
CN113742493A (zh) | 一种病理知识图谱的构建方法及装置 | |
CN111524570B (zh) | 一种基于机器学习的超声随访患者筛选方法 | |
EP3876137A1 (en) | System for identifying named entities with dynamic parameters | |
Polisena et al. | Case studies on the use of sentiment analysis to assess the effectiveness and safety of health technologies: a scoping review | |
Aliman et al. | Sentiment analysis using logistic regression | |
Gonçalves et al. | Aligning biomedical metadata with ontologies using clustering and embeddings | |
CN116775897A (zh) | 知识图谱构建和查询方法、装置、电子设备及存储介质 | |
US20210382924A1 (en) | Method and system to perform text-based search among plurality of documents | |
CN113343680A (zh) | 一种基于多类型病历文本的结构化信息提取方法 | |
CN111126034A (zh) | 医学变量关系的处理方法及装置、计算机介质和电子设备 | |
US11322229B2 (en) | System and method of documenting clinical trials | |
CN109840275B (zh) | 一种医疗搜索语句的处理方法、装置和设备 | |
CN114121293A (zh) | 临床试验信息挖掘和查询方法及装置 | |
CN114064904A (zh) | 一种用于医疗文本的聚类方法、系统及装置 | |
CN112735584A (zh) | 一种恶性肿瘤诊疗辅助决策生成方法及装置 | |
Ramachandran et al. | Optimized Version of Tree based Support Vector Machine for Named Entity Recognition in Medical Literature | |
Nayak et al. | Quality assessment of biomedical metadata using topic modeling | |
CN116895385A (zh) | 靶点信息分析方法和靶点信息查询方法 | |
Naseem et al. | A Comparative Analysis of Active Learning for Biomedical Text Mining. Appl. Syst. Innov. 2021, 4, 23 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |