CN114003734A - 乳腺癌风险因素知识体系模型、知识图谱系统及构建方法 - Google Patents

乳腺癌风险因素知识体系模型、知识图谱系统及构建方法 Download PDF

Info

Publication number
CN114003734A
CN114003734A CN202111385628.4A CN202111385628A CN114003734A CN 114003734 A CN114003734 A CN 114003734A CN 202111385628 A CN202111385628 A CN 202111385628A CN 114003734 A CN114003734 A CN 114003734A
Authority
CN
China
Prior art keywords
knowledge
breast cancer
ontology
risk factor
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111385628.4A
Other languages
English (en)
Other versions
CN114003734B (zh
Inventor
彭玉兰
段磊
宋琳琳
左劼
刘晶焰
何承鑫
殷晋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
West China Hospital of Sichuan University
Original Assignee
Sichuan University
West China Hospital of Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University, West China Hospital of Sichuan University filed Critical Sichuan University
Priority to CN202111385628.4A priority Critical patent/CN114003734B/zh
Publication of CN114003734A publication Critical patent/CN114003734A/zh
Application granted granted Critical
Publication of CN114003734B publication Critical patent/CN114003734B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种乳腺癌风险因素知识体系模型、基于知识体系的乳腺癌风险因素知识图谱系统及其构建方法,属于大数据处理领域,可应用于智慧医疗评估和风险预测。该知识体系模型包括本体建立模块、数据获取模块、知识评价模块、关系分类模块。本发明提供的乳腺癌风险因素知识体系模型及知识图谱系统能够对乳腺癌及相关风险因素知识进行结构化及标准化处理,有利于后续扩大应用及维护,能够对乳腺癌的病因互作关系进行有效梳理、同时还能够将复杂多维风险因素实体及关系进行网络化连接,在未来能够从多角度多方面应用于基于知识图谱数据的智慧医疗系统中,有助于提高筛查项目的卫生效益,提升社会总体健康水平,具有重要研究意义。

Description

乳腺癌风险因素知识体系模型、知识图谱系统及构建方法
技术领域
本发明涉及大数据处理领域,具体涉及一种乳腺癌风险因素知识体系模型、基于知识体系的乳腺癌风险因素知识图谱系统及其构建方法,可应用于智慧医疗评估和风险预测等。
背景技术
据2020最新全球癌症数据显示,乳腺癌已取代肺癌成为全球第一大癌,在造成女性死亡的癌症中排名第一。并且90%的恶性肿瘤早期无明显症状,发现时通常已是中晚期,因此,早发现、早预防、早治疗是防止癌症发生的重要手段。2019年9月,国家卫生健康委会同有关部门制定《健康中国行动——癌症防治实施方案(2019—2022年)》强调了癌症预防的重要性。由世界卫生组织国际癌症研究所出版的《世界癌症报告》2020版以癌症预防为核心内容,首次强调了不同地区因为癌症病因和人群的异质性导致相同癌症预防措施有不同防控效果.目前,我国仍缺乏乳腺癌的一级预防措施,还没有形成乳腺癌预防的风险分级管理指南。因此,对乳腺癌病因的研究是癌症预防工作的重要方向。
虽然过去几十年流行病学研究已发现众多乳腺癌发病风险因素,例如,乳房腺体密度、饮食结构、首次生育年龄、喂养方式、易感基因突变等。虽然乳腺癌病因研究已揭示了许多相关证据,但多数研究中往往只关注少数几个风险因素,没有深入挖掘其复杂的相互作用途径,整个病因知识网络中各致病因素所占权重的研究证据不足,关系强度的评价存在统一量化的难题,各因素间的互作关系仍不明确,整个病因网络中治病关系所占权重无法判断。此外,还有许多潜在的风险因素,由于无法准确进行暴露测量或对混杂因素控制不足等问题,缺乏实质性的流行病学数据,对乳腺癌发病风险的解释度不足,无法为癌症预防策略提供充分的研究依据,也尚未发现可控因素的切入点指导预防工作。另一方面由于存在高证据等级的实验难以设计、病因知识层级复杂、流行病学数据缺乏、混杂因素控制不足、暴露测量条件不一、病因互作关系不清等问题,现有技术中缺少针对乳腺癌病因/风险因素的全面而实用的癌症预防/风险评估系统。识别关系网互作网络及量化关系强度也是长久以来的领域难题。早期乳腺癌病因模型仅使用风险因素及其与乳腺癌存在关联以预测风险。针对癌症风险因素预测模型/知识体系开发的实际应用探索较为局限浅显。而现有技术中一般所采用的风险因素模型,例如基于少数变量的logistic回归模型、nomogram、Paradigm II概念的乳腺癌病因学的复杂系统模型等,都存在涵盖知识不全、知识关联强弱评分系统过于简易等缺点,这些模型难以聚合及评估多维度知识实体,难以进行后续应用。
发明内容
为了克服现有技术中上述缺陷,本发明提供了一种乳腺癌风险因素知识体系模型、一种基于知识体系的乳腺癌风险因素知识图谱系统及其构建方法,能够对乳腺癌及相关风险因素知识进行结构化及标准化处理,还能够对乳腺癌的病因互作关系进行有效梳理、同时还能够将复杂多维风险因素实体及关系进行网络化连接。
具体而言,本发明提供了一种乳腺癌风险因素知识体系模型,包括本体建立模块1011、数据获取模块1012、知识评价模块1013、关系分类模块1014;
所述本体建立模块1011根据自构本体和已有本体完成乳腺癌风险因素本体构建,从而建立一套以乳腺癌全病因为主的知识本体;
所述数据获取模块1012用于从乳腺癌相关资源数据库中进行乳腺癌相关文献检索,自动检索乳腺癌病因知识,获得符合预设知识框架下的乳腺癌风险因素知识;
所述知识评价模块1013用于对获取的知识依据证据维度进行循证医学证据等级评价;
所述关系分类模块1014用于将风险因素与乳腺癌发病之间的关系强度进行分类。
在本体建立模块(1011)中自构的乳腺癌风险因素本体的整体构建采用基于先验知识的从上至下建立框架和基于事实资源的从下之上补全知识相结合,同时自构的乳腺癌病因本体被映射至已有标准本体库。
另一方面,本发明提供了一种基于乳腺癌风险因素知识体系的知识图谱系统,该系统包括实体识别模块1021,关系抽取模块1022,知识融合模块1023和知识推理模块1024;
实体识别模块1021用于从有关乳腺癌风险因素的研究文献中识别出病因实体;
关系抽取模块1022用于根据识别出的实体抽取出实体之间的关系以此形成一定格式的组合;
知识融合模块1023用于将抽取的三元组与异构的本体之间建立映射;
知识推理模块1024用于推理新发现的知识、并不断更新和补全知识图谱。
该知识图谱系统能对乳腺癌病因的风险因素相关研究文献中因素的复杂性、关系表达的不确定性以及因素持续更新的动态性进行全面系统性的客观量化和展示。
在关系抽取模块1022中,定义乳腺癌病因知识图谱中的三元组<h,r,t>∈F,h&t∈V,关系r∈E表示连接节点的边,对于给定的实体对h和t,预测实体对间可能存在的关系r从而获取知识表示。
知识融合模块1023中,可以通过图神经网络模型对知识图谱进行知识推理。
另一方面,本发明还提供了一种基于乳腺癌风险因素知识体系的知识图谱构建方法,该方法主要包括以下步骤:
(S101)建立乳腺癌风险因素本体,通过建立以乳腺癌病因风险因素为主的自构知识本体,并将自构的知识本体和已有的本体用于构建乳腺癌风险因素本体;
(S102)获取知识数据,从多个乳腺癌相关资源数据库中获得符合预设知识框架下的乳腺癌风险因素知识。
(S103)进行实体识别,从有关乳腺癌风险因素的研究文献中识别出病因实体;
(S104)抽取关系,根据识别出的实体抽取出实体之间的关系,以此形成一定格式的组合;
(S105)知识评价和关系分类,对获取的知识依据证据维度进行循证医学证据等级评价,并将风险因素与乳腺癌发病之间的关系强度进行分类。
(S106)对知识进行融合,将抽取的关系与异构的本体之间建立起映射;
(S107)知识推理,推理新发现的知识、并不断重复S106-S107的步骤,从而不断更新和补全知识图谱。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
(1)本发明提供的乳腺癌风险因素知识体系模型及知识图谱系统能够对乳腺癌及相关风险因素知识进行结构化及标准化处理,有利于后续扩大应用及维护,能够对乳腺癌的病因互作关系进行有效梳理、同时还能够将复杂多维风险因素实体及关系进行网络化连接,在未来能够从多角度多方面应用于基于知识图谱数据的智慧医疗系统中。
(2)本发明提供的基于知识体系建立的乳腺癌风险因素知识图谱,能够挖掘与人群乳腺癌风险相关的可监测、可干预的多维风险因素,可指导我国建立高成本-效用比的乳腺癌预防策略,为制定个性化的癌症预防策略提供支持,有助于提高筛查项目的卫生效益,提升社会总体健康水平,具有重要研究意义。
附图说明
图1为本发明提供的一种乳腺癌风险因素知识图谱系统框架图。
图2为本发明提供的知识体系单元框架图。
图3为本发明提供的本体建立模块框架图。
图4为本发明提供的一种基于知识体系的乳腺癌知识图谱构建模块图。
具体实施方式
下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
知识图谱实质上是一种语义网络的知识库,作为人工智能的分支之一,知识图谱是采用图结构进行复杂知识建模及潜在关系推理的技术,它以结构化的形式描述客观世界中类型、实体及其关系。实体是客观世界中的事物,类型是对具有相同属性的事物的概括和抽象。知识图谱是关联乳腺癌风险因素实体、推理隐含关系的绝佳方式。
乳腺癌病因的风险因素众多,相关研究质量参差不齐,尽管有多个乳腺癌致病风险因素已在临床上得到证实,但整个风险因素网络中致病因素所占权重尚缺乏研究证据,关系强度的评价存在统一量化的难题,各风险因素间的互作关系仍不明确。本发明提供的各实施例通过构建纵向的乳腺癌风险因素知识体系和乳腺癌风险因素知识图谱,校正乳腺癌风险因素知识关系强度,客观量化多领域的风险因素与乳腺癌发病之间的相关性及其致病机制,形成知识图谱,通过知识推理来挖掘风险因素网络中的互作关系。
实施例1
实施例1为一种乳腺癌风险因素知识图谱系统100,如图1所示,该知识图谱系统包括知识体系模型101、知识图谱102和知识图谱管理模块103。
所述知识体系模型101用于根据循证医学证据、文献知识及真实世界医疗数据建立乳腺癌病因风险因素知识本体体系;
所述知识图谱102用于根据乳腺癌病因风险因素知识本体、通过建立多领域风险因素实体及其致病途径之间的互作关系,构建乳腺癌病因风险因素知识图谱;
所述知识图谱管理模块103用于根据乳腺癌病因知识图谱做后续应用的管理和策略定制的开发。
实施例2
完备的知识体系是有效构建知识图谱的基础,为了能够建立针对乳腺癌的全面体系化的知识体系,本实施例中提供一种乳腺癌风险因素知识体系模型的建立方案。该知识体系模型101主要包括本体建立模块1011、数据获取模块1012、知识评价模块1013、关系分类模块1014。
乳腺癌风险因素的本体建立模块(1011)主要根据自构本体和已有本体完成乳腺癌风险因素本体构建,用于解决从文献抽取的病因描述、注释和分类缺乏统一标准的问题,从而建立一套以乳腺癌全病因为主的知识本体。如图3所示,在本体建立模块1011中包括已有标准本体和自构的乳腺癌病因本体,同时自构的乳腺癌病因本体被映射至已有标准本体库。
例如,OBO Foundry/Bioportal为生物学和生物医学领域的一套标准本体库,其中包含大量该领域内的常用标准本体。但是现有的标准本体库不一定能全部覆盖乳腺癌领域所需要的专用本体,因此本实施例中基于各级循证医学证据、遵循本体构建的原理和方法,并参考已有乳腺癌相关本体,拟定并完善知识框架,建立一套以乳腺癌病因风险因素为主的自构知识本体,再映射到已有的标准本体库,并将自构的乳腺癌病因本体和已有的标准本体用于构建乳腺癌风险因素本体。
例如,在一个实施例中按照“环境-生物-乳腺密度/病原体/生殖”这样的关系搭建的一组本体,属于在乳腺癌病因中重要的考虑因素,而现有的标准本体库中没有这样相关直接可用的本体。下表1中列举了一些本实施中自构乳腺癌知识本体中病因风险因素的主要层级作为补充举例说明。
表1
Figure BDA0003367047520000051
Figure BDA0003367047520000061
针对从文献抽取的风险因素描述、注释和分类缺乏统一标准的问题,采用将自构的乳腺癌风险因素本体映射已有标准本体的方式实现术语标准化能有助于知识共享。自构的乳腺癌风险因素本体的整体构建采用基于先验知识的从上至下建立框架和基于事实资源的从下之上补全知识相结合的方法,确保数据全流程的质量控制和验证,为指导、建立乳腺癌相关的评估体系提供经验。
对于数据获取模块1012,用于从多个乳腺癌相关资源数据库中进行乳腺癌风险因素相关文献检索,从中自动检索乳腺癌病因知识,并进行除重等标准化处理,获得符合预设知识框架下的乳腺癌风险因素知识。在一个实施例中可以通过网络爬虫、数据监控抓取等途径实现知识获取。
所述乳腺癌相关数据库包括循证医学临床证据数据库Cochrane Library、PubMed及其收录数据库、Embase数据库、Medline数据库、Web of Science及Scopus数据库等,且不限于所列举的数据库。
在一个实施例中本发明所使用的知识数据库还可以包括生物数据库(KEGG、TCGA、Uniplot等)、药物数据库、化学成分数据库、其他已有知识库等。
在一个实施例中自动检索的检索词包括癌症“Mesh词”AND causality/riskfactor“Mesh词”。
对于知识评价模块1013,用于对获取的知识依据证据维度进行循证医学证据等级评价,在本实施例中主要采用两个维度来进行知识评价:
维度一为循证医学证据等级,本实施例采用美国预防服务工作组(U.S.Preventive Services Task Force,USPSTF)的证据质量指南,以分类(好、中、差)进行评分;
维度二为引文网络,通过建立相关文献引文网络,根据文献被引频次、引用文献、信誉度等信息进行文献价值排序。
关系分类模块1014主要用于根据文献报道结果,将风险因素与乳腺癌发病之间的关系强度进行分类,例如,基于相对危险度(RR)、归因危险度(AR)、比值比(OR)、风险比(HR)、标准回归系数(包括置信区间)等统计学指标对临床研究进行关系的强度分类(强,中,弱);当某个关系没有或只有较弱的人类流行病学研究可参考时,使用基于动物或机制的研究,关系强度分为强或中。
实施例3
如图4所示,本发明实施例提供了一种基于乳腺癌风险因素知识评价体系的乳腺癌病因知识图谱系统,能对乳腺癌病因的风险因素相关研究文献中因素的复杂性、关系表达的不确定性以及因素持续更新的动态性进行全面系统性的客观量化和展示。
根据知识图谱的应用场景,定义乳腺癌风险因素知识图谱G为三元组:
G={V,E,F}
其中,V表示乳腺癌病因知识图谱中多维度风险因素及资源(文献)的实体节点集合,E表示实体节点之间的关系集合,F表示的是事实集合,即一个由实体和关系组成的三元组代表着一条事实。
在本实施例中主要考虑到以下两种关系:
(1)上下位关系:描述同一类型实体之间的语义层次关系;
(2)横向关系:描述不同类型实体之间的依赖关系。
可见,本实施例构建的乳腺癌风险因素知识图谱中节点和边具有异构性,能够描述有关乳腺癌不同风险因素之间的关系。
本实施例提出的知识图谱构建包括包含实体识别模块1021,关系抽取模块1022,知识融合模块1023和知识推理模块1024。
实体识别模块1021用于从有关乳腺癌风险因素的研究文献中识别出病因实体。在本实施例中该实体识别模块1021利用预训练语言模型(Bidirectional EncoderRepresentation from Transformers,简称BERT)对研究文献进行命名实体识别的迁移学习,具体包括以下步骤:
(1)利用前述实施例中所构建的乳腺癌风险因素本体标注研究文献,构建迁移学习的语料库;(2)通过文本语料训练得到命名实体识别模型,识别与乳腺癌病因相关的风险因素实体;(3)将文献划分成与遗传、生物、化学、物理、社会及行为有关的六类,利用归类后的研究文献再次进行多任务学习模型训练,探索不同风险因素间的共性和差异。
在整个训练过程中,多任务之间可共享训练得到的参数,避免研究文献中实体描述不统一带来的问题,保证泛化学习的效果和性能,并以此迭代,完成与乳腺癌相关的病因实体识别。
在另一个实施例中还可以采用基于专家标注的浅层机器学习方法进行病因实体识别和抽取。
关系抽取模块1022用于根据识别出的实体抽取出实体之间的关系以此形成一定格式的三元组(例如[节点-关系-节点])。
具体而言,在本实施例中为了便于描述,定义乳腺癌病因知识图谱中的三元组<h,r,t>∈F,h&t∈V,关系r∈E表示连接节点的边。对于给定的实体对h和t,预测实体对间可能存在的关系r从而获取知识表示,需要分两种情况进行考虑:
(1)当关系r为上下位关系时:
给定上下位词对(h,t),首先对t–h进行聚类,并对聚类得到的簇,学习映射矩阵Φk如下式所示:
Figure BDA0003367047520000081
其中,Ck表示第k簇,Nk表示第k簇中含有的上下位词对数。对于尚未确定的词对(h′,t′),若d(Φkh′,t′)=‖Φkh′-t′‖2<δ,则词对(h′,t′)存在上下位关系。
(2)当关系r为横向关系时:
考虑两种情况:若待抽取文本中只包含一个实体对,则使用文本卷积神经模型(Text-CNN)对实体对之间的关系进行预测;若待抽取文本中包含多个实体对,则基于LSTM-RNN、LSTM-LSTM-Bias联合抽取方案预测关系。
知识融合模块1023用于将抽取的三元组与异构的本体之间建立起映射;
对于抽取后的三元组需与本体之间建立起联系,使得异构的知识图谱能具有良好的扩展性和互通性,为知识图谱的持续更新提供基础,本实施例中进一步利用知识融合模块1023完成三元组与本体的映射确认。
具体而言,首先根据本体所在本体库中的拓扑结构进行表征学习,将有链接的本体映射到向量空间中的距离尽量小,从而得到本体的结构特征向量表示;
其次对本体的语义进行特征提取,利用文献对本体的语义贡献作为该本体的语义属性,通过多层感知器(Multilayer Perceptron,MLP)提取出本体的语义特征向量表示,然后将两者进行对齐与集成,得到最终的本体特征表示;
最后将知识图谱中的实体同样通过研究文献的语义贡献度进行语义属性的提取并转换为特征向量,利用余弦相似度或点积的方式对实体与本体的特征向量进行相似计算,通过设置阈值或排名的方式将二者关联起来,以此完成三元组与本体之间的映射。
针对非结构化医学知识同样可以利用实体识别、实体链接、句子简化、实体关系抽取等自然语言处理(NLP)技术手段抽取三元组信息,用以知识表示。
经过知识融合后,会进一步根据所构建的本体以及文献中的关键词将文献这一资源实体与所对应的病因风险因素实体关联起来,使得病因风险因素实体具有丰富的语义资源,以便于为知识图谱的后续应用服务。
知识推理模块1024用于推理新发现的知识、并不断更新和补全知识图谱。
在本实施例中提出的知识图谱构建系统随着对乳腺癌病因的研究进展会不断演化与更新,并且其中还有大量隐含的知识关系待挖掘。因此,对知识的推理是知识图谱构建的一个重要环节。
为了同时保留知识图谱的结构与实体之间的语义依赖关系,本实施例的知识推理模块1024通过图神经网络模型对知识图谱进行知识推理,具体包括以下步骤:
(1)利用TransE模型对实体进行表示学习,获取这些实体的Embedding向量;(2)针对不同的语义关系类型提取出相应的子图,利用图卷积神经网络模型进行子图中节点信息的传播与聚集,以此对不同类型的关系连接的实体进行表示;(3)利用这些向量对给定实体进行链路预测与实体发现;(4)得到的知识推理通过专家评估来完成最终有效的知识图谱补全。
在一个实施例中所述专家评估是指将专家矫正和评价用于知识框架的搭建、并用于推理知识评价。在另一个实施例中得到的知识推理也可以通过其他评估方式来完成是否作为有效的知识图谱补全。
进一步的为使知识图谱的知识推理具有良好的稳定性,给定知识图谱G,对关系r,令正例三元组集合Fr +={<hi,r,ti>},其中<hi,r,ti>∈G;通过随机替换实体ti -构造负例三元组集合Fr -={<hi,r,ti ->},其中
Figure BDA0003367047520000101
使用向量点积d(·)作为三元组得分函数,使得正例三元组的得分函数值尽可能小,负例三元组得分函数值尽可能大。通过正负三元组之间最大间隔的损失函数,设计训练模型得到知识图谱的表示学习结果。
本实施例中设计的损失函数为:
Figure BDA0003367047520000102
如此可见乳腺癌风险因素知识图谱构建单元中各模块互相配合,形成一套用以支撑乳腺癌病因的大规模知识图谱构建流程。
实施例4
本实施例提供了一种基于知识体系的知识图谱构建方法,该方法用于对乳腺癌风险因素知识图谱的全面系统的构建,主要包括以下步骤:
(S101)建立乳腺癌风险因素的本体,通过建立以乳腺癌病因风险因素为主的自构知识本体,并将自构的乳腺癌病因本体和已有的标准本体用于构建乳腺癌风险因素本体;
例如,在一个实施例中按照“环境-生物-乳腺密度/病原体/生殖”这样的关系搭建的一组本体。
(S102)获取知识数据,从多个乳腺癌相关资源数据库中获得符合预设知识框架下的乳腺癌风险因素知识。
所述乳腺癌相关数据库包括循证医学临床证据数据库Cochrane Library、PubMed及其收录数据库、Embase数据库、Medline数据库、Web of Science及Scopus数据库等,且不限于所列举的数据库。
(S103)进行实体识别,从有关乳腺癌风险因素的研究文献中识别出病因实体,具体包括:
(S1031)利用前述实施例中所构建的乳腺癌风险因素本体标注研究文献,构建迁移学习的语料库;
(S1032)通过文本语料训练得到命名实体识别模型,识别与乳腺癌病因相关的风险因素实体;
(S1033)将文献划分成与遗传、生物、化学、物理、社会及行为有关的六类,利用归类后的研究文献再次进行多任务学习模型训练,探索不同风险因素间的共性和差异。
在整个训练过程中,多任务之间可共享训练得到的参数,避免研究文献中实体描述不统一带来的问题,保证泛化学习的效果和性能,并以此迭代,完成与乳腺癌相关的病因实体识别。
(S104)抽取关系,根据识别出的实体抽取出实体之间的关系,以此形成一定格式的三元组(例如[节点-关系-节点])。
(S105)知识评价和关系分类,对获取的知识依据证据维度进行循证医学证据等级评价,并将风险因素与乳腺癌发病之间的关系强度进行分类。
(S106)对知识进行融合,将抽取的关系与异构的本体之间建立起映射,具体包括:
(S1061)根据本体所在本体库中的拓扑结构进行表征学习,将有链接的本体映射到向量空间中的距离尽量小,从而得到本体的结构特征向量表示;
(S1062)对本体的语义进行特征提取,利用文献对本体的语义贡献作为该本体的语义属性,通过多层感知器(Multilayer Perceptron,MLP)提取出本体的语义特征向量表示,然后将两者进行对齐与集成,得到最终的本体特征表示;
(S1063)将知识图谱中的实体同样通过研究文献的语义贡献度进行语义属性的提取并转换为特征向量,利用余弦相似度或点积的方式对实体与本体的特征向量进行相似计算,通过设置阈值或排名的方式将二者关联起来,完成三元组与本体之间的映射。
(S107)知识推理,推理新发现的知识、并不断重复S106-S107的步骤,从而不断更新和补全知识图谱。
为了同时保留知识图谱的结构与实体之间的语义依赖关系,该知识推理步骤具体包括:
(S1071)利用TransE模型对实体进行表示学习,获取这些实体的Embedding向量;
(S1072)针对不同的语义关系类型提取出相应的子图,利用图卷积神经网络模型进行子图中节点信息的传播与聚集,以此对不同类型的关系连接的实体进行表示;
(S1073)利用这些向量对给定实体进行链路预测与实体发现;
(S1074)得到的知识推理通过专家评估来完成最终有效的知识图谱补全。
实施例5
在乳腺癌风险因素知识图谱构建后,知识图谱管理模块103能够对知识存储和知识更新进行有效管理,在一个实施例中可采用分布式存储方案有效管理提取的乳腺癌病因相关知识实体、满足知识图谱的存储要求。
对于知识存储,该知识图谱管理模块103基于分布式的管理框架,构建HDFS(Hadoop Distributed File System)分布式存储、分布式计算引擎、MPP列式存储/分析引擎,从而支撑大规模文本的存储、加工与集成。
对于知识更新,本实施例中在有最新的科研进展即具有权威性的文献产出时,也会经过知识抽取、表示及融合来更新知识图谱。根据新知识数据来源的权威度、冗余度、多样性、一致性等判定新知识准确性,将正确新知识所对应的相关实体和关系进行补全、纠错、外链、更新,确保知识图谱的一致性与准确性。
另外知识图谱管理模块103还能为后续知识图谱的实际应用提供有力数据支撑。
在本实施例中后续知识图谱应用包括但不限于:
(1)构建癌症风险因素知识图谱可视化及语义搜索系统/平台。
(2)构建乳腺癌发生发展风险评分系统,为人群进行乳腺癌患病风险评分;
(3)构建预防乳腺癌及乳腺癌风险评分辅助决策支持系统,为医生提供辅助检验决策知识支持;
(4)构建预防乳腺癌个性化推荐模型及可视化智能问答系统,为人群提供乳腺癌预防知识科普和就医建议等。
以上仅为本实施例中对基于前述乳腺癌风险因素知识图谱进行的应用举例说明,实际可应用范围不局限于上面列举。实际上,该构建乳腺癌风险因素知识图谱能够构建乳腺癌风险因素本体以乳腺癌及相关风险因素数据进行结构化及标准化处理,有利于后续扩大应用及维护,同时能够将复杂多维风险因素实体及关系进行网络化连接,因此能够从多角度多方面应用于基于知识图谱数据的智慧医疗系统中。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims (10)

1.一种乳腺癌风险因素知识体系模型,其特征在于,包括本体建立模块(1011)、数据获取模块(1012)、知识评价模块(1013)、关系分类模块(1014);
所述本体建立模块(1011)根据自构本体和已有本体完成乳腺癌风险因素本体构建,从而建立一套以乳腺癌全病因为主的知识本体;
所述数据获取模块(1012)用于从乳腺癌相关资源数据库中进行乳腺癌相关文献检索,自动检索乳腺癌病因知识,获得符合预设知识框架下的乳腺癌风险因素知识;
所述知识评价模块(1013)用于对获取的知识依据证据维度进行循证医学证据等级评价;
所述关系分类模块(1014)用于将风险因素与乳腺癌发病之间的关系强度进行分类。
2.如权利要求1所述的一种乳腺癌风险因素知识体系模型,其特征在于,在本体建立模块(1011)中自构的乳腺癌风险因素本体的整体构建采用基于先验知识的从上至下建立框架和基于事实资源的从下之上补全知识相结合,同时自构的乳腺癌病因本体被映射至已有标准本体库。
3.如权利要求1所述的一种乳腺癌风险因素知识体系模型,其特征在于,知识评价模块(1013)中采用两个维度进行知识评价:
维度一为循证医学证据等级,维度二为引文网络,通过建立相关文献引文网络,根据文献被引频次、引用文献、信誉度信息进行文献价值排序。
4.如权利要求1所述的一种乳腺癌风险因素知识体系模型,其特征在于,关系分类模块(1014)根据统计学指标对临床研究进行关系的强度分类;当某个关系没有或只有较弱的人类流行病学研究参考时,使用基于动物或机制的研究。
5.一种基于乳腺癌风险因素知识体系的知识图谱系统,其特征在于,该系统包括实体识别模块(1021),关系抽取模块(1022),知识融合模块(1023)和知识推理模块(1024);
实体识别模块(1021)用于从有关乳腺癌风险因素的研究文献中识别出病因实体;
关系抽取模块(1022)用于根据识别出的实体抽取出实体之间的关系以此形成一定格式的组合;
知识融合模块(1023)用于将抽取的三元组与异构的本体之间建立映射;
知识推理模块(1024)用于推理新发现的知识、并不断更新和补全知识图谱。
6.如权利要求5所述的一种基于乳腺癌风险因素知识体系的知识图谱系统,其特征在于,在关系抽取模块(1022)中,定义乳腺癌病因知识图谱中的三元组<h,r,t>∈F,h&t∈V,关系r∈E表示连接节点的边,对于给定的实体对h和t,预测实体对间可能存在的关系r从而获取知识表示,包括:
(1)当关系r为上下位关系时:
给定上下位词对(h,t),首先对t–h进行聚类,并对聚类得到的簇,学习映射矩阵Φk如下式所示:
Figure FDA0003367047510000021
其中,Ck表示第k簇,Nk表示第k簇中含有的上下位词对数,对于尚未确定的词对(h′,t′),若d(Φkh′,t′)=‖Φkh′-t′‖2<δ,则词对(h′,t′)存在上下位关系;
(2)当关系r为横向关系时:
若待抽取文本中只包含一个实体对,使用文本卷积神经模型对实体对之间的关系进行预测;若待抽取文本中包含多个实体对,基于多神经网络模型联合抽取方案预测关系。
7.如权利要求5所述的一种基于乳腺癌风险因素知识体系的知识图谱系统,其特征在于,知识融合模块(1023)中,首先根据本体所在本体库中的拓扑结构进行表征学习,将有链接的本体映射到向量空间中的距离尽量小,从而得到本体的结构特征向量表示;
其次对本体的语义进行特征提取,利用文献对本体的语义贡献作为该本体的语义属性,提取出本体的语义特征向量表示,然后将两者进行对齐与集成,得到最终的本体特征表示;
最后将知识图谱中的实体通过语义贡献度进行语义属性的提取并转换为特征向量,利用余弦相似度或点积的方式对实体与本体的特征向量进行相似计算,将二者关联起来以此完成三元组与本体之间的映射。
8.如权利要求5所述的一种基于乳腺癌风险因素知识体系的知识图谱系统,其特征在于,知识推理模块(1024)通过图神经网络模型对知识图谱进行知识推理,具体包括:
(1)利用TransE模型对实体进行表示学习,获取实体的Embedding向量;(2)针对不同的语义关系类型提取出相应的子图,利用图卷积神经网络模型进行子图中节点信息的传播与聚集,以此对不同类型的关系连接的实体进行表示;(3)利用这些向量对给定实体进行链路预测与实体发现;(4)得到的知识推理通过进一步评估完成最终有效的知识图谱补全。
9.如权利要求5所述的一种基于乳腺癌风险因素知识体系的知识图谱系统,其特征在于,知识推理模块(1024)中,在给定知识图谱G,对关系r,令正例三元组集合Fr +={<hi,r,ti>},其中<hi,r,ti>∈G;通过随机替换实体ti -构造负例三元组集合Fr -={<hi,r,ti ->},其中
Figure FDA0003367047510000031
使用向量点积d(·)作为三元组得分函数,使得正例三元组的得分函数值尽可能小,负例三元组得分函数值尽可能大,通过正负三元组之间最大间隔的损失函数,设计训练模型得到知识图谱的表示学习结果。
10.一种基于乳腺癌风险因素知识体系的知识图谱构建方法,其特征在于,主要包括以下步骤:
(S101)建立乳腺癌风险因素本体,通过建立以乳腺癌病因风险因素为主的自构知识本体,并将自构的知识本体和已有的本体用于构建乳腺癌风险因素本体;
(S102)获取知识数据,从多个乳腺癌相关资源数据库中获得符合预设知识框架下的乳腺癌风险因素知识;
(S103)进行实体识别,从有关乳腺癌风险因素的研究文献中识别出病因实体;
(S104)抽取关系,根据识别出的实体抽取出实体之间的关系,以此形成一定格式的组合;
(S105)知识评价和关系分类,对获取的知识依据证据维度进行循证医学证据等级评价,并将风险因素与乳腺癌发病之间的关系强度进行分类;
(S106)对知识进行融合,将抽取的关系与异构的本体之间建立起映射;
(S107)知识推理,推理新发现的知识、并不断重复S106-S107的步骤,从而不断更新和补全知识图谱。
CN202111385628.4A 2021-11-22 2021-11-22 乳腺癌风险因素知识体系系统、知识图谱系统及构建方法 Active CN114003734B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111385628.4A CN114003734B (zh) 2021-11-22 2021-11-22 乳腺癌风险因素知识体系系统、知识图谱系统及构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111385628.4A CN114003734B (zh) 2021-11-22 2021-11-22 乳腺癌风险因素知识体系系统、知识图谱系统及构建方法

Publications (2)

Publication Number Publication Date
CN114003734A true CN114003734A (zh) 2022-02-01
CN114003734B CN114003734B (zh) 2023-06-30

Family

ID=79929698

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111385628.4A Active CN114003734B (zh) 2021-11-22 2021-11-22 乳腺癌风险因素知识体系系统、知识图谱系统及构建方法

Country Status (1)

Country Link
CN (1) CN114003734B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114937501A (zh) * 2022-05-23 2022-08-23 上海迎智正能文化发展有限公司 基于知识图谱的心理健康风险等级评定系统及其方法
CN115099504A (zh) * 2022-06-29 2022-09-23 中南民族大学 基于知识图谱补全模型的文物安防风险要素识别方法
CN116521904A (zh) * 2023-06-29 2023-08-01 湖南大学 一种基于5g边缘计算的船舶制造数据云融合方法及系统
CN117116355A (zh) * 2023-08-30 2023-11-24 中国农业科学院农业信息研究所 一种优异多效基因的挖掘方法、装置、设备及介质
CN117438079A (zh) * 2023-12-19 2024-01-23 北京万方医学信息科技有限公司 循证知识抽提及辅助临床决策的方法及介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140075004A1 (en) * 2012-08-29 2014-03-13 Dennis A. Van Dusen System And Method For Fuzzy Concept Mapping, Voting Ontology Crowd Sourcing, And Technology Prediction
CN107463607A (zh) * 2017-06-23 2017-12-12 昆明理工大学 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN108710625A (zh) * 2018-03-16 2018-10-26 电子科技大学成都研究院 一种专题知识自动挖掘系统及方法
CN108932340A (zh) * 2018-07-13 2018-12-04 华融融通(北京)科技有限公司 一种不良资产经营领域下金融知识图谱的构建方法
US20190303498A1 (en) * 2018-03-28 2019-10-03 International Business Machines Corporation Generation of knowledge graph responsive to query
CN111813956A (zh) * 2020-07-07 2020-10-23 中国工商银行股份有限公司 知识图谱构建方法、装置、信息穿透方法和系统
CN111863137A (zh) * 2020-05-28 2020-10-30 上海朴岱生物科技合伙企业(有限合伙) 一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法及应用
CN112612902A (zh) * 2020-12-23 2021-04-06 国网浙江省电力有限公司电力科学研究院 一种电网主设备的知识图谱构建方法及设备
CN113515644A (zh) * 2021-05-26 2021-10-19 中国医学科学院医学信息研究所 一种基于知识图谱的医院科技画像方法和系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140075004A1 (en) * 2012-08-29 2014-03-13 Dennis A. Van Dusen System And Method For Fuzzy Concept Mapping, Voting Ontology Crowd Sourcing, And Technology Prediction
CN107463607A (zh) * 2017-06-23 2017-12-12 昆明理工大学 结合词向量和自举学习的领域实体上下位关系获取与组织方法
CN108710625A (zh) * 2018-03-16 2018-10-26 电子科技大学成都研究院 一种专题知识自动挖掘系统及方法
US20190303498A1 (en) * 2018-03-28 2019-10-03 International Business Machines Corporation Generation of knowledge graph responsive to query
CN108932340A (zh) * 2018-07-13 2018-12-04 华融融通(北京)科技有限公司 一种不良资产经营领域下金融知识图谱的构建方法
CN111863137A (zh) * 2020-05-28 2020-10-30 上海朴岱生物科技合伙企业(有限合伙) 一种基于高通量测序数据和临床表型构建复杂疾病状态评估方法及应用
CN111813956A (zh) * 2020-07-07 2020-10-23 中国工商银行股份有限公司 知识图谱构建方法、装置、信息穿透方法和系统
CN112612902A (zh) * 2020-12-23 2021-04-06 国网浙江省电力有限公司电力科学研究院 一种电网主设备的知识图谱构建方法及设备
CN113515644A (zh) * 2021-05-26 2021-10-19 中国医学科学院医学信息研究所 一种基于知识图谱的医院科技画像方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
OSHANI SENEVIRATNE等: "Konwledge integration for disease characterization:A breast cancer example", 《INTERNATIONAL SEMANTIC WEB CONFERENCE》 *
乔芸瑶: "基于领域本体的大规模RDF数据分布式存储研究及应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114937501A (zh) * 2022-05-23 2022-08-23 上海迎智正能文化发展有限公司 基于知识图谱的心理健康风险等级评定系统及其方法
CN115099504A (zh) * 2022-06-29 2022-09-23 中南民族大学 基于知识图谱补全模型的文物安防风险要素识别方法
CN116521904A (zh) * 2023-06-29 2023-08-01 湖南大学 一种基于5g边缘计算的船舶制造数据云融合方法及系统
CN116521904B (zh) * 2023-06-29 2023-09-22 湖南大学 一种基于5g边缘计算的船舶制造数据云融合方法及系统
CN117116355A (zh) * 2023-08-30 2023-11-24 中国农业科学院农业信息研究所 一种优异多效基因的挖掘方法、装置、设备及介质
CN117116355B (zh) * 2023-08-30 2024-02-20 中国农业科学院农业信息研究所 一种优异多效基因的挖掘方法、装置、设备及介质
CN117438079A (zh) * 2023-12-19 2024-01-23 北京万方医学信息科技有限公司 循证知识抽提及辅助临床决策的方法及介质
CN117438079B (zh) * 2023-12-19 2024-03-12 北京万方医学信息科技有限公司 循证知识抽提及辅助临床决策的方法及介质

Also Published As

Publication number Publication date
CN114003734B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
Lan et al. A survey of data mining and deep learning in bioinformatics
Wang et al. Exploring graph neural networks for semantic enrichment: Room type classification
CN114003734B (zh) 乳腺癌风险因素知识体系系统、知识图谱系统及构建方法
Tomar et al. A survey on Data Mining approaches for Healthcare
Pirim et al. Clustering of high throughput gene expression data
CN108198621B (zh) 一种基于神经网络的数据库数据综合诊疗决策方法
Carmona et al. Evolutionary fuzzy rule extraction for subgroup discovery in a psychiatric emergency department
Gan et al. From ontology to semantic similarity: calculation of ontology-based semantic similarity
CN109830303A (zh) 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法
WO2022116430A1 (zh) 基于大数据挖掘的模型部署方法、装置、设备及存储介质
CN108206056B (zh) 一种鼻咽癌人工智能辅助诊疗决策终端
CN108320807A (zh) 一种鼻咽癌人工智能辅助诊疗决策云系统
Jatav An algorithm for predictive data mining approach in medical diagnosis
Pham et al. Constructing a knowledge-based heterogeneous information graph for medical health status classification
CN108335756A (zh) 鼻咽癌数据库及基于所述数据库的综合诊疗决策方法
CN112541086A (zh) 一种针对脑卒中的知识图谱构建方法
CN113161001A (zh) 一种基于改进lda的过程路径挖掘方法
CN116805533A (zh) 一种基于数据收集与模拟的脑出血手术风险预测系统
Qu A review on the application of knowledge graph technology in the medical field
CN108320797B (zh) 一种鼻咽癌数据库及基于所述数据库的综合诊疗决策方法
CN116741396A (zh) 文章归类方法和装置、电子设备和存储介质
CN108335748A (zh) 一种鼻咽癌人工智能辅助诊疗决策服务器集群
Garg et al. A birds eye view on knowledge graph embeddings, software libraries, applications and challenges
CN114647737A (zh) 医疗规则补全方法及装置
CN112735584A (zh) 一种恶性肿瘤诊疗辅助决策生成方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant