CN114003734A

CN114003734A - 乳腺癌风险因素知识体系模型、知识图谱系统及构建方法

Info

Publication number: CN114003734A
Application number: CN202111385628.4A
Authority: CN
Inventors: 彭玉兰; 段磊; 宋琳琳; 左劼; 刘晶焰; 何承鑫; 殷晋
Original assignee: Sichuan University; West China Hospital of Sichuan University
Current assignee: Sichuan University; West China Hospital of Sichuan University
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2022-02-01
Anticipated expiration: 2041-11-22
Also published as: CN114003734B

Abstract

本发明公开了一种乳腺癌风险因素知识体系模型、基于知识体系的乳腺癌风险因素知识图谱系统及其构建方法，属于大数据处理领域，可应用于智慧医疗评估和风险预测。该知识体系模型包括本体建立模块、数据获取模块、知识评价模块、关系分类模块。本发明提供的乳腺癌风险因素知识体系模型及知识图谱系统能够对乳腺癌及相关风险因素知识进行结构化及标准化处理，有利于后续扩大应用及维护，能够对乳腺癌的病因互作关系进行有效梳理、同时还能够将复杂多维风险因素实体及关系进行网络化连接，在未来能够从多角度多方面应用于基于知识图谱数据的智慧医疗系统中，有助于提高筛查项目的卫生效益，提升社会总体健康水平，具有重要研究意义。

Description

乳腺癌风险因素知识体系模型、知识图谱系统及构建方法

技术领域

本发明涉及大数据处理领域，具体涉及一种乳腺癌风险因素知识体系模型、基于知识体系的乳腺癌风险因素知识图谱系统及其构建方法，可应用于智慧医疗评估和风险预测等。

背景技术

据2020最新全球癌症数据显示，乳腺癌已取代肺癌成为全球第一大癌，在造成女性死亡的癌症中排名第一。并且90％的恶性肿瘤早期无明显症状，发现时通常已是中晚期，因此，早发现、早预防、早治疗是防止癌症发生的重要手段。2019年9月，国家卫生健康委会同有关部门制定《健康中国行动——癌症防治实施方案(2019—2022年)》强调了癌症预防的重要性。由世界卫生组织国际癌症研究所出版的《世界癌症报告》2020版以癌症预防为核心内容，首次强调了不同地区因为癌症病因和人群的异质性导致相同癌症预防措施有不同防控效果.目前，我国仍缺乏乳腺癌的一级预防措施，还没有形成乳腺癌预防的风险分级管理指南。因此，对乳腺癌病因的研究是癌症预防工作的重要方向。

虽然过去几十年流行病学研究已发现众多乳腺癌发病风险因素，例如，乳房腺体密度、饮食结构、首次生育年龄、喂养方式、易感基因突变等。虽然乳腺癌病因研究已揭示了许多相关证据，但多数研究中往往只关注少数几个风险因素，没有深入挖掘其复杂的相互作用途径，整个病因知识网络中各致病因素所占权重的研究证据不足，关系强度的评价存在统一量化的难题，各因素间的互作关系仍不明确，整个病因网络中治病关系所占权重无法判断。此外，还有许多潜在的风险因素，由于无法准确进行暴露测量或对混杂因素控制不足等问题，缺乏实质性的流行病学数据，对乳腺癌发病风险的解释度不足，无法为癌症预防策略提供充分的研究依据，也尚未发现可控因素的切入点指导预防工作。另一方面由于存在高证据等级的实验难以设计、病因知识层级复杂、流行病学数据缺乏、混杂因素控制不足、暴露测量条件不一、病因互作关系不清等问题，现有技术中缺少针对乳腺癌病因/风险因素的全面而实用的癌症预防/风险评估系统。识别关系网互作网络及量化关系强度也是长久以来的领域难题。早期乳腺癌病因模型仅使用风险因素及其与乳腺癌存在关联以预测风险。针对癌症风险因素预测模型/知识体系开发的实际应用探索较为局限浅显。而现有技术中一般所采用的风险因素模型，例如基于少数变量的logistic回归模型、nomogram、Paradigm II概念的乳腺癌病因学的复杂系统模型等，都存在涵盖知识不全、知识关联强弱评分系统过于简易等缺点，这些模型难以聚合及评估多维度知识实体，难以进行后续应用。

发明内容

为了克服现有技术中上述缺陷,本发明提供了一种乳腺癌风险因素知识体系模型、一种基于知识体系的乳腺癌风险因素知识图谱系统及其构建方法，能够对乳腺癌及相关风险因素知识进行结构化及标准化处理，还能够对乳腺癌的病因互作关系进行有效梳理、同时还能够将复杂多维风险因素实体及关系进行网络化连接。

具体而言，本发明提供了一种乳腺癌风险因素知识体系模型，包括本体建立模块1011、数据获取模块1012、知识评价模块1013、关系分类模块1014；

所述本体建立模块1011根据自构本体和已有本体完成乳腺癌风险因素本体构建，从而建立一套以乳腺癌全病因为主的知识本体；

所述数据获取模块1012用于从乳腺癌相关资源数据库中进行乳腺癌相关文献检索，自动检索乳腺癌病因知识,获得符合预设知识框架下的乳腺癌风险因素知识；

所述知识评价模块1013用于对获取的知识依据证据维度进行循证医学证据等级评价；

所述关系分类模块1014用于将风险因素与乳腺癌发病之间的关系强度进行分类。

在本体建立模块(1011)中自构的乳腺癌风险因素本体的整体构建采用基于先验知识的从上至下建立框架和基于事实资源的从下之上补全知识相结合，同时自构的乳腺癌病因本体被映射至已有标准本体库。

另一方面，本发明提供了一种基于乳腺癌风险因素知识体系的知识图谱系统，该系统包括实体识别模块1021，关系抽取模块1022，知识融合模块1023和知识推理模块1024；

实体识别模块1021用于从有关乳腺癌风险因素的研究文献中识别出病因实体；

关系抽取模块1022用于根据识别出的实体抽取出实体之间的关系以此形成一定格式的组合；

知识融合模块1023用于将抽取的三元组与异构的本体之间建立映射；

知识推理模块1024用于推理新发现的知识、并不断更新和补全知识图谱。

该知识图谱系统能对乳腺癌病因的风险因素相关研究文献中因素的复杂性、关系表达的不确定性以及因素持续更新的动态性进行全面系统性的客观量化和展示。

在关系抽取模块1022中，定义乳腺癌病因知识图谱中的三元组<h,r,t>∈F，h&t∈V，关系r∈E表示连接节点的边，对于给定的实体对h和t，预测实体对间可能存在的关系r从而获取知识表示。

知识融合模块1023中，可以通过图神经网络模型对知识图谱进行知识推理。

另一方面，本发明还提供了一种基于乳腺癌风险因素知识体系的知识图谱构建方法，该方法主要包括以下步骤：

(S101)建立乳腺癌风险因素本体，通过建立以乳腺癌病因风险因素为主的自构知识本体，并将自构的知识本体和已有的本体用于构建乳腺癌风险因素本体；

(S102)获取知识数据，从多个乳腺癌相关资源数据库中获得符合预设知识框架下的乳腺癌风险因素知识。

(S103)进行实体识别，从有关乳腺癌风险因素的研究文献中识别出病因实体；

(S104)抽取关系，根据识别出的实体抽取出实体之间的关系，以此形成一定格式的组合；

(S105)知识评价和关系分类，对获取的知识依据证据维度进行循证医学证据等级评价，并将风险因素与乳腺癌发病之间的关系强度进行分类。

(S106)对知识进行融合，将抽取的关系与异构的本体之间建立起映射；

(S107)知识推理，推理新发现的知识、并不断重复S106-S107的步骤，从而不断更新和补全知识图谱。

综上所述，由于采用了上述技术方案，本发明的有益效果是：

(1)本发明提供的乳腺癌风险因素知识体系模型及知识图谱系统能够对乳腺癌及相关风险因素知识进行结构化及标准化处理，有利于后续扩大应用及维护，能够对乳腺癌的病因互作关系进行有效梳理、同时还能够将复杂多维风险因素实体及关系进行网络化连接，在未来能够从多角度多方面应用于基于知识图谱数据的智慧医疗系统中。

(2)本发明提供的基于知识体系建立的乳腺癌风险因素知识图谱，能够挖掘与人群乳腺癌风险相关的可监测、可干预的多维风险因素，可指导我国建立高成本-效用比的乳腺癌预防策略，为制定个性化的癌症预防策略提供支持，有助于提高筛查项目的卫生效益，提升社会总体健康水平，具有重要研究意义。

附图说明

图1为本发明提供的一种乳腺癌风险因素知识图谱系统框架图。

图2为本发明提供的知识体系单元框架图。

图3为本发明提供的本体建立模块框架图。

图4为本发明提供的一种基于知识体系的乳腺癌知识图谱构建模块图。

具体实施方式

下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

知识图谱实质上是一种语义网络的知识库，作为人工智能的分支之一，知识图谱是采用图结构进行复杂知识建模及潜在关系推理的技术，它以结构化的形式描述客观世界中类型、实体及其关系。实体是客观世界中的事物，类型是对具有相同属性的事物的概括和抽象。知识图谱是关联乳腺癌风险因素实体、推理隐含关系的绝佳方式。

乳腺癌病因的风险因素众多，相关研究质量参差不齐，尽管有多个乳腺癌致病风险因素已在临床上得到证实，但整个风险因素网络中致病因素所占权重尚缺乏研究证据，关系强度的评价存在统一量化的难题，各风险因素间的互作关系仍不明确。本发明提供的各实施例通过构建纵向的乳腺癌风险因素知识体系和乳腺癌风险因素知识图谱，校正乳腺癌风险因素知识关系强度，客观量化多领域的风险因素与乳腺癌发病之间的相关性及其致病机制，形成知识图谱，通过知识推理来挖掘风险因素网络中的互作关系。

实施例1

实施例1为一种乳腺癌风险因素知识图谱系统100,如图1所示,该知识图谱系统包括知识体系模型101、知识图谱102和知识图谱管理模块103。

所述知识体系模型101用于根据循证医学证据、文献知识及真实世界医疗数据建立乳腺癌病因风险因素知识本体体系；

所述知识图谱102用于根据乳腺癌病因风险因素知识本体、通过建立多领域风险因素实体及其致病途径之间的互作关系，构建乳腺癌病因风险因素知识图谱；

所述知识图谱管理模块103用于根据乳腺癌病因知识图谱做后续应用的管理和策略定制的开发。

实施例2

完备的知识体系是有效构建知识图谱的基础，为了能够建立针对乳腺癌的全面体系化的知识体系，本实施例中提供一种乳腺癌风险因素知识体系模型的建立方案。该知识体系模型101主要包括本体建立模块1011、数据获取模块1012、知识评价模块1013、关系分类模块1014。

乳腺癌风险因素的本体建立模块(1011)主要根据自构本体和已有本体完成乳腺癌风险因素本体构建，用于解决从文献抽取的病因描述、注释和分类缺乏统一标准的问题，从而建立一套以乳腺癌全病因为主的知识本体。如图3所示，在本体建立模块1011中包括已有标准本体和自构的乳腺癌病因本体，同时自构的乳腺癌病因本体被映射至已有标准本体库。

例如，OBO Foundry/Bioportal为生物学和生物医学领域的一套标准本体库，其中包含大量该领域内的常用标准本体。但是现有的标准本体库不一定能全部覆盖乳腺癌领域所需要的专用本体，因此本实施例中基于各级循证医学证据、遵循本体构建的原理和方法，并参考已有乳腺癌相关本体，拟定并完善知识框架，建立一套以乳腺癌病因风险因素为主的自构知识本体，再映射到已有的标准本体库，并将自构的乳腺癌病因本体和已有的标准本体用于构建乳腺癌风险因素本体。

例如，在一个实施例中按照“环境-生物-乳腺密度/病原体/生殖”这样的关系搭建的一组本体，属于在乳腺癌病因中重要的考虑因素，而现有的标准本体库中没有这样相关直接可用的本体。下表1中列举了一些本实施中自构乳腺癌知识本体中病因风险因素的主要层级作为补充举例说明。

表1

针对从文献抽取的风险因素描述、注释和分类缺乏统一标准的问题，采用将自构的乳腺癌风险因素本体映射已有标准本体的方式实现术语标准化能有助于知识共享。自构的乳腺癌风险因素本体的整体构建采用基于先验知识的从上至下建立框架和基于事实资源的从下之上补全知识相结合的方法，确保数据全流程的质量控制和验证，为指导、建立乳腺癌相关的评估体系提供经验。

对于数据获取模块1012，用于从多个乳腺癌相关资源数据库中进行乳腺癌风险因素相关文献检索，从中自动检索乳腺癌病因知识,并进行除重等标准化处理，获得符合预设知识框架下的乳腺癌风险因素知识。在一个实施例中可以通过网络爬虫、数据监控抓取等途径实现知识获取。

所述乳腺癌相关数据库包括循证医学临床证据数据库Cochrane Library、PubMed及其收录数据库、Embase数据库、Medline数据库、Web of Science及Scopus数据库等，且不限于所列举的数据库。

在一个实施例中本发明所使用的知识数据库还可以包括生物数据库(KEGG、TCGA、Uniplot等)、药物数据库、化学成分数据库、其他已有知识库等。

在一个实施例中自动检索的检索词包括癌症“Mesh词”AND causality/riskfactor“Mesh词”。

对于知识评价模块1013，用于对获取的知识依据证据维度进行循证医学证据等级评价，在本实施例中主要采用两个维度来进行知识评价：

维度一为循证医学证据等级，本实施例采用美国预防服务工作组(U.S.Preventive Services Task Force,USPSTF)的证据质量指南，以分类(好、中、差)进行评分；

维度二为引文网络，通过建立相关文献引文网络，根据文献被引频次、引用文献、信誉度等信息进行文献价值排序。

关系分类模块1014主要用于根据文献报道结果，将风险因素与乳腺癌发病之间的关系强度进行分类，例如，基于相对危险度(RR)、归因危险度(AR)、比值比(OR)、风险比(HR)、标准回归系数(包括置信区间)等统计学指标对临床研究进行关系的强度分类(强，中，弱)；当某个关系没有或只有较弱的人类流行病学研究可参考时，使用基于动物或机制的研究，关系强度分为强或中。

实施例3

如图4所示，本发明实施例提供了一种基于乳腺癌风险因素知识评价体系的乳腺癌病因知识图谱系统，能对乳腺癌病因的风险因素相关研究文献中因素的复杂性、关系表达的不确定性以及因素持续更新的动态性进行全面系统性的客观量化和展示。

根据知识图谱的应用场景，定义乳腺癌风险因素知识图谱G为三元组：

G＝{V,E,F}

其中，V表示乳腺癌病因知识图谱中多维度风险因素及资源(文献)的实体节点集合，E表示实体节点之间的关系集合，F表示的是事实集合，即一个由实体和关系组成的三元组代表着一条事实。

在本实施例中主要考虑到以下两种关系：

(1)上下位关系：描述同一类型实体之间的语义层次关系；

(2)横向关系：描述不同类型实体之间的依赖关系。

可见，本实施例构建的乳腺癌风险因素知识图谱中节点和边具有异构性，能够描述有关乳腺癌不同风险因素之间的关系。

本实施例提出的知识图谱构建包括包含实体识别模块1021，关系抽取模块1022，知识融合模块1023和知识推理模块1024。

实体识别模块1021用于从有关乳腺癌风险因素的研究文献中识别出病因实体。在本实施例中该实体识别模块1021利用预训练语言模型(Bidirectional EncoderRepresentation from Transformers，简称BERT)对研究文献进行命名实体识别的迁移学习，具体包括以下步骤：

(1)利用前述实施例中所构建的乳腺癌风险因素本体标注研究文献，构建迁移学习的语料库；(2)通过文本语料训练得到命名实体识别模型，识别与乳腺癌病因相关的风险因素实体；(3)将文献划分成与遗传、生物、化学、物理、社会及行为有关的六类，利用归类后的研究文献再次进行多任务学习模型训练，探索不同风险因素间的共性和差异。

在整个训练过程中，多任务之间可共享训练得到的参数，避免研究文献中实体描述不统一带来的问题，保证泛化学习的效果和性能，并以此迭代，完成与乳腺癌相关的病因实体识别。

在另一个实施例中还可以采用基于专家标注的浅层机器学习方法进行病因实体识别和抽取。

关系抽取模块1022用于根据识别出的实体抽取出实体之间的关系以此形成一定格式的三元组(例如[节点-关系-节点])。

具体而言，在本实施例中为了便于描述，定义乳腺癌病因知识图谱中的三元组<h,r,t>∈F，h&t∈V，关系r∈E表示连接节点的边。对于给定的实体对h和t，预测实体对间可能存在的关系r从而获取知识表示，需要分两种情况进行考虑：

(1)当关系r为上下位关系时：

给定上下位词对(h,t)，首先对t–h进行聚类，并对聚类得到的簇，学习映射矩阵Φ_k如下式所示：

其中，C_k表示第k簇，N_k表示第k簇中含有的上下位词对数。对于尚未确定的词对(h′,t′)，若d(Φ_kh′,t′)＝‖Φ_kh′-t′‖²<δ，则词对(h′,t′)存在上下位关系。

(2)当关系r为横向关系时：

考虑两种情况：若待抽取文本中只包含一个实体对，则使用文本卷积神经模型(Text-CNN)对实体对之间的关系进行预测；若待抽取文本中包含多个实体对，则基于LSTM-RNN、LSTM-LSTM-Bias联合抽取方案预测关系。

知识融合模块1023用于将抽取的三元组与异构的本体之间建立起映射；

对于抽取后的三元组需与本体之间建立起联系，使得异构的知识图谱能具有良好的扩展性和互通性，为知识图谱的持续更新提供基础，本实施例中进一步利用知识融合模块1023完成三元组与本体的映射确认。

具体而言，首先根据本体所在本体库中的拓扑结构进行表征学习，将有链接的本体映射到向量空间中的距离尽量小，从而得到本体的结构特征向量表示；

其次对本体的语义进行特征提取，利用文献对本体的语义贡献作为该本体的语义属性，通过多层感知器(Multilayer Perceptron,MLP)提取出本体的语义特征向量表示，然后将两者进行对齐与集成，得到最终的本体特征表示；

最后将知识图谱中的实体同样通过研究文献的语义贡献度进行语义属性的提取并转换为特征向量，利用余弦相似度或点积的方式对实体与本体的特征向量进行相似计算，通过设置阈值或排名的方式将二者关联起来，以此完成三元组与本体之间的映射。

针对非结构化医学知识同样可以利用实体识别、实体链接、句子简化、实体关系抽取等自然语言处理(NLP)技术手段抽取三元组信息，用以知识表示。

经过知识融合后，会进一步根据所构建的本体以及文献中的关键词将文献这一资源实体与所对应的病因风险因素实体关联起来，使得病因风险因素实体具有丰富的语义资源，以便于为知识图谱的后续应用服务。

在本实施例中提出的知识图谱构建系统随着对乳腺癌病因的研究进展会不断演化与更新，并且其中还有大量隐含的知识关系待挖掘。因此，对知识的推理是知识图谱构建的一个重要环节。

为了同时保留知识图谱的结构与实体之间的语义依赖关系，本实施例的知识推理模块1024通过图神经网络模型对知识图谱进行知识推理，具体包括以下步骤：

(1)利用TransE模型对实体进行表示学习，获取这些实体的Embedding向量；(2)针对不同的语义关系类型提取出相应的子图，利用图卷积神经网络模型进行子图中节点信息的传播与聚集，以此对不同类型的关系连接的实体进行表示；(3)利用这些向量对给定实体进行链路预测与实体发现；(4)得到的知识推理通过专家评估来完成最终有效的知识图谱补全。

在一个实施例中所述专家评估是指将专家矫正和评价用于知识框架的搭建、并用于推理知识评价。在另一个实施例中得到的知识推理也可以通过其他评估方式来完成是否作为有效的知识图谱补全。

进一步的为使知识图谱的知识推理具有良好的稳定性，给定知识图谱G，对关系r，令正例三元组集合F_r ⁺＝{<h_i,r,t_i>}，其中<h_i,r,t_i>∈G；通过随机替换实体t_i ^-构造负例三元组集合F_r ^-＝{<h_i,r,t_i ^->}，其中

使用向量点积d(·)作为三元组得分函数，使得正例三元组的得分函数值尽可能小，负例三元组得分函数值尽可能大。通过正负三元组之间最大间隔的损失函数，设计训练模型得到知识图谱的表示学习结果。

本实施例中设计的损失函数为：

如此可见乳腺癌风险因素知识图谱构建单元中各模块互相配合，形成一套用以支撑乳腺癌病因的大规模知识图谱构建流程。

实施例4

本实施例提供了一种基于知识体系的知识图谱构建方法，该方法用于对乳腺癌风险因素知识图谱的全面系统的构建，主要包括以下步骤：

(S101)建立乳腺癌风险因素的本体，通过建立以乳腺癌病因风险因素为主的自构知识本体，并将自构的乳腺癌病因本体和已有的标准本体用于构建乳腺癌风险因素本体；

例如，在一个实施例中按照“环境-生物-乳腺密度/病原体/生殖”这样的关系搭建的一组本体。

(S103)进行实体识别，从有关乳腺癌风险因素的研究文献中识别出病因实体，具体包括：

(S1031)利用前述实施例中所构建的乳腺癌风险因素本体标注研究文献，构建迁移学习的语料库；

(S1032)通过文本语料训练得到命名实体识别模型，识别与乳腺癌病因相关的风险因素实体；

(S1033)将文献划分成与遗传、生物、化学、物理、社会及行为有关的六类，利用归类后的研究文献再次进行多任务学习模型训练，探索不同风险因素间的共性和差异。

(S104)抽取关系，根据识别出的实体抽取出实体之间的关系，以此形成一定格式的三元组(例如[节点-关系-节点])。

(S106)对知识进行融合，将抽取的关系与异构的本体之间建立起映射，具体包括：

(S1061)根据本体所在本体库中的拓扑结构进行表征学习，将有链接的本体映射到向量空间中的距离尽量小，从而得到本体的结构特征向量表示；

(S1062)对本体的语义进行特征提取，利用文献对本体的语义贡献作为该本体的语义属性，通过多层感知器(Multilayer Perceptron,MLP)提取出本体的语义特征向量表示，然后将两者进行对齐与集成，得到最终的本体特征表示；

(S1063)将知识图谱中的实体同样通过研究文献的语义贡献度进行语义属性的提取并转换为特征向量，利用余弦相似度或点积的方式对实体与本体的特征向量进行相似计算，通过设置阈值或排名的方式将二者关联起来，完成三元组与本体之间的映射。

为了同时保留知识图谱的结构与实体之间的语义依赖关系，该知识推理步骤具体包括：

(S1071)利用TransE模型对实体进行表示学习，获取这些实体的Embedding向量；

(S1072)针对不同的语义关系类型提取出相应的子图，利用图卷积神经网络模型进行子图中节点信息的传播与聚集，以此对不同类型的关系连接的实体进行表示；

(S1073)利用这些向量对给定实体进行链路预测与实体发现；

(S1074)得到的知识推理通过专家评估来完成最终有效的知识图谱补全。

实施例5

在乳腺癌风险因素知识图谱构建后，知识图谱管理模块103能够对知识存储和知识更新进行有效管理，在一个实施例中可采用分布式存储方案有效管理提取的乳腺癌病因相关知识实体、满足知识图谱的存储要求。

对于知识存储，该知识图谱管理模块103基于分布式的管理框架，构建HDFS(Hadoop Distributed File System)分布式存储、分布式计算引擎、MPP列式存储/分析引擎，从而支撑大规模文本的存储、加工与集成。

对于知识更新，本实施例中在有最新的科研进展即具有权威性的文献产出时，也会经过知识抽取、表示及融合来更新知识图谱。根据新知识数据来源的权威度、冗余度、多样性、一致性等判定新知识准确性，将正确新知识所对应的相关实体和关系进行补全、纠错、外链、更新，确保知识图谱的一致性与准确性。

另外知识图谱管理模块103还能为后续知识图谱的实际应用提供有力数据支撑。

在本实施例中后续知识图谱应用包括但不限于：

(1)构建癌症风险因素知识图谱可视化及语义搜索系统/平台。

(2)构建乳腺癌发生发展风险评分系统，为人群进行乳腺癌患病风险评分；

(3)构建预防乳腺癌及乳腺癌风险评分辅助决策支持系统，为医生提供辅助检验决策知识支持；

(4)构建预防乳腺癌个性化推荐模型及可视化智能问答系统，为人群提供乳腺癌预防知识科普和就医建议等。

以上仅为本实施例中对基于前述乳腺癌风险因素知识图谱进行的应用举例说明，实际可应用范围不局限于上面列举。实际上，该构建乳腺癌风险因素知识图谱能够构建乳腺癌风险因素本体以乳腺癌及相关风险因素数据进行结构化及标准化处理，有利于后续扩大应用及维护，同时能够将复杂多维风险因素实体及关系进行网络化连接，因此能够从多角度多方面应用于基于知识图谱数据的智慧医疗系统中。

应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合，以及披露的任一新的方法或过程的步骤或任何新的组合。

Claims

1.一种乳腺癌风险因素知识体系模型，其特征在于，包括本体建立模块(1011)、数据获取模块(1012)、知识评价模块(1013)、关系分类模块(1014)；

所述本体建立模块(1011)根据自构本体和已有本体完成乳腺癌风险因素本体构建，从而建立一套以乳腺癌全病因为主的知识本体；

所述数据获取模块(1012)用于从乳腺癌相关资源数据库中进行乳腺癌相关文献检索，自动检索乳腺癌病因知识,获得符合预设知识框架下的乳腺癌风险因素知识；

所述知识评价模块(1013)用于对获取的知识依据证据维度进行循证医学证据等级评价；

所述关系分类模块(1014)用于将风险因素与乳腺癌发病之间的关系强度进行分类。

2.如权利要求1所述的一种乳腺癌风险因素知识体系模型，其特征在于，在本体建立模块(1011)中自构的乳腺癌风险因素本体的整体构建采用基于先验知识的从上至下建立框架和基于事实资源的从下之上补全知识相结合，同时自构的乳腺癌病因本体被映射至已有标准本体库。

3.如权利要求1所述的一种乳腺癌风险因素知识体系模型，其特征在于，知识评价模块(1013)中采用两个维度进行知识评价：

维度一为循证医学证据等级，维度二为引文网络，通过建立相关文献引文网络，根据文献被引频次、引用文献、信誉度信息进行文献价值排序。

4.如权利要求1所述的一种乳腺癌风险因素知识体系模型，其特征在于，关系分类模块(1014)根据统计学指标对临床研究进行关系的强度分类；当某个关系没有或只有较弱的人类流行病学研究参考时，使用基于动物或机制的研究。

5.一种基于乳腺癌风险因素知识体系的知识图谱系统，其特征在于，该系统包括实体识别模块(1021)，关系抽取模块(1022)，知识融合模块(1023)和知识推理模块(1024)；

实体识别模块(1021)用于从有关乳腺癌风险因素的研究文献中识别出病因实体；

关系抽取模块(1022)用于根据识别出的实体抽取出实体之间的关系以此形成一定格式的组合；

知识融合模块(1023)用于将抽取的三元组与异构的本体之间建立映射；

知识推理模块(1024)用于推理新发现的知识、并不断更新和补全知识图谱。

6.如权利要求5所述的一种基于乳腺癌风险因素知识体系的知识图谱系统，其特征在于，在关系抽取模块(1022)中，定义乳腺癌病因知识图谱中的三元组<h,r,t>∈F，h&t∈V，关系r∈E表示连接节点的边，对于给定的实体对h和t，预测实体对间可能存在的关系r从而获取知识表示，包括：

(1)当关系r为上下位关系时：

其中，C_k表示第k簇，N_k表示第k簇中含有的上下位词对数，对于尚未确定的词对(h′,t′)，若d(Φ_kh′,t′)＝‖Φ_kh′-t′‖²<δ，则词对(h′,t′)存在上下位关系；

(2)当关系r为横向关系时：

若待抽取文本中只包含一个实体对，使用文本卷积神经模型对实体对之间的关系进行预测；若待抽取文本中包含多个实体对，基于多神经网络模型联合抽取方案预测关系。

7.如权利要求5所述的一种基于乳腺癌风险因素知识体系的知识图谱系统，其特征在于，知识融合模块(1023)中，首先根据本体所在本体库中的拓扑结构进行表征学习，将有链接的本体映射到向量空间中的距离尽量小，从而得到本体的结构特征向量表示；

其次对本体的语义进行特征提取，利用文献对本体的语义贡献作为该本体的语义属性，提取出本体的语义特征向量表示，然后将两者进行对齐与集成，得到最终的本体特征表示；

最后将知识图谱中的实体通过语义贡献度进行语义属性的提取并转换为特征向量，利用余弦相似度或点积的方式对实体与本体的特征向量进行相似计算，将二者关联起来以此完成三元组与本体之间的映射。

8.如权利要求5所述的一种基于乳腺癌风险因素知识体系的知识图谱系统，其特征在于，知识推理模块(1024)通过图神经网络模型对知识图谱进行知识推理，具体包括：

(1)利用TransE模型对实体进行表示学习，获取实体的Embedding向量；(2)针对不同的语义关系类型提取出相应的子图，利用图卷积神经网络模型进行子图中节点信息的传播与聚集，以此对不同类型的关系连接的实体进行表示；(3)利用这些向量对给定实体进行链路预测与实体发现；(4)得到的知识推理通过进一步评估完成最终有效的知识图谱补全。

9.如权利要求5所述的一种基于乳腺癌风险因素知识体系的知识图谱系统，其特征在于，知识推理模块(1024)中，在给定知识图谱G，对关系r，令正例三元组集合F_r ⁺＝{<h_i,r,t_i>}，其中<h_i,r,t_i>∈G；通过随机替换实体t_i ^-构造负例三元组集合F_r ^-＝{<h_i,r,t_i ^->}，其中

使用向量点积d(·)作为三元组得分函数，使得正例三元组的得分函数值尽可能小，负例三元组得分函数值尽可能大，通过正负三元组之间最大间隔的损失函数，设计训练模型得到知识图谱的表示学习结果。

10.一种基于乳腺癌风险因素知识体系的知识图谱构建方法，其特征在于，主要包括以下步骤：

(S102)获取知识数据，从多个乳腺癌相关资源数据库中获得符合预设知识框架下的乳腺癌风险因素知识；

(S105)知识评价和关系分类，对获取的知识依据证据维度进行循证医学证据等级评价，并将风险因素与乳腺癌发病之间的关系强度进行分类；