CN117316466A

CN117316466A - 一种基于知识图谱与自然语言处理技术的临床决策方法、系统及设备

Info

Publication number: CN117316466A
Application number: CN202311594868.4A
Authority: CN
Inventors: 何昆仑; 孙宇慧
Original assignee: Chinese PLA General Hospital
Current assignee: Chinese PLA General Hospital
Priority date: 2023-11-28
Filing date: 2023-11-28
Publication date: 2023-12-29

Abstract

本申请涉及智能医疗领域，具体涉及一种基于知识图谱与自然语言处理技术的临床决策方法、系统及设备。包括获取临床数据；将所述临床数据输至构建好的知识图谱辅助进行临床决策得到临床决策方案。其中，所述构建好的知识图谱的构建过程为：获取临床医学数据集；定义临床本体概念模型、本体关系模型；所述本体概念模型采用自顶向下和自底向上相结合的方法构建得到；基于所述本体概念模型、本体关系模型对所述临床医学数据集进行标注得到标注后的数据；对所述标注后的数据进行实体识别得到实体数据；将所述标注后的数据、所述实体数据通过图数据结构存储得到知识图谱。该方法能够有效提取临床数据中实体与实体关系，进而提高临床决策的可信度。

Description

一种基于知识图谱与自然语言处理技术的临床决策方法、系统及设备

技术领域

本申请涉及智能医疗领域，具体涉及一种基于知识图谱与自然语言处理技术的临床方法、系统、设备及计算机可读存储介质。

背景技术

得益于智能技术的发展，智能化技术辅助临床决策的方法层出不穷，其中涉及实体识别、关系抽取、实体对齐、实体消歧等过程。然而，随着医学研究和临床数据的快速增长，数据来源的多样化及其内在的复杂性给数据整合、处理和应用带来了显著挑战。医学数据通常来自不同的医疗机构、研究报告以及实验室测试结果，格式多样且质量参差不齐，这导致了数据融合的质量控制问题。同时，现有的数据处理方法往往难以将海量的实践数据与理论医学知识有效结合，使得从大规模医学数据中提取有用信息变得困难。此外，现有的知识表示方法往往无法全面覆盖广泛的临床医学知识，影响了知识的系统化和规范化。文本分析方面，特别是关系抽取和实体识别，传统的机器学习方法往往存在准确度和稳定性的问题，难以满足医学文献分析的精确要求。最后，现有的数据存储和查询技术难以高效管理复杂的医学知识关系，影响了数据的检索速度和准确性。

发明内容

针对上述问题，本发明提出一种基于知识图谱与自然语言处理技术的临床决策方法，具体包括：

获取临床数据；

将所述临床数据输至构建好的知识图谱辅助进行临床决策得到临床决策方案；

其中，所述构建好的知识图谱的构建过程为：

获取临床医学数据集；

定义临床本体概念模型、本体关系模型；所述本体概念模型中的本体采用自顶向下和自底向上相结合的方法构建得到，所述本体关系模型通过分析本体之间的关系得到；所述自顶向下是指通过定义临床医学核心本体类型构建得到初级概念层次模型，所述初级概念层次模型基于自底向上的方法通过实际临床数据和案例扩展本体结构得到本体概念模型；

基于所述本体概念模型、本体关系模型对所述临床医学数据集进行标注得到标注后的数据；

对所述标注后的数据进行实体识别得到实体数据；

将所述标注后的数据、所述实体数据通过图数据结构存储得到知识图谱。

进一步，所述标注包括语料标注、关系标注；所述语料标注包括下列的一种或几种：分析阶段、预标记阶段、标记阶段；所述关系标注依据本体关系模型定义实例关系，包括：包含关系、导致关系、出现关系、存在属性关系。

进一步，所述分析阶段通过划分本体概念确定本体类型，并根据标签规范确定标签，所述标签包括下列的一种或几种：疾病、症状和体征、诊断程序、诊疗方法；所述预标记阶段基于标签进行初次标记得到初次标记数据；所述标记阶段基于所述初次标记数据进行二次优化后再进行标记得到标记后的数据。

所述关系标注先采用实体关系抽取算法进行关系类别分类，基于所述关系类别进行标注得到实体关系数据；其中所述实体关系抽取算法由输入层、序列拼接层、词嵌入层、双向长短期记忆神经网络层、全连接神经网络层、分类器层、输出层组成。

进一步，所述分类器层中采用图注意力网络提取实体的特征表示及实体之间的交互关系。

进一步，所述图注意力网络中注意力系数通过激活函数计算得到。

进一步，所述注意力系数的公式为：

其中，是注意力机制的权重向量, 为权重向量的转置向量；表示向量连接；是权重矩阵，为注意力得分，表示节点的邻居节点集合，为节点，为邻居节点中的任意节点；为LeakyReLU激活函数, 为节点的初始特征向量；为节点对节点的标准化注意力权重。

进一步，采用Softmax()函数对所述注意力得分进行标准化处理。

所述图注意力网络通过n头注意力捕捉不同子空间的信息，n为大于1的自然数，每个头捕获的信息表示为：

其中，为在第个头中的特征向量，表示Sigmoid激活函数，表示节点的邻居节点集合，表示节点，表示第k个头中对的权重系数，为在第个头中用于线性变换的权重矩阵，节点的初始特征向量。

所述本体概念模型中本体定义七元组，包括疾病、症状和体征、诊断程序、治疗、属性、属性值、状态值。

所述本体之间的关系包括：相互关联关系、逻辑推导关系、因果关系；所述关系提取得到的知识作为本体概念模型的实例数据。

所述方法还包括数据预处理，所述数据预处理包括下列的一种或几种：数据清洗、数据筛选、数据标准化处理、去除无用停用词、删除特殊字符、删除多余空格、分类、医学术语规范化处理。

本发明的目的在于提供一种基于知识图谱与自然语言处理技术的临床决策系统，包括：

数据获取单元：获取临床数据；

临床决策单元：将所述临床数据输至构建好的知识图谱辅助进行临床决策得到临床决策方案；

其中，所述构建好的知识图谱的构建过程为：

获取临床医学数据集；

定义临床本体概念模型、本体关系模型；所述本体概念模型采用自顶向下和自底向上相结合的方法构建得到，所述本体关系模型通过提取实体之间的关系得到；所述自顶向下是指通过定义临床医学核心本体类型构建得到初级概念层次模型，所述初级概念层次模型基于自底向上的方法通过实际临床数据和案例扩展本体结构得到本体概念模型；

基于所述本体概念模型、本体关系模型对所述临床医学数据进行标注得到标注后的数据；

对所述标注后的数据进行实体识别得到实体数据；

本发明的目的在于提供一种基于知识图谱与自然语言处理技术的临床决策设备，包括：

存储器和处理器，所述存储器用于存储程序指令；所述处理器用于调用程序指令，当程序指令被执行时实现任意一项上述的基于知识图谱与自然语言处理技术的临床决策方法。

本发明的目的在于提供一种计算机可读存储介质，其上有计算机程序，包括：

所述计算机程序被处理器执行时实现任意一项上述的基于知识图谱与自然语言处理技术的临床决策方法。

本发明的优势：

1. 知识图谱构建流程是优先提取临床数据中的本体概念模型和本体关系模型，再基于本体概念模型和本体关系模型进行语料标注、关系标注、关系抽取及实体识别；本体概念模型与本体关系模型能够提供对领域知识的共同理解，有助于准确识别实体和关系。

2. 本体概念模型的构建通过自顶向下和自顶向上的方式相结合得到的，进而优化本体的定义类型，提高本体概念定义的准确性，为后续的标注奠定基础。

3. 定义了具体的本体概念及本体关系，以全面覆盖临床医学的各个层面，能够针对有效应对临床数据中各类实体类型，避免实体遗漏的问题。

4. 采用改进的算法进行关系种类分类，用于提高关系抽取的精确度和模型稳定性，包括采用BMES的结构引入词汇信息，丰富特征表达，提高模型对临床医学数据的学习能力。

5. 采用图注意力作为模型的分类器，提高模型对有用信息的关注，并且与传统的计算注意力系数不同，本发明通过利用激活函数计算获取节点的注意力；还使用softmax函数对注意力得分进行标准化，确保网络节点的所有邻居节点的注意力不会产生过度偏离的现象；此外本模型中采用了多头注意力，使得模型能够关注来自不同子空间的信息，提高特征自适应细化能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获取其他的附图。

图1为本发明实施例提供的一种基于知识图谱和自然语言处理技术的临床决策方法流程示意图；

图2为本发明实施例提供的一种基于知识图谱和自然语言处理技术的临床决策系统示意图；

图3为本发明实施例提供的一种基于知识图谱和自然语言处理技术的临床决策设备示意图；

图4为本发明实施例提供的本体概念模型示意图；

图5为本发明实施例提供的实体关系抽取算法结构实体图；

图6为本发明实施例提供的双向长短期记忆网络的网络结构示意图；

图7为本发明实施例提供的LSTM模型结构示意图；

图8为本发明实施例提供的构建好的知识图谱示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

在本发明的说明书和权利要求书及上述附图中的描述的一些流程中，包含了按照特定顺序出现的多个操作，但是应该清楚了解，这些操作可以不按照其在本文中出现的顺序来执行或并行执行，操作的序号如S101、S102等，仅仅是用于区分开各个不同的操作，序号本身不代表任何的执行顺序。另外，这些流程可以包括更多或更少的操作，并且这些操作可以按顺序执行或并行执行。需要说明的是，本文中的“第一”、“第二”等描述，是用于区分不同的消息、设备、模块等，不代表先后顺序，也不限定“第一”和“第二”是不同的类型。

图1本发明实施例提供的一种基于知识图谱和自然语言处理技术的临床决策方法示意图，具体包括：

S101：获取临床数据；

S102：将所述临床数据输至构建好的知识图谱辅助进行临床决策得到临床决策方案；

其中，所述构建好的知识图谱的构建过程为：

获取临床医学数据集；

定义临床本体概念模型、本体关系模型；所述本体概念模型中的本体采用自顶向下和自底向上相结合的方法构建得到，所述本体关系模型通过提取实体之间的关系得到；所述自顶向下是指通过定义临床医学核心本体类型构建得到初级概念层次模型，所述初级概念层次模型基于自底向上的方法通过实际临床数据和案例扩展本体结构得到本体概念模型；

对所述标注后的数据进行实体识别得到实体数据；

在一个实施例中，临床医学数据是指在临床实践中产生的各种数据，包括但不限于患者信息、诊断结果、治疗方案、手术记录、病理报告、治疗效果等。这些数据对于医生进行诊断和治疗决策具有重要的参考价值。

在一个实施例中，知识图谱是一种基于图的知识表示方法，它以实体、属性、关系等为基础元素，通过链接不同实体，反映出复杂的知识结构。这种知识表示方法在处理复杂知识、表达语义信息以及辅助人工智能应用方面具有很大的优势。

知识图谱的构成要素：

1.实体:知识图谱中的基本单元，代表实际世界中的事物或概念；

2.属性:描述实体的特征或属性，如颜色形状、大小等；

3.关系:连接不同实体之间的关系，反映它们之间的联系和互动；

4.事件:表示特定事件或行为，通常由一个或多个实体参与其中。

在一个具体实施例中，采集获取临床医学数据时，主要来源包括：

1）医学教科书、诊疗指南和临床路径中的数据，这些文献通常包含与疾病诊断、治疗方案、药物使用等相关的标准化内容；

2）患者的电子病历（EMR）记录，包括患者的病史、体检报告、实验室检查结果、影像学资料和治疗过程等，这些信息丰富且直接相关于临床决策；

3）公开的医学数据库和网上的医学论坛或社交媒体，利用爬虫技术或API接口获取疾病描述、治疗反馈、临床试验结果等数据。

在一个具体实施例中，对收集到的数据信息进行清洗、筛选、标准化处理、去除无用停用词、删除特殊字符、删除多余空格、分类等预处理操作。针对医学领域的特殊性，还可能需要进行医学术语的规范化处理，如将不同的疾病描述归一化到统一的医学术语。

在一个实施例中，自顶向下的方法是一种从高级别的概念开始逐步细化到低级别的概念的构建方法。这种方法首先定义最高级别的概念，然后定义这些概念之间的关系，接下来是次级别的概念，以此类推，直到所有的概念都被定义完毕，这种方法依赖于顶层的概念定义。

在一个实施例中，与自顶向下的方法相反，自底向上的方法是种从低级别的概念开始，逐步抽象到高级别的概念的构建方法。这种方法首先从原始的数据中提取出实体和它们之间的关系，然后通过对这些关系的分析和归纳，形成更高级别的概念和它们之间的关系。

在一个实施例中，知识图谱的构建采用自顶向下和自顶向上相结合的方式，构建过程中包括概念层和数据层，其中概念层的处理包括定义本体概念模型、本体关系模型，数据层的处理包括语料标注、关系标注、实体识别。

在一个具体实施例中，本体也采用自顶向下和自底向上相结合的方法进行构建，自顶向下方法是指首先构建本体的概念和数据模型，然后根据这些概念向知识库中添加数据实体；自底向上方法则是从数据层面开始，先总结实体和数据，然后基于这些数据构建本体的概念层次。

在一个实施例中，所述本体概念模型中本体定义七元组，包括疾病、症状和体征、诊断程序、治疗、属性、属性值、状态值。

在一个实施例中，所述本体之间的关系包括：相互关联关系、逻辑推导关系、因果关系；所述关系提取得到的知识作为本体概念模型的实例数据。

在一个具体实施例中，本发明在构建临床医学诊断知识图谱时，首先定义了临床医学的核心本体类型，并构建了一个初步的概念层次。这些类型通常基于医学标准和实践中普遍认可的分类体系。然后，使用自底向上的方法根据实际临床数据和案例来进一步扩展和细化本体结构。主要研究的本体概念包括：

疾病（D）：如心脏病、糖尿病等；

症状和体征（S）：如发烧、血压升高等；

诊断程序（P）：如血液检查、X光检查等；

治疗（T）：包括药物治疗、手术治疗等；

属性（M）：如疾病的潜伏期、治疗的副作用等；

属性值（I）：如血压的具体数值等；

状态值（P）：反映患者的健康状态，如稳定、恶化等。

本体构建的概念层次结构如图4所示，一种疾病的症状分为三层，第一层为疾病、症状和体征、诊断程序、治疗，第二层为属性，第三层为属性值；其中，第一层中的疾病、症状和体征、诊断程序、治疗为串联形式，分别为上下为关系。

在一个具体实施例中，本体概念建模主要涉及：疾病、症状和体征、诊断程序、治疗、属性、属性值、状态值。即将本体定义为O=<D, S, P, T, M, I, P>七元组，其中D代表疾病概念，S代表症状和体征概念，P代表诊断程序概念，T代表治疗概念，M代表属性概念，I代表属性值概念，P代表状态值概念。

在一个具体实施例中，在定义了这些知识概念和概念间的关系之后，本发明使用本体建模工具（如Protege）来构建临床医学诊断的本体知识模型。概念间的关系抽取是构建本体领域的重要一环，本发明通过分析提取出的主要关系包括：相互关联关系（如症状与疾病之间）、逻辑推导关系（如诊断程序导致诊断结果）、因果关系（如疾病导致症状）等。最后，将从非结构化文本中提取出的知识作为本体模型的实例数据。

在一个实施例中，所述标注包括语料标注、关系标注；所述语料标注包括下列的一种或几种：分析阶段、预标记阶段、标记阶段；所述关系标注依据本体关系模型定义实例关系，包括：包含关系、导致关系、出现关系、存在属性关系。

在一个实施例中，所述分析阶段通过划分本体概念确定本体类型，并根据标签规范确定标签，所述标签包括下列的一种或几种：疾病、症状和体征、诊断程序、诊疗方法；所述预标记阶段基于标签进行初次标记得到初次标记数据；所述标记阶段基于所述初次标记数据进行二次优化后再进行标记得到标记后的数据。

在一个实施例中，所述关系标注先采用实体关系抽取算法进行关系类别分类，基于所述关系类别进行标注得到实体关系数据；其中所述实体关系抽取算法由输入层、序列拼接层、词嵌入层、双向长短期记忆神经网络层、全连接神经网络层、分类器层、输出层组成。

在一个实施例中，所述分类器层中采用图注意力网络提取实体的特征表示及实体之间的交互关系。

在一个实施例中，所述图注意力网络中注意力系数通过激活函数计算得到。

在一个实施例中，所述注意力系数的公式为：

在一个实施例中，采用Softmax()函数对所述注意力得分进行标准化处理。

在一个实施例中，所述图注意力网络通过n头注意力捕捉不同子空间的信息，n为大于1的自然数，每个头捕获的信息表示为：

在一个具体实施例中，临床医学诊断语料库的标注过程主要分为以下三个阶段：

第一阶段是早期分析阶段。在这一阶段，主要对获取的临床文本信息进行分析，查阅相关医学文献资料，划分本体概念，确定本体类型。此外，还需要通过初步研究和咨询医学专家制定相应的标签规范。这些标签将涵盖疾病、症状和体征、诊断程序、治疗方法等相关概念。

第二阶段是预标记阶段。根据已经制定的标签规范，对临床医学相关的数据样本进行预标记操作。如果在标注过程中遇到不确定的词汇或概念，将通过讨论或寻求专家的帮助来解决，并根据得到的解决方案再次更新标签规范。当所有不确定的词汇都得到妥善处理后，这一阶段便结束。

第三阶段是正式标记阶段。在经过前两个阶段的准备和预处理之后，正式进入实体关系的标记阶段。在这一阶段，将通过多组标记人员来比较标记结果的一致性，以确保数据的标注质量和准确性。

在一个实施例中，关系种类分类的算法包括下列的一种或几种：卷积神经网络、循环神经网络、长短期记忆神经网络、双向长短期记忆神经网络、Transformer、注意力机制、图卷积神经网络。

在一个具体实施例中，专家标注采用标注工具doccano，为开源工具。标注的指导规范可以参考（1）YY/T 1833.3-2022 人工智能医疗器械质量要求和评价第3部分：数据标注通用要求；（2）GB/T 42755-2023 人工智能面向机器学习的数据标注规程。

在一个具体实施例中，关系标注的流程与实体标注相似，关系的标注方法主要包括：确定关系类别、标注实体的字符位置、确定实体尾部字符位置等。字符位置代表字符在句子中的序号，而实体尾部字符位置则标明了与关系类别相对应的尾实体在句子中的位置。

依据前面定义的本体概念关系模型，关系的类型主要分为四种：包含关系、导致关系、出现关系、存在属性关系。

在标注关系三元组时，将关系类别标记在头实体的尾字符上，并在句子中标注尾实体的尾部字符位置。对于不属于任何关系类型的字符，标注为“N”。当一个实体涉及到多个三元组关系时，在该头实体的尾部字符上标记所有关系，并指明与尾实体尾部字符的对应关系位置。

在一个具体实施例中，在确定关系类别时常使用单一的神经网络模型，但在不同的输入条件下会表现出不同的结果，稳定性较差。本发明利用集成学习思想将多个单一模型集成为一个综合模型来提高模型的稳定性，并通过注意力增强机制提高实体关系抽取的准确性。在本发明提出一种新型实体关系抽取模型，如图5所示，模型由下往上分为：Bert层、双向长短期记忆网络层、注意力增强层、弱分类器层、强分类器层、全连接神经网络层、输出层。接下来，分别对各层设计及参数进行介绍。

（1）序列拼接层

序列拼接层的输入是临床医学相关的文本数据，该层通过B、M、E、S这4种结构引入词汇，解决了词汇损失的问题。在一个实施例中，以输入文本为“腹部有疼痛”为例，B表示匹配以该字符为首位的词语，如“腹部”，表示匹配该字符处于中间的词语，如“有”，表示匹配该字符处于结尾的词语，如“疼痛”，表示该字符本身。通过该方法收集每个字符所对应的词汇，获取到词汇的完整信息，接下来通过词频、拼接方式对词汇信息以表征，B、M、E、S结构的构建公式表示为：

其中，分别是字符匹配到对应结构的词汇向量集；表示词典，、所对应结构的词汇；表示单个字符；表示索引位置；为文本序列；表示对单个结构的词汇信息进行归一整合，其中为单个词汇的词频，为词汇嵌入矩阵；为4种词汇结构的词频之和；表示将4种结构的词汇向量拼接得到最终特征表示。

（2）Bert层

序列拼接层的输出经过Bert层转换成机器学习模型能够识别的向量。Bert层采用Bert模型进行向量转换，该模型为领域内成熟的通用模型，且该模型为与训练模型，因此在此不进行展开介绍。

除去语义和位置信息，输入模型的数据还包括实体标签和实体之间的关系。因此，Bert层的输入是将序列拼接层的输出的数据序列，通过Bert层将序列转换成向量矩阵，然后进行padding对齐，不足的补0，超出的部分采用从后往前截取方法。

（3）双向长短期记忆网络层

双向长短期记忆网络英文缩写为Bi-LSTM，该网络可以充分的利用前向和后向的上下文信息，使得模型能够更好地理解句子语义。在本模型中，双向长短期记忆网络层作为Bert层的下一层，能对Bert层输出的文本向量进行双向学习并拼接，以得到句子进行更深层次的理解。

双向长短期记忆网络的组成单元是LSTM，双向长短期记忆网络由前向LSTM和后向LSTM构成，单向LSTM只能通过从前到后的顺序发掘时间序列数据信息，无法从后到前发掘时间序列数据信息，可能导致神经网络预测模型学习能力较弱。双向长短期记忆网络通过两个方向来发掘时间序列数据信息，能够提高神经网络预测模型学习能力，提高模型的预测精度，双向长短期记忆网络的网络结构如图6所示，双向长短期记忆网络的网络结构包含两个独立的LSTM网络，输入序列分别以正序和逆序输入至两个LSTM神经网络进行特征提取，将两个输出向量(即提取后的特征向量) 进行拼接后形成的向量作为最终特征表达。

其中，LSTM是循环神经网络的一种变体，属于改进的循环神经网络，它能够有效地解决循环神经网络无法处理时间序列中长序列的依赖问题，通过引入专门的变量存储神经单元状态，从而使神经网络具有长时间序列记忆功能，解决了循环神经网络的梯度消失和爆炸问题。LSTM模型往往由多个LSTM神经单元构成，由输入层、LSTM层、输出层构成，如图7所示。

双向长短期记忆网络的隐藏层的计算方式如下：

其中，为时刻的输入向量，为前向的隐藏状态，为后向的隐藏状态，表示前一时刻的隐藏状态，表示下一时刻的隐藏状态.所以，时刻的隐藏状态为前向和后向隐藏状态的拼接，其表示方式如下：

其中，符号表示状态拼接操作。因此最终隐藏层输出可表示。

（4）全连接神经网络层

本发明选择3层隐藏层的全连接神经网络进行特征融合，在提高训练效率的同时，保证实体关系抽取的性能，使用全连接神经网络进行信息传播计算方式如下：

其中，表示层神经元的净输入，表示第层神经元的输出，表示第层前一层神经元的输出，表示神经元的激活函数，表示层到层的权重矩阵，表示到层的偏置。

（5）分类器层

将全连接层的输出输入到分类器层中进行关系识别，本发明的分类器层为图注意力网络，其能够较好地提取实体之间的复杂关系。在临床医学知识图谱的场景中，通常将实体和关系建模为图中的节点和边，因此图注意力网络中的“邻居”可以是任何有直接关系的实体或概念。通过这种方式，模型不仅学习了实体的特征表示，还学习了实体间的交互关系。

设Bi-LSTM的输出是一系列向量，其中是第个时间步的隐藏状态。在图注意力网络中，计算节点对节点的注意力系数可以表示为：

其中，为注意力得分；是权重矩阵，用于线性变换输入特征。

是注意力机制的权重向量；表示向量连接；表示节点的邻居节点集合，包括节点本身；为LeakyReLU激活函数，其允许小的梯度当输入值小于零时流动；为节点的初始特征向量；为节点对节点的标准化注意力权重。

进一步地，每个节点的特征向量通过相同的权重矩阵进行变换的目的是提升特征的表达能力并减少后续计算的复杂性，可以表示为：

其中，是经过变换后的特征向量。

进一步地，计算出注意力系数后，计算每个节点的加权特征表示，可以表示为：

其中，表示Sigmoid激活函数。

进一步地，使用softmax函数对原始的注意力得分进行标准化，以确保的所有邻居节点的注意力得分之和为1，另为，则计算方式可以表示为：

其中，为对的标准化注意力权重；为节点对节点的原始注意力得分；为节点对节点的原始注意力得分。

在多头注意力机制中，上述计算会并行进行次，每个头都有其独立的参数和，之后头之间的特征表示可以通过平均拼接的方式结合起来，可以表示为：

其中，为节点的邻居节点集合。在分类任务中，可以利用计算最终的类别标签，或者将其作为下一层网络的输入；为节点的最终输出特征向量；为多头注意力机制中头的数量。

进一步地，为了使模型能够同时关注来自不同子空间的信息，会并行执行多头注意力机制，然后将这些头的输出进行组合。对于每个头，有：

其中，为注意力机制中用于计算得分的参数向量；为在第个头中，节点的输出特征向量；为在第个头中用于线性变换的权重矩阵；为在第个头中用于计算得分的参数向量。

（5）输出层

输出层为输出的实体关系类别预测概率。

在一个具体实施例中，在实体识别时，采用双向长短期记忆网络和条件随机场进行识别，双向长短期记忆网络层同上述处理方法相同，此处不再进行展开介绍。本发明选用条件随机场层来控制实体标签的输出顺序。假定有一个由若干变量组成的一个整体，那么当给这个整体中的某一个变量随机赋值之后，其全体就叫做随机场。以本发明中的临床医学诊断知识图谱构建方法中的实体识别任务为例，假定某个句子由10个字组成，要对这10 个字进行实体识别的标注，就需要给每个字分配对应的标签（B、I、O），当其中一个字被分配了标签后，其他的字就形成了一个随机场。而当随机场中某一个位置的赋值只由自身位置或相邻位置决定时，随机场就变成了马尔可夫随机场。比如第三个字的标签除了与自己本身的位置有关外，只与第二个字和第四个字的标签有关，这时就变成了一个马尔可夫随机场。当马尔可夫随机场中只有X和Y两种变量时(X是词，Y是标签），这种随机场就称之为条件随机场，英文缩写为CRF。假定是给定X时Y的条件概率分布，则其具体计算公式如下：

其中，和是特征函数，和是对应的权值，是规范化因子，是当前时刻的输入词向量，是所对应的标签，对所有的特征进行归一化处理。根据条件概率分布，按照概率大小确定标签的输出顺序。

在一个具体实施例中，本发明使用Neo4j图形数据库进行知识存储和可视化操作，Neo4j是一个高性能、成熟和稳定的图形数据库，在基于JDK的环境下运行。

在一个具体实施例中，构建临床医学诊断知识图谱如图8所示，基于所构建的知识图谱，进行知识问答，以辅助临床医学的决策。

在一个具体实施例中，设知识图谱由以下元素组成：

实体（E）：肺炎（Pneumonia），头痛（Headache），抗生素（Antibiotics），休息（Rest）等。

关系（R）：有症状（hasSymptom），治疗方法（treatedBy），适用药物（treatedWith）等。

属性（A）：病因（Cause），症状描述（SymptomDescription）等。

在一个问答示例中：

问题为：肺炎应该怎么治疗？

则可以使用在Neo4j数据库中进行查询，查询语句为：

“

MATCH (d:Disease {name: "肺炎"})-[:treatedBy]->(t:Treatment)

RETURN t.name AS TreatmentMethod

”

执行查询后，Neo4j将返回所有标记为治疗肺炎的治疗方法的名字。如果图数据库中包含有关肺炎治疗方法的信息，则查询结果可能会包括如“使用抗生素”、“休息保养”等答案。

图2本发明实施例提供的一种基于知识图谱和自然语言处理技术的临床决策系统示意图，具体包括：

数据获取单元：获取临床数据；

其中，所述构建好的知识图谱的构建过程为：

获取临床医学数据集；

对所述标注后的数据进行实体识别得到实体数据；

图3本发明实施例提供的一种基于知识图谱和自然语言处理技术的临床决策设备示意图，具体包括：

存储器和处理器；所述存储器用于存储程序指令；所述处理器用于调用程序指令，当程序指令被执行任意一项上述的一种基于知识图谱和自然语言处理技术的临床决策方法。

一种计算机可读存储介质，所述计算机可读存储介质存储计算机程序，所述计算机程序被处理器执行时任意一项上述的一种基于知识图谱和自然语言处理技术的临床决策方法。

本验证实施例的验证结果表明，为适应症分配固有权重相对于默认设置来说可以改善本方法的性能。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random AccessMemory)、磁盘或光盘等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的介质存储可以是只读存储器，磁盘或光盘等。

以上对本发明所提供的一种计算机设备进行了详细介绍，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于知识图谱与自然语言处理技术的临床决策方法，其特征在于，所述方法包括：

获取临床数据；

其中，所述构建好的知识图谱的构建过程为：

获取临床医学数据集；

对所述标注后的数据进行实体识别得到实体数据；

2.根据权利要求1所述的基于知识图谱与自然语言处理技术的临床决策方法，其特征在于，所述标注包括语料标注、关系标注；所述语料标注包括下列的一种或几种：分析阶段、预标记阶段、标记阶段；所述关系标注依据本体关系模型定义实例关系，包括：包含关系、导致关系、出现关系、存在属性关系。

3.根据权利要求2所述的基于知识图谱与自然语言处理技术的临床决策方法，其特征在于，所述分析阶段通过划分本体概念确定本体类型，并根据标签规范确定标签，所述标签包括下列的一种或几种：疾病、症状和体征、诊断程序、诊疗方法；所述预标记阶段基于标签进行初次标记得到初次标记数据；所述标记阶段基于所述初次标记数据进行二次优化后再进行标记得到标记后的数据。

4.根据权利要求2所述的基于知识图谱与自然语言处理技术的临床决策方法，其特征在于，所述关系标注先采用实体关系抽取算法进行关系类别分类，基于所述关系类别进行标注得到实体关系数据；其中所述实体关系抽取算法由输入层、序列拼接层、词嵌入层、双向长短期记忆神经网络层、全连接神经网络层、分类器层、输出层组成。

5.根据权利要求4所述的基于知识图谱与自然语言处理技术的临床决策方法，其特征在于，所述分类器层中采用图注意力网络提取实体的特征表示及实体之间的交互关系。

6.根据权利要求5所述的基于知识图谱与自然语言处理技术的临床决策方法，其特征在于，所述图注意力网络中注意力系数通过激活函数计算得到。

7.根据权利要求6所述的基于知识图谱与自然语言处理技术的临床决策方法，其特征在于，所述注意力系数的公式为：

其中，是注意力机制的权重向量, />为权重向量的转置向量；/>表示向量连接；/>是权重矩阵，/>为注意力得分，/>表示节点/>的邻居节点集合，/>为节点，/>为邻居节点中的任意节点；/>为LeakyReLU激活函数, />为节点/>的初始特征向量；/>为节点/>对节点/>的标准化注意力权重。

8.根据权利要求7所述的基于知识图谱与自然语言处理技术的临床决策方法，其特征在于，采用Softmax()函数对所述注意力得分进行标准化处理。

9.根据权利要求5所述的基于知识图谱与自然语言处理技术的临床决策方法，其特征在于，所述图注意力网络通过n头注意力捕捉不同子空间的信息，n为大于1的自然数，每个头捕获的信息表示为：

其中，为在第/>个头中的特征向量，/>表示Sigmoid激活函数，/>表示节点/>的邻居节点集合，/>表示节点，/>表示第k个头中/>对/>的权重系数，/>为在第/>个头中用于线性变换的权重矩阵，/>节点/>的初始特征向量。

10.根据权利要求1所述的基于知识图谱与自然语言处理技术的临床决策方法，其特征在于，所述本体概念模型中本体定义七元组，包括疾病、症状和体征、诊断程序、治疗、属性、属性值、状态值。

11.根据权利要求1所述的基于知识图谱与自然语言处理技术的临床决策方法，其特征在于，所述本体之间的关系包括：相互关联关系、逻辑推导关系、因果关系；所述关系提取得到的知识作为本体概念模型的实例数据。

12.根据权利要求1所述的基于知识图谱与自然语言处理技术的临床决策方法，其特征在于，所述方法还包括数据预处理，所述数据预处理包括下列的一种或几种：数据清洗、数据筛选、数据标准化处理、去除无用停用词、删除特殊字符、删除多余空格、分类、医学术语规范化处理。

13.一种基于知识图谱与自然语言处理技术的临床决策系统，其特征在于，包括：

数据获取单元：获取临床数据；

其中，所述构建好的知识图谱的构建过程为：

获取临床医学数据集；

对所述标注后的数据进行实体识别得到实体数据；

14.一种基于知识图谱与自然语言处理技术的临床决策设备，其特征在于，包括：

存储器和处理器，所述存储器用于存储程序指令；所述处理器用于调用程序指令，当程序指令被执行时实现权利要求1-12任意一项上述的基于知识图谱与自然语言处理技术的临床决策方法。

15.一种计算机可读存储介质，其上有计算机程序，其特征在于，包括：

所述计算机程序被处理器执行时实现权利要求1-12任意一项上述的基于知识图谱与自然语言处理技术的临床决策方法。