CN116030934A

CN116030934A - 一种针对高血压的医学知识图谱跟临床数据融合的系统

Info

Publication number: CN116030934A
Application number: CN202310034066.1A
Authority: CN
Inventors: 蔡军
Original assignee: Fuwai Hospital of CAMS and PUMC
Current assignee: Fuwai Hospital of CAMS and PUMC
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-04-28

Abstract

一种针对高血压的医学知识图谱跟临床数据融合的系统，包括：文献知识提取单元和知识图谱数据整合单元，使得文献知识提取单元所得的知识数据库，与患者数据收集单元所得的临床数据库之间的数据组织及结构一致；确保知识概念跟相关的数据定义保持一致；同义概念用同一个概念词语表达；否则进行数据属性的校正；经过数据属性校正后，高血压相关的知识和患者数据导入高血压知识图谱数据库中，使得知识对应的临床数据明确。本公开基于高血压当前患者的数据、高血压用药有关医学文献知识和其他高血压患者的诊疗情况尤其是用药情况，创新性的通过人工智能和知识图谱技术的结合，实现了一种针对高血压的医学知识图谱跟临床数据融合的系统。

Description

一种针对高血压的医学知识图谱跟临床数据融合的系统

技术领域

本公开属于医疗数据处理技术领域，特别涉及一种针对高血压的医学知识图谱跟临床数据融合的系统。

背景技术

目前，医学知识整理问题已经被广泛认知，业内的共识是是通过知识图谱数据库技术(Knowledge Graph)来整理医学知识。问题在于，公开知识图谱项目一般都是基于很多病种，浅层知识关联，很少深入为了一种专病来设计，实际中也没有专为高血压病种而使用的知识图谱。

而在高血压临床用药治疗方面，目前普遍存在基层医生用药不够规范的问题。由于基层专科防治水平较低，高血压用药能力薄弱，用药上存在不规范、不标准的问题。虽然各级指南对高血压用药的各种情况都有强适应症推荐用药，但是基层医生对相关知识的掌握不足，导致高血压伴随合并症和靶器官损伤的情况下错误用药、重复用药情况时常发生。

有鉴于此，如何利用新一代信息技术，实现一种针对高血压的医学知识图谱跟临床数据融合的系统，成为本领域亟需解决的技术问题。

发明内容

为了解决上述技术问题，本公开提供了一种针对高血压的医学知识图谱跟临床数据融合的系统，其特征在于，所述系统包括：

文献知识提取单元，用于获取高血压相关的医学文献，并利用机器学习技术从所述医学文献中提取高血压专科医师的用药方法并从从中发现新用药知识；

知识图谱数据整合单元，用于获取文献知识提取单元所得的数据、患者数据收集单元所得的数据，以整合高血压相关的知识和患者数据；

知识图谱数据整合单元，其在整合的过程中：

使得文献知识提取单元所得的知识数据库，与患者数据收集单元所得的临床数据库之间的数据组织及结构一致；

确保知识概念跟相关的数据定义保持一致；

同义概念用同一个概念词语表达；

否则进行数据属性的校正；

经过数据属性校正后，高血压相关的知识和患者数据导入高血压知识图谱数据库中，从而使得知识对应的临床数据明确。

优选的，所述的一种针对高血压的医学知识图谱跟临床数据融合的系统，其特征在于：

所述知识图谱数据整合单元还包括字段对应单元，其用于获取文献知识提取单元所得的知识数据库，以及患者数据收集单元所得的临床数据库，并将知识图谱以及患者数据字段中具有知识图谱中相关定义的内容，建立起对应关系，以此保持统一的一套数据结构进行综合管理和实施字段统一。

新文献知识的字段与新的患者数据需要不断对比以找到需统一的字段定义，并且，

在有需要时，所述系统被引导至文献知识提取单元、患者数据收集单元以使得迭代的实施字段统一。

所述知识图谱数据整合单元还包括知识图谱结构定义校正单元，其用于：

当知识图谱结构相对患者数据的数据结构不完整时，在知识图谱中增加字段或修改字段以使得知识图谱结构完整。

所述知识图谱数据整合单元还包括更改知识提取规则单元；

当知识图谱结构相对患者数据的数据结构不完整时，所述知识图谱数据整合单元在知识图谱中增加字段或修改字段后，更改知识提取规则单元用于：

将增加或修改的字段信息转化为新文献知识提取规则。

命名实体识别单元，还用于根据新文献知识提取规则，将分词拆解单元所得的所有分词，识别为相应的实体。

所述知识图谱数据整合单元还包括患者数据属性校正单元，其用于：

当患者数据的数据结构相对知识图谱结构不完整时，对患者数据增加字段或修改字段以使得患者数据的数据结构完整。

所述知识图谱数据整合单元还包括数据库额外信息需求单元；

当患者数据的数据结构相对知识图谱结构不完整时，对患者数据增加字段或修改字段后，由于此时表明患者数据的属性字段已经存在于知识数据库，数据库额外信息需求单元用于：

将增加或修改的字段信息传递至患者数据收集单元，以使得患者数据收集单元从所述系统的外部数据来源引入患者管理数据、并在患者数据提取过程中，患者数据收集单元按照知识数据库中一样的对应字段进行收集患者数据、确保数据定义一致。

所述知识图谱数据整合单元还包括患者数据导入更新单元；

当患者数据的数据结构相对知识图谱结构不完整时，对患者数据增加字段或修改字段后，患者数据导入更新单元用于：

实时或定期的将患者数据，随着增加或修改后的字段，导入高血压专病知识图谱数据库。

所述知识图谱数据整合单元还包括排除非高血压用药单元；

当从获取文献知识提取单元所得的知识数据库时，排除非高血压用药单元用于从知识数据库中排除非高血压用药相关信息。

和现有技术相比，本公开具有以下优点：

基于高血压当前患者的数据、高血压用药有关的医学文献知识和其他高血压患者的诊疗情况尤其是用药情况，本公开创新性的通过人工智能和知识图谱技术的结合，实现了一种针对高血压的医学知识图谱跟临床数据融合的系统。本公开对提升高血压专病知识发现及普及，以及充分挖掘临床数据的价值，提出了创新性的解决方案。此外，本公开能够将先进的高血压诊疗技术下沉到广大基层，有力促进高血压诊治的规范化、标准化、提升血压控制率，减少高血压控制不佳导致的严重心、脑、肾损害和心血管事件，保守估计，本公开所揭示的技术方案能够使得基层高血压达标率提升至少10％，并减轻高血压给全社会带来的疾病负担。

此外，本公开还揭示了如下技术贡献：

1.医学文献知识文本提取的系统及其方法；

2.从用药知识中发现新用药知识的系统及其方法；

3.高血压临床数据转化为图数据的系统及其方法；

4.医学知识图谱跟临床数据融合的系统及其方法。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1是本公开一个实施例中，一种针对高血压的用药推荐系统的示意图；

图2是本公开一个实施例中，文献知识提取的示意图；

图3A是本公开一个实施例中，图数据库存储结构示意图；

图3B是本公开一个实施例中，文献处理的对应示意图；

图4A是本公开一个实施例中，患者数据收集的示意图；

图4B是本公开一个实施例中，患者数据以图形式存进数据库的示意图；

图5A是本公开一个实施例中，知识图谱数据整合的示意图；

图5B是本公开一个实施例中，知识拆解的示意图；

图5C是本公开一个实施例中，同时存储知识图数据及患者数据的示意图；

图6A是本公开一个实施例中，用药推荐规则生成的示意图；

图6B是本公开一个实施例中，用药推荐规则建议额外服用CCB药物的示意图；

图7是本公开一个实施例中，某种药品与高血压的知识关系的示意图；

图8是本公开一个实施例中，个性化用药推荐模型生成的示意图；

图9是本公开一个实施例中，用药推荐决策系统的示意图；

图10是本公开一个实施例中，用药推荐决策系统持续优化的示意图。

具体实施方式

下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是，此处所描述的具体实施方式仅用于解释相关内容，而非对本公开的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本公开相关的部分。

需要说明的是，在不冲突的情况下，本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开的技术方案。

除非另有说明，否则示出的示例性实施方式/实施例将被理解为提供可以在实践中实施本公开的技术构思的一些方式的各种细节的示例性特征。因此，除非另有说明，否则在不脱离本公开的技术构思的情况下，各种实施方式/实施例的特征可以另外地组合、分离、互换和/或重新布置。

在附图中可能使用交叉影线和/或阴影通常用于使相邻部件之间的边界变得清晰。如此，除非说明，否则交叉影线或阴影的存在与否均不传达或表示对部件的具体材料、材料性质、尺寸、比例、示出的部件之间的共性和/或部件的任何其它特性、属性、性质等的任何偏好或者要求。此外，在附图中，为了清楚和/或描述性的目的，可以夸大部件的尺寸和相对尺寸。当可以不同地实施示例性实施例时，可以以不同于所描述的步骤顺序来执行具体的工艺顺序。例如，可以基本同时执行或者以与所描述的顺序相反的顺序执行两个连续描述的工艺。此外，同样的附图标记表示同样的部件。

当一个部件被称作“在”另一部件“上”或“之上”、“连接到”或“结合到”另一部件时，该部件可以直接在所述另一部件上、直接连接到或直接结合到所述另一部件，或者可以存在中间部件。然而，当部件被称作“直接在”另一部件“上”、“直接连接到”或“直接结合到”另一部件时，不存在中间部件。为此，术语“连接”可以指物理连接、电气连接等，并且具有或不具有中间部件。

为了描述性目的，本公开可使用诸如“在……之下”、“在……下方”、“在……下”、“下”、“在……上方”、“上”、“在……之上”、“较高的”和“侧(例如，如在“侧壁”中)”等的空间相对术语，从而来描述如附图中示出的一个部件与另一(其它)部件的关系。除了附图中描绘的方位之外，空间相对术语还意图包含设备在使用、操作和/或制造中的不同方位。例如，如果附图中的设备被翻转，则被描述为“在”其它部件或特征“下方”或“之下”的部件将随后被定位为“在”所述其它部件或特征“上方”。因此，示例性术语“在……下方”可以包含“上方”和“下方”两种方位。此外，设备可被另外定位(例如，旋转90度或者在其它方位处)，如此，相应地解释这里使用的空间相对描述语。

这里使用的术语是为了描述具体实施例的目的，而不意图是限制性的。如这里所使用的，除非上下文另外清楚地指出，否则单数形式“一个(种、者)”和“所述(该)”也意图包括复数形式。此外，当在本说明书中使用术语“包含”和/或“包括”以及它们的变型时，说明存在所陈述的特征、整体、步骤、操作、部件、组件和/或它们的组，但不排除存在或附加一个或更多个其它特征、整体、步骤、操作、部件、组件和/或它们的组。还要注意的是，如这里使用的，术语“基本上”、“大约”和其它类似的术语被用作近似术语而不用作程度术语，如此，它们被用来解释本领域普通技术人员将认识到的测量值、计算值和/或提供的值的固有偏差。

参见图1，在一个实施例中，本公开揭示了一种针对高血压的用药推荐系统，其中，

100、系统能从在线医学文献库网站获取高血压相关的医学文献，从而学习优秀医院高血压专科医师的用药经验。这些经验都分布在海量的文献资料中。这些医学文献包括权威指南、专家共识、临床研究及权威共识、药物说明书、医生经验等。他们对治疗的方法的总结及文献来源都是会成为被提取的知识。

文本处理会大量使用大量自然语言处理(Natural Language Processing)的典型工序，会用到Python Spacy库和HuggingFace下不同模型库来建立。会先用开源库工具来执行，人工校对过程中发现有遗漏或失误的，会再加上人工规则来精确校准。

200、系统以应用程序技术接口(Application Programming Interface)方式对接外部线上患者管理系统。把患者数据、医生信息、处方、用药记录等收集回来。再开放一个给每个数据源的数据结构转化程序，把数据源的数据转化为高血压患者用药数据库的数据。本系统可以跟多个数据源作对接。

300、知识数据库与临床数据库之间的数据组织及结构(Schema)需要一致，以确保知识概念跟相关的数据定义能保持一致，同义概念要用同一个概念词语表达。经过数据属性校正后，再把高血压相关的知识和患者数据导入高血压只是图谱数据库中，知识对应的临床数据都能明确。

400、用药推荐的结果需要有依据，也就是需要知识溯源，有可解释性(Explainability)。因为用药推荐决策系统的设计主体是病症等患者属性及药品使用之间关系的规则。系统可以接受医生专家手工输入他们自行整理的规则，或者通过知识图谱发现患者属性跟用药效果的关联关系。这些规则如果有对应患者治疗数据的话，可以收集相关的用药疗效数据，来帮助专家验证规则的正式性。专家认可、有依据来源的规划就可以导入进用药推荐决策系统中使用

500、除了步骤500的人工验证的规则外，用药推荐决策系统也能通过到图数据机器学习来评估某患者的用药建议。这些机器学习的依据是其他患者的用药历史及疗效数据，计算目标是预估该名患者最适合的药物，能有效对已有一定用药数据积累的药品找到新的潜在患者使用场景。这种机器学习推荐的用药建议有个性化推荐价值。

600、高血压用药推荐决策系统给医生提供完整的高血压用药决策辅助。首先要排除掉继发性高血压的情况，就是把由于其他疾病所引起的高血压症状转诊到别的科室。然后，系统才聚焦在给原发性高血压患者提供用药建议，系统会首选给医生推荐基于知识规则的用药建议，而机器学习用药推荐结果作为辅助推荐给到医生。

700、用药建议被采纳的情况会被记录下来，储存回去高血压专病知识图谱数据库中，以便更改规则排序的权重，让被认可的规则更大机会被推荐，尤其是面向临床数据较为缺乏的患者。收集更多数据对提升机器学习用药推荐结果的质量也很有帮助。

在另一个实施例中，参见图2，更详细描述前述100文献知识提取的执行过程：

101、找到有高血压用药治疗相关的医学文献在线数据库，例如PubMed、Embase等,也可以引进中文知识库，例如SinoMed、CBM等。上面可以通过关键词等输入选项，下载

102、由于相关文档数量会比较庞大，需要通过电脑程序来下载文档。可以通过Python脚本来模仿自动化搜索，如果数据库用BeautifulSoup网页解析库，再用requests链接下载库来下载文献的PDF文档。

103、此外，也可能有医学课本书籍可以人工扫描相关页面，形成PDF文档。

104、把所有需要新导入的pdf文档汇总在一个文件夹中。

105、从PDF文档中提取文字，需要把PDF通过程序来传化成一页一张图片

106、把有文字的图片通过光学字元辨识，也称光学字符识别(OCR)来辨识文字。

107、需要把OCR扫描出来文字再整理，包括把辨识的文字组成回去完整句子。把非文本的字符，例如图片或图表中的文字信息都排除掉。

108、要把一篇文献PDF原文的文本的内容拆解为不同部分(Section)。一般文献的第一部分是摘要，中间是文本主体，最后部分是来源参考(Reference)。摘取摘要及文本主题。把文本段落之外的内容都排除，包括方程式文本等。剩下的文本内容会做深入文本分析。

109、参考部分要单独拆解出来，作为知识的溯源参考，在步骤116再跟文章主题内容合并去重。主要内容按一段文字即可。

110、文本里的“他”、“那个”等代名词需要被替换被回去指向的名词。这是自然语言处理里的共指消解(coreference resolution)，先用现已有的开源代码工具再用人工校正的方法来实现。

111、把文本段落通过句号、感叹号标点符号来拆解为单独句子。

112、如果一个句子是由单独句子复合组成，再把单独句子拆解出来。

113、把每个单独句子再标注分词(token)，就是中文、英文里的单独字。

114、一个实体可以是一个或多个分词组成，他们代表一个完成独立的词语意思。英文、中文都有NLP语法拆解工具可以有效执行这一步。

语法拆解这一步的结果不一定能完美，需要自行管理拆解规则来加强准确率。从步骤303会得到知识图谱校正中定义的更多语言处理规则，就在这里引入来运行。

115、知识会以图数据库的格式储存。其中，在一个实施例中，图数据库的存储形式如图3A。在这个例子中，A～E表示图数据库中的节点(Node)，R1～R7表示实体之间的关系(Relationship)，P1～P10表示实体的属性(Property)。在一个图形数据库中，最主要的组成有两种，结点集和连接结点的关系。

同一句内的实体中，主要关注的是主词、动词和受词(subject-verb-object)，形容词成为实体，跟主词建立关系。动词和助动词一起就是关系种类。主词和受词分别成为节点，而动词就是从主词到受词方向的关系。在这单独句子有标注的参考链接信息同时附上，作为这关系的属性信息一起生成出来。

举例，文献里有如下语句：血压≥140/90mmHg的患者直接归于高危心血管风险。通过SVO拆解，能做成下面的结构：S是患者，血压≥140/90mmHg是形容患者。心血管风险已经在之前的步骤被标注为一个完整的实体(不只是风险)。高危是形容心血管风险。详情可参见图3B所示。

116、整个文档之下的所有这些节点及关系配对收集起来，先有去重合并，把一点的节点关系对的属性信息合并在一起。然后再跟图数据库来查询是否已经存在。

117、只有新配对的信息才会准备导入图数据库。

在另一个实施例中，参见图4A，更详细描述前述200临床数据收集的执行过程：

201、外部高血压患者临床管理及健康管理行为数据通过在线API接口接入，数据颗粒度越细越好。需要的数据类别包括每次的血压测量值、用药记录、患者基线及随访病历记录等数据。

202、患者数据的属性字段如果是已经存在知识图谱数据库中(从步骤305引入)，就要用上一样的对应字段，确保数据定义统一。

203、患者数据也会有其他新字段，系统支持新增添加到整个系统的结构(schema)字典中。图数据库的存储格式可以灵活支持任何数据结构的储存。

204、字段定义都清晰后，就通过给数据源适配的抽取(extract)、转换(transform)、加载(load)来提取数据，按(结构)字段定义来组织。

205、如果上面数据有不完整、可以排除或做数据清洗或转化工序。利用已经建成的高血压用药知识图谱指导高血压患者数据进行数据清洗、数据标注和结构化。

206、然后这些数据就可以直接到入图数据库中。给其他数据源也有一样的处理流程。

例如，从201外部数据系统我们可以导入以下的数据记录：

{

"患者编号":"HZ0001",

"种类":"既往史",

"高血压":1,

"糖尿病":0,

"高脂血症":0,

"冠心病":1,

"其他系统疾病":1,

"其他系统疾病填写":"肝硬化、慢阻肺",

"心血管病史":["心绞痛","心肌梗死","外周动脉粥样硬化"],

"呼吸系统病史":["哮喘","慢性阻塞性肺疾病"],

"高尿酸血症":0

}

通过“种类”的字段，可以看到这是跟既往史相关的数据。这里出现的疾病名称字段，都能说明对于高血压患者的既往史。如果冠心病、外周动脉粥样硬化还没被记录为高血压诊断的既往史字段，就在203添加到命名字典里。

患者数据以图形式存进数据库，例如参见图4B所示的记录。

在另一个实施例中，参见图5A，更详细描述前述300知识图谱数据整合的执行过程：

301、从步骤117和步骤206分别输入知识图谱及患者数据字段有相关定义的需要对应上，保持一套数据结构(schema)来综合管理。字段统一是一个迭代过程，需要把新文献知识的字段跟新的患者数据不断做对比来发现需要统一的字段定义。数据处理需求会引导到步骤100及步骤200中作出修改。

302、如果发现知识图谱结构还不够完整，需要在知识图谱里增加或修改字段。

303、把修改字段信息转化为新文献知识提取规则，传给步骤114来处理。

304、如果发现患者数据结构还不够完整，需要在患者数据提取过过程里增加或修改字段。

305、把患者属性修改字段传给步骤202来处理。

306、医学知识很广泛，文献内容也不一定全部都跟高血压用药治疗相关。所以为了解决本系统的应用问题，仅导入跟高血压疾病及用药治疗方案相关的知识数据，存储到高血压专病知识图谱数据库。

307、患者数据要跟着修改的(结构)字段来导入进高血压专病知识图谱数据库。过程是实时或定期，例如每天导入一次。

举例，文献里有如下这句：已患冠心病、缺血性脑卒中、外周动脉粥样硬化病的高血压患者应长期服用他汀类药物，必要时加用其他降脂药物，使低密度脂蛋白胆固醇(LDL-C)降至1.8mmol/L(70mg/dl)以下。那么，该知识就会被拆解为图5B所示的情形。需要说明的是，这是拆解的阶段性结果。从新的语句里会遇到新的词汇，例如这里的冠心病、外周动脉粥样硬化。从语句上发现跟“高血压患者“这知识节点有关联，但关联定义还不清晰。后续303会有新的判别规则导入，来说明冠心病和外周动脉粥样硬化也都是高血压患者的既往史。

关于301字段对应，该记录中提到糖尿病、高血脂症，这些可能都还没有在知识图谱里出现。

如果文献中能提炼出高血压跟糖尿病、高血脂症等的关系，就标注这些关系为既往史。例如，可参见图4B所示。从图谱的字典中，也遇到新的词，例如他汀类药物是高血压相关的药物。如果外部数据出现有“他汀”和“药”的信息，这个可以理解为他汀类药物。

需要说明的是，图数据也能记录更复杂的知识体系。例如“高危”心血管风险有以下的详细定义：

(1)血压≥140/90mmHg的患者直接归于高危心血管风险。(2)收缩压130-139mmHg和/或舒张压80-89mmHg患者，伴临床合并症者，发生心血管事件或死亡风险显著升高，积极的二级预防，包括积极降压在内的全面综合治疗，能减少心血管结局事件和死亡风险，因此归于高危心血管风险。(3)收缩压130-139mmHg和/或舒张压80-89mmHg合并靶器官损害者，积极降压对延缓靶器官损害进展有益，因此也列为高危心血管风险。(4)收缩压130-139mmHg和/或舒张压80-89mmHg合并≥3个心血管危险因素者，列为高危风险。主要参考2020年中国心血管病一级预防指南的相关推荐，有如下表1：

表1.影响高血压患者心血管危险分层的重要因素^*

*详细说明见完整版指南

对于上表，以图数据来表示，就是如图5B所示的图结构。通过关系属性的不同，查询时就能不同的规则来处理，从而实现这个规则。

如图5C所示，则是融合的例子。在高血压专病知识图谱数据库中，同时存储知识图数据及患者数据。该例子是一名患者的个人健康档案，具有脑卒中的疾病史。由于“脑卒中”节点也是高血压评估检查建议的知识数据之下，所以通过融合，可以给患者数据产生知识导向的应用场景。

在另一个实施例中，参见图6A，更详细描述前述400用药推荐规则生成的执行过程：

401、从高血压专病知识图谱数据库导出知识关系，展示在一个可视化界面上，让医生专家人工判断用药跟病情数据及高血压治疗之间的关系路径。由于潜在的关系数据有很多，本公开可以以某药作为起点，画出跟高血压的潜在关联路径，例如图7所示。已经定义的关系路径跟其他路径的展示颜色有别，让医生专家来浏览，挑选出潜在新用药路径。医生专家可以决定需不需要尝试用患者用药数据来验证有效性。如果不需要的话，可以直接跳到步骤405生成规则。

402、另外，医生也可以从个人经验和认知来整理出用药规则，但这些规则需要跟已有的字段定义结构来描述。医生专家可以决定需不需要尝试用患者用药数据来验证有效性。如果不需要的话，可以直接跳到步骤405生成规则。

图6B则示意了一个用药推荐规则的例子，意思是在患者有心肌梗死既往史，已经服用ACEI，低压也偏高的情况之下，建议额外服用CCB药物。

403、可验证临床效果的规则都是服用一种或多种药品加上其他患者属性描述，再跟他们的血压测量历史变化对比的数据。这要这些数据存在，并且达到统计学的最低抽样案例要求，就可以用药验证相关的用药规则是否有效。

404、课题专家组会对高血压用药规则进行验证和补充，如果数据缺乏正向依据，可以再调整规则方案来再反复验证。

405、一般的用药规则是服用了某种或几种药的组合产生正面治疗效果的知识。也有一种叫禁忌症排除的规则是如果患者符合一些特定情况之下，就对那些药有较大的副作用风险。这些禁止用药的规则需要加上。

406、经过专家验证的所有用药规则组合，便可以输出到用药推荐决策系统使用。

在另一个实施例中，参见图8更详细描述前述500个性化用药推荐生成的执行过程：

501、从高血压专病知识图谱数据库提取所有从患者节点到药品节点的图关系数据。

502、通过机器学习工具给各节点训练及生成图嵌入(graphembedding)向量函数，用知识图谱领域的模型算法来建模及生成。例如，TransE，RotatE，DistMult，ComplEx，ConvE，ConvKB，CompGCN，NodePiece等模型均可。

503、图嵌入的数据可以用来预估患者跟药品之间还没建立的关系。这些关系就是新的用药推荐发现。算法可以支持为任何一名患者用户挑选头n名最匹配的药品。

504、系统默认给一名患者选Top n种推荐药品，具体Top几种可以按医生需求来定制，例如n取2至5。推荐结果将会在用药推荐决策系统中使用。

需要说明的是，关于上述步骤502至503，具体步骤如下：

步骤1、准备基础数据：

对专病知识图谱数据库中每一位患者，按用药规则执行出用药推荐结果(即药品)，并标注所述用药推荐结果，以此形成基础数据；例如，将用药推荐结果标注为相应患者的“has_drug_recommendation”关系数据；当然，还有其他类型的关系需要标注。

优选的，按用药规则执行出用药推荐结果之前，先过滤掉证据级别较低的用药规则；

示例性的，下表3示意了过滤掉证据级别较低的用药规则后获得的基础数据：

表3

source	target	type
			2915	375	has_prescription
2915	374	has_physical_exam
			2915	379	has_physical exam
2915	380	has physical exam
			2915	384	has_physical_exam
2915	378	has_physical_exam
			2915	376	has_physical_exam
2915	377	has_physical exam
			2915	2916	has blood_pressure
2915	148	has_blood_pressure_range
			2915	154	has_blood_pressure_range
2915	155	has_blood_pressure_range
			2915	147	has_blood_pressure_range
2915	414	has_family_history
			2915	413	has_family_history
2915	417	has_family_history
			2915	418	has_drug_recommendation
2915	270	has_present_medical_history
			2915	168	haspast_medical history

步骤2、对数据进行整理：

将经过标注所形成的基础数据中的患者和药品，以数字ID形式提取，并建立对应的患者节点和药品节点，形成数据集；

步骤3、对提取后的数据集进行分类：

对所述数据集分类以获得训练集、测试集、验证集，其中，以80％、10％、10％的比例，从所述数据集中随机划分出训练集、测试集、验证集；

需要说明的是，此处的训练集、测试集、验证集均属于本公开所述的图数据库；图数据库中的所有信息，是从专病知识图谱数据库中提取出来的一个子集；

步骤4、训练：

使用知识图谱领域可用的多种算法中任一适合的算法生成训练模型，例如RotatE；

其中，总样本训练次数不低于20，图嵌入(Graph embedding)大小不低于512；

对于不收敛的情况，按照经验对其中一个或多个参数进行修改以提升某个评估metric的表现，从而使得训练过程能够继续，直至完成训练。

步骤5、模型推理：

对于所述训练模型，附上任何一名患者，或以后将要新增至图数据库的患者信息，所述训练模型即可推理出有“has_drug_recommendation”关系系数的节点；

步骤6、储存推荐结果：

对关系系数从高到低排序，以留下有推理关系的最高2个节点，作为推理结果，并通过表征个性化推荐药品的关系标签例如“has_predicted_drug_recommendation”关系标签，储存至图数据库，作为个性化推荐结果。

在另一个实施例中，参见图9，更详细描述前述600用药推荐决策系统的原理：

601、用药推荐决策系统的使用场景是：由一名医生正给一名患者面诊(面对面或虚拟均可)开方之前，查询用药推荐决策系统，界面可以是电脑网页端或手机端。首先从专病知识图谱数据库中找出患者的所有体检数据。

602、用药推荐决策系统内部记录一个高血压标准体检字段清单，用来建议患者做全所有这些体检项目才能有完整的高血压诊断，但现实中往往患者不会有全面的体检信息记录。患者缺少的体检项目，会再这里展示给医生看，让医生先知道患者应该先完成什么体检项目。

603、高血压分两种：原发性和继发性。原发性是个人长期不明原因导致的高血压情况。继发性就是患者主要是有出现某其他疾病，高血压现象作为并发症。所以治疗继发性需要转诊，而不是优先处理高血压病情。用药推荐决策系统只对原发性高血压疾病提出用药建议。

604、判断出此患者的高血压问题为继发性高血压，系统给出转诊建议及原因。

605、步骤406获取该名患者匹配的用药规则，按照患者个人数据来匹配符合的规则，以规则权重分数倒序来排列，所推荐的药品去重后按一样的顺序输出，但每个药品对应的一个或多个规则信息仍然保留后续可以参考。从骤504查询患者的个性化top 5推荐药品，这些药品如果跟用要规则的结果有重复的话也要排除。

以下是示例的匹配用药规则的方法，包括如下多个步骤：

S1、找出所有用药推荐规则；

S2、给每个规则找出对应的用药条件；

S3、按每条规则，看患者对象是否能满足所有用药条件；

S4、如果是，回传用药规则，并且列出相应的推荐药品。

推荐结果类似如下：

606、从步骤405输入患者信息，查询该名患者相关的药品禁忌症规则。查询到的药品要从步骤605的药品结果上剔除。

607、把用药规则的药品及额外个性化推荐的药品按优先级展示在界面上，医生点击用药规则推荐的药品可以查看到用药规则的内容详情，包括文献来源信息。个性化用药不展示来源信息。

608、医生选好要开处方的药品，按照这些药品的一般标准剂量及自行判断来给该名患者开处方。

在另一个实施例中，参见图10，更详细描述前述700用药推荐决策系统使用的持续优化过程：

701、医生使用用药推荐决策系统的药品推荐记录及挑选记录并跟患者的处方信息及用药信息做对比。

702、医生有可能没有按推荐结果来开药方，或者没有输入药品选择信息。所以最终处方上的高血压相关药品跟为同一名患者推荐使用记录作对比，就能计算出用药推荐使用率的指标，作为用药推荐决策系统价值衡量的主要指标。

703、患者处方上的高血压药品跟推荐结果有匹配的话，就查看药品推荐背后的用药规则，把这用药规则的权重分数提高，储存回去高血压专病知识图谱数据库的相应排序分数，来表示这用药规则被真实利用，代表更值得被推荐，对用药推荐决策系统的后续使用中应该排列更靠前。

综上，能够发现，本公开还系统性的揭示了：

一种针对高血压的用药推荐系统，包括：

文献知识提取单元、患者数据收集单元、知识图谱数据整合单元、某类疾病专病知识图谱数据库、知识驱动用药规则单元、用药推荐决策系统，

其中，

文献知识提取单元，用于获取疾病相关的医学文献，并利用机器学习技术从所述医学文献中提取该类疾病专科医师的用药方法并从从中发现新用药知识；

患者数据收集单元，用于至少收集当前该类疾病患者的患者数据，包括：患者本人数据、患者关联的医生信息、患者的处方、患者的用药历史和疗效数据；

知识图谱数据整合单元，用于获取文献知识提取单元所得的数据、患者数据收集单元所得的数据，以整合该类疾病相关的知识和患者数据；

某类疾病专病知识图谱数据库，用于从知识图谱数据整合单元导入整合后的该类疾病相关的知识和患者数据，以建立专病知识图谱；

知识驱动用药规则单元，用于通过该类疾病专病知识图谱数据库所建立的专病知识图谱，分析当前患者与该类疾病用药效果之间的关联关系，并提供用药规则；

用药推荐决策系统，用于根据知识驱动用药规则单元所提供的用药规则，推荐用药建议。

优选的，所述的一种针对高血压的用药推荐系统，其特征在于，

知识驱动用药规则单元，还用于接受医生专家手工输入他们自行整理的规则，以作为用药规则。

优选的，所述的一种针对高血压的用药推荐系统，其特征在于，所述系统还包括：

系统使用记录单元，其用于记录用药建议的采纳情况，并在此基础上将用药建议储存回该类疾病专病知识图谱数据库中，以及维护知识驱动用药规则单元中的规则，包括可能的对于用药规则的权重进行更新，以使得被认可的用药规则具有更大机会被用于后期推荐。

优选的，所述的一种针对高血压的用药推荐系统，其特征在于：

患者数据收集单元，还用于收集其他该类疾病患者的患者本人数据、患者关联的医生信息、患者的处方、患者的用药历史和疗效数据。

临床数据驱动个性化用药推荐单元，其用于依据其他患者的用药历史及疗效数据，以及当前患者的患者数据，预估当前患者最适合的药物。

优选的，所述的一种针对高血压的用药推荐系统，其特征在于，文献知识提取单元包括：

收集外部知识库单元，用于收集中外文医学文献的在线数据库和知识库中、与该类疾病用药治疗相关的文献来源；

爬虫下载文档单元，用于根据收集外部知识库单元所得的文献来源，下载该类疾病用药治疗相关的文献；

书籍资料库扫描转PDF单元，用于将扫描的与该类疾病用药治疗相关的书籍资料转换为PDF文件；

汇总PDF文档单元，用于将爬虫下载文档单元所下载的文献、书籍资料库扫描转PDF单元所转换的PDF文件，统一汇总在一个文件夹中；

PDF文件转化为OCR图片数据单元，用于将汇总PDF文档单元所汇总的PDF文件，全部转化为一页一张的图片数据；

OCR图片数据转化为text文本单元，用于将PDF文件转化为OCR图片数据单元所得的图片数据中，包含有文字的图片，通过OCR识别技术辨识其文字；

清理非文本内容单元，用于将OCR图片数据转化为text文本单元所辨识的文字进行再整理，并将辨识的文字梳理出句子，以及，将非文本的字符排除掉，其中，非文本的字符包括图或表中的文字；

文档内容分拆单元，用于根据原始PDF文件的文章结构，将清理非文本内容单元所得的最终文本拆解为不同的部分(section)，并排除文本段落之外的内容，包括方程式文本等，其中，所述不同的部分包括文本主体，以及可能的摘要、可能的参考部分；

代名词替换单元，用于将文档内容分拆单元所得的最终文本中的代名词替换为其指代的具体名词；

段落分拆单元，用于将代名词替换单元所得的最终文本中的每个段落，通过句号、感叹号标点符号分拆成不同的句子，并识别其中的复合语句和单独句子；

复合语句拆解单元，用于将段落分拆单元所得的最终文本中的每个复合语句，拆解成单独的句子；

分词拆解单元，用于对复合语句拆解单元所得的单独的句子，标注其中的分词，其中，所述分词包括中外文的单独字；

命名实体识别单元，用于将分词拆解单元所得的所有分词，识别为相应的实体，其中，实体由一个或多个分词组成，每个实体代表各自的独立的意思；

SVO关系生成单元，用于针对命名实体识别单元所得的所有实体，对于其中同一句内的实体，生成其主词、动词、和受词的SVO关系，即主谓宾(subject-verb-object)关系，并将主词和受词分别作为节点，动词则代表从主词到受词方向的关系；

信息合并去重单元，用于从SVO关系生成单元收集整个文档的所有节点及关系配对，并去重、合并，以将同样的节点关系之下的属性信息合并在一起；

导入单元，用于将所有节点关系对的属性信息与图数据库中而信息进行比较，当图数据库中不存在某节点关系对的属性信息时，即认为存在新配对的信息，并将新配对的信息导入图数据库。

Reference拆解单元，其用于对文档内容分拆单元所得的参考部分进行单独的拆解以便将Reference列表分开拆开来记录并作为知识的溯源参考。

SVO关系生成单元，还用于针对任一个具有标注的参考链接信息的单独句子，在该单独句子的SVO关系中，将Reference拆解单元所得的对应的溯源参考附上，作为该单独句子的SVO关系的属性信息，一并生成。

命名实体识别单元，其还用于根据该类疾病专病知识图谱中定义其他语言处理规则，识别相应的实体。

知识图谱数据整合单元，其在整合的过程中：

确保知识概念跟相关的数据定义保持一致；

同义概念用同一个概念词语表达；

否则进行数据属性的校正；

经过数据属性校正后，该类疾病相关的知识和患者数据导入该类疾病知识图谱数据库中，从而使得知识对应的临床数据明确。

所述知识图谱数据整合单元还包括字段对应单元，其用于获取文献知识提取单元所得的知识数据库，以及患者数据收集单元所得的临床数据库，并将知识图谱以及患者数据字段中具有知识图谱中相关定义的内容，建立起对应关系，以此保持统一的一套数据结构进行综合管理和实施字段统一；其中，

所述知识图谱数据整合单元还包括更改知识提取规则单元；

将增加或修改的字段信息转化为新文献知识提取规则。

所述知识图谱数据整合单元还包括患者数据导入更新单元；

实时或定期的将患者数据，随着增加或修改后的字段，导入该类疾病专病知识图谱数据库。

所述知识图谱数据整合单元还包括排除非该类疾病用药单元；

当从获取文献知识提取单元所得的知识数据库时，排除非该类疾病用药单元用于从知识数据库中排除非该类疾病用药相关信息。

优选的，所述的一种针对高血压的用药推荐系统，其特征在于，所述患者数据收集单元还包括：

第三方数据引入单元，其用于从所述系统的外部数据来源引入该类疾病患者临床管理及健康管理行为方面的患者管理数据，其中，所述患者管理数据包括每次的用药后检测/化验/测量指标、用药记录、患者基线及随访病历记录等数据。

提取属性单元，其用于从第三方数据引入单元所引入的患者管理数据中，提取患者数据的相关属性字段。

添加基线及随访字段单元，其用于：

当患者数据的数据结构相对知识图谱结构不完整，且，

当患者数据的属性字段已经存在于知识数据库中而提取属性单元从第三方数据引入单元所引入的患者管理数据中，所提取的患者数据的相关属性字段与知识数据库中的患者数据的属性字段不一致时，

为提取属性单元所提取的患者数据的相关属性字段添加基线及随访字段。

整理单元，其用于根据第三方数据引入单元所引入的患者管理数据中患者数据的新字段，为系统的结构字典添加对应的新字段并整理系统的结构字典。

提取数据单元，其用于根据第三方数据引入单元所得的患者管理数据的字段、提取属性单元所提取的字段、系统的结构字典中的字段，按字段定义，通过给所述系统的外部数据来源适配的抽取(extract)、转换(transform)、加载(load)来提取数据，并按字段定义和数据结构来组织数据。

数据清洗单元；

当提取数据单元所提取的数据不完整时，所述数据清洗单元用于排除某些数据执行数据清洗，其中，数据清洗用于将数据不完整的关联数据清洗掉。

导入单元，其用于将数据清洗单元处理后的数据直接导入图数据库。

优选的，所述的一种针对高血压的用药推荐系统，其特征在于，所述知识驱动用药规则单元还包括：

图结构可视化单元，其用于：

对该类疾病专病知识图谱数据库导出的知识关系进行可视化，供医生人工判断用药跟病情数据及该类疾病治疗之间的关系路径，其中，

以某药作为起点，图结构可视化单元画出跟该类疾病的潜在关联路径，其中，已经定义的关系路径跟其他路径的展示颜色有别，供医生专家浏览和挑选出潜在新用药路径。

人工整理规则单元，其用于与医生进行交互，并根据已有的字段定义和数据结构，将基于医生经验和认知整理出的用药规则，整理到所述系统。

临床评估单元；

当医生决定需要尝试用患者用药数据来验证某用药路径/用药规则有效性时，临床评估单元用于基于临床上患者使用相应药品和其他患者数据的属性描述以及用药后检测/化验/测量指标的历史变化对比的数据，评估、验证相应的用药路径/用药规则是否有效。

审核单元，其用于与专家组进行交互，并基于专家组对该类疾病用药规则的验证和补充，实现对新用药规则的审核，并且，

所述审核单元支持基于对调整后的规则方案的反复验证实现对用药规则的审核。

补充单元，其用于对禁忌症或特定情况下，禁止使用某些药的规则进行补充；

并且，

图结构可视化单元与医生交互完毕后，可直接经由医生操作而跳转至所述补充单元；

人工整理规则单元与医生交互完毕后，可直接经由医生操作而跳转至所述补充单元。

输出单元，其用于：输出所有经过医生验证或认可的所有用药规则组合至所述用药推荐决策系统。

优选的，所述的一种针对高血压的用药推荐系统，其特征在于，所述临床数据驱动个性化用药推荐单元还包括：

临床数据库提取单元，其用于从该类疾病专病知识图谱数据库提取所有从患者节点到药品节点的图关系数据，其中，所述患者包括当前患者和其他患者。

生成单元，其用于：在临床数据库提取单元的基础上，通过机器学习工具给各节点训练及生成图嵌入(graph embedding)向量函数，用知识图谱领域的模型算法来建模及生成。

新用药预测单元，其用于：根据生成单元中的图嵌入的数据，预估患者跟药品之间还没建立的关系，其中，所述关系即发现的新的用药推荐；并且，

新用药预测单元支持为任一患者推荐前N名最匹配的药品；

新用药预测单元输出新的用药推荐至用药推荐决策系统。

体检数据收集单元，其用于从该类疾病专病知识图谱数据库中找出患者的所有体检数据。

体检建议单元，其用于根据该类疾病标准体检字段清单和体检数据收集单元所收集的患者体检数据，与医生进行交互，展示患者缺少的体检项目。

疾病类型判断单元，其基于体检数据收集单元所收集的患者体检数据，判断患者属于该类疾病的哪一种，且当属于需转诊的某种该类疾病时，实现系统的转诊功能；以及，

当不属于需转诊的某种该类疾病时，将患者数据提供至患者数据收集单元以进行用药推荐。

历史读取单元，其用于读取患者用药历史及疗效数据，并且将药品推荐记录及挑选记录，与患者的处方信息及用药历史及疗效数据进行对比。

统计单元，其用于将患者处方上的该类疾病相关药品，与为同一名患者推荐用药记录作对比，以计算出用药推荐使用率的指标，并将其作为所述系统价值衡量的主要指标。

调整权重单元，其用于：

当患者处方上的该类疾病药品与推荐用药存在匹配情形时，查看该药品所对应的用药规则，并将该用药规则的权重分数提高，并储存回该类疾病专病知识图谱数据库的相应排序分数，以表示该用药规则被真实利用，更值得被推荐，其中，

所述系统的后续使用中，按排序分数对各个推荐进行排列，分数高的更靠前。

知识处理单元，其用于建立图数据库，其中，

图数据库的存储格式可以灵活支持任何数据结构的储存；

图数据库中包括：

(1)对应于实体的节点；

(2)实体之间的关系；

(3)实体的属性。

对应第一实体的节点A，与对应第二实体的节点B，由第一实体与第二实体的关系R1所连接；

第一实体的节点A，具有属性P1；

第二实体的节点B，具有属性P3。

需要说明的是，在本说明书的描述中，参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本领域的技术人员应当理解，上述实施方式仅仅是为了清楚地说明本公开，而并非是对本公开的范围进行限定。对于所属领域的技术人员而言，在上述公开的基础上还可以做出其它变化或变型，并且这些变化或变型仍处于本公开的范围内。

Claims

1.一种针对高血压的医学知识图谱跟临床数据融合的系统，其特征在于，所述系统包括：

知识图谱数据整合单元，其在整合的过程中：

确保知识概念跟相关的数据定义保持一致；

同义概念用同一个概念词语表达；

否则进行数据属性的校正；

2.如权利要求1所述的一种针对高血压的医学知识图谱跟临床数据融合的系统，其特征在于：

3.如权利要求2所述的一种针对高血压的医学知识图谱跟临床数据融合的系统，其特征在于：

4.如权利要求1至3任一所述的一种针对高血压的医学知识图谱跟临床数据融合的系统，其特征在于：

5.如权利要求1所述的一种针对高血压的医学知识图谱跟临床数据融合的系统，其特征在于：

所述知识图谱数据整合单元还包括更改知识提取规则单元；

将增加或修改的字段信息转化为新文献知识提取规则。

6.如权利要求5所述的一种针对高血压的医学知识图谱跟临床数据融合的系统，其特征在于：

7.如权利要求1至3任一所述的一种针对高血压的医学知识图谱跟临床数据融合的系统，其特征在于：

8.如权利要求1所述的一种针对高血压的医学知识图谱跟临床数据融合的系统，其特征在于：

9.如权利要求1所述的一种针对高血压的医学知识图谱跟临床数据融合的系统，其特征在于：

所述知识图谱数据整合单元还包括患者数据导入更新单元；

10.如权利要求1所述的一种针对高血压的医学知识图谱跟临床数据融合的系统，其特征在于：

所述知识图谱数据整合单元还包括排除非高血压用药单元；