CN112507138A

CN112507138A - 专病知识图谱构建方法及装置、介质及电子设备

Info

Publication number: CN112507138A
Application number: CN202011578688.3A
Authority: CN
Inventors: 韩朝
Original assignee: Yidu Cloud Beijing Technology Co Ltd
Current assignee: Yidu Cloud Beijing Technology Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-03-16
Anticipated expiration: 2040-12-28
Also published as: CN112507138B

Abstract

本公开涉及自然语言处理技术领域，具体涉及一种专病知识图谱构建方法、专病知识图谱构建装置、计算机可读介质及电子设备，该方法包括：获取专病标准数据，并基于专病标准数据构建针对预设指标的标准知识图谱；获取针对预设指标的待处理专病数据，并对待处理专病数据进行值域统计，以获取待处理专病数据对应的待处理统计数据；将待处理统计数据和标准知识图谱融合，得到针对预设指标的专病知识图谱。本公开实施例的技术方案一方面，可以通过知识图谱的方式更好的呈现待处理专病数据；另一方面，可以将待处理专病数据与专病标准数据对应的标准知识图谱进行有效融合，有助于基于待处理专病数据的科研实践。

Description

专病知识图谱构建方法及装置、介质及电子设备

技术领域

本公开涉及自然语言处理技术领域，具体而言，涉及一种专病知识图谱构建方法、专病知识图谱构建装置、计算机可读介质及电子设备。

背景技术

知识图谱是一种显示知识发展进程与结构关系的一系列各种不同的图形，通过可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系，能为学科研究提供切实的、有价值的参考。

专病知识图谱属于医学知识图谱，是一种描述医学上某一种疾病领域客观存在的实体、概念及它们之间关联关系的语义网络，可应用于医学领域中的疾病筛查和预测、辅助临床诊断、医疗保险风险预测和医学知识科普等各个方面。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种专病知识图谱构建方法、专病知识图谱构建装置、计算机可读介质及电子设备，进而至少在一定程度上实现将待处理专病数据与标准专病数据有效融合，更好的展示待处理转碧昂数据，以便于进行基于待处理专病数据进行的临床科研实践。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的第一方面，提供了一种专病知识图谱构建方法，包括：获取专病标准数据，并基于专病标准数据构建针对预设指标的标准知识图谱；获取针对预设指标的待处理专病数据，并对待处理专病数据进行值域统计，以获取待处理专病数据对应的待处理统计数据；将待处理统计数据和标准知识图谱融合，得到针对预设指标的专病知识图谱。

可选的，基于前述方案，将待处理统计数据和标准知识图谱融合，包括：根据待处理统计数据在标准知识图谱包含的标准字段值节点中确定冗余字段值节点，并将冗余字段值节点移除得到中间知识图谱；基于待处理统计数据对中间知识图谱中各中间字段值节点进行属性关联。

可选的，基于前述方案，待处理统计数据包括在待处理专病数据中确定预设指标对应的至少一个待处理字段值的数量分布数据；根据待处理统计数据在标准知识图谱包含的标准字段值节点中确定冗余字段值节点，包括：根据待处理字段值的数量分布数据统计标准知识图谱中各标准字段值节点对应的第一数量；在标准字段值节点对应的第一数量为0时，确定标准字段值节点为冗余字段值节点。

可选的，基于前述方案，待处理统计数据包括在待处理专病数据中确定预设指标对应的至少一个待处理字段值的数量分布数据；基于待处理统计数据对中间知识图谱中各中间字段值节点进行属性关联，包括：根据待处理字段值的数量分布数据统计中间知识图谱中各中间字段值节点对应的第二数量；将各中间字段值节点对应的第二数量作为属性，分别与中间知识图谱中的各中间字段值节点进行关联。

可选的，基于前述方案，获取针对预设指标的待处理专病数据，包括：获取待处理原始患者数据，并在待处理原始患者数据中提取预设指标对应的原始字段值；对原始字段值进行归一化，输出归一字段值；基于原始字段值和归一字段值生成待处理专病数据。

可选的，基于前述方案，在对原始字段值进行归一化处理之前，方法还包括：根据正则关系库对原始字段值进行矫正，以获取矫正后的原始字段值。

可选的，基于前述方案，对原始字段值进行归一化处理，包括：根据归一词表对原始字段值进行归一化处理。

可选的，基于前述方案，在根据归一词表对原始字段值进行归一化处理之后，方法还包括：根据归一配置文件对原始字段值进行归一化处理。

可选的，基于前述方案，获取专病标准数据，包括：对数据源中的标准数据进行领域划分，得到至少一个领域数据集；对至少一个领域数据集进行实体识别和关系识别；基于实体识别和关系识别的识别结果在至少一个领域数据集抽取目标专病数据，并将抽取的目标专病数据确定为专病标准数据。

可选的，基于前述方案，基于专病标准数据构建针对预设指标的标准知识图谱，包括：在专病标准数据中获取与预设指标存在关系数据的实体数据；以实体数据为标准字段值节点，以关系数据为连接信息构建针对预设指标的标准知识图谱。

可选的，基于前述方案，对待处理专病数据进行值域统计，以获取待处理专病数据对应的待处理统计数据，包括：在待处理专病数据中确定预设指标对应的至少一个待处理字段值；对至少一个待处理字段值进行数量统计，并基于数量统计结果生成待处理专病数据对应的待处理统计数据。

可选的，基于前述方案，将待处理字段值与标准知识图谱中的标准字段值进行匹配，根据匹配结果计算待处理字段值的标准化率，并将标准化率添加至待处理统计数据。

根据本公开的第二方面，提供了一种专病知识图谱构建装置，包括：图谱生成模块，用于获取专病标准数据，并基于专病标准数据构建针对预设指标的标准知识图谱；数据统计模块，用于获取针对预设指标的待处理专病数据，并对待处理专病数据进行值域统计，以获取待处理专病数据对应的待处理统计数据；数据融合模块，用于将待处理统计数据和标准知识图谱融合，得到针对预设指标的专病知识图谱。

根据本公开的第三方面，提供了一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现如上述任一项的方法。

根据本公开实施例的第四方面，提供了一种电子设备，包括：

处理器；以及

存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行时，使得一个或多个处理器实现如上述任一项的方法。

本公开实施例提供的技术方案可以包括以下有益效果：

本公开的一种实施例所提供的专病知识图谱构建方法中，通过对针对预设指标的待处理专病数据进行值域统计，并将统计得到的待处理统计数据和通过专病标准数据构建的标准知识图谱进行融合，进而得到专病知识图谱。基于本公开的专病知识图谱构建方法，一方面，可以基于标准知识图谱构建与待处理专病数据一致的专病知识图谱，通过知识图谱的方式更好的呈现待处理专病数据；另一方面，可以将待处理专病数据与专病标准数据对应的标准知识图谱进行有效融合，有助于基于待处理专病数据的科研实践。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1示意性示出本公开示例性实施例中一种专病知识图谱构建方法的流程图；

图2示意性示出本公开示例性实施例中一种专病标准数据的获取方法的流程图；

图3示意性示出本公开示例性实施例中一种获取针对预设指标的待处理专病数据方法的流程图；

图4示意性示出本公开示例性实施例中一种专病知识图谱的示意图；

图5示意性示出本公开示例性实施例中一种中间知识图谱的示意图；

图6示意性示出本公开示例性实施例中另一种专病知识图谱的示意图；

图7示意性示出本公开示例性实施例中一种专病知识图谱构建装置的组成示意图；

图8示意性示出了适于用来实现本公开示例性实施例的电子设备的计算机系统的结构示意图。

具体实施方式

现在将参照附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

在相关技术中，专病知识图谱通常是一种描述医学上某一种疾病领域客观存在的实体、概念及它们之间关联关系的语义网络，可应用于医学领域中的疾病筛查和预测、辅助临床诊断、医疗保险风险预测和医学知识科普等各个方面。然而，这种专病知识图谱通常仅反应了医学上某一种疾病领域内的所有数据，但无法根据特定机构、特定专病真实数据进行有效融合，因此也无法针对特定机构，或者特定专病真实数据进行数据标准，进而也无法针对特定机构的科研实践或者针对基于特定专病真实数据的科研实践进行指导。例如，医院A需要基于本院数据库中的数据构建某一疾病领域的专病知识图谱，以便于辅助本院内部的临床科研实践，若采用标准知识图谱，则只能反映医学领域内该专疾病的情况，因此无法辅助本院内部的临床科研实践。

基于上述一个或多个问题，本示例实施方式提供了一种专病知识图谱构建方法。该专病知识图谱构建方法可以应用于基于特定数据范围构建专病知识图谱的过程中。参考图1所示，该专病知识图谱构建方法可以包括以下步骤S110至S130：

在步骤S110中，获取专病标准数据，并基于专病标准数据构建针对预设指标的标准知识图谱。

其中，上述专病标准数据可以包括医学上所有与某一中疾病领域相关的所有数据。具体的，可以包括医学标准、医学文献以及真实世界中医院采集的真实患者数据等多种来源的数据；上述预设指标可以是包括医疗领域中的各种医疗字段，可以根据用户的需要或者应用场景进行自定义，本公开对此不做特殊限定。例如，预设指标可以是“诊断”这一字段，也可以是“急性白血病分型(FAB分型)”等。

在一示例性实施例中，在获取专病标准数据时，可以先对数据源中的标准数据进行领域划分，得到至少一个领域数据集，然后对每个领域数据集进行实体识别和关系识别，最后基于实体识别和关系识别的结果在至少一个领域数据集中抽取目标专病数据，并将目标专病数据确定为专病标准数据。

需要说明的是，上述目标专病包括待处理专病数据所在专病领域。例如，在待处理专病数据所在的专病领域为胃癌专病领域时，在获取专病标准数据时，对应的需要获取胃癌专病领域对应的胃癌专病标准数据。

举例而言，可以按照医学中常用的领域，例如解剖、症状、诊断、手术、检验、药品和物理检查等领域分别建立相应的领域数据集，然后针对每个领域数据集进行实体识别、关系识别，并且基于实体识别和关系识别的结果，在各个领域数据集中抽取与目标专病相关的目标专病数据，进而确定目标专病对应的专病标准数据。例如，糖尿病专病标准数据、心血管病标准数据、胃癌专病标准数据。

其中，上述实体识别的过程，可以包括基于现有的医疗词表、归一词表以及命名实体识别算法(Named Entity Recognition，NER)等方式中的至少一种进行的实体识别；上述关系识别的过程，可以包括基于预设规则、自然语言处理(Natural Language Processing，NLP)，以及人工整理的预设关系表等方式中的至少一种进行关系识别。例如，如图2所示的专病标准数据的获取方法。

在一示例性实施例中，基于专病标准数据构建针对预设指标的标准知识图谱时，可以从获取到的专病标准数据中获取与预设指标存在关系数据的实体数据，然后以实体数据为标准字段值节点，以关系数据为连接信息构建针对预设指标的标准知识图谱。

例如，在专病标准数据为树状结构存储的数据时，树状结构中的每个节点代表了实体数据，各个节点的排列关系表示了各节点对应实体数据之间的关系数据。例如，实体数据“发热”与实体数据“高热”之间的关系数据可以是同义词。此时，每个实体数据均存在唯一标识，因此可以基于预设指标对应的标识从专病标准数据集中获取与预设指标存在关系数据的直接实体数据，并通过反复递归的方式，依次获取与各实体数据存在关系数据的间接实体数据，构成知识图谱。

其中，上述唯一标识可以是数字标识，符号标识等。例如，可以是唯一ID；上述实体数据之间存在的关系数据可以包括同义词关系、上下位词关系等关系，本公开对此不做特殊限定。

举例而言，从专病标准数据中包括的领域1中抽取的目标专病数据中，可以获取与预设指标“症状-判定”对应的数据，具体数据如下：

在步骤S120中，获取针对预设指标的待处理专病数据，并对待处理专病数据进行值域统计，以获取待处理专病数据对应的待处理统计数据。

在一示例性实施例中，在获取针对预设指标的待处理专病数据时，可以先获取需要研究的特定数据范围内的，待处理专病数据所在专病领域的待处理原始患者数据。然后在其中提取预设指标对应的原始字段值，并对原始字段值进行归一化输出归一字段值，并基于原始字段值和归一字段值生成待处理专病数据。

需要说明的是，为了保证待处理原始患者数据的完整性，同时避免待处理原始患者数据中包含一些无用数据，可以选择经过纳排后的患者全量数据作为待处理原始患者数据。

在一示例性实施例中，在提取预设指标对应的原始字段值时，可以通过计算引擎的配置，基于单一来源或多来源进行映射计算，以获取预设指标对应的原始字段值；或者可以通过结构化引擎使用分词、实体识别、机器学习和人工规则定义的实体件关系识别、函数计算等方式。此外，还可以采用预设计算逻辑的方式确定原始字段值，本公开对此不做特殊限定。例如，针对预设指标“诊断”，在心血管专病对应的待处理原始患者数据中，可以采集到的原始字段值可以包括“心肌炎”、“心肌梗死”、“心尖搏动”等。

进一步地，虽然通过结构化引擎进行结构化数据生产时可以输出归一值，但由于结构化字段逻辑配置时，会基于一个或者几个实体得出一个实体或者几个实体的组合输出。为了让输出值更加标准，可以基于归一词表对原始字段值进行归一化处理。

此外，在一示例性实施例中，当基于归一词表进行归一化处理之后，还可以基于根据归一配置文件对原始字段进行归一化处理。需要说明的是，还可以采用其他的归一化方式对原始字段值进行归一化处理，本公开对此也不做特殊限定。

需要说明的是，在一示例性实施例中，原始字段值中可能存在一些不规范或者存在歧义的写法，例如将“心尖搏动”写作“心尖博动”，再如，将“心肌梗死”写成“心肌梗-”等。此时，在基于归一词表对原始字段值进行归一化处理之前，还可以先通过预先建立的正则关系库对原始字段值进行矫正，以获取矫正后的原始字段值。

举例而言，参考图3所示，可以先对患者全量数据进行纳排得到待处理原始患者数据，然后通过映射计算或者结构化计算得到针对预设指标的原始字段值，并根据正则关系库、归一词表、归一配置文件分别对原始字段值进行矫正和归一，进而得到待处理专病数据。

在一示例性实施例中，在对待处理专病数据进行值域统计，以获取待处理专病数据对应的待处理统计数据时，可以先在待处理专病数据中确定预设指标对应的至少一个待处理字段值，进而分别对每个待处理字段值进行数量统计，并基于数量统计的结果生成待处理专病数据对应的待处理统计数据。

举例而言，假设针对FAB分型这一预设指标，在待处理专病数据中可以确定M2型、M4型和M5型共3个待处理字段值，此时可以针对每个待处理字段值进行数量统计，得到待处理专病数据中，M2型、M4型和M5型分别出现了383次，221次和542次，即待处理专病数据对应的待处理统计数据为：M2型-383，M4型-221，M5型-542。

在步骤S130中，将待处理统计数据和标准知识图谱融合，得到针对预设指标的专病知识图谱。

在一示例性实施例中，在对待处理统计数据和标准知识图谱进行融合时，可以先根据待处理统计数据在标准知识图谱包含的标准字段值节点中确定冗余字段值节点，然后将冗余字段值节点从标准知识图谱中移除，得到中间知识图谱。在得到中间知识图谱后，基于待处理统计数据对中间知识图谱中各个中间字段节点进行属性关联，进而得到针对预设指标的专病知识图谱。

其中，待处理统计数据可以包括在待处理专病数据中确定预设指标对应的至少一个待处理字段值的数量分布数据。举例而言，在上例中，针对FAB分型这一预设指标，在待处理专病数据中可以确定M2型、M4型和M5型共3个待处理字段值，对应的待处理字段值的数量分布数据可以为M2型-383，M4型-221，M5型-542。

在一示例性实施例中，在待处理统计数据包括待处理字段值的数量分布数据时，对应的，可以根据待处理统计数据中包含的待处理字段值的数量分布情况，确定标准知识图谱中标准字段值节点的冗余字段值节点。具体的，可以先根据待处理字段值的数量分布数据统计标准知识图谱中各标准字段值节点对应的第一数量，在标准字段值节点对应的第一数量为0时，确定标准字段值节点为冗余字段值节点。

需要说明的是，在医疗领域中，经过正则化、归一化处理之后的原始字段值，即待处理字段值通常情况下会与标准字段值匹配上。举例而言，标准字段值通常为医疗领域通用的字段，如“心急梗死”、“心尖搏动”；而经过正则化和归一化处理后的待处理字段值通常也包括这些字段，只是由于待处理专病数据的数据范围相对专病标准数据的数据范围较窄，因此标准知识图谱中可能存在一些待处理专病数据中并不存在的字段，因此标准字段值节点中可能存在冗余字段值节点。此时，可以根据统计得到的第一数量，以确定标准字段值节点中存在的冗余字段值节点。

在一示例性实施例中，在待处理统计数据包括待处理字段值的数量分布数据时，对应的，可以根据待处理统计数据中包含的待处理字段值的数量分布情况，对中间知识图谱中的各个中间字段值节点进行属性关联。具体的，可以根据待处理字段值的数量分布数据统计中间知识图谱中各个中间字段值节点对应的第二数量，然后将第二数量作为属性，分别与每个中间字段值节点进行属性关联，进而得到专病知识图谱。

需要说明的是，在进行上述第二数量的统计时，需要通过递归的方式，将当前中间字段值节点的中间字段值对应的待处理字段值，及该待处理字段值的直接下位词的数量加总，得到该中间字段值对应的第二数量。例如，针对FAB分型这一预设指标，假设只有M1型和M2型两种待处理字段值，M2型的下位词分别为M2a型和M2b型，且两个节点对应的第二数量分别为56和58，此时，M2型节点对应的第二数量为56+58＝114，假设M1型节点的第二数量为50，此时FAB分型节点对应的第二数量则为114+50＝164。

举例而言，在上例中，针对FAB分型这一预设指标，在待处理专病数据中可以确定M2型、M4型和M5型共3个待处理字段值，对应的待处理字段值的数量分布数据可以为M2型-383，M4型-221，M5型-542。对应的，可以将383，221，542作为属性值，与待处理字段值M2型，M4型，M5型在中间知识图谱中对应的中间字段值节点进行属性关联，得到如图4所示的专病知识图谱。

在一示例性实施例中，在进行上述归一化的过程中，可以同时记录原始字段值和归一化后的归一字段值，并在归一化处理结束后，建立每个原始字段值与归一字段值的映射关系。然后基于原始字段值、归一字段值以及原始字段值与归一字段值的映射关系，生成待处理专病数据。例如，待处理专病数据可以为如下结构的数据：

此时，待处理专病数据中同时包括归一字段值、原始字段值以及原始字段值与归一字段值的映射关系。基于这种数据结构，对待处理专病数据进行值域统计时，除了可以得到归一字段值的数量分布数据，还可以得到每一归一字段值对应的原始字段值的数量分布数据。在这种情况下，可以同时将归一字段值的数量分布数据和原始字段值的数量分布数据同时作为属性数据与上述中间知识图谱中的中间字段值节点关联起来，生成专病知识图谱。

举例而言，针对FAB分型这一预设指标，在待处理专病数据中可以确定M1型、M2型和M3型共3个待处理字段值(归一字段值)；同时，针对每个待处理字段值分别存在原始字段值，其数量分布如下：M1型：M1型-2，M1-20，未分化型-1；M2型：M2a型-58，M2b型-56，M2型-169，M2-62，部分分化型-38；M3型：早有粒细胞-2；早幼粒-5，急性早幼粒细胞性白血病-11，M3型-27，急性早幼粒细胞白血病-241。此时可以将上述待处理字段值的数量分布，以及原始字段值的数量分布数据作为属性信息与图5所示的中间知识图谱中的各个中间字段值节点进行关联，得到如图6所示的专病知识图谱。

进一步地，还可以将待处理字段值与标准知识图谱中的标准字段值进行匹配，并根据匹配结果计算待处理字段值中能够与标准字段值匹配的标准化率，然后将标准化率添加至待处理统计数据中，已将标准化率与专病知识图谱融合。标准化率可以标识用于生成专病知识图谱的待处理专病数据中，字段值的标准程度，有利于展示当前待处理专病数据中医疗书写的规范程度。

此外，除了上述标准化率之外，在对中间知识图谱进行属性关联时，还可以在各中间字段值节点之间的连接信息中关联关系数据。例如，节点A和节点B之间为同义词关系，该同义词关系是基于人工预设的同义词表确定的，因此可以将关系数据同义词关系，关系数据的来源同义词表与连接信息相关联，以便于展示各个节点对应的字段值之间的关系。

需要说明的是，在得到上述专病知识图谱之后，可以通过一些前端组件对专病知识图谱进行展示，本公开对用于展示专病知识图谱的组件、程序等不做特殊限定。例如，可以通过VUE组件进行展示。

需要注意的是，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

进一步的，参考图7所示，本示例的实施方式中还提供一种专病知识图谱构建装置700，包括图谱生成模块710、数据统计模块720和数据融合模块730。其中：

图谱生成模块710可以用于获取专病标准数据，并基于专病标准数据构建针对预设指标的标准知识图谱。

数据统计模块720可以用于获取针对预设指标的待处理专病数据，并对待处理专病数据进行值域统计，以获取待处理专病数据对应的待处理统计数据。

数据融合模块730可以用于将待处理统计数据和标准知识图谱融合，得到针对预设指标的专病知识图谱。

在一示例性实施例中，数据融合模块730可以用于根据待处理统计数据在标准知识图谱包含的标准字段值节点中确定冗余字段值节点，并将冗余字段值节点移除得到中间知识图谱；基于待处理统计数据对中间知识图谱中各中间字段值节点进行属性关联。

在一示例性实施例中，数据融合模块730可以用于根据待处理字段值的数量分布数据统计标准知识图谱中各标准字段值节点对应的第一数量；在标准字段值节点对应的第一数量为0时，确定标准字段值节点为冗余字段值节点。

在一示例性实施例中，数据融合模块730可以用于根据待处理字段值的数量分布数据统计中间知识图谱中各中间字段值节点对应的第二数量；将各中间字段值节点对应的第二数量作为属性，分别与中间知识图谱中的各中间字段值节点进行关联。

在一示例性实施例中，数据统计模块720可以用于获取待处理原始患者数据，并在待处理原始患者数据中提取预设指标对应的原始字段值；对原始字段值进行归一化，输出归一字段值；基于原始字段值和归一字段值生成待处理专病数据。

在一示例性实施例中，数据统计模块720可以用于根据正则关系库对原始字段值进行矫正，以获取矫正后的原始字段值。

在一示例性实施例中，数据统计模块720可以用于根据归一词表对原始字段值进行归一化处理。

在一示例性实施例中，数据统计模块720可以用于根据归一配置文件对原始字段值进行归一化处理。

在一示例性实施例中，图谱生成模块710可以用于对数据源中的标准数据进行领域划分，得到至少一个领域数据集；对至少一个领域数据集进行实体识别和关系识别；基于实体识别和关系识别的识别结果在至少一个领域数据集抽取目标专病数据，并将抽取的目标专病数据确定为专病标准数据。

在一示例性实施例中，图谱生成模块710可以用于在专病标准数据中获取与预设指标存在关系数据的实体数据；以实体数据为标准字段值节点，以关系数据为连接信息构建针对预设指标的标准知识图谱。

在一示例性实施例中，数据统计模块720可以用于在待处理专病数据中确定预设指标对应的至少一个待处理字段值；对至少一个待处理字段值进行数量统计，并基于数量统计结果生成待处理专病数据对应的待处理统计数据。

在一示例性实施例中，数据统计模块720可以用于将待处理字段值与标准知识图谱中的标准字段值进行匹配，根据匹配结果计算待处理字段值的标准化率，并将标准化率添加至待处理统计数据。

上述装置中各模块的具体细节在方法部分实施方式中已经详细说明，未披露的细节内容可以参见方法部分的实施方式内容，因而不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，图8示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。

需要说明的是，图8示出的电子设备的计算机系统800仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统800包括中央处理单元(CPU)801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中，还存储有系统操作所需的各种程序和数据。CPU801、ROM 808以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本公开的实施例，下文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的方法和装置中限定的各种功能。在一些实施例中，计算机系统800还可以包括AI(ArtificialIntelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现如下述实施例中的方法。例如，的电子设备可以实现如图1～图3所示的各个步骤等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种专病知识图谱构建方法，其特征在于，包括：

获取专病标准数据，并基于所述专病标准数据构建针对预设指标的标准知识图谱；

获取针对所述预设指标的待处理专病数据，并对所述待处理专病数据进行值域统计，以获取所述待处理专病数据对应的待处理统计数据；

将所述待处理统计数据和所述标准知识图谱融合，得到针对预设指标的专病知识图谱。

2.根据权利要求1所述的方法，其特征在于，所述将所述待处理统计数据和所述标准知识图谱融合，包括：

根据所述待处理统计数据在所述标准知识图谱包含的标准字段值节点中确定冗余字段值节点，并将所述冗余字段值节点移除得到中间知识图谱；

基于所述待处理统计数据对所述中间知识图谱中各中间字段值节点进行属性关联。

3.根据权利要求2所述的方法，其特征在于，所述待处理统计数据包括在所述待处理专病数据中确定所述预设指标对应的至少一个待处理字段值的数量分布数据；

所述根据所述待处理统计数据在所述标准知识图谱包含的标准字段值节点中确定冗余字段值节点，包括：

根据所述待处理字段值的数量分布数据统计所述标准知识图谱中各标准字段值节点对应的第一数量；

在所述标准字段值节点对应的第一数量为0时，确定所述标准字段值节点为冗余字段值节点。

4.根据权利要求2所述的方法，其特征在于，所述待处理统计数据包括在所述待处理专病数据中确定所述预设指标对应的至少一个待处理字段值的数量分布数据；

所述基于所述待处理统计数据对所述中间知识图谱中各中间字段值节点进行属性关联，包括：

根据所述待处理字段值的数量分布数据统计所述中间知识图谱中各中间字段值节点对应的第二数量；

将各所述中间字段值节点对应的第二数量作为属性，分别与所述中间知识图谱中的各所述中间字段值节点进行关联。

5.根据权利要求1所述的方法，其特征在于，所述获取针对所述预设指标的待处理专病数据，包括：

获取待处理原始患者数据，并在所述待处理原始患者数据中提取预设指标对应的原始字段值；

对所述原始字段值进行归一化，输出归一字段值；

基于所述原始字段值和归一字段值生成待处理专病数据。

6.根据权利要求5所述的方法，其特征在于，在所述对所述原始字段值进行归一化处理之前，所述方法还包括：

根据正则关系库对所述原始字段值进行矫正，以获取矫正后的原始字段值。

7.根据权利要求5所述的方法，其特征在于，所述对所述原始字段值进行归一化处理，包括：

根据归一词表对所述原始字段值进行归一化处理。

8.根据权利要求7所述的方法，其特征在于，在所述根据归一词表对所述原始字段值进行归一化处理之后，所述方法还包括：

根据归一配置文件对所述原始字段值进行归一化处理。

9.根据权利要求1所述的方法，其特征在于，所述获取专病标准数据，包括：

对数据源中的标准数据进行领域划分，得到至少一个领域数据集；

对所述至少一个领域数据集进行实体识别和关系识别；

基于所述实体识别和所述关系识别的识别结果在所述至少一个领域数据集抽取目标专病数据，并将抽取的所述目标专病数据确定为专病标准数据。

10.根据权利要求1所述的方法，其特征在于，所述基于所述专病标准数据构建针对预设指标的标准知识图谱，包括：

在所述专病标准数据中获取与所述预设指标存在关系数据的实体数据；

以所述实体数据为标准字段值节点，以所述关系数据为连接信息构建针对预设指标的标准知识图谱。

11.根据权利要求1所述的方法，其特征在于，所述对所述待处理专病数据进行值域统计，以获取所述待处理专病数据对应的待处理统计数据，包括：

在所述待处理专病数据中确定所述预设指标对应的至少一个待处理字段值；

对所述至少一个待处理字段值进行数量统计，并基于所述数量统计结果生成所述待处理专病数据对应的待处理统计数据。

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

将所述待处理字段值与所述标准知识图谱中的标准字段值进行匹配，根据匹配结果计算所述待处理字段值的标准化率，并将所述标准化率添加至所述待处理统计数据。

13.一种专病知识图谱构建装置，其特征在于，包括：

图谱生成模块，用于获取专病标准数据，并基于所述专病标准数据构建针对预设指标的标准知识图谱；

数据统计模块，用于获取针对所述预设指标的待处理专病数据，并对所述待处理专病数据进行值域统计，以获取所述待处理专病数据对应的待处理统计数据；

数据融合模块，用于将所述待处理统计数据和所述标准知识图谱融合，得到针对预设指标的专病知识图谱。

14.一种计算机可读介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如权利要求1至12中任一项所述的方法。

15.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至12任一项所述的方法。