CN116779183A

CN116779183A - 创建单病种数据库的方法、装置、设备及存储介质

Info

Publication number: CN116779183A
Application number: CN202310612597.4A
Authority: CN
Inventors: 周建国; 刘磊; 周笑楠; 袁天慧; 张东; 康俊祥
Original assignee: Beijing Yikang Medical Technology Co ltd
Current assignee: Beijing Yikang Medical Technology Co ltd
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-09-19

Abstract

本公开涉及一种创建单病种数据库的方法、装置、设备及存储介质，其中，方法包括：配置单病种指标和指标提取规则；若指标提取规则的输入源类型为指定字段输入，则从临床数据库中获取指定字段的临床数据；若输入源类型为指定变量输入，则从已定义变量的数据中确定指定变量的数据；根据NLP模型提取与单病种指标对应的单病种数据；若输出选择为变量输出，则按照变量映射配置建立单病种数据与定义的变量之间的映射关系；若输出选择为指标输出，则按照指标映射配置将单病种数据存储至单病种数据库。根据本公开的技术方案，能够实现自动化的单病种指标数据提取，提高创建单病种数据库的效率，适应各单病种的指标提取需求。

Description

创建单病种数据库的方法、装置、设备及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及一种创建单病种数据库的方法、装置、设备及存储介质。

背景技术

随着医院信息化建设持续深入，医院积累了大量具有研究价值的临床数据，为开展临床研究奠定了基础。由于院内临床信息化系统的数据结构是针对所有疾病的共性需求进行的数据结构设计，其数据存储结构更符合通用信息化存储需求，在开展具体的单病种科研项目过程中，按照课题的研究需要来定义对应科研数据指标的要求，对应科研指标的数据需要通过对临床数据库采集、转换和指标提取，才能转换为立足科研项目需要的单病种数据库。

目前，临床数据转换为单病种数据库的过程中，需要按单病种库中对应的指标要求进行大量的提取和转换工作，人工逐一进行指标内容提取时，对应工作量巨大，而基于临床数据通过数据转换工具对指标数据进行提取时，通过正则或关键词进行指标转换，若出现规则性不强或未纳入正则或关键词的文本，会导致对应指标无法提取。

发明内容

为了解决上述技术问题，本公开提供了一种创建单病种数据库的方法、装置、设备及存储介质。

第一方面，本公开实施例提供了一种创建单病种数据库的方法，包括：

配置单病种指标和指标提取规则，其中，所述指标提取规则包括输入源类型和输出选择；

若所述输入源类型为指定字段输入，则从临床数据库中获取所述指定字段的临床数据，作为目标临床数据；

若所述输入源类型为指定变量输入，则从已定义变量的数据中确定所述指定变量的数据，作为所述目标临床数据；

基于所述目标临床数据，根据预训练的NLP模型提取与所述单病种指标对应的单病种数据；

若所述输出选择为变量输出，则按照变量映射配置建立所述单病种数据与定义的变量之间的映射关系；

若所述输出选择为指标输出，则按照指标映射配置将所述单病种数据存储至单病种数据库。

第二方面，本公开实施例提供了一种创建单病种数据库的装置，包括：

配置模块，用于配置单病种指标和指标提取规则，其中，所述指标提取规则包括输入源类型和输出选择；

第一获取模块，用于若所述输入源类型为指定字段输入，则从临床数据库中获取所述指定字段的临床数据，作为目标临床数据；

第二获取模块，用于若所述输入源类型为指定变量输入，则从已定义变量的数据中确定所述指定变量的数据，作为所述目标临床数据；

提取模块，用于基于所述目标临床数据，根据预训练的NLP模型提取与所述单病种指标对应的单病种数据；

第一生成模块，用于若所述输出选择为变量输出，则按照变量映射配置建立所述单病种数据与定义的变量之间的映射关系；

第二生成模块，用于若所述输出选择为指标输出，则按照指标映射配置将所述单病种数据存储至单病种数据库。

第三方面，本公开实施例提供了一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述第一方面所述的创建单病种数据库的方法。

第四方面，本公开实施例提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面所述的创建单病种数据库的方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：通过配置单病种指标和指标提取规则，根据指标提取规则的输入源类型中的指定字段输入/变量输入，获取目标临床数据，根据预训练的NLP模型提取与单病种指标对应的单病种数据，以及根据输出选择中的变量输出/指标输出，将单病种数据存储至单病种数据库，由此，能够基于已有的临床数据库进行单病种数据库的创建，基于NLP实体和关系提取技术实现自动化的单病种指标数据提取，提高创建单病种数据库的效率，并且，按单病主题定义指标组后，在线定义的变量，可在指标提取规则中进行传递引用，以适应各单病种的指标提取需求，简化用户操作。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例所提供的一种创建单病种数据库的方法的流程示意图；

图2为本公开实施例所提供的一种指标提取规则配置流程示意图；

图3为本公开实施例所提供的一种模型训练示意图；

图4为本公开实施例所提供的一种创建单病种数据库的流程示意图；

图5为本公开实施例所提供的一种创建单病种数据库的装置的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将对本公开的方案进行进一步描述。需要说明的是，在不冲突的情况下，本公开的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本公开，但本公开还可以采用其他不同于在此描述的方式来实施；显然，说明书中的实施例只是本公开的一部分实施例，而不是全部的实施例。

图1为本公开实施例所提供的一种创建单病种数据库的方法的流程示意图，本公开实施例提供的方法可以由创建单病种数据库的装置来执行，该装置可以采用软件和/或硬件实现，并可集成在任意具有计算能力的电子设备上。

如图1所示，本公开实施例提供的创建单病种数据库的方法可包括：

步骤101，配置单病种指标和指标提取规则。

本实施例的方法，用于以下场景：基于已有的临床数据库，根据单病种科研项目的指标分析需求，从临床数据库中提取相应的指标数据以存储到单病种数据库中。

本实施例中，单病种指标包括单病种名称、单病种遗传史、单病种检查检验报告等。首先根据通过对主题库和指标的定义完成单病种数据库的初始化，具体地，根据科研项目对单病数据库指标的需求，在线进行单病种主题库定义，定义主题库后，在线对单病种指标进行动态配置和管理，其中，在配置指标时可以指定对应指标的展现形式，以用于进行人工确认时表单的动态显示。可选地，配置是否指定来源数据，若是，则与临床数据库的临床数据模型相关联，以获取指定来源的临床数据，例如，指定来源数据为特定部门的临床数据，从而在数据确认环节，提高确认人员的工作效率。

其中，配置单病种指标后，在线配置指标提取规则，临床数据库中涉及非结构化文本数据，在进行数据提取时，定义NLP(Natural Language Processing，自然语言处理)指标模型以自动化的进行指标数据的提取。指标提取规则包括输入源类型、输出选择、指标维度等，输入源类型包括变量输入和指定字段输入两种，输出选择包括变量输出和指标输出两种，用于表示提取的指标数据是作为变量，还是作为单病种指标对应的单病种数据，指标维度是指提取指标数据的聚合依据。

下面对具体的指标提取规则配置流程进行说明，流程如图2。根据单病种数据库主题要求，创建规则组。创建规则组后，可以进行调度周期配置和是否定义变量，其中，如果需要进行变量定义，可以在线进行配置，变量将在指标规则中进行传递引用，如果对应指标需要进行增量的周期性调度，需要进行调度周期配置。规则组中选定临床数据库下的业务数据集，同时指定对应提取的指标维度，完成规则组的配置。其中，指标维度包括病历维度和病人维度两种。

步骤102，若输入源类型为指定字段输入，则从临床数据库中获取指定字段的临床数据，作为目标临床数据；若输入源类型为指定变量输入，则从已定义变量的数据中确定指定变量的数据，作为目标临床数据。

本实施例中，在配置指标提取规则时，通过分析具体单病种数据库指标的数据内容要求，结合临床数据集中对应数据的结构和格式，选择内置的指标提取规则插件。在进行插件配置时，需选择输入源类型，如果输入源为变量输入，则选择规则组中定义的变量作为输入，否则选择指定字段作为输入，其他内容按插件要求进行规则配置。

其中，指定字段包括主诉、现病史等在临床数据库中能够直接获得的字段，而对于未能从临床数据库中直接获得的字段，可以按照变量定义的方式，变量可以根据需要定义后在规则中传递引用，以适应各单病种的指标提取需求。具体地，临床数据库中包括临床数据文本，输入源类型为主诉字段输入，则从临床数据文本获取主诉字段的文本数据，作为目标临床数据，若输入源类型为已定义的某一变量输入，则将预存的该变量所对应的文本数据，作为目标临床数据。

步骤103，基于目标临床数据，根据预训练的NLP模型提取与单病种指标对应的单病种数据。

本实施例中，NLP模型用于从文本数据中提取与单病种指标对应的单病种数据。具体地，若提取的指标中涉及到从原始非结构化文本数据中进行结构化指标提取的需求，则根据指标提取的内容，提前进行NLP指标模型配置，以单病种数据库内置预训练的NLP模型，其中，在NLP模型中定义对应提供的实体和实体间关系，并配置训练完成的模型路径可基于特定模型进行特定指标的数据提取。

下面对模型训练过程进行说明。

在本公开的一个实施例中，预先针对单病种项目训练对应的NLP模型，具体地，获取包含指定单病种数据的文本数据，作为训练样本数据，并基于单病种指标对训练样本数据进行标记，进而基于训练样本数据，训练NLP模型，NLP模型的输入为文本数据，输出为文本数据中与单病种指标对应的单病种数据。

其中，单病种数据库内置NLP预训练模型，可基于具体的单病指标进行少量样本标记，然后基于标记的样本数据进行模型微调，评估准确率达到预期后，将微调后的模型导出，并进行模型指标预测的服务化，供配置的NLP指标模型使用，具体地，在训练过程中，若当前训练轮次为首次训练，则获取10至100条训练样本，并对获取的10至100条训练样本进行标记，其中，训练样本为包含指定单病种数据的文本，基于单病种指标对该文本进行标记，进而，基于标记的10至100条训练样本，训练NLP模型。

在提取过程中，通过预训练的NLP模型可以提取出目标临床数据中与单病种指标对应的单病种数据，进而，将提取的与单病种指标对应的单病种数据发送至人工审核模块，以进行人工确认，根据人工确认结果更新与单病种指标对应的单病种数据，其中若人工确认结果与模型提取结果不一致，则将人工确认结果替换提取的单病种数据。进一步，提取出的单病种指标数据，经过人工确认后，对应调整的内容反馈预训练的NLP模型，NLP模型基于人工干预确认数据集，用于进行深度学习以对NLP模型进行迭代训练，具体地，基于更新后的与单病种指标对应的单病种数据，迭代训练NLP模型，由此，进一步保障科研数据的准确性，并通过若干轮提取与训练过程，使用人工干预确认的数据对模型进行迭代训练，不断完善NLP指标模型。

下面结合指标维度对单病种数据的提取结果进行举例说明。本实施例中，指标提取规则还包括指标维度，指标维度包括病历维度和病人维度两种，具体地，若指标维度为病历维度，则根据预训练的NLP模型，分别从单个病人的每个病历所涉及的目标临床数据中提取与单病种指标对应的单病种数据，以分别生成每个病历所对应的单病种数据；若指标维度为病人维度，则根据预训练的NLP模型，从单个病人的所有病历所涉及的目标临床数据中提取与所述单病种指标对应的单病种数据，以生成单个病人对应的单病种数据。

作为一种示例，指标维度如果为病人维度，是指对应单病种指标以单个患者为聚合条件，即提取单个患者的特定单病种指标数据。指标维度如果为病历维度，是指对应单病种指标以单份病历为聚合条件，即每份病历提取一份特定约束的单病指标数据。作为一种示例，单病种指标为是否做过支架，提取的数据包括来源于临床数据库的患者一的十份病历的诊断信息文本，若指标维度为病人维度，十份病历中包括做过支架以及未做支架的诊断信息，则最终输出的与是否做过支架这一单病种指标对应的单病种数据为做过支架，若指标维度为病历维度，十份病历中包括做过支架以及未做支架的诊断信息，则对于包括做过支架这一诊断信息的病历，对其提取得到的单病种数据为做过支架，对于包括未做支架这一诊断信息的病历，对其提取得到的单病种数据为未做过支架。

在本公开的一个实施例中，在配置单病种指标之后，还可以配置表单展现形式，其中，单病种指标与对应的单病种数据一一对应展示。进而，在与单病种指标对应的单病种数据之后，按照配置的表单展现形式，展示与单病种指标对应的单病种数据，以便于相关人员进行人工审核确认。

步骤104，若输出选择为变量输出，则按照变量映射配置建立单病种数据与定义的变量之间的映射关系。

步骤105，若输出选择为指标输出，则按照指标映射配置将单病种数据存储至单病种数据库。

本实施例中，在配置指标提取规则时，配置的规则产出的内容需进行变量输出选择，如果选择为变量输出则进行规则组定义的变量进行输出传递，否则进行输出指标的指标关联映射，即在配置指标提取规则后，自动化的进行指标数据的提取，并将提取出的指标数据存储到单病种数据库中。

根据本公开实施例的技术方案，通过配置单病种指标和指标提取规则，根据指标提取规则的输入源类型中的指定字段输入/变量输入，获取目标临床数据，根据预训练的NLP模型提取与单病种指标对应的单病种数据，以及根据输出选择中的变量输出/指标输出，将单病种数据存储至单病种数据库，由此，能够基于已有的临床数据库进行单病种数据库的创建，基于NLP实体和关系提取技术实现自动化的单病种指标数据提取，并且，按单病主题定义指标组后，在线定义的变量，可在指标提取规则中进行传递引用，以适应各单病种的指标提取需求，简化用户操作。此外，该方法立足科研场景，在线按科研要求进行指标配置，并可在科研过程中灵活调整指标定义内容，可有效避免指标预判的不确定性，基于配置的指标提取规则可自动进行指标数据的提取，无需对原始临床医生诊疗过程进行调整，不占用临床医生的临床诊疗时间，基于人工干预确认的指标数据进行模型迭代训练，保证提取模型的准确性。

图5为本公开实施例所提供的一种创建单病种数据库的装置的结构示意图，如图5所示，该创建单病种数据库的装置包括：配置模块51，第一获取模块52，第二获取模块53，提取模块54，第一生成模块55，第二生成模块56。

其中，配置模块51，用于配置单病种指标和指标提取规则，其中，所述指标提取规则包括输入源类型和输出选择；

第一获取模块52，用于若所述输入源类型为指定字段输入，则从临床数据库中获取所述指定字段的临床数据，作为目标临床数据；

第二获取模块53，用于若所述输入源类型为指定变量输入，则从已定义变量的数据中确定所述指定变量的数据，作为所述目标临床数据；

提取模块54，用于基于所述目标临床数据，根据预训练的NLP模型提取与所述单病种指标对应的单病种数据；

第一生成模块55，用于若所述输出选择为变量输出，则按照变量映射配置建立所述单病种数据与定义的变量之间的映射关系；

第二生成模块56，用于若所述输出选择为指标输出，则按照指标映射配置将所述单病种数据存储至单病种数据库。

在本公开的一个实施例中，所述指标提取规则还包括指标维度，所述指标维度包括病历维度和病人维度两种，提取模块54具体用于：若所述指标维度为病历维度，则根据预训练的NLP模型，分别从单个病人的每个病历所涉及的目标临床数据中提取与所述单病种指标对应的单病种数据，以分别生成每个病历所对应的单病种数据；若所述指标维度为病人维度，则根据预训练的NLP模型，从单个病人的所有病历所涉及的目标临床数据中提取与所述单病种指标对应的单病种数据，以生成所述单个病人对应的单病种数据。

在本公开的一个实施例中，该装置还包括：训练模块，用于获取训练样本数据，并基于所述单病种指标对所述训练样本数据进行标记；基于所述训练样本数据，训练所述NLP模型。

在本公开的一个实施例中，该装置还包括：人工确认模块，用于将提取的与所述单病种指标对应的单病种数据发送至人工审核模块，以进行人工确认；根据人工确认结果更新与所述单病种指标对应的单病种数据。

在本公开的一个实施例中，训练模块具体用于：若当前训练轮次为首次训练，则获取10至100条训练样本，并对所述训练样本进行标记；基于更新后的与所述单病种指标对应的单病种数据，迭代训练所述NLP模型。

在本公开的一个实施例中，该装置还包括：展示模块，用于配置表单展现形式，其中，所述单病种指标与所述对应的单病种数据一一对应展示；按照所述表单展现形式，展示与所述单病种指标对应的单病种数据。

本公开实施例所提供的创建单病种数据库的装置可执行本公开实施例所提供的任意创建单病种数据库的方法，具备执行方法相应的功能模块和有益效果。本公开装置实施例中未详尽描述的内容可以参考本公开任意方法实施例中的描述。

本公开实施例还提供的一种电子设备，电子设备包括一个或多个处理器和存储器。处理器可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。存储器可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器可以运行程序指令，以实现上文的本公开的实施例的方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备还可以包括：输入装置和输出装置，这些组件通过总线系统和/或其他形式的连接机构互连。此外，该输入装置还可以包括例如键盘、鼠标等等。该输出装置可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出装置可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。除此之外，根据具体应用情况，电子设备还可以包括诸如总线、输入/输出接口等任何其他适当的组件。

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本公开实施例所提供的任意方法。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本公开实施例所提供的任意方法。

计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种创建单病种数据库的方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述指标提取规则还包括指标维度，所述指标维度包括病历维度和病人维度两种，所述基于所述目标临床数据，根据预训练的NLP模型提取与所述单病种指标对应的单病种数据，包括：

若所述指标维度为病历维度，则根据预训练的NLP模型，分别从单个病人的每个病历所涉及的目标临床数据中提取与所述单病种指标对应的单病种数据，以分别生成每个病历所对应的单病种数据；

若所述指标维度为病人维度，则根据预训练的NLP模型，从单个病人的所有病历所涉及的目标临床数据中提取与所述单病种指标对应的单病种数据，以生成所述单个病人对应的单病种数据。

3.如权利要求1所述的方法，其特征在于，还包括：

获取训练样本数据，并基于所述单病种指标对所述训练样本数据进行标记；

基于所述训练样本数据，训练所述NLP模型。

4.如权利要求3所述的方法，其特征在于，还包括：

将提取的与所述单病种指标对应的单病种数据发送至人工审核模块，以进行人工确认；

根据人工确认结果更新与所述单病种指标对应的单病种数据。

5.如权利要求4所述的方法，其特征在于，所述获取训练样本数据，包括：

若当前训练轮次为首次训练，则获取10至100条训练样本，并对所述训练样本进行标记；

所述基于所述训练样本数据，训练所述NLP模型，包括：

基于更新后的与所述单病种指标对应的单病种数据，迭代训练所述NLP模型。

6.如权利要求1所述的方法，其特征在于，在配置单病种指标之后，还包括：

配置表单展现形式，其中，所述单病种指标与所述对应的单病种数据一一对应展示；

按照所述表单展现形式，展示与所述单病种指标对应的单病种数据。

7.一种创建单病种数据库的装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-6中任一所述的创建单病种数据库的方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1-6中任一所述的创建单病种数据库的方法。