CN114818720B

CN114818720B - 一种专病数据集构建方法、装置、电子设备及存储介质

Info

Publication number: CN114818720B
Application number: CN202210714897.9A
Authority: CN
Inventors: 史鹏涛; 李丽; 张奇
Original assignee: Beijing Huimeiyun Technology Co ltd
Current assignee: Beijing Huimeiyun Technology Co ltd
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2022-09-09
Anticipated expiration: 2042-06-23
Also published as: CN114818720A

Abstract

本申请提供了一种专病数据集构建方法、装置、电子设备及存储介质，属于医疗数据技术领域，方法包括：获取目标患者的目标临床数据；对非结构化数据进行结构化处理，获得目标医学实体元组；利用关联词典对结构化数据以及目标医学实体元组进行标准词映射处理获取多个医学标准词元组；针对标准数据集中的每个数据元，基于多个医学标准词元组或者该数据元的取值条件确定标准数据集中多个数据元的取值；将标准数据集中多个数据元的数据元名称以及对应取值组合构建与目标病种类型对应的专病数据集。通过采用上述专病数据集构建方法、装置、电子设备及存储介质，解决了在构建专病数据集时，构建时间长及构建效率低的问题。

Description

一种专病数据集构建方法、装置、电子设备及存储介质

技术领域

本申请涉及医疗数据技术领域，具体而言，涉及一种专病数据集构建方法、装置、电子设备及存储介质。

背景技术

随着医院信息化的高速发展，医院信息系统中积累了大量的临床数据，这些临床数据包括诊断数据、病史数据、检查检验结果、治疗过程数据等，它们分别来源于医院信息系统（Hospital Information System，HIS）、实验室信息管理系统（LaboratoryInformation System，LIS）、放射科信息系统（Radiology Information System，RIS）等信息系统。在开展临床科研项目时，需要针对专病数据进行分析，这就要求有专病数据集进行科研支撑。目前，通常是由工作人员对来自于各个信息系统的大量临床数据以及医学材料进行编写整理后，手动构建专病数据集。

然而，采用上述方式构建专病数据集时，由于各个信息系统中的数据相互独立且数据量庞大，导致构建时间长以及构建效率低的问题。

发明内容

有鉴于此，本申请的目的在于提供一种专病数据集构建方法、装置、电子设备及存储介质，以解决了在构建专病数据集时，构建时间长以及构建效率低的问题。

第一方面，本申请实施例提供了一种专病数据集构建方法，包括：

获取目标患者的目标临床数据，目标临床数据包括结构化数据以及非结构化数据，目标患者是患有目标病种类型疾病的患者；

对非结构化数据进行结构化处理，获得目标医学实体元组；

构建医学实体词与医学标准词的关联词典，利用关联词典对结构化数据以及目标医学实体元组进行标准词映射处理获取多个医学标准词元组，每个医学标准词元组包括医学标准词的标准词名称以及属性值；

针对标准数据集中的每个数据元，基于多个医学标准词元组或者该数据元的取值条件确定该数据元的取值；

将专病数据集中多个数据元的数据元名称以及对应取值组合在一起，构建与目标病种类型对应的专病数据集。

可选地，对非结构化数据进行结构化处理，获得目标医学实体元组，包括：利用命名实体识别模型从非结构化数据中提取医学实体词；利用实体关系抽取模型获取医学实体词对应的多个医学实体元组；将合法的医学实体元组作为目标医学实体元组。

可选地，关联词典包括医学实体词与医学标准词的对应关系；利用关联词典对结构化数据以及目标医学实体元组进行标准词映射处理获取多个医学标准词元组，包括：利用医学实体词与医学标准词的对应关系，将结构化数据以及目标医学实体元组中的医学实体词替换为医学标准词，将医学实体词的属性值作为医学标准词的属性值，构建多个医学标准词元组。

可选地，针对标准数据集中的每个数据元，基于多个医学标准词元组或者该数据元的取值条件确定该数据元的取值，包括：针对标准数据集中的每个数据元，确定该数据元的数据元类型；若该数据元为第一数据元类型，利用标准词筛选规则从多个医学标准词元组中选取目标医学标准词元组，基于目标医学标准词元组的标准词名称或者属性值确定该数据元的取值；若该数据元为第二数据元类型，基于该数据元的取值条件中的数据元的取值确定该数据元的取值，取值条件是确定该数据元取值的前提条件。

可选地，基于目标医学标准词元组的标准词名称或者属性值确定该数据元的取值，包括：确定该数据元的取值方式；若取值方式为值域，则从该数据元的值域中选取与目标医学标准词元组的标准词名称或者属性值一致的取值作为该数据元的取值；若取值方式为属性值，则从目标医学标准词元组中选取符合值域格式的属性值作为该数据元的取值。

可选地，利用标准词筛选规则从多个医学标准词元组中选取目标医学标准词元组，包括：建立医学标准词元组的标准词名称到标准词筛选规则的规则索引表；针对每个医学标准词元组，确定规则索引表的索引字段中是否存在与该医学标准词元组的标准词名称匹配的取值；若存在，则确定该医学标准词元组的属性值及基础信息是否满足标准词筛选规则；如果满足标准词筛选规则，则将该医学标准词元组作为目标医学标准词元组。

可选地，基于该数据元的取值条件中的数据元的取值确定该数据元的取值，包括：确定取值条件中的数据元的取值是否满足预设条件；若满足预设条件，则按照该数据元的取值方式确定该数据元的取值。

第二方面，本申请实施例还提供了一种专病数据集构建装置，所述装置包括：

获取模块，用于获取目标患者的目标临床数据，目标临床数据包括结构化数据以及非结构化数据，目标患者是患有目标病种类型疾病的患者；

结构化处理模块，用于对非结构化数据进行结构化处理，获得目标医学实体元组；

映射模块，用于构建医学实体词与医学标准词的关联词典，利用关联词典对结构化数据以及目标医学实体元组进行标准词映射处理获取多个医学标准词元组，每个医学标准词元组包括医学标准词的标准词名称以及属性值；

计算模块，用于针对标准数据集中的每个数据元，基于多个医学标准词元组或者该数据元的取值条件确定该数据元的取值；

构建模块，用于将专病数据集中多个数据元的数据元名称以及对应取值组合在一起，构建与目标病种类型对应的专病数据集。

第三方面，本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的专病数据集构建方法的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的专病数据集构建方法的步骤。

本申请实施例带来了以下有益效果：

本申请实施例提供的一种专病数据集构建方法、装置、电子设备及存储介质，能够通过对非结构化数据进行结构化处理获取统一结构的临床数据，然后对统一结构的临床数据进行标准词映射获取医学标准词，将医学标准词元组的标准词名称及属性值自动赋值给对应的数据元，以获取专病数据集，与现有技术中的专病数据集构建方法相比，解决了构建时间长以及构建效率低的问题。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例所提供的专病数据集构建方法的流程图；

图2示出了本申请实施例所提供的专病数据集构建装置的结构示意图；

图3示出了本申请实施例所提供的电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

值得注意的是，在本申请提出之前，随着医院信息化的高速发展，医院信息系统中积累了大量的临床数据，这些临床数据包括诊断数据、病史数据、检查检验结果、治疗过程数据等，它们分别来源于医院信息系统（Hospital Information System，HIS）、实验室信息管理系统（Laboratory Information System，LIS）、放射科信息系统（RadiologyInformation System，RIS）等信息系统。在开展临床科研项目时，需要针对专病数据进行分析，这就要求有专病数据集进行科研支撑。目前，通常是由工作人员对来自于各个信息系统的大量临床数据以及医学材料进行编写整理后，手动构建专病数据集。然而，采用上述方式构建专病数据集时，由于各个信息系统中的数据相互独立且数据量庞大，导致构建时间长以及构建效率低的问题。

基于此，本申请实施例提供了一种专病数据集构建方法，以缩短专病数据集的构建时间，提高专病数据集的构建效率。

请参阅图1，图1为本申请实施例所提供的一种专病数据集构建方法的流程图。如图1所示，本申请实施例提供的专病数据集构建方法，包括：

步骤S101，获取目标患者的目标临床数据。

该步骤中，目标患者是患有目标病种类型疾病的患者。

目标临床数据可指目标患者的临床数据，目标临床数据包括结构化数据以及非结构化数据。

目标病种类型可指专病数据集对应的疾病的类型，目标病种类型用于确定目标患者。

结构化数据可指数据结构规则且完整的数据，示例性的，结构化数据可以是键值对形式存储的数据，也可以是存储在数据库中的数据。

非结构化数据可指数据结构不规则或者不完整的数据，它是不方便用数据库二位逻辑表来表现的数据。

示例性的，非结构化数据可以是文本数据，也可以是XML数据，例如：于2020.04.08行“卡铂500mg+培美曲塞800mg，d1”方案化疗，化疗过程中未出现明显不良反应，第二日复查未见明显异常。

在本申请实施例中，患者在就诊过程中的所有诊疗数据都被存储在医院的各个信息系统中，并且患者的用户标识与诊疗数据具有对应关系。在构建目标病种类型的专病数据集时，可先筛选出患有该目标病种类型对应的疾病的患者，然后根据用户标识获取该患者的所有临床数据，将获取到的该患者的所有临床数据作为目标临床数据，根据目标临床数据构建专病数据集。

在临床数据中包括了结构化数据以及非结构化数据，结构化数据由于其具备规则且完整的数据结构，容易从该结构化数据中提取需要的目标数据，不需要进行结构化处理，但是，非结构化数据由于其数据结构不规则或者不完整，无法轻易从中获取目标数据，需要对其进行结构化处理。

步骤S102，对非结构化数据进行结构化处理，获得目标医学实体元组。

该步骤中，结构化处理可指将非结构化数据转为结构化数据的处理，结构化处理用于将非结构化数据转为数据结构规则且完整的数据。

作为示例，结构化处理可以是自然语言处理，还可以是其他能够获得结构化数据的语言处理方法。

医学实体元组可指包含医学实体词的元组，医学实体词元组用于获取医学标准词。

医学实体词可指由医生或者医务人员记录的医学词。

在本申请实施例中，不同的医生或者医务人员在记录数据时，可能将同一个药品或者医学术语记录为不同的名词，这些名词就叫做医学实体词，因此，在获取专病数据集时，首先要对非结构化数据进行自然语言处理，获得后结构化数据中的目标医学实体元组，该目标医学实体元组中包括了医学实体词，然后，对医学实体词进行标准词映射处理，并将得到的医学标准词应用到专病数据集中以消除不同医生或者医务人员的人为记录差异。

在一可选实施例中，对非结构化数据进行结构化处理，获得目标医学实体元组，包括：利用命名实体识别模型从非结构化数据中提取医学实体词；利用实体关系抽取模型获取医学实体词对应的多个医学实体元组；将合法的医学实体元组作为目标医学实体元组。

这里，自然语言处理是通过命名实体识别模型以及实体关系抽取模型来实现的。

具体的，以非结构化数据为待识别文本为例，首先将待识别文本输入至命名实体识别模型中获取多个医学实体词。命名实体识别模型会分五个步骤进行处理：

第一步，使用大量的医学文本基于Skip-Gram的方法训练Word2Vec模型，产出字向量词典，通过标注数据整理出小粒度实体词典。

第二步，提取待识别文本中的实体相关特征，如单字id、双字id、双字频率、切词特征和小粒度特征，将提取出的实体相关特征进行一系列处理得到实体特征，如单字向量、双字位置、双字频次、切词特征和小粒度特征。

第三步，考虑到服务端配置问题，使用IDCNN作为模型主体结构，模型的输出端为CRF层，为了更好优化IDCNN，训练时采用正交规范化。正交规范性可以防止网络过拟合，模型泛化更好。

第四步，采用CRF层作为解码层。

第五步，经过CRF层，输出的识别结果。

由于使用命名实体识别模型获取识别结果的步骤属于现有技术，这里不再赘述。

以待识别文本是“左肺腺癌cT4N3M1a IVA期”为例，输出的识别结果为“左（POS-方位）、肺（BDY-解剖部位）、腺癌（DIS-诊断）、cT4N3M1a （ATT-性质）、IVA期（ATT-性质）”，其中， POS-方位、BDY-解剖部位、DIS-诊断、ATT-性质均为命名实体标注。

然后，将多个医学实体词输入至实体关系抽取模型中获取多个医学实体元组。

具体的，实体关系抽取模型会分五个步骤进行处理：

第一步，获取待抽取的文本，基于命名实体识别模型，提取文本中的医学实体，生成医学实体序列。

第二步，生成医学实体序列后，基于预定义的常见医学实体序列模式，生成含有高纬和低纬医学实体关系的多个待判别的元组。

第三步，提取实体序列的相关特征，如实体位置、实体类型，基于Word2Vec模型生成字向量，根据实体位置和类型生成实体位置embedding和实体类型embedding。

第四步，模型采用TextCNN架构，激活函数采用Sigmoid，输出结果为二分类，判别实体元组是否合法，将合法的医学实体元组作为目标医学实体元组。

由于使用实体关系抽取模型获取识别结果的步骤属于现有技术，这里不再赘述。

以上述示例为例，将左（POS-方位）、肺（BDY-解剖部位）、腺癌（DIS-诊断）、cT4N3M1a （ATT-性质）、IVA期（ATT-性质）输入至实体关系抽取模型后得到如下目标医学实体元组“腺癌-肺-左-IVA期-cT4N3M1a”。

另外，如果非结构化数据对应的待识别文本为“乳酸脱氢酶：284↑U/L，α-羟丁酸脱氢酶：195↑U/L，总胆固醇：7.09↑mmol/L”，则得到如下3组目标医学实体元组：乳酸脱氢酶-284-↑-U/L、α-羟丁酸脱氢酶-195-↑-U/L、总胆固醇-7.09-↑-mmol/L。

步骤S103，构建医学实体词与医学标准词的关联词典，利用关联词典对结构化数据以及目标医学实体元组进行标准词映射处理获取多个医学标准词元组。

该步骤中，关联词典可指医学实体词到医学标准词的映射表，关联词典用于将医学实体元组转换为医学标准词元组。

医学标准词可指符合医学标准的标准医学名词，医学标准词是医学名词规范及标准化后的词语。

医学标准词元组可指经过标准词映射处理后得到的数据，每个医学标准词元组包括医学标准词的标准词名称以及属性值。

下面参照表1来介绍关联词典。

表1：医学实体词与医学标准词的关联词典。

如表1所示，关联词典中包括了医学实体词的实体词名称、医学标准词的标准词类型、标准词名称以及属性类型，根据关联词典的实体词名称与标准词名称的对应关系，可以确定每一个医学实体词对应的医学标准词，根据医学标准词的属性类型可以确定每一个医学标准词要提取的属性类型是哪些。

以目标医学实体元组为“卡铂-500mg-d1-2020.04.08”为例，根据关联词典可以确定医学实体词卡铂对应的医学标准词为卡铂注射液，要提取的属性为剂量、频次以及时间，因此，可以得到如下医学标准词元组：卡铂注射液，属性值为500mg、d1、2020.04.08。

下面参照表2来介绍由结构化数据获得医学标准词元组的过程。

表2：检验单数据表。

如表2所示，检验单中检验细项的第一条记录为高敏肌钙蛋白T，该记录在关联词典中的标准词名称为血超敏肌钙蛋白T，属性类型为值（检验结果）、单位、性质，由于检验单中没有性质对应的取值，因此，从检验单中提取如下医学标准词元组：血超敏肌钙蛋白T，属性值为19.66、ng/L。

在一可选实施例中，关联词典包括医学实体词与医学标准词的对应关系；利用关联词典对结构化数据以及目标医学实体元组中的医学实体词进行标准词映射处理获取多个医学标准词，包括：利用医学实体词与医学标准词的对应关系，将结构化数据以及目标医学实体元组中的医学实体词替换为医学标准词，将实体词属性作为医学标准词的属性，构建多个医学标准词元组。

这里，根据关联词典中医学实体词与医学标准词的对应关系，可以获取医学对中标准词名称，根据关联词典中的属性类型，可以从目标医学实体元组或者结构化数据中提取与属性类型对应的属性值，由标准词名称以及属性值构成医学标准词元组。

步骤S104，针对标准数据集中的每个数据元，基于多个医学标准词元组或者该数据元的取值条件确定该数据元的取值。

该步骤中，标准词筛选规则可指筛选标准词的规则，标准词筛选规则用于确定符合要求的医学标准词。

标准数据集可指由多个数据元组成的数据集，标准数据集是表征特定疾病的数据元的集合。

在本申请实施例中，使用行业内的专病知识库、知识图谱和数据集标准来建立多个标准数据集，每个标准数据集与一种疾病相对应，例如：肺癌标准数据集、肝癌标准数据集等，这些标准数据集由多个数据元构成，这些数据元能够反映特定疾病需要分析和提取的数据项，利用确定取值的多个数据元作为该患者的专病数据集。以患者确诊为肺癌为例，则先从医院的各个信息系统中获取该患者肺癌的相关数据，对这些数据进行处理以获取多个医学标准词元组，从多个已建立的标准数据集中选取肺癌标准数据集，根据医学标准词元组确定肺癌标准数据集中数据元的取值，由确定取值的数据元构成该患者的专病数据集。

下面参照表3来介绍标准数据集。表3：标准数据集部分数据元列表。

如表3所示，标准数据集包括主模块、子模块、数据元。

主模块包括患者人口学信息、就诊记录、现病史、既往史、个人史、月经及生育史、体格检查、诊断、实验室检查、影像学检查、药物治疗、手术治疗、合并症等模块。

子模块是主模块的补充说明，能够更好地区分数据元所属模块，例如：患者人口学信息模块还包括婚姻状况子模块，婚姻状况子模块下包括子女数量数据元。

数据元是标准数据集的变量，包括数据元序号、数据元名称、数据元类型、值域、单位以及取值方式。

数据元分为主数据元和从数据元，从数据元是主数据元的属性，以挂载的方式与主数据元相连，其中，挂载是指从数据元与主数据元的数据元序号的前半部分是相同的，只是序号结尾不同，例如：12.4.1为主数据元、12.4.2至12.4.10均为从数据元，这里，12代表主模块序号、4代表当前主模块下的子模块序号，1代表当前子模块下的主数据元。

值域类型是指数据元的取值类型，值域类型包括但不限于：布尔型、多值域、日期型、数值型、字符型。

值域是数据元的取值范围，不同类型的数据元的取值范围不同。以数据元名称为化疗药物通用名为例，它的数据元类型为多值域，即可以取多个数值，值域中列举了多个医学标准词，这些医学标准词就是该数据元的取值范围。

取值方式可指该数据元获取数据的方式，取值方式包括值域以及属性值。

在一可选实施例中，执行步骤S103包括：针对标准数据集中的每个数据元，确定该数据元的数据元类型；若该数据元为第一数据元类型，利用标准词筛选规则从多个医学标准词元组中选取目标医学标准词元组，基于目标医学标准词元组的标准词名称或者属性值确定该数据元的取值；若该数据元为第二数据元类型，基于该数据元的取值条件中的数据元的取值确定该数据元的取值，取值条件是确定该数据元取值的前提条件。

这里，数据元类型包括第一数据元类型以及第二数据元类型，第一数据元类型对应数据元为第一数据元，第二数据元类型对应的数据元为第二数据元。

第一数据元可指未将其他数据元作为确定取值的前提条件的数据元，第一数据元的取值不受其他数据元的取值的影响，第一数据元是未设置取值条件的数据元。

作为示例，第一数据元可以是直接根据目标医学标准词元组的标准词名称或者属性值确定取值的数据元，例如：数据元为化疗药物通用名，可以直接根据该数据元的值域确定取值。

第二数据元可指将其他数据元作为确定取值的前提条件的数据元，第二数据元的取值受其他数据元的取值的影响，第二数据元是设置了取值条件的数据元。

作为示例，第二数据元可以是将其他数据元的取值作为取值条件的数据元，也可以是将其他数据元的取值作为计算该数据元取值的参数值的数据元。

标准词筛选规则可指从医学标准词元组中选取目标医学标准词元组的规则，标准词筛选规则是根据标准数据集中数据元的值域确定的。

在一可选实施例中，基于目标医学标准词元组的标准词名称或者属性值确定该数据元的取值，包括：确定该数据元的取值方式；若取值方式为值域，则从该数据元的值域中选取与目标医学标准词元组的标准词名称或者属性值一致的取值作为该数据元的取值；若取值方式为属性值，则从目标医学标准词元组中选取符合值域格式的属性值作为该数据元的取值。

这里，值域的取值方式是指从数据元的值域中获取取值结果的方式。

属性值的取值方式是指从目标医学标准词元组的属性值中进行取值的方式。

具体的，不同的取值方式对应的取值对象是不同的，如果是值域的取值方式则取值对象是该数据元的值域，如果是属性值的取值方式则取值对象是目标医学标准词元组。

当取值方式为值域的取值方式时，则需要将值域中的每个取值结果与目标医学标准词元组的标准词名称或者属性值进行比对，确定是否存在一致的取值，如果目标医学标准词元组中存在一致的取值，则将该取值作为该数据元的取值。以化疗药物通用名的数据元为例，该数据元为多值域，则将该数据元值域中的每个取值分别于目标医学标准词元组进行比对，将出现在目标医学标准词元组的取值作为该数据元的取值。

当取值方式为属性值的取值方式时，则需要按照值域中的值域格式从目标医学标准词元组中选取匹配的取值，将该取值作为该数据元的取值。以开始时间的数据元为例，目标医学标准词为“卡铂注射液，属性值为500mg、d1、2020.04.08”，由于值域格式为yyyy-MM-dd HH:mm:ss，则将2020.04.08 00:00:00作为开始时间的取值。

在一可选实施例中，利用标准词筛选规则从多个医学标准词元组中选取目标医学标准词元组，包括：建立医学标准词元组的标准词名称到标准词筛选规则的规则索引表；针对每个医学标准词元组，确定规则索引表的索引字段中是否存在与该医学标准词元组的标准词名称匹配的取值；若存在，则确定该医学标准词元组的属性值及基础信息是否满足标准词筛选规则；如果满足标准词筛选规则，则将该医学标准词元组作为目标医学标准词元组。

这里，规则索引表可指倒排索引表，规则索引表的索引字段为标准词名称，规则索引表的键值字段为规则标识，规则索引表用于快速定位目标医学标准词。

基础信息可指医学标准词元组应的临床数据的信息，基础信息用于确定临床数据是否符合要求。

作为示例，基础信息可以是临床数据的来源信息，也可以是临床数据的产生时间。

规则索引表是通过下面的方法构建的，先设置标准词筛选规则的规则标识，然后将标准词筛选规则中的标准词名称提取出来，并将提取出来的标准词名称作为规则索引表的索引，将规则标识作为键值，以此构建倒排索引。建立倒排索引的目的是能够快速确定该医学标准词元组对应的标准词筛选规则。

具体的，先确定规则索引表中是否存在医学标准词元组中的标准词名称，如果存在说明该医学标准词元组的标准词名称是符合标准词筛选规则的，如果不存在说明该医学标准词元组的标准词名称不符合标准词筛选规则，直接过滤掉。然后，要对医学标准词元组的属性值进行筛选，如果也满足条件则将该医学标准词元组作为目标医学标准词元组。

这里，可利用标准词筛选规则中不同类型的规则对属性值进行筛选，这些不同类型的规则包括来源规则、时间规则、属性规则以及排序规则。

来源规则可指医学标准词元组的来源符合设置的来源要求，来源包括文书来源和字段来源，文书来源可以是入院记录、出院记录等文书，字段来源可以是主诉、现病史和入院诊断等字段，例如：该数据元对应的目标医学标准词必须是来自鉴别诊断中的医学标准词元组，即由鉴别诊断数据获取到的医学标准词元组可以作为该数据元的目标医学标准词元组。

时间规则可指医学标准词必须满足该数据元对时间属性的属性值要求，例如：入院末次血常规的时间限制是入院后，则只有在医学标准词元组的属性值中的时间是在入院后时，该医学标准词元组才能作为该数据元的目标医学标准词元组。

属性规则可指医学标准词元组必须满足该数据元对除时间之外的其他属性的属性值要求，其他属性包括但不限于：剂量、频次、单位、结果。例如：血乙肝病毒表面抗原(HBsAg)的值域为阳性，则只有在医学标准词元组的标准词名称为血乙肝病毒表面抗原且属性值为阳性时，该医学标准词元组才能作为该数据元的目标医学标准词元组。

排序规则可指医学标准词元组必须满足数据元对排列顺序的要求，其中排列顺序可以是时间先后顺序，也可以是数值大小的排列顺序，例如：数据元为入院末次血常规，该数据元对应多个医学标准词元组，这些医学标准词元组只是在检验时间上有区别，但是该数据元只需要最后一次的血常规检验结果，因此，需要针对检验时间进行排序，然后取末次的检验结果，将末次检验结果对应的医学标准词元组作为目标医学标准词元组。

在一可选实施例中，基于该数据元的取值条件中的数据元的取值确定该数据元的取值，包括：确定取值条件中的数据元的取值是否满足预设条件；若满足预设条件，则按照该数据元的取值方式确定该数据元的取值。

这里，取值条件可指允许数据元取值的条件，只有满足取值条件才能为该数据元进行取值。

当数据元为第二数据元时，表明该数据元需要借助其他数据元来确定该数据元的取值。其中，有三种情况需要借助其他数据元来确定该数据元的取值，第一种是，将其他数据元作为取值条件，如果满足取值条件才能确定该数据元的取值，例如：将数据元a和数据元b作为数据元c的取值条件，当数据元a的结果大于10且数据元b的结果小于5时，可以取该数据元c的值域作为数据元c的取值。第二种是，将其他数据元的取值作为该数据元的计算参数值使用，例如：将数据元d和数据元e的取值作为数据元f的取值的计算参数，数据元f的取值等于数据元d的取值和数据元e的取值之和。第三种是，其他数据元不但作为取值条件，还作为该数据元的计算参数使用。

如果是第一种情况，当该数据元满足取值条件时，该数据元的取值方式与第一数据元的取值方式相同。

如果是第二种情况，则需要先确定被使用的其他数据元的取值，然后将其他数据元的取值按照该数据元的计算公式进行计算，将计算结果作为该数据元的取值。

如果是第三种情况，则只需将按上述两种情况分别对其他数据元进行处理即可。

步骤S105，将标准数据集中多个数据元的数据元名称以及对应取值组合在一起，构建与目标病种类型对应的专病数据集。

该步骤中，确定了标准数据集中每个数据元的取值后，将这些数据元的数据元名称以及数据元对应的取值组合在一起，作为目标病种类型对应的专病数据集。

在本申请实施例中，由上述多个目标医学标准词元组可得到如下的专病数据集：

数据元1：年龄（岁）-56；

数据元2：是否诊断为恶性肿瘤-是；

数据元3：是否使用了化疗药物-是；

数据元4：化疗药物通用名-[卡铂注射液,注射用培美曲塞二钠]；

数据元5：开始时间-2020.04.08；

数据元6：入院末次心肌酶谱-是；

数据元7：血肌钙蛋白I(cTnI)-阴性；

数据元8：血肌钙蛋白T(cTnT)-19.66。

与现有技术中专病数据集构建方法相比，本申请能够通过自然语言处理技术对非结构化数据进行结构化、标准化处理，获取统一结构的临床数据，然后对统一结构的临床数据进行标准词映射获取医学标准词，根据标准词筛选规则以及数据元的取值方式，将目标医学标准词元组的标准词名称及属性值自动赋值给对应的数据元，以获取与目标病种类型对应的专病数据集，解决了在构建专病数据集时，构建时间长及构建效率低的问题。

基于同一发明构思，本申请实施例中还提供了与专病数据集构建方法对应的专病数据集构建装置，由于本申请实施例中的装置解决问题的原理与本申请实施例上述专病数据集构建方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

请参阅图2，图2为本申请实施例所提供的一种专病数据集构建装置的结构示意图。如图2中所示，所述专病数据集构建装置200包括：

获取模块201，用于获取目标患者的目标临床数据，目标临床数据包括结构化数据以及非结构化数据，目标患者是患有目标病种类型疾病的患者；

结构化处理模块202，用于对非结构化数据进行结构化处理，获得目标医学实体元组；

映射模块203，用于构建医学实体词与医学标准词的关联词典，利用关联词典对结构化数据以及目标医学实体元组中的医学实体词进行标准词映射处理获取多个医学标准词元组，每个医学标准词元组包括医学标准词的标准词名称以及属性值；

计算模块204，用于针对标准数据集中的每个数据元，基于多个医学标准词元组或者该数据元的取值条件确定该数据元的取值；

构建模块205，用于将标准数据集中多个数据元的数据元名称以及对应取值组合在一起，构建与目标病种类型对应的专病数据集。

请参阅图3，图3为本申请实施例所提供的一种电子设备的结构示意图。如图3中所示，所述电子设备300包括处理器310、存储器320和总线330。

所述存储器320存储有所述处理器310可执行的机器可读指令，当电子设备300运行时，所述处理器310与所述存储器320之间通过总线330通信，所述机器可读指令被所述处理器310执行时，可以执行如上述图1所示方法实施例中的专病数据集构建方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的医学命名实体识别方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种专病数据集构建方法，其特征在于，包括：

获取目标患者的目标临床数据，所述目标临床数据包括结构化数据以及非结构化数据，所述目标患者是患有目标病种类型疾病的患者；

对所述非结构化数据进行结构化处理，获得目标医学实体元组；

构建医学实体词与医学标准词的关联词典，利用所述关联词典对所述结构化数据以及目标医学实体元组进行标准词映射处理获取多个医学标准词元组，每个医学标准词元组包括医学标准词的标准词名称以及属性值；

将标准数据集中多个数据元的数据元名称以及对应取值组合在一起，构建与所述目标病种类型对应的专病数据集；

所述针对标准数据集中的每个数据元，基于多个医学标准词元组或者该数据元的取值条件确定该数据元的取值，包括：

针对标准数据集中的每个数据元，确定该数据元的数据元类型；

若该数据元为第一数据元类型，利用标准词筛选规则从多个医学标准词元组中选取目标医学标准词元组，基于目标医学标准词元组的标准词名称或者属性值确定该数据元的取值；

若该数据元为第二数据元类型，基于该数据元的取值条件中的数据元的取值确定该数据元的取值，所述取值条件是确定该数据元取值的前提条件。

2.根据权利要求1所述的方法，其特征在于，所述对所述非结构化数据进行结构化处理，获得目标医学实体元组，包括：

利用命名实体识别模型从所述非结构化数据中提取医学实体词；

利用实体关系抽取模型获取所述医学实体词对应的多个医学实体元组；

将合法的医学实体元组作为目标医学实体元组。

3.根据权利要求1所述的方法，其特征在于，所述关联词典包括医学实体词与医学标准词的对应关系；

所述利用所述关联词典对所述结构化数据以及目标医学实体元组进行标准词映射处理获取多个医学标准词元组，包括：

利用所述医学实体词与医学标准词的对应关系，将所述结构化数据以及目标医学实体元组中的医学实体词替换为医学标准词，将医学实体词的属性值作为医学标准词的属性值，构建多个医学标准词元组。

4.根据权利要求1所述的方法，其特征在于，所述基于目标医学标准词元组的标准词名称或者属性值确定该数据元的取值，包括：

确定该数据元的取值方式；

若取值方式为值域，则从该数据元的值域中选取与所述目标医学标准词元组的标准词名称或者属性值一致的取值作为该数据元的取值；

若取值方式为属性值，则从目标医学标准词元组中选取符合值域格式的属性值作为该数据元的取值。

5.根据权利要求1所述的方法，其特征在于，所述利用标准词筛选规则从多个医学标准词元组中选取目标医学标准词元组，包括：

建立医学标准词元组的标准词名称到标准词筛选规则的规则索引表；

针对每个医学标准词元组，确定所述规则索引表的索引字段中是否存在与该医学标准词元组的标准词名称匹配的取值；

若存在，则确定该医学标准词元组的属性值及基础信息是否满足标准词筛选规则；

如果满足标准词筛选规则，则将该医学标准词元组作为目标医学标准词元组。

6.根据权利要求1所述的方法，其特征在于，所述基于该数据元的取值条件中的数据元的取值确定该数据元的取值，包括：

确定取值条件中的数据元的取值是否满足预设条件；

若满足预设条件，则按照该数据元的取值方式确定该数据元的取值。

7.一种专病数据集构建装置，其特征在于，包括：

获取模块，用于获取目标患者的目标临床数据，所述目标临床数据包括结构化数据以及非结构化数据，所述目标患者是患有目标病种类型疾病的患者；

结构化处理模块，用于对所述非结构化数据进行结构化处理，获得目标医学实体元组；

映射模块，用于构建医学实体词与医学标准词的关联词典，利用所述关联词典对所述结构化数据以及目标医学实体元组进行标准词映射处理获取多个医学标准词元组，每个医学标准词元组包括标准词名称以及该标准词的属性值；

构建模块，用于将标准数据集中多个数据元的数据元名称以及对应取值组合在一起，构建与所述目标病种类型对应的专病数据集；

所述计算模块，还具体用于：

8.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至6中任一项所述的专病数据集构建方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至6中任一项所述的专病数据集构建方法的步骤。