CN114255880A

CN114255880A - 专病数据库构建方法、装置、设备及存储介质

Info

Publication number: CN114255880A
Application number: CN202111530271.4A
Authority: CN
Inventors: 刘长虹; 李玉信
Original assignee: Neusoft Corp
Current assignee: Neusoft Corp
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-03-29

Abstract

本申请提供了一种专病数据库构建方法、装置、设备及存储介质。其中专病数据库构建方法包括：根据已有专病数据集和专科临床数据，确定数据元推荐集合；根据所述数据元推荐集合，构建专病标准数据集；确定所述数据元推荐集合中数据元之间的相关关系；根据所述专病标准数据集、存在相关关系的数据元及所述数据元对应的专病数据，构建专病数据库。本申请提高了专病数据库的构建效率。

Description

专病数据库构建方法、装置、设备及存储介质

技术领域

本申请实施例涉及医疗数据技术，特别涉及一种专病数据库构建方法、装置、设备及存储介质。

背景技术

在医疗领域中，同一专病关注的临床信息域通常比较类似，且疾病分型、疾病分期以及诊疗措施比较接近，并发症也比较类似。因此，通过构建专病数据库，用于存储专科疾病数据，对规范和管理专科疾病诊疗信息，具有重大意义。构建专病数据库时，专病标准数据集作为规范和约束专病数据的准则，成为必不可少的一类数据。然而，构建专病标准数据集时，需要医疗专家进行编写和整理，整个过程需要医疗专家查阅大量医学文献、医学材料以及临床数据，使得专病标准数据集的构建需要花费大量时间，进而导致专病数据库的构建也耗时巨大。

发明内容

本申请实施例提供一种专病数据库构建方法、装置、设备及存储介质，提高了专病数据库的构建效率。

第一方面，本申请实施例提供了一种专病数据库构建方法，该方法包括：

根据已有专病数据集和专科临床数据，确定数据元推荐集合；

根据所述数据元推荐集合，构建专病标准数据集；

确定所述数据元推荐集合中数据元之间的相关关系；

根据所述专病标准数据集、存在相关关系的数据元及所述数据元对应的专病数据，构建专病数据库。

第二方面，本申请实施例提供了一种专病数据库构建装置，该装置包括：

第一确定模块，用于根据已有专病数据集和专科临床数据，确定数据元推荐集合；

第一构建模块，用于根据所述数据元推荐集合，构建专病标准数据集；

第二确定模块，用于确定所述数据元推荐集合中数据元之间的相关关系；

第二构建模块，用于根据所述专病标准数据集、存在相关关系的数据元及所述数据元对应的专病数据，构建专病数据库。

第三方面，本申请实施例提供了一种专病数据库构建设备，包括：

处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行第一方面实施例所述的专病数据库构建方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，用于存储计算机程序，所述计算机程序使得计算机执行第一方面实施例所述的专病数据库构建方法。

第五方面，本申请实施例提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现第一方面实施例所述的专病数据库构建方法。

本申请实施例公开的技术方案，具有如下有益效果：

通过根据已有专病数据集和专科临床数据确定的数据元推荐集合，构建专病标准数据集，并确定数据元推荐集合中数据元之间的相关关系，根据专病标准数据集、存在相关关系的数据元及数据元对应的专病数据，构建专病数据集。由此，通过确定数据元推荐集合，以使医学专家根据数据元推荐集合即可快速构建专病标准数据集，而无需查阅大量医学文献、医学材料以及临床数据，从而提高专病标准数据集和专病数据库的构建效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种专病数据库构建方法的流程示意图；

图2是本申请实施例提供的咳嗽事件，及与咳嗽事件对应属性关联的结构图；

图3是本申请实施例提供的另一种专病数据库构建方法的流程示意图；

图4是本申请实施例提供的又一种专病数据库构建方法的流程示意图；

图5是本申请实施例提供的一种专病数据库构建装置的示意性框图；

图6是本申请实施例提供的一种专病数据库构建设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例主要针对现有技术中，因专病标准数据集的构建需要花费大量时间，导致专病数据库的构建也耗时巨大的问题，提出了一种专病数据库构建方法、装置、设备及存储介质。

下面结合附图对本申请实施例提供的一种专病数据库构建方法、装置、设备及存储介质进行详细描述。

首先结合图1，对本申请实施例提供的一种专病数据库构建方法进行说明。图1是本申请实施例提供的一种专病数据库构建方法的流程示意图。本实施例可适用于构建专病数据库的场景，该专病数据库构建方法，可由专病数据库构建装置来执行，以实现对专病数据库构建过程进行控制。该专病数据库构建装置可由硬件和/或软件组成，并可集成于专病数据库构建设备中。

其中，该专病数据库构建方法包括以下步骤：

S101，根据已有专病数据集和专科临床数据，确定数据元推荐集合。

本实施例中，数据元是与医学实体相关，且用于描述该医学实体的信息单元。例如，医学实体为发烧，那么与发烧实体相关的，且用于描述该发烧实体的数据元可为发烧、体温和发烧持续时间等。又例如，若医学实体为肝硬化，那么与该肝硬化实体相关的，且用于描述肝硬化实体的数据元可为肝脏大小、肝脏形态和肝脏内部结构等。也即是，不同的医疗实体对应着不同的数据元。

其中，已有专病数据集是基于临床专病病例数据建立好的数据集，且该数据集可与本实施例中构建的专病标准数据集属于不同领域或者不同专科的专病数据集。例如，若已有专病数据集为呼吸内科，那么专病数据集可为心脏外科等；又例如，若已有专病数据集为临床医学，那么专病数据集可为中医学等等。

由于医学中所有领域并非都有对应的专病数据集，因此在已有专病数据集基础上，本实施例还可对没有专病数据集的医学领域进行专科临床数据的获取操作，以实现基于已有专病数据集和专科临床数据，得到医学界所有领域的专病数据信息。其中专科临床数据可为专病病例数据等。从而基于该所有领域的专病数据信息，为后续构建专病数据库奠定基础。

示例性的，可从具有专病数据集的领域侧或专科侧获取已有专病数据集，并从不具有专病数据集的领域侧或专科侧获取专科临床数据。然后，根据已有专病数据集和专科临床数据，确定数据元推荐集合。具体的，可将已有专病数据集中出现次数大于第一出现次数阈值的数据元，确定第一推荐数据元，并将专科临床数据中出现次数大于第二出现次数的数据元，确定第二推荐数据元。然后，将第一推荐数据元和第二推荐数据元组成数据元推荐集合。

S102，根据所述数据元推荐集合，构建专病标准数据集。

在确定出数据元推荐集合之后，本实施例可将数据元推荐集合发送给医疗专家，使得医疗专家基于数据元推荐集合选择合适的数据元，以构建专病标准数据集。

也就是说，在医疗专家构建专病数据集过程中，通过推荐数据元，使得医疗专家基于无需查阅大量医学文献、医学材料以及临床数据，即可构建专病数据集，从而提高构建专病标准数据集的速度，缩短构建专病标准数据集的花费时间。

S103，确定所述数据元推荐集合中数据元之间的相关关系。

由于构建的专病标准数据集中只记录了数据元的定义，而没有定义数据元之间的关系。但实际应用中，数据元之间是存在关系的，如果不确定数据元之间的相关关系，会使得专病数据缺失很多重要信息，甚至导致专病数据的不可用。

例如，专病标准数据集中用于描述症状A的数据元，包括：阴阳性、开始时间、持续时间、结束时间和发病规律等。如果不记录这些数据元之间的相关关系，那么当医务人员想要了解最近一年内，患者是否有出现症状A时，仅基于专病标准数据集是无法获取到最近一年内患者是否有出现症状A的结果，使得存储的专病数据不可用。

因此，为了使得专病数据不丢失重要信息且可用，本实施例在确定出数据元推荐集合之后，可进一步确定数据元推荐集合中数据元之间的相关关系，并存储该相关关系。

具体实现时，可通过如下几种方式，确定数据元推荐集合中数据元之间的相关关系：

方式一

通过确定数据元推荐集合中每个数据元对应的专病数据，并根据专病数据之间的关系，确定数据元之间的相关关系。

举例说明，假设数据元推荐集合中数据元：“咳嗽”、“咳嗽持续时间”和“咳嗽规律”，均来自于经过电子病例结构化处理之后的“入院记录-现病史”中的“咳嗽实体”。其中，“咳嗽实体”可包括“咳嗽阴阳性”、“咳嗽开始时间”、“咳嗽持续时间”和“咳嗽规律”等。那么，可将数据元：“咳嗽”、“咳嗽持续时间”和“咳嗽规律”和实体为“咳嗽”建立联系。又由于数据元：“咳嗽”、“咳嗽持续时间”和“咳嗽规律”都来自于实体“咳嗽”，那么确定“咳嗽”、“咳嗽持续时间”和“咳嗽规律”，这三个数据元之间存在相关关系。

方式二

通过确定数据元推荐集合中每个数据元对应的检验指标，并根据检验指标是否属于同一检验项目，确定数据元之间的相关关系。

举例说明，假设数据元推荐集合中数据元：“白细胞”对应的检验指标为“白细胞检查”、“红细胞”对应的检验指标为“红细胞计数检查”以及“血小板”对应的检验指标为“血小板检查”。因为上述三种检验指标“白细胞检查”、“红细胞计数检查”和“血小板检查”均属于同一检查项目：“血常规检查”。由此，可确定数据元：“白细胞”、“红细胞”和“血小板”，这三者之间存在相关关系。

需要说明的是，上述几种方式仅作为对本实施例的示例性说明，不作为对本实施例的具体限制。

S104，根据所述专病标准数据集、存在相关关系的数据元及所述数据元对应的专病数据，构建专病数据库。

示例性的，可根据专病标准数据集，将专病数据以事件形式，及将数据元作为专病数据的属性进行存储。其中，专病数据库可包括多个存储表，以用于存储专病数据。即，本实施例可将专病数据及数据元存储至专病数据库中的存储表中。需要说明的是，本实施例专病数据库中的每个存储表可对应一种专病，即专病数据库可将医学上各种专病病例数据，按照专病类别进行统一化的管理，为医务人员的使用提供有利条件。

具体实现过程为，可根据专病标准数据集，确定每一存储表的表头内容。然后，将与表头内容对应的数据元，和与数据元对应的专病数据作为表身，填写至对应表头下的表格内，以完成专病数据库的构建。其中，与数据元对应的专病数据是指与数据元对应的变化信息，例如，数据元为“姓名”，那么与“姓名”对应的专病数据为“张三”；又例如，数据元为“血红白蛋白浓度”，那么与“血红白蛋白浓度”对应的专病数据为“130g/L”，等等。

需要说明的是，由于一些事件，是没有事件属性的，那么本实施例可为每个事件增加一默认属性：“事件发生时间”，以使存储的专病数据更具有使用价值。其中对于一些特殊的事件，默认属性可根据事件类型确定。例如，对于症状类事件，“事件发生时间”即为症状的开始时间。对于检验事件，“事件发生事件”即为样本送检事件。

此外，本实施例还可为每个存储表设置索引项，并通过索引项存储用户标识。由此，使得后续使用专病数据库时，通过索引项能够方便查询到所需专病数据。其中，用户标识是指患者标识，该标识可以是任意能够唯一确定患者身份的信息。例如，患者标识可为患者姓名或患者就诊号。在本实施例中，患者标识优选为患者就诊号，以达到对患者真实身份进行隐藏，从而保护患者隐私信息。

例如，假设根据专病标准数据集，确定一表头为“咳嗽”，且与“咳嗽”对应的数据元包括：“咳嗽”、“咳嗽持续时间”、“咳嗽规律”和“咳嗽开始时间”。那么可将上述数据以“咳嗽”事件进行存储，该事件的名称为“咳嗽事件”，事件中包括：“咳嗽”、“咳嗽持续时间”、“咳嗽规律”、“咳嗽开始时间”，和“事件发生时间”，以及与“咳嗽”、“咳嗽持续时间”、“咳嗽规律”和“咳嗽开始时间”对应的专病数据XXXX等属性，具体存储格式可如下表1所示：

表1

基于上述示例，本实施例还以咳嗽事件为例，确定咳嗽事件，以及与该咳嗽事件属性之间关联关系，并基于关联关系得到关联结构图，具体如图2所示。

进一步的，由于一个患者可能在同一家医院进行过不同专病的治疗。为了清楚的存储每位患者每一次的就诊信息，本实施例构建专病数据库时，还可以患者标识为索引项，按照分区就诊，将专病数据以事件形式，以及将数据元作为专病数据的属性存储至专病数据库的存储表中。具体存储格式，可如下表2所示：

表2

可以理解的是，本实施例通过专病数据库中多个存储表存储与专病标准数据集对应的数据元以及与数据元对应的专病数据，可实现对医院长期治疗专病过程中积攒的专病病例数据中，用户主诉信息、现病史、既往史、体格检查以及诊断结果等信息进行统一化管理，从而方便医务人员的使用。

本实施例提供的专病数据库构建方法，通过根据已有专病数据集和专科临床数据确定的数据元推荐集合，构建专病标准数据集，并确定数据元推荐集合中数据元之间的相关关系，根据专病标准数据集、存在相关关系的数据元及数据元对应的专病数据，构建专病数据集。由此，通过确定数据元推荐集合，以使医学专家根据数据元推荐集合即可快速构建专病标准数据集，而无需查阅大量医学文献、医学材料以及临床数据，从而提高专病标准数据集和专病数据库的构建效率。

通过上述描述可知，本申请实施例基于构建的专病标准数据集、存在相关关系的数据元及数据元对应的专病数据，构建专病数据库。

本实施例在上述实施例的基础上进行进一步优化，具体的将根据已有专病数据集和专科临床数据，确定数据元推荐集合，优化为：根据已有专病数据集，确定第一类数据元推荐集合，根据专科临床数据，确定第二类数据元推荐集合，然后根据第一类数据元推荐集合和第二类数据元推荐集合，确定数据元推荐集合。下面结合图3，对本申请实施例上述优化过程进行具体说明。

如图3所示，该专病数据库构建方法包括以下步骤：

S201，根据所述已有专病数据集，确定第一类数据元推荐集合。

示例性的，通过获取已有专病数据集，并分析该已有专病数据集中每个数据元的出现情况，以得到每个数据元的出现次数。比对每个数据元的出现次数与第一阈值，以确定哪些数据元的出现次数大于该第一阈值。将出现次数大于第一阈值的所有数据元筛选出来，并将筛选出来的所有数据元确定为第一推荐数据元。然后，根据所有第一推荐数据元，确定第一类数据元推荐集合。

其中，第一阈值为次数阈值，即用于衡量数据元的出现次数是否满足预设条件。本实施例中第一阈值可根据实际应用需求进行适应性设置，此处对其不做具体限定。

具体实现时，可将获取的已有专病数据集用集合S表示，集合S可如下表示：S＝{s₁，s₂，s₃，…，s_n}。

其中，s_i表示第i个已有专病数据集，1≤i≤n，其中n为大于1的正整数。在本实施例中，s_i中的数据元可表示为：s_i＝{a_i1，a_i2，a_i3，…，a_im}。其中，a_ij表示已有专病数据集s_i中第j个数据元，1≤j≤m，且m为大于1的正整数。

本实施例中，如果获取到的已有专病数据集的数量为1个，例如为s₁，那么可统计每个数据元在该已有专病数据集s₁出现次数num_p。然后，将每个数据元的出现次数num_p与第一阈值λ1进行比较，并将出现次数num_p大于第一阈值λ1的所有数据元筛选出来。然后，将筛选出来的所有数据元组成第一类数据元推荐集合。其中，可将第一类数据元推荐集合表示为B1。

如果获取到的已有专病数据集的数量为多个，那么可将所有已有专病数据集中的数据元合并成一个集合，即对所有已有专病数据集取并集，以得到集合A。本实施例中，集合A可表示为：

然后，统计集合A中每个数据元在各个已有专病数据集出现次数和值num_p'。将每个数据元的出现次数和值num_p'与第一阈值λ1进行比较，并将出现次数和值num_p大于第一阈值λ1的所有数据元筛选出来。然后，将筛选出来的所有数据元组成第一类数据元推荐集合B1。

例如，已有专病数据集中基本上都有人口学信息，如姓名、性别和住址等。而这类数据元相对于其他数据元出现次数会比较多，因此这类数据元会最先被筛选出来，作为第一类数据元推荐集合B1的组成元素。

也就是说，本实施例基于已有专病数据集，可优先将通用数据元筛选出来，并基于通用数据元作为组成第一类数据元推荐集合B1的元素，以得到第一类数据元推荐集合B1。

S202，根据所述专科临床数据，确定第二类数据元推荐集合。

由于不同的病种对应的检查记录和检验记录存在差别的。可选的例如慢性阻塞性肺疾病(chronic obstructive pulmonary disease，简称为COPD)，又称为慢阻肺，更关注肺功能检查的结果；肝癌疾病更关注胸部CT等影像学检查的结果；新冠肺炎更关注核酸检测、相关抗体的检验结果以及肺部CT的检查结果。因此，本实施例可根据不同疾病关注的诊疗手段，从专科临床数据中筛选出更符合对应专科疾病的数据元。然后，根据筛选出来的数据元，确定第二类数据元推荐集合。

需要说明的是，本实施例中专科临床数据分为结构化数据和非结构化数据。其中，结构化数据包括：检验记录、医嘱记录、体温单等，非结构化数据包括：检查记录、入院记录、手术记录等。

示例性的，确定第二类数据元推荐集合时，可通过以下步骤实现：

S1，确定所述专科临床数据中的用户就诊集合、结构化数据集合和第一非结构化数据集合，并根据所述用户就诊集合，确定第二非结构化数据集合。

具体的，确定专科临床数据中的用户就诊集合时，可根据医院所有专病病例数据，通过使用专病诊断名称筛选出用户就诊集合。该用户就诊集合可表示为集合D。需要说明的是，用户就诊集合即为患者就诊集合。

例如，用户就诊集合为集合D，且D＝{d₁，d₂，d₃，…，d_k}。其中，d_k表示用户就诊集合中第k个元素，即第k个数据元，且k为大于1的正整数。

确定专科临床数据中的结构化数据集合时，可根据专科临床数据中第一形式结构化数据，确定第一子结构化数据集合，以及根据专科临床数据中第二形式结构化数据，确定第二子结构化数据集合。然后，基于第一子结构化数据集合和第二子结构化数据集合，确定结构化数据集合。

在实际应用中，专科临床数据中结构化数据包括两种形式：

第一种形式为：“key：value”形式。

例如，患者基本信息中的“姓名：张三”，其中“key”对应“姓名”；“value”对应“张三”。

第二种形式为：“key1：value1”+“key2：value2”的形式。

例如，检验记录中的“指标名：红细胞计数(RBC)”、“指标值：3.5*10⁹/L”，其中“key1”对应“指标名”；“value1”对应“红细胞计数(RBC)”；“key2”对应“指标值”；“value2”对应“3.5*10⁹/L”。

对于第一种形式，由于value为变化量，而key为固定量，因此本实施例可将第一形式的临床结构化数据中所有固定量key的对应数据，确定为第一子结构化数据集合的元素。即，根据所有key得到第一子结构化数据集合。

对于第二种形式，由于key1、key2和value2均为变化量，而value1为固定量，因此本实施例可将第二形式的临床结构化数据中所有固定量value1的对应数据，确定为第二子结构化数据集合的元素。即，根据所有value1得到第二子结构化数据集合。

进而，对第一子结构化数据集合和第二子结构化数据集合取并集，以得到结构化数据集合。

例如，假设本实施例中第一子结构化数据集合为集合C1，第二子结构化数据集合为集合C2，那么对集合C1和集合C2取并集，即C1UC2，以得到结构化数据集合，可表示为集合C。即，C＝C1UC2，且C＝{c₁，c₂，c₃，…，c_q}。其中，c_q表示结构化数据集合中的第q个元素，即第q个数据元，且q为大于1的正整数。

确定专科临床数据中的第一非结构化数据集合时，可根据医院所有专病病例数据，获取专科所有症状和疾病，并基于所有症状和疾病，组成第一非结构化数据集合。本实施例中，第一非结构化数据集合可表示为集合E，且集合E＝{e₁，e₂，e₃，…，e_r}。其中，e_r表示第一非结构化数据集合中第r个元素，即第r个数据元，且r为大于1的正整数。值得注意的是，本实施例中集合E中的数据元为非结构化文本数据。

确定第二非结构化数据集合时，可通过统计用户就诊集合D中元素d_k就诊中出现的非结构化病例类型，并将检查记录中的病例类型拆分成“检查方法+检查部位”的形式，以得到第二非结构化数据集合。本实施例中，第二非结构化数据集合可表示为集合F，且集合F＝{f₁,f₂,f₃,…,f_s}。其中，f_s表示第二非结构化数据中第s个元素，即第s个数据元，且s为大于1的正整数。本实施例中集合F中的数据元为非结构化文本数据对应的病历类型。

S2，根据结构化数据集合和用户就诊集合，确定结构化数据元推荐集合。

可选的，可通过确定结构化数据集合中的每个数据元，在用户就诊集合中的出现频率和值；比较每个数据元的出现频率和值与第二阈值；当任意数据元的频率和值大于第二阈值时，确定该数据元为目标结构化数据元；进而，根据所有目标结构化数据元，确定结构化数据元推荐集合。

具体实现时，可计算结构化数据集合C中数据元c_q，在用户就诊集合D中数据元d_k对应指标中的出现频率值。统计数据元c_q在用户就诊集合D中所有数据元的频率和值，并比较频率和值与第二阈值λ₂，以将频率和值大于第二阈值λ₂的所有数据元c_q筛选出来，作为推荐数据元，即目标结构化数据元。然后，由所有推荐数据元组成结构化数据元推荐集合B2。其中，第二阈值λ₂可根据实际应用需要进行适应性设置，此处对其不做具体限定。

本实施例中，可通过如下公式(1)，确定数据元c_q出现频率值：

其中，TF_kq表示数据元c_q的出现频率值，num(c_kq)表示数据元c_q在数据元d_k中出现的次数；num(C_k)表示结构化数据集合C中的数据元在数据元d_k中出现的次数和值。

进一步的，可通过如下公式(2)，统计数据元c_q的频率和值：

其中，total(TF_q)表示数据元c_q的频率和值。

S3，根据第一非结构化数据集合和用户就诊集合，确定第一非结构化数据元推荐集合。

可选的，本实施例可通过确定第一非结构化数据集合中的每个数据元，在所述用户就诊集合中的出现频率和值；比较每个数据元的出现频率和值与第三阈值；当第一非结构化数据集合中任意数据元的频率和值大于第三阈值时，确定该数据元为第一目标非结构化数据元；进而，根据所有第一目标非结构化数据元，确定第一非结构化数据元推荐集合。

具体实现时，可计算第一非结构化数据集合E中数据元e_r，在用户就诊集合D中数据元d_k对应指标中的出现频率值。然后，统计数据元e_r在用户就诊集合D中所有数据元的频率和值，并比较频率和值与第三阈值λ₃，以将频率和值大于第三阈值λ₃的所有数据元e_r筛选出来，作为推荐数据元，即第一目标非结构化数据元。然后，由所有第一目标非结构化数据元组成第一非结构化数据元推荐集合B3。其中，第三阈值λ₃可根据实际应用需要进行适应性设置，此处对其不做具体限定。

本实施例中，可通过如下公式(3)，确定数据元e_r出现频率值：

其中，TF_kr表示数据元e_r的出现频率值，num(e_kr)表示数据元e_r在数据元d_k中出现的次数；num(E_k)表示第一非结构化数据集合E的数据元在数据元d_k中出现的次数和值。

进一步的，可通过如下公式(4)，统计数据元e_r的频率和值：

其中，total(TF_r)表示数据元e_r的频率和值。

S4，根据第二非结构化数据集合和用户就诊集合，确定第二非结构化数据元推荐集合。

可选的，本实施例可首先确定第二非结构化数据集合中的每个数据元，在用户就诊集合中出现频率和值；比较每个数据元的出现频率和值与第四阈值；当第二非结构化数据集合中任意数据元的频率和值大于第四阈值时，确定数据元为推荐子数据元，并根据所有推荐子数据元，得到第一子数据推荐集合；然后，根据所述第一子数据推荐集合，确定第二子数据推荐集合，并根据第二子数据推荐集合和用户就诊集合，确定第二非结构化数据元推荐集合。

其中，根据第二子数据推荐集合和用户就诊集合，确定第二非结构化数据元推荐集合，包括：确定第二子数据推荐集合中的每个元素，在用户就诊集合中的出现频率和值；当第二子数据集合中任意元素的频率和值大于第五阈值时，确定元素对应的数据元为第二目标非结构化数据元；根据所有第二目标非结构化数据元，确定第二非结构化数据元推荐集合。

具体实现时，可计算第二非结构化数据集合F中数据元f_i，在用户就诊集合D中数据元d_k对应指标中的出现频率值。然后，统计数据元f_i在用户就诊集合D中所有数据元的频率和值，并比较频率和值与第四阈值λ₄，以将频率和值大于第四阈值λ₄的所有数据元f_i筛选出来，作为推荐数据元，即推荐子数据元。然后，将所有推荐子数据元组成第一子数据推荐集合G。本实施例中，第一子数据推荐集合G＝{g₁,g₂,g₃,…,g_t}，且集合G∈集合F。其中，第四阈值λ₄可根据实际应用需要进行适应性设置，此处对其不做具体限定。1≤i≤s，其中s为大于1的正整数。

需要说明的是，本实施例中推荐子数据元是将检查记录中的病例类型拆分成“检查方法+检查部位”的形式的数据元。

进一步的，在得到第一子数据推荐集合G之后，根据第一子数据推荐集合G中病例数据，确定原始关键词，并根据确定的所有原始关键词，组成第二子数据推荐集合H。例如，数据元“是否有高血压”对应的入院记录现病史文本“高血压5年”，那么可根据入院记录现病史，可确定原始关键词为“高血压”。

然后，计算第二子数据推荐集合H中元素h_i，在用户就诊集合D中数据元d_k对应指标中的出现频率值。然后，统计元素h_i在用户就诊集合D中所有元素的频率和值，并比较频率和值与第五阈值λ₅，以将频率和值大于第五阈值λ₅的所有元素h_i筛选出来，并将所有元素h_i对应的数据元，作为推荐数据元，即第二目标非结构化数据元。然后，由所有第二目标非结构化数据元组成第二非结构化数据元推荐集合B4。

本实施例中，第二子数据推荐集合H＝{h₁,h₂,h₃,…,h_u}，且集合H∈集合G。其中，第五阈值λ₅可根据实际应用需要进行适应性设置，此处对其不做具体限定。1≤i≤u，其中u为大于1，且小于s的正整数。

本实施例中，可通过如下公式(5)，确定数据元f_i出现频率值：

其中，TF_ki表示数据元f_i的出现频率值，num(f_ki)表示数据元f_i在数据元d_k中出现的次数；

表示第二非结构化数据集合F的数据元在数据元d_k中出现的次数和值。

进一步的，可通过如下公式(6)，统计数据元f_i的频率和值：

其中，total(TF_i)表示数据元f_i的频率和值。

在本实施例中，可通过如下公式(7)，确定元素h_i出现频率值：

其中，TF_ki'表示元素h_i的出现频率值，num(h_ki)表示元素h_i在数据元d_k中出现的次数；

表示第二子数据推荐集合H的元素在数据元d_k中出现的次数和值。

进一步的，可通过如下公式(8)，统计元素h_i的频率和值：

其中，total(TF_i’)表示元素h_i的频率和值。

S5，确定结构化数据元推荐集合、第一非结构化数据元推荐集合和第二非结构化数据元推荐集合为第二类数据元推荐集合。

可选的，在确定出结构化数据元推荐集合B2、第一非结构化数据元推荐集合B3和第二非结构化数据元推荐集合B4之后，即可由结构化数据元推荐集合B2、第一非结构化数据元推荐集合B3和第二非结构化数据元推荐集合B4组成第二类数据元推荐集合。

S203，根据所述第一类数据元推荐集合和所述第二类数据元推荐集合，确定数据元推荐集合。

示例性的，通过对第一类数据元推荐集合和第二类数据元推荐集合求并集，以将并集确定为数据元推荐集合。

例如，若第一类数据元推荐集合为B1，第二类数据元推荐集合为B2、B3和B4，则对B1、B2、B3和B4求并集，得到数据元推荐集合

S204，根据所述数据元推荐集合，构建专病标准数据集。

S205，确定所述数据元推荐集合中数据元之间的相关关系。

S206，根据所述专病标准数据集、存在相关关系的数据元及所述数据元对应的专病数据，构建专病数据库。

通过上述描述可知，本申请实施例根据构建的专病标准数据集、存在相关关系的数据元及数据元对应的专病数据，构建专病数据库。

在本申请的另一实现场景中，当构建专病数据库之后，本实施例还可使用专病数据库。下面结合图4，对本申请实施例上述使用专病数据库过程进行具体说明。图4是本申请实施例提供的又一种专病数据库构建方法的流程示意图。如图4所示，该专病数据库构建方法包括以下步骤：

S301，根据已有专病数据集和专科临床数据，确定数据元推荐集合。

S302，根据所述数据元推荐集合，构建专病标准数据集。

S303，确定所述数据元推荐集合中数据元之间的相关关系。

S304，根据所述专病标准数据集、存在相关关系的数据元及所述数据元对应的专病数据，构建专病数据库。

S305，根据所述专病数据库，确定用户的目标医学变量值。

其中，用户的目标医学变量值，即为患者的目标医学变量值。本实施例中，目标医学变量值为医务人员根据患者主诉信息确定的病情诊断需求，从专病数据库中获取与病情诊断需求相关的信息。例如，患者的主诉信息为发烧，那么医务人员根据发烧确定病情诊断需求可为：最近半年内该患者出现过几次发烧。然后，医务人员根据患者就诊号查询专病数据库，以获取该患者最近半年内出现的发烧次数信息。

可选的，确定用户的目标医学变量值时，可首先根据目标医学变量，从专病数据库中筛选出目标事件集合，并从目标事件集合确定出目标事件，然后根据目标事件，确定用户的目标医学变量值。

例如，定义目标医学变量为确定用户T最近一年内存在几次咳嗽持续时间超过1周的情况，那么根据用户T标识，可从专病数据库中筛选出用户T最近一年内咳嗽事件，并基于用户T最近一年内咳嗽事件对应的属性信息，确定用户T最近一年内咳嗽持续时间超过1周的总次数。

具体实现时，根据所述专病数据库，确定用户的目标医学变量值可包括如下步骤：

a)定义目标医学变量；

b)从专病数据库中筛选与目标医学变量相关的医学事件，根据医学事件得到事件集合；

c)对事件集合进行统计分析，得到目标事件；

由于步骤b)得到的事件集合中可能存在多个事件，则本实施例通过对事件集合进行统计分析，以得到单一目标事件。

d)根据预先定义的计算表达式或推理表达式，以单一目标事件的属性作为计算参数，以获取最终的目标医学变量值。

e)计算所有患者的目标医学变量值。

例如，定义患者最近一次的体质指数(Body Mass Index，简称为BMI)，已知专病数据库中存在多次记录患者体重和身高的事件，事件的发生时间为患者测量身高和体重时的时间。那么确定患者目标医学变量值的操作步骤如下：

S11，定义BMI医学变量。

S12，设置筛选条件，筛选存在患者身高和体重的事件，以得到同时包括身高属性和体重属性的事件集合。

因为有些事件中只记录了身高或体重，因此需要将该类事件数据剔除掉，以获取包括身高和体重的事件。

S13，设置统计分析条件，根据事件的发生时间，从S12中的事件集合中选择时间最新的一组事件作为目标事件。其中，统计分析条件为从事件集合中筛选出最新一次具有患者身高和体重的事件为目标事件。

S14，定义BMI的计算表达式，将S13中获取的目标事件中的身高和体重作为BMI计算参数，经过计算表达式进行计算得到最终的患者最近一次的BMI值。

S15，根据步骤S11至S14可计算出所有患者最近一次的BMI值，并输出所有患者最近一次的BMI值。

本实施例提供的专病数据库构建方法，通过根据已有专病数据集和专科临床数据确定的数据元推荐集合，构建专病标准数据集，并确定数据元推荐集合中数据元之间的相关关系，根据专病标准数据集、存在相关关系的数据元及数据元对应的专病数据，构建专病数据集。由此，通过确定数据元推荐集合，以使医学专家根据数据元推荐集合即可快速构建专病标准数据集，而无需查阅大量医学文献、医学材料以及临床数据，从而提高专病标准数据集和专病数据库的构建效率。此外，本实施例还能提高专病数据应用效率，保证了专病数据的可用性。

下面参照附图5，对本申请实施例提出的一种专病数据库构建装置进行描述。图5是本申请实施例提供的一种专病数据库构建装置的示意性框图。

其中，该专病数据库构建装置500包括：第一确定模块510、第一构建模块520、第二确定模块530和第二构建模块540。

其中，第一确定模块510，用于根据已有专病数据集和专科临床数据，确定数据元推荐集合；

第一构建模块520，用于根据所述数据元推荐集合，构建专病标准数据集；

第二确定模块530，用于确定所述数据元推荐集合中数据元之间的相关关系；

第二构建模块540，用于根据所述专病标准数据集、存在相关关系的数据元及所述数据元对应的专病数据，构建专病数据库。

本申请实施例的一种可选实现方式，第一确定模块510，包括：第一确定单元、第二确定单元和第三确定单元；

其中，第一确定单元，用于根据所述已有专病数据集，确定第一类数据元推荐集合；

第二确定单元，用于根据所述专科临床数据，确定第二类数据元推荐集合；

第三确定单元，用于根据所述第一类数据元推荐集合和所述第二类数据元推荐集合，确定数据元推荐集合。

本申请实施例的一种可选实现方式，第一确定单元，具体用于：

确定所述已有专病数据集中每个数据元的出现次数；

当任意数据元的出现次数大于第一阈值时，确定所述数据元为第一推荐数据元；

根据所述第一推荐数据元，确定所述第一类数据元推荐集合。

本申请实施例的一种可选实现方式，第二确定单元，具体用于：

确定所述专科临床数据中的用户就诊集合、结构化数据集合和第一非结构化数据集合，并根据所述用户就诊集合，确定第二非结构化数据集合；

根据所述结构化数据集合和所述用户就诊集合，确定结构化数据元推荐集合；

根据所述第一非结构化数据集合和所述用户就诊集合，确定第一非结构化数据元推荐集合；

根据所述第二非结构化数据集合和所述用户就诊集合，确定第二非结构化数据元推荐集合；

确定所述结构化数据元推荐集合、所述第一非结构化数据元推荐集合和所述第二非结构化数据元推荐集合为所述第二类数据元推荐集合。

本申请实施例的一种可选实现方式，第二确定单元，还用于：

根据所述专科临床数据中第一形式结构化数据，确定第一子结构化数据集合，以及根据所述专科临床数据中第二形式结构化数据，确定第二子结构化数据集合；

根据所述第一子结构化数据集合和所述第二子结构化数据集合，确定所述结构化数据集合。

确定所述结构化数据集合中的每个数据元，在所述用户就诊集合中的出现频率和值；

当所述结构化数据集合中任意数据元的频率和值大于第二阈值时，确定所述数据元为目标结构化数据元；

根据所有目标结构化数据元，确定所述结构化数据元推荐集合。

确定所述第一非结构化数据集合中的每个数据元，在所述用户就诊集合中的出现频率和值；

当所述第一非结构化数据集合中任意数据元的频率和值大于第三阈值时，确定所述数据元为第一目标非结构化数据元；

根据所有第一目标非结构化数据元，确定所述第一非结构化数据元推荐集合。

确定所述第二非结构化数据集合中的每个数据元，在所述用户就诊集合中的出现频率和值；

当所述第二非结构化数据集合中任意数据元的频率和值大于第四阈值时，确定所述数据元为推荐子数据元，并根据所有推荐子数据元，得到第一子数据推荐集合；

根据所述第一子数据推荐集合，确定第二子数据推荐集合；

根据所述第二子数据推荐集合和所述用户就诊集合，确定所述第二非结构化数据元推荐集合。

确定所述第二子数据推荐集合中的每个元素，在所述用户就诊集合中的出现频率和值；

当所述第二子数据集合中任意元素的频率和值大于第五阈值时，确定所述元素对应的数据元为第二目标非结构化数据元；

根据所有第二目标非结构化数据元，确定第二非结构化数据元推荐集合。

本申请实施例的一种可选实现方式，第二确定模块530，具体用于：

确定所述数据元推荐集合中每个数据元对应的专病数据；

根据所述专病数据之间的关系，确定数据元之间的相关关系；

和/或，

确定所述数据元推荐集合中每个数据元对应的检验指标；

根据所述检验指标是否属于同一检验项目，确定数据元之间的相关关系。

本申请实施例的一种可选实现方式，第二构建模块540，具体用于：

根据所述专病标准数据集，将所述专病数据以事件形式，以及将所述数据元作为所述专病数据的属性进行存储。

本申请实施例的一种可选实现方式，还包括：设置模块；

其中，设置模块，用于设置索引项，所述索引项用于存储用户标识。

本申请实施例的一种可选实现方式，还包括：第三确定模块；

其中，第三确定模块，用于根据所述专病数据库，确定用户的目标医学变量值。

应理解的是，专病数据库构建装置实施例与专病数据库构建方法实施例可以相互对应，类似的描述可以参照方法实施例。为避免重复，此处不再赘述。具体地，图5所示的专病数据库构建装置500可以执行图1对应的方法实施例，并且专病数据库构建装置500中的各个模块的前述和其它操作和/或功能分别为了实现图1中的各个方法中的相应流程，为了简洁，在此不再赘述。

上文中结合附图从功能模块的角度描述了本申请实施例的专病数据库构建装置500。应理解，该功能模块可以通过硬件形式实现，也可以通过软件形式的指令实现，还可以通过硬件和软件模块组合实现。具体地，本申请实施例中的专病数据库构建方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路和/或软件形式的指令完成，结合本申请实施例公开的专病数据库构建方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。可选地，软件模块可以位于随机存储器，闪存、只读存储器、可编程只读存储器、电可擦写可编程存储器、寄存器等本领域的成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法实施例中的步骤。

如图6所示，该专病数据库构建设备600可包括：

存储器610和处理器620，该存储器610用于存储计算机程序，并将该程序代码传输给该处理器620。换言之，该处理器620可以从存储器610中调用并运行计算机程序，以实现本申请实施例中的专病数据库构建方法。

例如，该处理器620可用于根据该计算机程序中的指令执行上述专病数据库构建方法实施例。

在本申请的一些实施例中，该处理器620可以包括但不限于：

通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(FieldProgrammable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等等。

在本申请的一些实施例中，该存储器610包括但不限于：

易失性存储器和/或非易失性存储器。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DR RAM)。

在本申请的一些实施例中，该计算机程序可以被分割成一个或多个模块，该一个或者多个模块被存储在该存储器610中，并由该处理器620执行，以完成本申请提供的方法。该一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述该计算机程序在该专病数据库构建设备中的执行过程。

如图6所示，该专病数据库构建设备600还可包括：

收发器630，该收发器630可连接至该处理器620或存储器610。

其中，处理器620可以控制该收发器630与其他设备进行通信，具体地，可以向其他设备发送信息或数据，或接收其他设备发送的信息或数据。收发器630可以包括发射机和接收机。收发器630还可以进一步包括天线，天线的数量可以为一个或多个。

应当理解，该专病数据库构建设备600中的各个组件通过总线系统相连，其中，总线系统除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。

本申请还提供了一种计算机存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得该计算机能够执行上述实施例的专病数据库构建方法。或者说，本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述方法实施例的方法。

当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例该的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的模块及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。例如，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。

以上该，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以该权利要求的保护范围为准。

Claims

1.一种专病数据库构建方法，其特征在于，包括：

根据所述数据元推荐集合，构建专病标准数据集；

确定所述数据元推荐集合中数据元之间的相关关系；

2.根据权利要求1所述的方法，其特征在于，根据已有专病数据集和专科临床数据，确定数据元推荐集合，包括：

根据所述已有专病数据集，确定第一类数据元推荐集合；

根据所述专科临床数据，确定第二类数据元推荐集合；

根据所述第一类数据元推荐集合和所述第二类数据元推荐集合，确定数据元推荐集合。

3.根据权利要求2所述的方法，其特征在于，根据所述已有专病数据集，确定第一类数据元推荐集合，包括：

确定所述已有专病数据集中每个数据元的出现次数；

4.根据权利要求2所述的方法，其特征在于，根据所述专科临床数据，确定第二类数据元推荐集合，包括：

5.根据权利要求4所述的方法，其特征在于，确定所述结构化数据集合，包括：

6.根据权利要求5所述的方法，其特征在于，根据所述结构化数据集合和所述用户就诊集合，确定结构化数据元推荐集合，包括：

7.根据权利要求4所述的方法，其特征在于，根据所述第一非结构化数据集合和所述用户就诊集合，确定第一非结构化数据元推荐集合，包括：

8.根据权利要求4所述的方法，其特征在于，根据所述第二非结构化数据集合和所述用户就诊集合，确定第二非结构化数据元推荐集合，包括：

根据所述第一子数据推荐集合，确定第二子数据推荐集合；

9.根据权利要求8所述的方法，其特征在于，根据所述第二子数据推荐集合和所述用户就诊集合，确定所述第二非结构化数据元推荐集合，包括：

10.根据权利要求1所述的方法，其特征在于，确定所述数据元推荐集合中数据元之间的相关关系，包括：

确定所述数据元推荐集合中每个数据元对应的专病数据；

和/或，

确定所述数据元推荐集合中每个数据元对应的检验指标；

11.根据权利要求1所述的方法，其特征在于，根据所述专病标准数据集、存在相关关系的数据元及所述数据元对应的专病数据，构建专病数据库，包括：

12.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述专病数据库，确定用户的目标医学变量值。

13.一种专病数据库构建装置，其特征在于，包括：

14.一种专病数据库构建设备，其特征在于，包括：

处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于调用并运行所述存储器中存储的计算机程序，以执行权利要求1至12中任一项所述的专病数据库构建方法。

15.一种计算机可读存储介质，其特征在于，用于存储计算机程序，所述计算机程序使得计算机执行如权利要求1至12中任一项所述的专病数据库构建方法。