CN114783557A

CN114783557A - 肿瘤患者数据的处理方法和装置、存储介质及处理器

Info

Publication number: CN114783557A
Application number: CN202210452179.9A
Authority: CN
Inventors: 周琦超; 陈雅玲
Original assignee: Manteia Data Technology Co ltd In Xiamen Area Of Fujian Pilot Free Trade Zone
Current assignee: Manteia Data Technology Co ltd In Xiamen Area Of Fujian Pilot Free Trade Zone
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-07-22

Abstract

本申请公开了一种肿瘤患者数据的处理方法和装置、存储介质及处理器，该方法包括：依据多个数据源的类型，设置数据采集机制，其中，数据采集机制为以下之一：增量数据采集机制和存量数据采集机制；依据数据采集机制，从多个数据源中采集数据信息，得到初始数据信息，其中，初始数据信息中至少包括：多个目标对象的基本信息和多个目标对象的医疗信息；对初始数据信息进行处理，得到处理后的数据信息；依据多个目标对象的ID，将处理后的数据信息中的目标对象的基本信息和目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息。通过本申请，解决了相关技术中大量数据分别存在不同系统中，导致数据处理效率比较低的问题。

Description

肿瘤患者数据的处理方法和装置、存储介质及处理器

技术领域

本申请涉及数据处理技术领域，具体而言，涉及一种肿瘤患者数据的处理方法和装置、存储介质及处理器。

背景技术

伴随着大数据和人工智能时代的来临，越来越多新技术应用于医院临床，医疗健康领域数据蕴含的价值越来越高，新技术的开展和临床应用必然也对放疗科室管理提出了更高的要求。但目前医院的数据存储于不同的系统中且是异构数据，数据无法互通互联，不便于特征提取与分析。针对科研项目，通常需要放疗科室的人员根据自己需要分析的内容，首先拟定筛选出需要的字段清单和关注的业务指标，进而人工从不同系统去做导出下载工作，有些系统不支持导出的数据甚至需要联系不同系统的相关人员协助才能够导出相关业务字段；当收集到需要的数据源后对其进行整理和匹配，最后才是利用数据进行统计分析，复杂的数据特征提取还借助第三方工具来进行对应研究等。上述的处理放疗肿瘤患者数据的过程，存在如下问题：

(1)医院的数据零散，相关的数据分别存在医院的不同系统中，甚至不同网络中，靠人工检索不仅难以锁定目标数据，且容易遗漏；

(2)手动从不同软件系统检索、导出、下载数据的操作非常繁琐；

(3)受限于不同数据系统，获取到原始数据后还需要耗费时间进行二次整理分析，效率极其低下。

针对相关技术中大量数据分别存在不同系统中，导致数据处理效率比较低的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种肿瘤患者数据的处理方法和装置、存储介质及处理器，以解决相关技术中大量数据分别存在不同系统中，导致数据处理效率比较低的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种肿瘤患者数据的处理方法。该方法包括：依据多个数据源的类型，设置数据采集机制，其中，所述数据采集机制为以下之一：增量数据采集机制和存量数据采集机制；依据所述数据采集机制，从所述多个数据源中采集数据信息，得到初始数据信息，其中，所述初始数据信息中至少包括：多个目标对象的基本信息和所述多个目标对象的医疗信息；对所述初始数据信息进行处理，得到处理后的数据信息；依据所述多个目标对象的ID，将所述处理后的数据信息中的所述目标对象的基本信息和所述目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息。

进一步地，依据所述数据采集机制，从所述多个数据源中采集数据信息，得到初始数据信息包括：在从所述多个数据源中采集数据信息的过程中，检测是否存在故障日志；若存在所述故障日志，则通过日志故障检测算法检测所述故障日志，确定故障类型；依据所述故障类型，对所述故障日志对应的故障进行处理，以从所述多个数据源中得到所述初始数据信息。

进一步地，在若存在故障日志，则通过日志故障检测算法检测所述故障日志，确定故障类型之前，所述方法还包括：设置日志关键字，得到关键字匹配算法；构建正则表达式，得到正则匹配算法；获取智能检测模型，其中，所述智能检测模型为基于故障日志样本的特征矩阵训练的模型；将所述关键字匹配算法、所述正则匹配算法和所述智能检测模型作为所述日志故障检测算法。

进一步地，获取智能检测模型包括：获取多个故障日志样本；对所述故障日志样本进行分割和特征标记，得到多个特征矩阵；依据所述多个特征矩阵，对多层前馈神经网络进行学习训练，得到所述智能检测模型。

进一步地，对所述初始数据信息进行处理，得到处理后的数据信息，包括：依据所述多个数据源的类型，设置数据筛选规则；依据所述数据筛选规则，对所述初始数据信息进行筛选，得到筛选后的数据信息；对所述筛选后的数据信息进行脱敏处理，得到所述处理后的数据信息。

进一步地，依据所述多个目标对象的ID，将所述处理后的数据信息中的所述目标对象的基本信息和所述目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息包括：依据所述多个目标对象的ID，从所述处理后的数据信息中筛选出所述目标对象的基本信息和所述目标对象的医疗信息；为所述目标对象的基本信息和所述目标对象的医疗信息添加数据标签，得到处理后的目标对象的基本信息和处理后的目标对象的医疗信息；依据所述多个目标对象的ID，将所述处理后的目标对象的基本信息和所述处理后的目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息。

进一步地，在依据所述多个目标对象的ID，将所述处理后的数据信息中的所述目标对象的基本信息和所述目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息之后，所述方法还包括：对每个目标对象的结构化病例信息进行加密处理，得到加密后的结构化病例信息；将所述加密后的结构化病例信息存储至目标数据库中。

进一步地，在将所述加密后的结构化病例信息存储至目标数据库中之后，所述方法还包括：接收查询请求，其中，所述查询请求用于查询所述结构化病例信息，所述查询请求中至少包括数据标签；依据所述数据标签，从所述目标数据库中选取多个目标结构化病例信息；若检测到对所述多个目标结构化病例信息中的目标图像信息的查看请求，则调用本地的图像插件展示所述目标图像信息。

进一步地，在将所述加密后的结构化病例信息存储至目标数据库中之后，所述方法还包括：将所述目标数据库中存储的多个结构化病例信息进行转化处理，得到多种类型的数据集；通过预设的数据分析工具对所述多种类型的数据集进行特征分析，得到分析结果。

为了实现上述目的，根据本申请的另一方面，提供了一种肿瘤患者数据的处理装置。该装置包括：第一设置单元，用于依据多个数据源的类型，设置数据采集机制，其中，所述数据采集机制为以下之一：增量数据采集机制和存量数据采集机制；采集单元，用于依据所述数据采集机制，从所述多个数据源中采集数据信息，得到初始数据信息，其中，所述初始数据信息中至少包括：多个目标对象的基本信息和所述多个目标对象的医疗信息；第一处理单元，用于对所述初始数据信息进行处理，得到处理后的数据信息；关联单元，用于依据所述多个目标对象的ID，将所述处理后的数据信息中的所述目标对象的基本信息和所述目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息。

进一步地，所述采集单元包括：检测模块，用于在从所述多个数据源中采集数据信息的过程中，检测是否存在故障日志；确定模块，用于若存在所述故障日志，则通过日志故障检测算法检测所述故障日志，确定故障类型；第一处理模块，用于依据所述故障类型，对所述故障日志对应的故障进行处理，以从所述多个数据源中得到所述初始数据信息。

进一步地，所述装置还包括：第一设置单元，用于在若存在故障日志，则通过日志故障检测算法检测所述故障日志，确定故障类型之前，设置日志关键字，得到关键字匹配算法；构建单元，用于构建正则表达式，得到正则匹配算法；获取单元，用于获取智能检测模型，其中，所述智能检测模型为基于故障日志样本的特征矩阵训练的模型；确定单元，用于将所述关键字匹配算法、所述正则匹配算法和所述智能检测模型作为所述日志故障检测算法。

进一步地，所述获取单元包括：获取模块，用于获取多个故障日志样本；标记模块，用于对所述故障日志样本进行分割和特征标记，得到多个特征矩阵；训练模块，用于依据所述多个特征矩阵，对多层前馈神经网络进行学习训练，得到所述智能检测模型。

进一步地，所述第一处理单元包括：设置模块，用于依据所述多个数据源的类型，设置数据筛选规则；筛选模块，用于依据所述数据筛选规则，对所述初始数据信息进行筛选，得到筛选后的数据信息；第二处理模块，用于对所述筛选后的数据信息进行脱敏处理，得到所述处理后的数据信息。

进一步地，所述关联单元包括：筛选模块，用于依据所述多个目标对象的ID，从所述处理后的数据信息中筛选出所述目标对象的基本信息和所述目标对象的医疗信息；添加模块，用于为所述目标对象的基本信息和所述目标对象的医疗信息添加数据标签，得到处理后的目标对象的基本信息和处理后的目标对象的医疗信息；关联模块，用于依据所述多个目标对象的ID，将所述处理后的目标对象的基本信息和所述处理后的目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息。

进一步地，所述装置还包括：加密单元，用于在依据所述多个目标对象的ID，将所述处理后的数据信息中的所述目标对象的基本信息和所述目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息之后，对每个目标对象的结构化病例信息进行加密处理，得到加密后的结构化病例信息；存储单元，用于将所述加密后的结构化病例信息存储至目标数据库中。

进一步地，所述装置还包括：接收单元，用于在将所述加密后的结构化病例信息存储至目标数据库中之后，接收查询请求，其中，所述查询请求用于查询所述结构化病例信息，所述查询请求中至少包括数据标签；选取单元，用于依据所述数据标签，从所述目标数据库中选取多个目标结构化病例信息；调用单元，用于若检测到对所述多个目标结构化病例信息中的目标图像信息的查看请求，则调用本地的图像插件展示所述目标图像信息。

进一步地，所述装置还包括：第二处理单元，用于在将所述加密后的结构化病例信息存储至目标数据库中之后，将所述目标数据库中存储的多个结构化病例信息进行转化处理，得到多种类型的数据集；分析单元，用于通过预设的数据分析工具对所述多种类型的数据集进行特征分析，得到分析结果。

为了实现上述目的，根据本申请的另一方面，还提供了一种计算机可读存储介质，所述存储介质存储程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述任意一项所述的肿瘤患者数据的处理方法。

为了实现上述目的，根据本申请的另一方面，还提供了一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行上述任意一项所述的肿瘤患者数据的处理方法。

通过本申请，采用以下步骤：依据多个数据源的类型，设置数据采集机制，其中，数据采集机制为以下之一：增量数据采集机制和存量数据采集机制；依据数据采集机制，从多个数据源中采集数据信息，得到初始数据信息，其中，初始数据信息中至少包括：多个目标对象的基本信息和多个目标对象的医疗信息；对初始数据信息进行处理，得到处理后的数据信息；依据多个目标对象的ID，将处理后的数据信息中的目标对象的基本信息和目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息，解决了相关技术中大量数据分别存在不同系统中，导致数据处理效率比较低的问题。通过设置不同的数据采集机制采集不同数据源的初始数据信息，然后对初始数据信息进行处理，得到处理后的数据信息，然后根据目标对象的ID将目标对应的所有相关信息关联起来，得到结构化病例信息，便于后续对数据进行查看，处理以及应用，进而达到了提高数据处理效率的效果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例提供的肿瘤患者数据的处理方法的流程图；

图2是根据本申请实施例提供的肿瘤患者数据的处理装置的示意图；

图3是根据本申请实施例提供的肿瘤患者数据的处理系统的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。例如，本系统和相关用户或机构间设置有接口，在获取相关信息之前，需要通过接口向前述的用户或机构发送获取请求，并在接收到前述的用户或机构反馈的同意信息后，获取相关信息。

下面结合优选的实施步骤对本发明进行说明，图1是根据本申请实施例提供的肿瘤患者数据的处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤S101，依据多个数据源的类型，设置数据采集机制，其中，数据采集机制为以下之一：增量数据采集机制和存量数据采集机制。

具体地，大量的数据信息是存在不同的系统中的，也就是存在多种数据源，例如，主要包括以下数据源：HIS系统：主要包括进行放疗的患者数据，联系方式、住址、肿瘤分期等信息；LIS系统：主要包括体格检查、癌胚抗原、糖类抗原等相关指标的数据；EMR系统：主要包括患者详细的入院记录、病程记录、出院记录、手术麻醉记录等；PACS系统：主要包括采集患者的CT/MRI诊断图像；TPS系统：主要包括患者的放疗DICOM文件，含定位CT、勾画、计划和剂量相关内容；流程管理系统/随访系统：主要包括放疗定位信息、治疗单、治疗记录、评估以及随访数据等。不同的数据源数据的结构是不一样的，所以设置不同的数据采集机制，灵活运用于不同的数据源，提高数据采集的效率，并保证数据的完整性。增量数据采集：在某一段时间内数据源中增加的数量，例如，当图像工作站接收到模拟定位机发送的定位图像时；当医生在HIS中开具定位医嘱时；当放疗计划在TPS中评估通过时等。存量数据采集：在某一时间点下采集某个条件下的数据。例如，从TPS或其它业务系统中导出放疗患者的索引编号，系统自动采集患者在医院各业务系统中的就诊记录。

步骤S102，依据数据采集机制，从多个数据源中采集数据信息，得到初始数据信息，其中，初始数据信息中至少包括：多个目标对象的基本信息和多个目标对象的医疗信息。

具体地，根据设置的数据采集机制，从多个数据源中采集数据信息，得到初始数据信息。初始数据信息包括多个患者(即上述的目标对象)的基本信息和相关的医疗信息。例如，基本信息包括患者名称、住院号、身份证号、性别、出生日期、入院时间、出院时间等。医疗信息包括：患者的初步诊断、入院诊断、出院诊断等，疾病名称、疾病编码、肿瘤分期、放疗定位信息、治疗单、治疗记录、评估以及随访数据等信息。

步骤S103，对初始数据信息进行处理，得到处理后的数据信息。

具体地，在得到初始数据信息后，需要对初始数据信息进行处理，这里的处理指的是对数据进行清洗和脱敏等，然后得到处理后的数据信息。

步骤S104，依据多个目标对象的ID，将处理后的数据信息中的目标对象的基本信息和目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息。

具体地，每一个患者都具有对应的ID，利用患者的ID将患者相关的所有数据(基本信息和医疗信息)关联起来，得到每个患者对应的结构化病例信息。

综上所述，通过上述步骤解决了数据零散的问题，实现了跨平台的数据采集，大大减少了人工整理的工作量，通过设置不同的数据采集机制采集不同数据源的初始数据信息，然后对初始数据信息进行处理，得到处理后的数据信息，然后根据目标对象的ID将目标对应的所有相关信息关联起来，得到结构化病例信息，便于后续对数据进行查看，处理以及应用，提高了数据处理效率。

可选地，在本申请实施例提供的肿瘤患者数据的处理方法中，依据数据采集机制，从多个数据源中采集数据信息，得到初始数据信息包括：在从多个数据源中采集数据信息的过程中，检测是否存在故障日志；若存在故障日志，则通过日志故障检测算法检测故障日志，确定故障类型；依据故障类型，对故障日志对应的故障进行处理，以从多个数据源中得到初始数据信息。

具体地，随着业务的增加，数据采集的过程中可能出现各种故障问题，影响着数据采集的稳定运行，传统的监控方式只能通过标准接口去监控设备的运行状态，能够获取到设备的信息有限，对于内部的故障不能够监控，因此数据采集环节如何对故障日志进行处理是关键的环节。在本申请提供的肿瘤患者数据的处理方法中，在采集数据的过程中，会检测是否存在故障日志，当存在故障日志时，通过日志故障检测算法对故障日志类型进行检测和匹配，确定故障日志对应的故障类型，通过故障类型对故障进行处理，使得能够从数据源中成功采集得到初始数据信息。通过上述步骤，采用日志故障检测算法，提高了数据采集过程的准确性，确保数据采集过程的顺利开展。

可选地，在本申请实施例提供的肿瘤患者数据的处理方法中，在若存在故障日志，则通过日志故障检测算法检测故障日志，确定故障类型之前，该方法还包括：设置日志关键字，得到关键字匹配算法；构建正则表达式，得到正则匹配算法；获取智能检测模型，其中，智能检测模型为基于故障日志样本的特征矩阵训练的模型；将关键字匹配算法、正则匹配算法和智能检测模型作为日志故障检测算法。

具体地，日志故障检测算法包括关键字匹配算法、正则匹配算法和智能检测模型。关键字匹配算法通俗的说就是基于关键字匹配对日志进行监控：根据系统和采集数据情况，采用最基础的方法——基于关键字匹配对日志进行监控，例如Error等字段。正则匹配算法：根据系统和采集数据情况，基于配置解析规则，引入正则表达式的方法实现对日志的字段的监控。但是部分日志还是无法通过上述两种基础方法监测到，因此，这些日志通过智能检测模型来实现监控。智能检测模型是通过故障日志的特征矩阵训练过的模型。通过上述三类方法的使用，可以对不同数据源中可能存在的相似数据之间的冲突进行处理，根据日志故障检测算法，让整个数据采集过程更加智能和主动，保证采集到的数据的完整性。

可选地，在本申请实施例提供的肿瘤患者数据的处理方法中，获取智能检测模型包括：获取多个故障日志样本；对故障日志样本进行分割和特征标记，得到多个特征矩阵；依据多个特征矩阵，对多层前馈神经网络进行学习训练，得到智能检测模型。

具体地，智能检测模型构建包括对采集到的故障日志样本进行分割，把一条完整的故障日志样本分割成若干词语构成的序列；通过自然语言处理技术，分析大量日志序列中的共性和常见模式以对序列中的特征进行标记，得到故障日志样本对应的特征矩阵。根据得到的特征矩阵作为训练样本；将所述训练样本输入BP神经网络进行训练，得到智能检测模型。BP神经网络是一种按误差反向传播训练的多层前馈神经网络，其算法称为BP算法。通过智能检测模型能够准确检测故障日志的故障类型，进而提高了数据采集效率。

可选地，在本申请实施例提供的肿瘤患者数据的处理方法中，对初始数据信息进行处理，得到处理后的数据信息，包括：依据多个数据源的类型，设置数据筛选规则；依据数据筛选规则，对初始数据信息进行筛选，得到筛选后的数据信息；对筛选后的数据信息进行脱敏处理，得到处理后的数据信息。

具体地，从不同的数据源采集到初始数据信息后，需要根据多个数据源的类型设置不同的数据筛选规则，对初始数据信息进行筛选，得到筛选后的数据信息。例如：(1)HIS数据，筛选有进行放疗的患者，得到肿瘤分期信息；(2)PACS数据，将CT/MRI图像与His系统的诊断报告建立关联，得到检查项目信息；(3)DICOM数据，筛选有住院号的患者数据，筛选审核通过的文件，得到放疗计划信息等。在筛选数据之后，需要对其中的敏感信息进行脱敏处理，包括病患姓名、住院号、身份证号、性别、联系方式、住址等。这样的处理过程，保证了患者相关数据的安全性和隐私性。

可选地，在本申请实施例提供的肿瘤患者数据的处理方法中，依据多个目标对象的ID，将处理后的数据信息中的目标对象的基本信息和目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息包括：依据多个目标对象的ID，从处理后的数据信息中筛选出目标对象的基本信息和目标对象的医疗信息；为目标对象的基本信息和目标对象的医疗信息添加数据标签，得到处理后的目标对象的基本信息和处理后的目标对象的医疗信息；依据多个目标对象的ID，将处理后的目标对象的基本信息和处理后的目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息。

具体地，将患者放疗的关键数据信息建立关联整合为标准化结构化的病案信息包括：由于每一个患者(即上述的目标对象)都具有唯一的ID，所以通过这唯一的ID将该患者对应的数据挑选处理，并为其添加数据标签。数据标签可以根据实际需求进行设置，例如，可以包括基本信息、诊断信息、诊断信息、诊断图像和诊断报告、Dicom目录、体格检查表、肿瘤标记物检查表、病程记录和流程信息和随访信息等数据标签：

①基本信息，患者名称、住院号、身份证号、性别、出生日期、入院时间、出院时间等；

②诊断信息，患者的初步诊断、入院诊断、出院诊断等，疾病名称、疾病编码、肿瘤分期等；

③诊断信息，放疗计划的分次、剂量、处方等；

④诊断图像和诊断报告，CT/MRI的诊断报告及对应的诊断图像；

⑤Dicom目录，图像序列、RTSS、Plan、Dose等；

⑥体格检查表，体格检查相关指标得分；

⑦肿瘤标记物检查表，癌胚抗原、糖类抗原等相关指标得分；

⑧病程记录，详细的入院记录、病程记录(查房记录/会诊记录)、出院记录等，；

⑨流程信息和随访信息，放疗定位信息、治疗单、治疗记录、评估以及随访数据等。

添加完数据标签后，将患者的相关信息进行关联，得到患者对应的结构化病例信息。将大量患者的数据信息转换为结构化病例信息，解决了现有技术中得到的数据通常无法再次利用，且存在数据的安全隐患的问题。

可选地，在本申请实施例提供的肿瘤患者数据的处理方法中，在依据多个目标对象的ID，将处理后的数据信息中的目标对象的基本信息和目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息之后，该方法还包括：对每个目标对象的结构化病例信息进行加密处理，得到加密后的结构化病例信息；将加密后的结构化病例信息存储至目标数据库中。

具体地，在得到结构化病例信息后，需要对结构化病例信息进行加密处理后，存储至目标数据库中，以保证数据的安全性。需要说明的是，在跨平台数据的自动化采集的基础上，可以采用手动录入病例信息。并且对于特殊的病案数据，可以自定义管理所需的不同数据标签，灵活便捷，满足不同场景下的特殊数据录入。

可选地，在本申请实施例提供的肿瘤患者数据的处理方法中，在将加密后的结构化病例信息存储至目标数据库中之后，该方法还包括：接收查询请求，其中，查询请求用于查询结构化病例信息，查询请求中至少包括数据标签；依据数据标签，从目标数据库中选取多个目标结构化病例信息；若检测到对多个目标结构化病例信息中的目标图像信息的查看请求，则调用本地的图像插件展示目标图像信息。

具体地，当进行数据查询时，基于数据标签库建立丰富的搜索项，可通过数据标签快速精准定位到目标病例数据集。对于图像信息查看包括CT/MRI诊断图像查看和Dicom文件查看(图像三维重建、图像实时渲染、图像常规操作/放大/缩小/旋转、窗宽/窗位调整、颜色填充、剂量及计划查看等)。检测到数据查看请求时，可以直接调用本地的图像插件进行图像信息查看。通过上述步骤，便于用户快速查询结构化病例信息以及查询分析患者的影响信息。

可选地，在本申请实施例提供的肿瘤患者数据的处理方法中，在将加密后的结构化病例信息存储至目标数据库中之后，该方法还包括：将目标数据库中存储的多个结构化病例信息进行转化处理，得到多种类型的数据集；通过预设的数据分析工具对多种类型的数据集进行特征分析，得到分析结果。

具体地，可以根据不同临床或科研需求，将患者的结构化病例信息固化生成可反复使用的多类型的数据集，例如，自动勾画模型数据集、剂量预测模型数据集、TCP/NTCP模型数据集等。可以通过预设的数据分析工具(例如，影像组学分析工具)对得到的数据集进行特征分析以及特征提取。例如，针对DICOM图像提供影像组学分析工具，对选定ROI进行图像特征分析，得到分析结果用于后续的科学研究。

本申请实施例提供的肿瘤患者数据的处理方法，通过依据多个数据源的类型，设置数据采集机制，其中，数据采集机制为以下之一：增量数据采集机制和存量数据采集机制；依据数据采集机制，从多个数据源中采集数据信息，得到初始数据信息，其中，初始数据信息中至少包括：多个目标对象的基本信息和多个目标对象的医疗信息；对初始数据信息进行处理，得到处理后的数据信息；依据多个目标对象的ID，将处理后的数据信息中的目标对象的基本信息和目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息，解决了相关技术中大量数据分别存在不同系统中，导致数据处理效率比较低的问题。通过设置不同的数据采集机制采集不同数据源的初始数据信息，然后对初始数据信息进行处理，得到处理后的数据信息，然后根据目标对象的ID将目标对应的所有相关信息关联起来，得到结构化病例信息，便于后续对数据进行查看，处理以及应用，进而达到了提高数据处理效率的效果。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种肿瘤患者数据的处理装置，需要说明的是，本申请实施例的肿瘤患者数据的处理装置可以用于执行本申请实施例所提供的用于肿瘤患者数据的处理方法。以下对本申请实施例提供的肿瘤患者数据的处理装置进行介绍。

图2是根据本申请实施例的肿瘤患者数据的处理装置的示意图。如图2所示，该装置包括：第一设置单元201，采集单元202，第一处理单元203和关联单元204。

第一设置单元201，用于依据多个数据源的类型，设置数据采集机制，其中，数据采集机制为以下之一：增量数据采集机制和存量数据采集机制。

采集单元202，用于依据数据采集机制，从多个数据源中采集数据信息，得到初始数据信息，其中，初始数据信息中至少包括：多个目标对象的基本信息和多个目标对象的医疗信息。

第一处理单元203，用于对初始数据信息进行处理，得到处理后的数据信息。

关联单元204，用于依据多个目标对象的ID，将处理后的数据信息中的目标对象的基本信息和目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息。

本申请实施例提供的肿瘤患者数据的处理装置，通过第一设置单元201依据多个数据源的类型，设置数据采集机制，其中，数据采集机制为以下之一：增量数据采集机制和存量数据采集机制；采集单元202依据数据采集机制，从多个数据源中采集数据信息，得到初始数据信息，其中，初始数据信息中至少包括：多个目标对象的基本信息和多个目标对象的医疗信息；第一处理单元203对初始数据信息进行处理，得到处理后的数据信息；关联单元204依据多个目标对象的ID，将处理后的数据信息中的目标对象的基本信息和目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息，解决了相关技术中大量数据分别存在不同系统中，导致数据处理效率比较低的问题。通过设置不同的数据采集机制采集不同数据源的初始数据信息，然后对初始数据信息进行处理，得到处理后的数据信息，然后根据目标对象的ID将目标对应的所有相关信息关联起来，得到结构化病例信息，便于后续对数据进行查看，处理以及应用，进而达到了提高数据处理效率的效果。

可选地，在本申请实施例提供的肿瘤患者数据的处理装置中，采集单元202包括：检测模块，用于在从多个数据源中采集数据信息的过程中，检测是否存在故障日志；确定模块，用于若存在故障日志，则通过日志故障检测算法检测故障日志，确定故障类型；第一处理模块，用于依据故障类型，对故障日志对应的故障进行处理，以从多个数据源中得到初始数据信息。

可选地，在本申请实施例提供的肿瘤患者数据的处理装置中，该装置还包括：第一设置单元，用于在若存在故障日志，则通过日志故障检测算法检测故障日志，确定故障类型之前，设置日志关键字，得到关键字匹配算法；构建单元，用于构建正则表达式，得到正则匹配算法；获取单元，用于获取智能检测模型，其中，智能检测模型为基于故障日志样本的特征矩阵训练的模型；确定单元，用于将关键字匹配算法、正则匹配算法和智能检测模型作为日志故障检测算法。

可选地，在本申请实施例提供的肿瘤患者数据的处理装置中，获取单元包括：获取模块，用于获取多个故障日志样本；标记模块，用于对故障日志样本进行分割和特征标记，得到多个特征矩阵；训练模块，用于依据多个特征矩阵，对多层前馈神经网络进行学习训练，得到智能检测模型。

可选地，在本申请实施例提供的肿瘤患者数据的处理装置中，第一处理单元203包括：设置模块，用于依据多个数据源的类型，设置数据筛选规则；筛选模块，用于依据数据筛选规则，对初始数据信息进行筛选，得到筛选后的数据信息；第二处理模块，用于对筛选后的数据信息进行脱敏处理，得到处理后的数据信息。

可选地，在本申请实施例提供的肿瘤患者数据的处理装置中，关联单元包括：筛选模块，用于依据多个目标对象的ID，从处理后的数据信息中筛选出目标对象的基本信息和目标对象的医疗信息；添加模块，用于为目标对象的基本信息和目标对象的医疗信息添加数据标签，得到处理后的目标对象的基本信息和处理后的目标对象的医疗信息；关联模块，用于依据多个目标对象的ID，将处理后的目标对象的基本信息和处理后的目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息。

可选地，在本申请实施例提供的肿瘤患者数据的处理装置中，该装置还包括：加密单元，用于在依据多个目标对象的ID，将处理后的数据信息中的目标对象的基本信息和目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息之后，对每个目标对象的结构化病例信息进行加密处理，得到加密后的结构化病例信息；存储单元，用于将加密后的结构化病例信息存储至目标数据库中。

可选地，在本申请实施例提供的肿瘤患者数据的处理装置中，该装置还包括：接收单元，用于在将加密后的结构化病例信息存储至目标数据库中之后，接收查询请求，其中，查询请求用于查询结构化病例信息，查询请求中至少包括数据标签；选取单元，用于依据数据标签，从目标数据库中选取多个目标结构化病例信息；调用单元，用于若检测到对多个目标结构化病例信息中的目标图像信息的查看请求，则调用本地的图像插件展示目标图像信息。

可选地，在本申请实施例提供的肿瘤患者数据的处理装置中，该装置还包括：第二处理单元，用于在将加密后的结构化病例信息存储至目标数据库中之后，将目标数据库中存储的多个结构化病例信息进行转化处理，得到多种类型的数据集；分析单元，用于通过预设的数据分析工具对多种类型的数据集进行特征分析，得到分析结果。

需要说明的是，该实施例中的第一设置单元201可以用于执行本申请实施例中的步骤S101，该实施例中的采集单元202可以用于执行本申请实施例中的步骤S102，该实施例中的第一处理单元203可以用于执行本申请实施例中的步骤S103，该实施例中的关联单元204可以用于执行本申请实施例中的步骤S104。上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。

肿瘤患者数据的处理装置包括处理器和存储器，上述第一设置单元201，采集单元202，第一处理单元203和关联单元204等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

如图3所示，为根据本申请实施例提供的肿瘤患者数据的处理系统，该系统包括数据采集模块，数据处理模块和数据应用模块。数据处理模块包括故障日志处理、数据清洗、数据脱敏、数据加密和数据标签。数据应用模块包括：完整病例库和科研工具。数据采集模块用于采集初始数据信息；数据源处理模块将采集到的初始数据信息进行数据清洗、数据脱敏、数据加密以及添加数据标签得到结构化病例信息。将结构化病例信息存储在数据应用模块的完整病例库中，以及通过数据应用模块的科研工具对结构化病例信息进行分析与科研应用。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来实现对肿瘤患者数据的处理。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现肿瘤患者数据的处理方法。

本发明实施例提供了一种处理器，处理器用于运行程序，其中，程序运行时执行肿瘤患者数据的处理方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：依据多个数据源的类型，设置数据采集机制，其中，数据采集机制为以下之一：增量数据采集机制和存量数据采集机制；依据数据采集机制，从多个数据源中采集数据信息，得到初始数据信息，其中，初始数据信息中至少包括：多个目标对象的基本信息和多个目标对象的医疗信息；对初始数据信息进行处理，得到处理后的数据信息；依据多个目标对象的ID，将处理后的数据信息中的目标对象的基本信息和目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息。

可选地，依据数据采集机制，从多个数据源中采集数据信息，得到初始数据信息包括：在从多个数据源中采集数据信息的过程中，检测是否存在故障日志；若存在故障日志，则通过日志故障检测算法检测故障日志，确定故障类型；依据故障类型，对故障日志对应的故障进行处理，以从多个数据源中得到初始数据信息。

可选地，在若存在故障日志，则通过日志故障检测算法检测故障日志，确定故障类型之前，方法还包括：设置日志关键字，得到关键字匹配算法；构建正则表达式，得到正则匹配算法；获取智能检测模型，其中，智能检测模型为基于故障日志样本的特征矩阵训练的模型；将关键字匹配算法、正则匹配算法和智能检测模型作为日志故障检测算法。

可选地，获取智能检测模型包括：获取多个故障日志样本；对故障日志样本进行分割和特征标记，得到多个特征矩阵；依据多个特征矩阵，对多层前馈神经网络进行学习训练，得到智能检测模型。

可选地，对初始数据信息进行处理，得到处理后的数据信息，包括：依据多个数据源的类型，设置数据筛选规则；依据数据筛选规则，对初始数据信息进行筛选，得到筛选后的数据信息；对筛选后的数据信息进行脱敏处理，得到处理后的数据信息。

可选地，依据多个目标对象的ID，将处理后的数据信息中的目标对象的基本信息和目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息包括：依据多个目标对象的ID，从处理后的数据信息中筛选出目标对象的基本信息和目标对象的医疗信息；为目标对象的基本信息和目标对象的医疗信息添加数据标签，得到处理后的目标对象的基本信息和处理后的目标对象的医疗信息；依据多个目标对象的ID，将处理后的目标对象的基本信息和处理后的目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息。

可选地，在依据多个目标对象的ID，将处理后的数据信息中的目标对象的基本信息和目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息之后，该方法还包括：对每个目标对象的结构化病例信息进行加密处理，得到加密后的结构化病例信息；将加密后的结构化病例信息存储至目标数据库中。

可选地，在将加密后的结构化病例信息存储至目标数据库中之后，该方法还包括：接收查询请求，其中，查询请求用于查询结构化病例信息，查询请求中至少包括数据标签；依据数据标签，从目标数据库中选取多个目标结构化病例信息；若检测到对多个目标结构化病例信息中的目标图像信息的查看请求，则调用本地的图像插件展示目标图像信息。

可选地，在将加密后的结构化病例信息存储至目标数据库中之后，该方法还包括：将目标数据库中存储的多个结构化病例信息进行转化处理，得到多种类型的数据集；通过预设的数据分析工具对多种类型的数据集进行特征分析，得到分析结果。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：依据多个数据源的类型，设置数据采集机制，其中，数据采集机制为以下之一：增量数据采集机制和存量数据采集机制；依据数据采集机制，从多个数据源中采集数据信息，得到初始数据信息，其中，初始数据信息中至少包括：多个目标对象的基本信息和多个目标对象的医疗信息；对初始数据信息进行处理，得到处理后的数据信息；依据多个目标对象的ID，将处理后的数据信息中的目标对象的基本信息和目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息。

可选地，在若存在故障日志，则通过日志故障检测算法检测故障日志，确定故障类型之前，该方法还包括：设置日志关键字，得到关键字匹配算法；构建正则表达式，得到正则匹配算法；获取智能检测模型，其中，智能检测模型为基于故障日志样本的特征矩阵训练的模型；将关键字匹配算法、正则匹配算法和智能检测模型作为日志故障检测算法。

可选地，在将加密后的结构化病例信息存储至目标数据库中之后，方法还包括：接收查询请求，其中，查询请求用于查询结构化病例信息，查询请求中至少包括数据标签；依据数据标签，从目标数据库中选取多个目标结构化病例信息；若检测到对多个目标结构化病例信息中的目标图像信息的查看请求，则调用本地的图像插件展示目标图像信息。

可选地，在将加密后的结构化病例信息存储至目标数据库中之后，该方法还包括：将目标数据库中存储的多个结构化病例信息进行转化处理，得到多种类型的数据集；通过预设的数据分析工具对多种类型的数据集进行特征分析，得到分析结果。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种肿瘤患者数据的处理方法，其特征在于，包括：

依据多个数据源的类型，设置数据采集机制，其中，所述数据采集机制为以下之一：增量数据采集机制和存量数据采集机制；

依据所述数据采集机制，从所述多个数据源中采集数据信息，得到初始数据信息，其中，所述初始数据信息中至少包括：多个目标对象的基本信息和所述多个目标对象的医疗信息；

对所述初始数据信息进行处理，得到处理后的数据信息；

依据所述多个目标对象的ID，将所述处理后的数据信息中的所述目标对象的基本信息和所述目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息。

2.根据权利要求1所述的方法，其特征在于，依据所述数据采集机制，从所述多个数据源中采集数据信息，得到初始数据信息包括：

在从所述多个数据源中采集数据信息的过程中，检测是否存在故障日志；

若存在所述故障日志，则通过日志故障检测算法检测所述故障日志，确定故障类型；

依据所述故障类型，对所述故障日志对应的故障进行处理，以从所述多个数据源中得到所述初始数据信息。

3.根据权利要求2所述的方法，其特征在于，在若存在故障日志，则通过日志故障检测算法检测所述故障日志，确定故障类型之前，所述方法还包括：

设置日志关键字，得到关键字匹配算法；

构建正则表达式，得到正则匹配算法；

获取智能检测模型，其中，所述智能检测模型为基于故障日志样本的特征矩阵训练的模型；

将所述关键字匹配算法、所述正则匹配算法和所述智能检测模型作为所述日志故障检测算法。

4.根据权利要求3所述的方法，其特征在于，获取智能检测模型包括：

获取多个故障日志样本；

对所述故障日志样本进行分割和特征标记，得到多个特征矩阵；

依据所述多个特征矩阵，对多层前馈神经网络进行学习训练，得到所述智能检测模型。

5.根据权利要求1所述的方法，其特征在于，对所述初始数据信息进行处理，得到处理后的数据信息，包括：

依据所述多个数据源的类型，设置数据筛选规则；

依据所述数据筛选规则，对所述初始数据信息进行筛选，得到筛选后的数据信息；

对所述筛选后的数据信息进行脱敏处理，得到所述处理后的数据信息。

6.根据权利要求1所述的方法，其特征在于，依据所述多个目标对象的ID，将所述处理后的数据信息中的所述目标对象的基本信息和所述目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息包括：

依据所述多个目标对象的ID，从所述处理后的数据信息中筛选出所述目标对象的基本信息和所述目标对象的医疗信息；

为所述目标对象的基本信息和所述目标对象的医疗信息添加数据标签，得到处理后的目标对象的基本信息和处理后的目标对象的医疗信息；

依据所述多个目标对象的ID，将所述处理后的目标对象的基本信息和所述处理后的目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息。

7.根据权利要求1所述的方法，其特征在于，在依据所述多个目标对象的ID，将所述处理后的数据信息中的所述目标对象的基本信息和所述目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息之后，所述方法还包括：

对每个目标对象的结构化病例信息进行加密处理，得到加密后的结构化病例信息；

将所述加密后的结构化病例信息存储至目标数据库中。

8.根据权利要求7所述的方法，其特征在于，在将所述加密后的结构化病例信息存储至目标数据库中之后，所述方法还包括：

接收查询请求，其中，所述查询请求用于查询所述结构化病例信息，所述查询请求中至少包括数据标签；

依据所述数据标签，从所述目标数据库中选取多个目标结构化病例信息；

若检测到对所述多个目标结构化病例信息中的目标图像信息的查看请求，则调用本地的图像插件展示所述目标图像信息。

9.根据权利要求7所述的方法，其特征在于，在将所述加密后的结构化病例信息存储至目标数据库中之后，所述方法还包括：

将所述目标数据库中存储的多个结构化病例信息进行转化处理，得到多种类型的数据集；

通过预设的数据分析工具对所述多种类型的数据集进行特征分析，得到分析结果。

10.一种肿瘤患者数据的处理装置，其特征在于，包括：

第一设置单元，用于依据多个数据源的类型，设置数据采集机制，其中，所述数据采集机制为以下之一：增量数据采集机制和存量数据采集机制；

采集单元，用于依据所述数据采集机制，从所述多个数据源中采集数据信息，得到初始数据信息，其中，所述初始数据信息中至少包括：多个目标对象的基本信息和所述多个目标对象的医疗信息；

第一处理单元，用于对所述初始数据信息进行处理，得到处理后的数据信息；

关联单元，用于依据所述多个目标对象的ID，将所述处理后的数据信息中的所述目标对象的基本信息和所述目标对象的医疗信息进行关联，得到每个目标对象的结构化病例信息。

11.一种计算机可读存储介质，其特征在于，所述存储介质存储程序，其中，所述程序执行权利要求1至9中任意一项所述的肿瘤患者数据的处理方法。

12.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至9中任意一项所述的肿瘤患者数据的处理方法。