CN111199805B - 一种基于医疗数据的类型层级提取方法及装置 - Google Patents

一种基于医疗数据的类型层级提取方法及装置 Download PDF

Info

Publication number
CN111199805B
CN111199805B CN201911354351.1A CN201911354351A CN111199805B CN 111199805 B CN111199805 B CN 111199805B CN 201911354351 A CN201911354351 A CN 201911354351A CN 111199805 B CN111199805 B CN 111199805B
Authority
CN
China
Prior art keywords
data
medical data
target medical
type
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911354351.1A
Other languages
English (en)
Other versions
CN111199805A (zh
Inventor
吉建岭
张华明
冯海兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yiyiyun Technology Co ltd
Original Assignee
Beijing Yiyiyun Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yiyiyun Technology Co ltd filed Critical Beijing Yiyiyun Technology Co ltd
Priority to CN201911354351.1A priority Critical patent/CN111199805B/zh
Publication of CN111199805A publication Critical patent/CN111199805A/zh
Application granted granted Critical
Publication of CN111199805B publication Critical patent/CN111199805B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于医疗数据的类型层级提取方法,所述方法包括:确定待处理医疗数据;对所述待处理医疗数据进行数据提取处理,得到包括所述目标医疗数据的二维表数据;对所述二维表数据进行数据分析处理,得到所述目标医疗数据对应的数据模型。由于该数据模型反映了该目标医疗数据对应的类型层级,故数据使用方便可以直接利用该数据模型中的各个类型层级的目标医疗数据进行使用,而不需要和传统方式一样,还需要通过人工的方式对放疗设备中的放疗数据进行处理以及分析。本发明不需要通过人工的方式对放疗设备中的放疗数据进行处理以及分析,可以避免由于人工对放疗设备中的放疗数据进行处理以及分析所导致的错误,从而提高放疗设备中的放疗数据的类型层级确定的准确性,进而提高处理放疗设备中的放疗数据的效率。

Description

一种基于医疗数据的类型层级提取方法及装置
技术领域
本发明涉及计算机领域,尤其涉及一种基于医疗数据的类型层级提取方法及装置。
背景技术
目前放疗设备应用于全国大中型医院,占据中国放疗设备市场的70%,为百万患者提供诊疗服务,提高肿瘤患者的生存率和生活质量。其中,放疗设备每天都会产生成千上万甚至千万条治疗数据,这些数据随着日积月累,就会产生庞大的放疗数据。而患者的放疗数据对于患者肿瘤疾病的分析,具有非常重要的价值,可以投入到实际的临床应用中,服务于医生或者各种医疗机构。
现有技术,对于放疗设备中的放疗数据的分析处理,主要通过人工的方式对放疗设备中的放疗数据进行处理以及分析。然而,由于人工对放疗设备中的放疗数据进行处理以及分析的过程重复繁琐,且容易出错,准确度不高,因此,人工对放疗设备中的放疗数据进行处理以及分析的方式导致放疗数据的处理效率低下。故,亟需一种能够提高处理放疗数据的效率的方法。
发明内容
本发明提供一种基于医疗数据的类型层级提取方法及装置,以提高放疗设备中的放疗数据的类型层级确定的准确性,进而提高处理放疗设备中的放疗数据的效率。
第一方面,本发明提供了一种基于医疗数据的类型层级提取方法,包括:
确定待处理医疗数据,其中,所述待处理医疗数据包括目标医疗数据,且所述待处理医疗数据的数据格式为文本文件;
对所述待处理医疗数据进行数据提取处理,得到包括所述目标医疗数据的二维表数据;
对所述二维表数据进行数据分析处理,得到所述目标医疗数据对应的数据模型,其中,所述数据模型反映了所述目标医疗数据对应的类型层级。
第二方面,本发明提供了一种目标医疗数据装置,包括:
确定模块,用于确定待处理医疗数据,其中,所述待处理医疗数据包括目标医疗数据,且所述待处理医疗数据的数据格式为文本文件;
提取模块,用于对所述待处理医疗数据进行数据提取处理,得到包括所述目标医疗数据的二维表数据;
分析模块,用于对所述二维表数据进行数据分析处理,得到所述目标医疗数据对应的数据模型,其中,所述数据模型反映了所述目标医疗数据对应的类型层级。
第三方面,本发明提供了一种可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如第一方面中任一所述的方法。
第四方面,本发明提供了一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如第一方面中任一所述的方法。
由上述技术方案可以看出,本发明可以对数据格式为文本文件的待处理医疗数据进行数据提取处理,得到包括目标医疗数据的二维表数据,接着,对该二维表数据进行数据分析处理,得到该目标医疗数据对应的数据模型。由于该数据模型反映了该目标医疗数据对应的类型层级,故数据使用方(例如医院或医疗机构)便可以直接利用该数据模型中的各个类型层级的目标医疗数据进行使用,而不需要和传统方式一样,还需要通过人工的方式对放疗设备中的放疗数据进行处理以及分析。因此,与现有技术相比,本发明不需要通过人工的方式对放疗设备中的放疗数据进行处理以及分析,可以避免由于人工对放疗设备中的放疗数据进行处理以及分析所导致的错误,从而提高放疗设备中放疗数据的类型层级确定的准确性,进而提高处理放疗设备中的放疗数据的效率。
上述的非惯用的优选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
为了更清楚地说明本发明实施例或现有的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种示例性应用场景的框架示意图;
图2为本发明一实施例提供的一种基于医疗数据的类型层级提取方法的流程示意图;
图3为本发明一实施例提供的一种目标医疗数据装置的结构示意图;
图4为本发明一实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合具体实施例及相应的附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在现有技术中,由于人工对放疗设备中的放疗数据进行处理以及分析的过程重复繁琐,且容易出错,准确度不高,因此,人工对放疗设备中的放疗数据进行处理以及分析的方式导致放疗数据的处理效率低下。
为了解决上述问题。本发明提供了一种基于医疗数据的类型层级提取方法,在本方法中,可以对数据格式为文本文件的待处理医疗数据进行数据提取处理,得到包括目标医疗数据的二维表数据,接着,对该二维表数据进行数据分析处理,得到该目标医疗数据对应的数据模型;由于该数据模型反映了该目标医疗数据对应的类型层级,故,这样便可以将数据格式为文本文件的待处理医疗数据转换为可以直接使用数据模型,从而数据使用方便可以直接利用该数据模型中的各个类型层级的目标医疗数据进行使用,例如,当待处理医疗数据为放疗设备中的放疗数据时,医院或医疗机构便可以通过该方法直接获取放疗数据对应的数据模型,从而可以通过该数据模型利用各个类型层级的放疗数据进行医疗科研,而不需要和传统方式一样,还需要通过人工的方式对放疗设备中的放疗数据进行处理以及分析。因此,与现有技术相比,本发明不需要通过人工的方式对放疗设备中的放疗数据进行处理以及分析,可以避免由于人工对放疗设备中的放疗数据进行处理以及分析所导致的错误,从而提高放疗设备中的放疗数据的类型层级确定的准确性,进而提高处理放疗设备中的放疗数据的效率。
举例说明,本发明实施例可以应用到如图1所示的场景。在该场景中,放疗数据的存储设备可以为放疗设备对应的数据存储服务器101,当然,在一种可能的实现方式还可以为具有数据存储功能的放疗设备,而数据处理设备102可以为具有数据处理功能的手机、ipad、台式电脑、笔记本电脑、服务器等任一种设备。具体地,数据处理设备102可以先从数据存储服务器中获取待处理医疗数据,其中,所述待处理医疗数据包括目标医疗数据,且所述待处理医疗数据的数据格式为文本文件;然后,数据处理设备102可以对该待处理医疗数据进行数据提取处理,得到包括所述目标医疗数据的二维表数据;接着,数据处理设备102可以对该二维表数据进行数据分析处理,得到该目标医疗数据对应的数据模型,其中,该数据模型反映了所述目标医疗数据对应的类型层级。这样,数据处理设备102便可以将数据格式为文本文件的待处理医疗数据转换为可以直接使用数据模型,从而数据使用方便可以直接利用该数据模型中的不同类型层级的目标医疗数据进行使用。
需要注意的是,上述应用场景仅是为了便于理解本申请而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
下面结合附图,详细说明本发明的各种非限制性实施方式。
参见图2,示出了本发明实施例中的一种基于医疗数据的类型层级提取方法。在本实施例中,所述方法例如可以包括以下步骤:
S201:确定待处理医疗数据。
其中,待处理医疗数据可以理解为需要处理的数据,且该待处理医疗数据的数据格式为文本文件,例如,待处理医疗数据可以为一个用户或多个用户的放疗数据。需要说明的是,该待处理医疗数据中包括目标医疗数据,该目标医疗数据可以理解为用户需要获取的有效数据,例如,假设待处理医疗数据为放疗设备中的放疗数据时,放疗数据中的目标医疗数据可以包括放疗计划号、放疗技术、靶区名称、照射剂量等数据。
作为一种示例,待处理医疗数据可以存储在数据存储设备中,例如服务器或者数据生产设备中,数据处理设备需要对待处理医疗数据进行分析处理时,可以从该数据存储设备中获取该待处理医疗数据,并通过后续步骤对该待处理医疗数据进行分析处理。举例来说,假设待处理设备为放疗数据时,待处理医疗数据可以存储在放疗系统中;数据处理设备可以连接放疗系统中的com端口,并通过该com端口导出放疗系统里的待处理医疗数据,具体地,以放疗患者的ID为索引,生成待处理医疗数据,具体以数据文件(数据格式为文本文件)的形式导出,其中,该数据文件中包括放疗计划、放疗疗程、放疗剂量、放疗执行等目标医疗数据。
S202:对所述待处理医疗数据进行数据提取处理,得到包括所述目标医疗数据的二维表数据。
在确定待处理医疗数据后,可以根据预设的字段类型对待处理医疗数据进行数据提取处理,以得到目标医疗数据,需要说明的是,预设的字段类型可以是用户根据实际需求所设定的,例如,字段类型可以包括路径、文件名、文件路径、放射计划名称等字段类型。其中,该目标医疗数据以二维表的形式进行存储,即,对待处理医疗数据进行数据提取处理,得到包括了目标医疗数据的二维表数据。
作为一种示例,可以先将待处理医疗数据转换为编程语言能够使用的数据格式,例如,可以将待处理医疗数据转换为Java能够使用的数据格式Json格式或xml格式;接着,可以对转换后的数据进行解析,并根据预设的字段类型将转换后的数据中的目标医疗数据解析出来得到包括目标医疗数据的二维表数据,例如,可以使用xpath语言将xml格式的待处理医疗数据中的目标医疗数据解析出来,得到包括该目标医疗数据的二维表数据。
S203:对所述二维表数据进行数据分析处理,得到所述目标医疗数据对应的数据模型。
在本实施例中,可以先通过对该二维表数据中的目标医疗数据进行数据分析处理,得到目标医疗数据对应各个预设字段类型的数据。例如,预设的字段类型包括“放疗技术”和“靶区类型”,且二维表数据中的目标医疗数据包括“IMRT”和“GTV”,则通过对该二维表数据中的目标医疗数据进行数据分析处理,可以得到目标医疗数据中对应字段类型“放疗技术”的数据为“IMRT”,目标医疗数据中对应字段类型“靶区类型”的数据为“GTV”。需要说明的是,在一种可能的实现方式中,在得到目标医疗数据对应各个预设字段类型的数据之后,可以对数据进行清洗操作,即将数据转换为标准的字段类型数据,例如,对字段类型“靶区类型”的数据“GTV”进行清洗操作,可以得到其对应的标准的类型数据“肿瘤区”。
然后,可以根据各个预设字段类型对应的类型层级,生成表模型结构,需要说明的是,由于目标医疗数据中包括了对应预设字段类型的数据,因此,目标医疗数据对应的类型层级可以理解为预设字段类型对应的类型层级,其中,类型层级可以理解为各个字段类型之间的上下层级关系,举例来说,假设预设的字段类型包括“疗程信息”和“放疗计划”,由于字段类型“疗程信息”为字段类型“放疗计划”的上层级,因此,字段类型“疗程信息”和“放疗计划”对应的类型层级为字段类型“疗程信息”→字段类型“放疗计划”。
接着,根据目标医疗数据对应各个预设字段类型的数据以及表模型结构,得到目标医疗数据对应的数据模型。需要说明的是,由于数据模型中的数据是按照目标医疗数据对应的类型层级进行设置的,因此,数据模型反映了目标医疗数据对应的类型层级。举例来说,假设目标医疗数据包括疗程信息,其中,疗程信息包括放疗计划,而放疗计划包括靶区信息,比如靶区部位为肿瘤区、射野数对应的剂量数据;相应地,该数据模型可以为:第一层级为疗程信息,第二层级为放疗计划,第三层级为靶区信息,第四层级别为肿瘤区以及剂量数据;这样,该数据模型便通过层级关系将目标医疗数据的类型层级(即数据结构)展现出来。
由上述技术方案可以看出,本发明可以对数据格式为文本文件的待处理医疗数据进行数据提取处理,得到包括目标医疗数据的二维表数据,接着,对该二维表数据进行数据分析处理,得到该目标医疗数据对应的数据模型。由于该数据模型反映了该目标医疗数据对应的类型层级,故数据使用方(例如医院或医疗机构)便可以直接利用该数据模型中的各个类型层级的目标医疗数据进行使用,而不需要和传统方式一样,还需要通过人工的方式对放疗设备中的放疗数据进行处理以及分析。因此,与现有技术相比,本发明不需要通过人工的方式对放疗设备中的放疗数据进行处理以及分析,可以避免由于人工对放疗设备中的放疗数据进行处理以及分析所导致的错误,从而提高处理放疗设备中放疗数据的类型层级确定的准确性,进而提高处理放疗设备中的放疗数据的效率。
图2所示仅为本发明所述方法的基础实施例,在其基础上进行一定的优化和拓展,还能够得到所述方法的其他优选实施例。
接下来,将介绍本发明一种基于医疗数据的类型层级提取方法的另一个具体实施例,该实施例将主要介绍S202的实现过程(S302-S303),以及S203的具体实现方式(S304-S305)。在本实施例中,所述方法具体包括以下步骤:
S301:确定待处理医疗数据。
需要说明的是,本实施例中的S301与图2对应实施例中的S201相同。因此,在本实施例中,不再对S301进行阐述,具体可以参见S201的介绍。
S302:对所述待处理医疗数据进行转换,得到所述待处理医疗数据对应的半结构化数据。
在得到待处理医疗数据后,由于待处理医疗数据的数据格式为文本文件,不能反映待处理医疗数据中目标医疗数据对应的类型层级,因此,可以先对待处理医疗数据进行转换,得到编程语言能够使用的半结构化数据,其中,半结构化数据可以理解为具有一定的结构性数据,例如,可以得到xml半结构化数据。
S303:对所述半结构化数据进行解析处理,得到包括所述目标医疗数据的二维表数据。
在得到待处理医疗数据对应的半结构化数据后,由于该半结构化数据也仍然不能完全反映目标医疗数据对应的类型层级,且该半结构化数据中包括多条数据,且每条数据包括一定的业务数据内容,且每条数据中的业务数据内容对应一定的业务类型,例如,半结构化数据包括两条数据,分别为“plan:Arc2”和“plan technique:IMRT”,其中,一条数据“plan:Arc2”中的业务数据内容为“Arc2”,业务数据内容为“Arc2”对应的业务类型为放疗计划号(即放疗计划号为Arc2),一条数据“plan technique:IMRT”中的业务数据内容为“IMRT”,业务数据内容为“IMRT”对应的业务类型为放疗技术(即放疗技术为IMRT)。故,需要对半结构化数据进行解析处理,以得到可以用于反映目标医疗数据对应的类型层级的数据,其中,该可以用于反映目标医疗数据对应的类型层级的数据可以以二维表的形式进行存储。
作为一种示例,可以先确定半结构化数据中每一条数据对应的业务类型。然后,可以根据该半结构化数据中每一条数据对应的业务类型,确定该半结构化数据中与该目标医疗数据对应的至少一条数据;需要说明的是,由于该目标医疗数据为用户所需要获取的数据,因此,用户可预先设置了需要获取的数据所对应的业务类型,这样,便可以根据预设的业务类型,确定半结构化数据中与预设的业务类型对应的数据;例如,预设的业务类型包括放疗计划号、放疗技术、靶区名称和照射剂量等,则可以根据预设的业务类型确定半结构化数据中分别与放疗计划号、放疗技术、靶区名称、照射剂量对应的数据。
接着,可以根据与目标医疗数据对应的至少一条数据,生成二维表结构。需要说明的是,与目标医疗数据对应的数据可以理解为根据预设的业务类型,所确定的半结构化数据中与预设的业务类型对应的数据。具体地,可以根据与目标医疗数据对应的数据,确定业务类型,并根据业务类型确定二维表结构的字段类型,例如,与目标医疗数据对应的4条数据分别对应的业务类型为放疗计划号、放疗技术、靶区名称和照射剂量,则可以将放疗计划号、放疗技术、靶区名称和照射剂量作为二维表结构的字段类型,从而生成二维表结构。
紧接着,可以对与所述目标医疗数据对应的至少一条数据进行代码提取,得到所述目标医疗数据,即将每一条数据中的业务数据内容提取出来,作为目标医疗数据。举例来说,假设该条数据为“plan:Arc2”,则将该条数据中的业务数据内容“Arc2”提取出来,作为目标医疗数据。
最后,可以将目标医疗数据转换至所述二维表结构,得到包括目标医疗数据的二维表数据。在一种实现方式中,在提取出目标医疗数据后,可以根据目标医疗数据对应的业务类型,将目标医疗数据填入至二维表结构中对应的字段类型中,从而得到二维表数据。举例来说,假设提取出的目标医疗数据为“Arc2”,且该目标医疗数据“Arc2”对应的字段类型为放疗计划号,则可以将该目标医疗数据“Arc2”填入至二维表结构的字段类型为放疗计划号的“plan name”中。
S304:读取所述二维表数据中的目标医疗数据。
在生成二维表数据之后,可以读取二维表数据中的目标医疗数据,以便进行后续的处理操作。
S305:根据所述目标医疗数据对应的字段类型,得到所述目标医疗数据对应的数据模型。
在读取二维表数据中的目标医疗数据后,可以先确定目标医疗数据对应的字段类型,例如,从二维表数据中读出的目标医疗数据包括“Arc2”、“IMRT”、“10x”,则可以确定目标医疗数据“Arc2”对应的字段类型为放疗计划号,目标医疗数据“IMRT”对应的字段类型为放疗技术,目标医疗数据“10x”对应的字段类型为照射剂量。
然后,可以根据所述目标医疗数据对应的字段类型,生成表模型结构。具体地,可以根据各个字段类型的类型层级,即各个字段类型之间的上下层级关系,生成表模型结构,例如,字段类型包括放疗计划号、放疗技术和照射剂量,由于放疗计划号对应的层级为疗程信息,放疗技术对应的层级为放疗计划,照射剂量对应的层级为剂量数据,且疗程信息的层级高于放疗计划的层级,放疗计划的层级高于剂量数据的层级,因此,可以生成第一层级为疗程信息、第二层级为放疗计划、第三层级为剂量数据的表模型结构。
接着,可以将目标医疗数据映射至表模型结构,得到所述目标医疗数据对应的数据模型。可以理解的是,可以根据目标医疗数据对应的字段类型与表模型结构中层级之间的对应关系,将目标医疗数据映射至该目标医疗数据对应的层级之中,从而得到数据模型。例如,表模型结构的第一层级为疗程信息、第二层级为放疗计划、第三层级为剂量数据,由于目标医疗数据对应的字段类型为放疗计划号,因此,可以将该目标医疗数据映射至该表模型结果中的第一层级中。需要说明的是,在一种实现方式中,可以通过SQL,将目标医疗数据插入至表模型结构中,从而完成将目标医疗数据映射至表模型结果的过程。
至此,本实施例结合具体的应用场景实现了数据处理过程。当然应该认为,上述场景仅仅为示例性场景,并不对本发明提供的方法构成限定。本发明提供的方法可延申的应用在其他相同原理的数据处理过理过程当中。
图2所示仅为本发明所述方法的基础实施例,在其基础上进行一定的优化和拓展,还能够得到所述方法的其他优选实施例。
接下来,将介绍本发明一种基于医疗数据的类型层级提取方法的另一个具体实施例,该实施例将主要介绍S404,即可以通过对数据模型中的目标医疗数据进行数据质控处理,以提高目标医疗数据的可用性。在本实施例中,所述方法具体包括以下步骤:
S401:确定待处理医疗数据。
S402:对所述待处理医疗数据进行数据提取处理,得到包括所述目标医疗数据的二维表数据。
S403:对所述二维表数据进行数据分析处理,得到所述目标医疗数据对应的数据模型。
需要说明的是,本实施例中的S401与图2对应实施例中的S201相同、本实施例中的S402与图2对应实施例中的S202相同、本实施例中的S403与图2对应实施例中的S201相同。因此,在本实施例中,不再对S401、S402和S403进行阐述,具体可以参见S201、S202和S203的介绍。
S404:对所述数据模型中的目标医疗数据进行数据质控处理,得到数据质控处理后的目标医疗数据。
在得到目标医疗数据对应的数据模型后,为了保证数据模型中的目标医疗数据能达到预设的统一标准格式,以使得在目标医疗数据的后期使用或处理过程中不会出现由于目标医疗数据达不到标准而无法使用的情况。在本实施例中,可以对数据模型中的目标医疗数据进行数据质控处理,使得目标医疗数据符合标准格式,从而提高了目标医疗数据的可用性以及保证了根据目标医疗数据得到的结果的准确性。
其中,数据质控处理可以包括以下至少一种方式:完整性质控处理、规范性质控处理、一致性质控处理、时效性质控处理和准确性质控处理。接下来,将详细介绍各个数据质控处理方式。
第一、完整性质控:
对目标医疗数据进行有值率、空值率质控,根据各个目标医疗数据的字段数据量,评估各个目标医疗数据是否完整。例如:疗程、放疗技术、放疗部位、靶区信息等目标医疗数据,属于放疗特有的字段,如果数据空值率超过5%,说明目标医疗数据的处理过程中存在的问题,在该情况下,重新执行S402获取目标医疗数据。
第二、规范性质控:
对于目标医疗数据中特定的字段,以及所要求的值域内容必须符合标准数据,但由于当目标医疗数据是医生录入时,医生可能由于用语习惯,并未按标准的数据格式输入目标医疗数据,而是口语化的输入目标医疗数据,这样,就导致所述输入的,目标医疗数据不符合标准,这样,可以对目标医疗数据进行数据清洗。
第三、一致性质控:
一致性质控属于业务质控,需要基于目标医疗数据的业务方面(例如医疗用语)确定目标医疗数据是否准确,例如当目标医疗数据为放疗数据时,可以根据放疗疗程中的诊断数据以及HIS信息中患者的诊断信息,确定放疗数据中的诊断生产是否正确。若不正确,则重新执行S402获取目标医疗数据。
第四、时效性质控:
目标医疗数据的时效性问题是影响目标医疗数据质量的重要因素之一。由于时效性差的目标医疗数据会对产品产生很大的影响,因此目标医疗数据的时效性十分重要。需要说明的是,目标医疗数据可能没有可用的时间戳,这样,会导致目标医疗数据的时效性无法判定。因此,在该情况下,可以通过生产目标医疗数据对应的时效约束,以使得在时间戳缺失的情况下有效地辅助恢复目标医疗数据的时序关系,有效的提高数据的可用性。
第五、准确性质控:
目标医疗数据中的字段是否准确,可以通过向人工展示目标医疗数据,并响应用户的反馈判断目标医疗数据中的每个字段是否正确,若不正确,则重新执行S402获取目标医疗数据。
至此,本实施例结合具体的应用场景实现了数据处理过程。当然应该认为,上述场景仅仅为示例性场景,并不对本发明提供的方法构成限定。本发明提供的方法可延申的应用在其他相同原理的数据处理过理过程当中。
图2所示仅为本发明所述方法的基础实施例,在其基础上进行一定的优化和拓展,还能够得到所述方法的其他优选实施例。
接下来,将介绍本发明一种基于医疗数据的类型层级提取方法的另一个具体实施例,该实施例将主要介绍S504和S505,即可以通过将目标医疗数据与相关数据进行关联,以加强数据之间的关联性以及完整性,从而提高了目标医疗数据的利用率,进而提高了根据目标医疗数据所得到的预测结果的准确性。在本实施例中,所述方法具体包括以下步骤:
S501:确定待处理医疗数据。
S502:对所述待处理医疗数据进行数据提取处理,得到包括所述目标医疗数据的二维表数据。
S503:对所述二维表数据进行数据分析处理,得到所述目标医疗数据对应的数据模型。
需要说明的是,本实施例中的S501与图2对应实施例中的S201相同、本实施例中的S502与图2对应实施例中的S202相同、本实施例中的S503与图2对应实施例中的S201相同。因此,在本实施例中,不再对S501、S502和S503进行阐述,具体可以参见S201、S202和S203的介绍。
S504:根据所述目标医疗数据对应的用户信息,确定与所述用户信息对应的相关数据。
S505:将所述目标医疗数据与所述相关数据进行关联。
其中,所述相关数据对应的业务类型与所述目标医疗数据对应的业务类型不同,例如,目标医疗数据对应的业务类型为放疗数据类型,相关数据对应的业务类型可以为就诊数据类型。
举例来说,假设目标医疗数据对应的业务类型为放疗数据类型,相关数据对应的业务类型可以为就诊数据类型;在从数据模型中获取到放疗数据(即目标医疗数据)后,可以先确定目标医疗数据对应患者信息(即用户信息)比如患者ID或医保卡号等,接着根据患者信息确定该患者对应的就诊数据(即相关数据),紧接着,将该患者的放疗数据和就诊数据关联起来;这样,便可以通过患者就诊数据与放疗数据,例如就诊数据中的就诊日期与放疗数据中的放疗日期的相近性,确定患者的放疗数据属于哪次就诊的数据,这样放疗数据与就诊数据关联起来,相应的患者医嘱信息、病历信息同放疗数据关联在一起,以便于医生和相关医疗机构进行科研,这样,便提高了目标医疗数据的利用率,从而提高了根据目标医疗数据所得到的科研结果的准确性。
至此,本实施例结合具体的应用场景实现了数据处理过程。当然应该认为,上述场景仅仅为示例性场景,并不对本发明提供的方法构成限定。本发明提供的方法可延申的应用在其他相同原理的数据处理过理过程当中。
如图3所示,为本发明所述目标医疗数据装置的一个具体实施例。本实施例所述装置,即用于执行上述实施例所述方法的实体装置。其技术方案本质上与上述实施例一致,上述实施例中的相应描述同样适用于本实施例中。本实施例中所述装置应用于客户端,包括:
确定模块310,用于确定待处理医疗数据,其中,所述待处理医疗数据包括目标医疗数据,且所述待处理医疗数据的数据格式为文本文件;
提取模块320,用于对所述待处理医疗数据进行数据提取处理,得到包括所述目标医疗数据的二维表数据;
分析模块330,用于对所述二维表数据进行数据分析处理,得到所述目标医疗数据对应的数据模型,其中,所述数据模型反映了所述目标医疗数据对应的类型层级。
可选的,所述提取模块320,具体用于:
对所述待处理医疗数据进行转换,得到所述待处理医疗数据对应的半结构化数据;
对所述半结构化数据进行解析处理,得到包括所述目标医疗数据的二维表数据。
可选的,所述提取模块320,还具体用于:
确定所述半结构化数据中每一条数据对应的业务类型;
根据所述半结构化数据中每一条数据对应的业务类型,确定所述半结构化数据中与所述目标医疗数据对应的至少一条数据;
根据与所述目标医疗数据对应的至少一条数据,生成二维表结构;
对与所述目标医疗数据对应的至少一条数据进行代码提取,得到所述目标医疗数据;
将所述目标医疗数据转换至所述二维表结构,得到包括所述目标医疗数据的二维表数据。
可选的,所述分析模块330,具体用于:
读取所述二维表数据中的目标医疗数据;
根据所述目标医疗数据对应的字段类型,得到所述目标医疗数据对应的数据模型。
可选的,所述分析模块330,还具体用于:
根据所述目标医疗数据对应的字段类型,生成表模型结构;
将所述目标医疗数据映射至所述表模型结构,得到所述目标医疗数据对应的数据模型。
可选的,所述装置还包括:
质控模块,用于:对所述数据模型中的目标医疗数据进行数据质控处理,得到数据质控处理后的目标医疗数据;
其中,所述数据质控处理包括以下至少一种方式:完整性质控处理、规范性质控处理、一致性质控处理、时效性质控处理和准确性质控处理。
可选的,所述装置还包括:
关联模块,用于:
根据所述目标医疗数据对应的用户信息,确定与所述用户信息对应的相关数据;
将所述目标医疗数据与所述相关数据进行关联;
其中,所述相关数据对应的业务类型与所述目标医疗数据对应的业务类型不同。
图4是本发明实施例提供的一种电子设备的结构示意图。在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放执行指令。具体地,执行指令即可被执行的计算机程序。存储器可以包括内存和非易失性存储器,并向处理器提供执行指令和数据。
在一种可能实现的方式中,处理器从非易失性存储器中读取对应的执行指令到内存中然后运行,也可从其它设备上获取相应的执行指令,以在逻辑层面上形成目标医疗数据装置。处理器执行存储器所存放的执行指令,以通过执行的执行指令实现本发明任一实施例中提供的基于医疗数据的类型层级提取方法。
上述如本发明图2所示实施例提供的目标医疗数据装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本发明实施例还提出了一种可读介质,该可读存储介质存储有执行指令,存储的执行指令被电子设备的处理器执行时,能够使该电子设备执行本发明任一实施例中提供的基于医疗数据的类型层级提取方法,并具体用于执行上述数据处理所述的方法。
前述各个实施例中所述的电子设备可以为计算机。
本领域内的技术人员应明白,本发明的实施例可提供为方法或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例,或软件和硬件相结合的形式。
本发明中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (7)

1.一种基于医疗数据的类型层级提取方法,其特征在于,包括:
确定待处理医疗数据,其中,所述待处理医疗数据包括目标医疗数据,且所述待处理医疗数据的数据格式为文本文件;
根据第一预设字段类型对所述待处理医疗数据进行数据提取处理,得到所述目标医疗数据的二维表数据,所述第一预设字段类型为二维表结构的字段类型,所述第一预设字段类型根据预设的需要获取的数据所对应的业务类型确定;
对所述二维表数据进行数据分析处理,得到所述目标医疗数据对应的数据模型,其中,所述数据模型反映了所述目标医疗数据对应的类型层级;具体包括:
读取所述二维表数据中的目标医疗数据,得到所述目标医疗数据对应各个第一预设字段类型的数据;
根据各个所述第一预设字段类型分别对应的第二预设字段类型之间的上下层级关系,生成表模型结构;所述第二预设字段类型为所述表模型结构的字段类型;
根据所述第一预设字段类型与所述第二预设字段类型之间的对应关系,将所述目标医疗数据映射至所述表模型结构,得到所述目标医疗数据对应的数据模型;
所述根据第一预设字段类型对所述待处理医疗数据进行数据提取处理,得到包括所述目标医疗数据的二维表数据,包括:
对所述待处理医疗数据进行转换,得到所述待处理医疗数据对应的半结构化数据;
对所述半结构化数据进行解析处理,得到用于反映目标医疗数据对应的类型层级的数据,将所述用于反映目标医疗数据对应的类型层级的数据以二维表的形式进行存储,得到包括所述目标医疗数据的二维表数据。
2.根据权利要求1所述的方法,其特征在于,所述对所述半结构化数据进行解析处理,得到用于反映目标医疗数据对应的类型层级的数据,将所述用于反映目标医疗数据对应的类型层级的数据以二维表的形式进行存储,得到包括所述目标医疗数据的二维表数据,包括:
确定所述半结构化数据中每一条数据对应的业务类型;
根据所述半结构化数据中每一条数据对应的业务类型,确定所述半结构化数据中与所述目标医疗数据对应的至少一条数据;
根据与所述目标医疗数据对应的至少一条数据,生成二维表结构;
对与所述目标医疗数据对应的至少一条数据进行代码提取,得到所述目标医疗数据;
将所述目标医疗数据转换至所述二维表结构,得到包括所述目标医疗数据的二维表数据。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
对所述数据模型中的目标医疗数据进行数据质控处理,得到数据质控处理后的目标医疗数据;
其中,所述数据质控处理包括以下至少一种方式:完整性质控处理、规范性质控处理、一致性质控处理、时效性质控处理和准确性质控处理。
4.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
根据所述目标医疗数据对应的用户信息,确定与所述用户信息对应的相关数据;
将所述目标医疗数据与所述相关数据进行关联;
其中,所述相关数据对应的业务类型与所述目标医疗数据对应的业务类型不同。
5.一种目标医疗数据装置,其特征在于,包括:
确定模块,用于确定待处理医疗数据,其中,所述待处理医疗数据包括目标医疗数据,且所述待处理医疗数据的数据格式为文本文件;
提取模块,用于根据第一预设字段类型对所述待处理医疗数据进行数据提取处理,得到所述目标医疗数据的二维表数据,所述第一预设字段类型为二维表结构的字段类型,所述第一预设字段类型根据预设的需要获取的数据所对应的业务类型确定;
分析模块,用于对所述二维表数据进行数据分析处理,得到所述目标医疗数据对应的数据模型,其中,所述数据模型反映了所述目标医疗数据对应的类型层级;
所述分析模块具体用于:读取所述二维表数据中的目标医疗数据,得到所述目标医疗数据对应各个第一预设字段类型的数据;根据各个所述第一预设字段类型分别对应的第二预设字段类型之间的上下层级关系,生成表模型结构;所述第二预设字段类型为所述表模型结构的字段类型;根据所述第一预设字段类型与所述第二预设字段类型之间的对应关系,将所述目标医疗数据映射至所述表模型结构,得到所述目标医疗数据对应的数据模型;
所述提取模块具体用于:对所述待处理医疗数据进行转换,得到所述待处理医疗数据对应的半结构化数据;对所述半结构化数据进行解析处理,得到用于反映目标医疗数据对应的类型层级的数据,将所述用于反映目标医疗数据对应的类型层级的数据以二维表的形式进行存储,得到包括所述目标医疗数据的二维表数据。
6.一种可读介质,包括执行指令,当电子设备的处理器执行所述执行指令时,所述电子设备执行如权利要求1-4中任一所述的方法。
7.一种电子设备,包括处理器以及存储有执行指令的存储器,当所述处理器执行所述存储器存储的所述执行指令时,所述处理器执行如权利要求1-4中任一所述的方法。
CN201911354351.1A 2019-12-25 2019-12-25 一种基于医疗数据的类型层级提取方法及装置 Active CN111199805B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911354351.1A CN111199805B (zh) 2019-12-25 2019-12-25 一种基于医疗数据的类型层级提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911354351.1A CN111199805B (zh) 2019-12-25 2019-12-25 一种基于医疗数据的类型层级提取方法及装置

Publications (2)

Publication Number Publication Date
CN111199805A CN111199805A (zh) 2020-05-26
CN111199805B true CN111199805B (zh) 2024-06-07

Family

ID=70747662

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911354351.1A Active CN111199805B (zh) 2019-12-25 2019-12-25 一种基于医疗数据的类型层级提取方法及装置

Country Status (1)

Country Link
CN (1) CN111199805B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407599A (zh) * 2021-06-30 2021-09-17 上海万物新生环保科技集团有限公司 一种基于文本数据的标准化处理方法及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017185887A1 (en) * 2016-04-29 2017-11-02 Boe Technology Group Co., Ltd. Apparatus and method for analyzing natural language medical text and generating medical knowledge graph representing natural language medical text
CN109446191A (zh) * 2018-11-09 2019-03-08 医渡云(北京)技术有限公司 医疗数据处理系统及方法、存储介质和电子设备
CN109637602A (zh) * 2018-11-23 2019-04-16 金色熊猫有限公司 医疗数据存储和查询方法、装置、存储介质及电子设备
CN109857992A (zh) * 2018-12-29 2019-06-07 医渡云(北京)技术有限公司 医疗数据结构化解析方法、装置、可读介质及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070260492A1 (en) * 2006-03-09 2007-11-08 Microsoft Corporation Master patient index

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017185887A1 (en) * 2016-04-29 2017-11-02 Boe Technology Group Co., Ltd. Apparatus and method for analyzing natural language medical text and generating medical knowledge graph representing natural language medical text
CN109446191A (zh) * 2018-11-09 2019-03-08 医渡云(北京)技术有限公司 医疗数据处理系统及方法、存储介质和电子设备
CN109637602A (zh) * 2018-11-23 2019-04-16 金色熊猫有限公司 医疗数据存储和查询方法、装置、存储介质及电子设备
CN109857992A (zh) * 2018-12-29 2019-06-07 医渡云(北京)技术有限公司 医疗数据结构化解析方法、装置、可读介质及电子设备

Also Published As

Publication number Publication date
CN111199805A (zh) 2020-05-26

Similar Documents

Publication Publication Date Title
US20200185069A1 (en) Medical coding quality control
CN109785918B (zh) 一种应用于临床科研的数据采集系统及方法
CN112131123B (zh) 测试用例的生成方法、装置、终端设备及存储介质
WO2021151302A1 (zh) 基于机器学习的药品质控分析方法、装置、设备及介质
CN111081329A (zh) 临床数据自动录入方法及装置、电子设备、存储介质
US11538561B2 (en) Systems and methods for medical information data warehouse management
CN106933859A (zh) 一种医疗数据的迁移方法和装置
CN112447270A (zh) 一种用药推荐方法、装置、设备及存储介质
US20190171714A1 (en) Artificial Intelligence Quality Measures Data Extractor
CN111199805B (zh) 一种基于医疗数据的类型层级提取方法及装置
CN114005498A (zh) 临床试验数据逻辑核查方法和装置、设备、存储介质
CN109102845B (zh) 医疗单据审核方法、装置、计算机设备和存储介质
US20230113089A1 (en) Systems and methods for medical information data warehouse management
CN115759040A (zh) 一种电子病历解析方法、装置、设备和存储介质
CN113126981B (zh) 一种基于Excel的医疗数据处理方法及装置
CN113658708A (zh) 一种医疗数据的处理方法及装置
CN114093454A (zh) 一种影像下肢动脉结构化报告书写设计方法和系统
US10566080B2 (en) Expression of clinical logic with positive and negative explainability
CN111400759A (zh) 访视时间表生成方法及装置、存储介质、电子设备
CN111128330A (zh) 电子病例报告表自动录入方法、装置以及相关设备
JP6258746B2 (ja) 連携パス処理装置、連携パスシステム、修正情報出力方法およびプログラム
CN114582519B (zh) 一种基于多源数据的医院随访方法、装置及终端设备
CN110660459B (zh) 用于病案质控的方法、装置、服务器以及存储介质
CN117349358B (zh) 基于分布式图处理框架的数据匹配与合并的方法和系统
Greenlee et al. PS2-22: accuracy of diagnostic codes to identify rheumatoid arthritis in archived electronic health system data: support for future cancer research network studies of lymphoma risk pathways

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant