CN113053479A - 医学数据处理方法、装置、介质及电子设备 - Google Patents

医学数据处理方法、装置、介质及电子设备 Download PDF

Info

Publication number
CN113053479A
CN113053479A CN201911374484.5A CN201911374484A CN113053479A CN 113053479 A CN113053479 A CN 113053479A CN 201911374484 A CN201911374484 A CN 201911374484A CN 113053479 A CN113053479 A CN 113053479A
Authority
CN
China
Prior art keywords
data
analysis
processed
determining
medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911374484.5A
Other languages
English (en)
Inventor
颜秀涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Happiness Life Technology Co ltd
Original Assignee
Tianjin Happiness Life Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Happiness Life Technology Co ltd filed Critical Tianjin Happiness Life Technology Co ltd
Priority to CN201911374484.5A priority Critical patent/CN113053479A/zh
Publication of CN113053479A publication Critical patent/CN113053479A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Abstract

本公开提供一种医学数据处理方法、医学数据处理装置、计算机可读介质及电子设备;涉及大数据技术领域。该方法包括:基于纳排策略获取待处理数据;按照分析需求对所述待处理数据进行结构化,从结构化后的候选数据中提取出样本数据;通过所述样本数据确定所述分析需求对应的分析指标,以通过所述分析指标确定对于所述待处理数据的分析结论。本公开中的医学数据处理方法能够在一定程度上克服由疾病治疗情况随访困难而造成的医学结论无法有效分析的问题,进而提高医学数据的分析利用率。

Description

医学数据处理方法、装置、介质及电子设备
技术领域
本公开涉及数据处理技术领域,具体而言,涉及一种医学数据处理方法、医学数据处理装置、计算机可读介质及电子设备。
背景技术
在疾病的治疗过程中,病人通常按照治疗方案进行治疗,不同的病人对于治疗方案的依从性不同。依从性指病人按照医生的规定进行治疗、与医嘱一致的行为,也称为顺从性、顺应性。因此,医生给出的治疗建议、治疗方案,对于疾病的治疗尤为重要。
目前,对于疾病的治疗情况的研究基本上是基于对临床病人的观察和随访来实现,而很多肿瘤以及慢性病的用药,经常需要长期用药治疗,院外随访的成本过高,并且具有随访条件的病人往往较少。一般的随访团队仅仅局限在一家医院内、数百人之间,而且很难做长时间、大规模的随访,从而难以确认有效的随访结果。无论是医生对病人给出的治疗建议还是医学课题的研究均需要有效的治疗情况的支持,而无法通过随访结果确认治疗情况给医学研究带来了巨大的挑战。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开的目的在于提供一种医学数据处理方法、医学数据处理装置、计算机可读介质及电子设备,进而在一定程度上克服治疗结果无法确认的问题,提升医学数据分析的效率。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的第一方面,提供一种医学数据处理方法,包括:
基于纳排策略获取待处理数据;
按照分析需求对所述待处理数据进行结构化,从结构化后的候选数据中提取出样本数据;
通过所述样本数据确定所述分析需求对应的分析指标,以通过所述分析指标确定对于所述待处理数据的分析结论。
在本公开的一种示例性实施例中,所述按照分析需求对所述待处理数据进行结构化,包括:
根据所述待处理数据的数据来源对所述待处理数据进行分类,获得多个数据集合;
按照所述分析需求确定所述待处理数据的结构化字段;
从各所述数据集合中确定出所述结构化字段的取值,以获得所述候选数据。
在本公开的一种示例性实施例中,所述从结构化后的候选数据中提取出样本数据,包括:
确定各所述数据集合的优先级;
按照所述优先级从各所述数据集合对应的候选数据中获取所述样本数据。
在本公开的一种示例性实施例中,所述通过所述样本数据确定所述分析需求对应的分析指标,以通过所述分析指标确定对于所述待处理数据的分析结论,包括:
按照分类条件对所述样本数据进行分类,以计算各类别的分析指标;
基于各类别的分析指标以及所述分类条件,确定分析指标的影响因素,以确定对于所述待处理数据的分析结论。
在本公开的一种示例性实施例中,所述对所述样本数据进行分类,以计算各分类的分析指标,包括:
按照疾病分期对所述样本数据进行分类,以确定各类别的分析指标。
在本公开的一种示例性实施例中,通过所述样本数据确定所述分析需求对应的分析指标之前,还包括:
对所述样本数据进行验证,根据验证结果确定治疗周期不满足预设值的数据记录;
将所述数据记录从所述样本数据中删去。
在本公开的一种示例性实施例中,所述基于纳排策略获取待处理数据,包括:
针对疾病的分类类型,获取所述分类类型对应的纳排策略,以获取符合所述纳排策略的待处理数据。
根据本公开的第二方面,提供一种医学数据处理装置,包括数据获取模块、数据处理模块以及数据分析模块,其中:
数据获取模块,用于基于纳排策略获取待处理数据。
数据处理模块,用于按照分析需求对所述待处理数据进行结构化,从结构化后的候选数据中提取出样本数据。
数据分析模块,用于通过所述样本数据确定所述分析需求对应的分析指标,以通过所述分析指标确定对于所述待处理数据的分析结论。
在本公开的一种示例性实施例中,数据处理模块可以具体包括数据分类模块、数据结构化模块以及结构化取值模块,其中:
数据分类模块,用于根据所述待处理数据的数据来源对所述待处理数据进行分类,获得多个数据集合。
数据结构化模块,用于按照所述分析需求确定所述待处理数据的结构化字段。
结构化取值模块,用于从各所述数据集合中确定出所述结构化字段的取值,以获得所述候选数据。
在本公开的一种示例性实施例中,数据处理模块可以具体包括优先级确定模块和数据提取模块,其中:
优先级确定模块,用于确定各所述数据集合的优先级。
数据提取模块,用于按照所述优先级从各所述数据集合对应的候选数据中获取所述样本数据。
在本公开的一种示例性实施例中,数据分析模块可以具体包括指标计算模块和影响因素确定模块,其中:
指标计算模块,用于按照分类条件对所述样本数据进行分类,以计算各类别的分析指标。
影响因素确定模块,用于基于各类别的分析指标以及所述分类条件,确定分析指标的影响因素,以确定对于所述待处理数据的分析结论。
在本公开的一种示例性实施例中,指标计算模块可以具体用于:按照疾病分期对所述样本数据进行分类,以确定各类别的分析指标。
在本公开的一种示例性实施例中,该装置还包括数据验证模块和数据过滤模块,其中:
数据验证模块,用于对所述样本数据进行验证,根据验证结果确定治疗周期不满足预设值的数据记录。
数据过滤模块,用于将所述数据记录从所述样本数据中删去。
在本公开的一种示例性实施例中,数据获取模块可以具体用于:针对疾病的分类类型,获取所述分类类型对应的纳排策略,以获取符合所述纳排策略的待处理数据。
根据本公开的第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。
根据本公开的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。
本公开示例性实施例可以具有以下部分或全部有益效果:
在本公开的一示例实施方式所提供的医学数据处理方法中,通过医疗数据确定与分析需求对应的分析指标,能够对治疗结果进行量化,避免因治疗结果随访困难而导致无法获得数据的问题,从而可以提高数据的可信度;并且,不需要人工统计数据,能够节省资源,降低成本,提高数据的处理效率;此外,对数据进行结构化能够增强数据的规范性,提高数据的利用率,而且数据的处理过程可以进行追溯,从而可以保证分析指标的可追溯性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了根据本公开的一个实施例的医学数据处理方法的流程图;
图2示意性示出了根据本公开的一个实施例中对待处理数据进行结构化的步骤的流程图;
图3示意性示出了根据本公开的一个实施例中提取样本数据的步骤的流程图;
图4示意性示出了根据本公开的一个实施例中确定分析指标的步骤的流程图;
图5示意性示出了根据本公开的一个实施例中医学数据处理方法的流程图;
图6示意性示出了根据本公开的一个实施例的医学数据处理装置的框图;
图7示意性示出了根据本公开的一个实施例的用于实现上述医学数据处理方法的系统架构图;
图8示出了适于用来实现本公开实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
以下对本公开实施例的技术方案进行详细阐述:
本示例实施方式提供了一种医学数据处理方法。参考图1所示,该方法可以包括以下步骤:
步骤S110:基于纳排策略获取待处理数据。
步骤S120:按照分析需求对所述待处理数据进行结构化,从结构化后的候选数据中提取出样本数据。
步骤S130:通过所述样本数据确定所述分析需求对应的分析指标,以通过所述分析指标确定对于所述待处理数据的分析结论。
在本公开的一示例实施方式所提供的医学数据处理方法中,通过医疗数据确定与分析需求对应的分析指标,能够对治疗结果进行量化,避免因治疗结果随访困难而导致无法获得数据结论的问题,从而可以提高数据结论的可信度;并且,不需要人工统计数据,能够节省资源,降低成本,提高数据的处理效率;此外,对数据进行结构化能够增强医学数据的规范性,从而有利于提高数据的利用率,而且数据的处理过程可以进行追溯,从而可以保证分析指标的可追溯性。
下面,对于本示例实施方式的上述步骤进行更加详细的说明。
在步骤S110中,基于纳排策略获取待处理数据。
本实施方式中,纳排策略指的是获取待处理数据的数据筛选条件,可以包括纳入原则以及排除原则。纳入原则可以包括从数据库中获取待处理数据时的数据查询条件,例如,获取特定医院的医学数据、获取特定手术的数据等;排除原则可以包括对获取的数据的删除条件,例如,删去超出时间期限的医学数据、删去没有住院记录的医学数据等。此外,纳排策略还可以包括其他数据筛选条件,例如,获取使用特定药物治疗的数据、患有特定疾病的病人的数据等,本实施方式对此不做特殊限定。
待处理数据可以指各种医学数据,例如医学研究数据、医学教学数据、医疗机构保存的数据等,本实施方式中待处理数据以医疗数据为例。医疗数据包括不同来源的多种数据,例如,门诊数据、住院数据、用药数据等。一般情况下,对疾病的治疗都不是一次性的,病人需要进行多次诊断、用药、手术等治疗手段,历经很长一段时间。因此,医疗数据中可以包括患者的整个治疗时期的所有数据,例如,从患者患病开始的时间起直到当前时间为止,这个时间段内该患者的所有医疗数据。数据越完整越有助于分析指标的确定。将纳排策略可以作为正则表达式,进而从各个数据平台中获取各个患者的全时期的医疗数据,例如,从县医院的数据库中获取患者的一部分数据,从市医院的数据库中获取该患者的另一部分数据等。
在示例性的实施方式中,针对疾病的分类类型可以获取各个分类类型对应的纳排策略,以获取符合纳排策略的待处理数据。通过ICD(international Classification ofdiseases,国际疾病分类,简称ICD)中定义的分类标准可以获取各个疾病的分类类型,对于不同的类型的疾病可以确定不同的纳排策略,从而针对各种疾病获取更加有针对性的医疗数据。例如,对于癌症患者可以获取不少于5年的医疗数据、获取癌症或者临床分期的数据、获取使用特定药物的癌症治疗数据等。此外,本实施方式中,可以通过其他多种方式获取医疗数据,例如,通过区块链技术获取符合条件的医疗数据、通过各大医院的数据库获取住院病人的数据等,这些均属于本实施方式的保护范围。
示例性实施方式中,在对待处理数据进行结构化之前,可以对数据进行整理、清洗等处理。举例而言,按照患者的标识信息可以将各个患者的数据记录进行整理,将同一患者多次对同一疾病的医疗数据进行关联,从而便于确定该患者用药依从性、以及治疗周期等信息;对数据记录中缺失值进行补充或者删除,如用药时间的缺失,可采取就诊的诊断时间进行补充;对数据之间的逻辑进行验证,确保数据的正确性,如价格、费用、诊断记录等不合理的数据进行删除等,这些均属于本公开的保护范围。
在步骤S120中,按照分析需求对所述待处理数据进行结构化,从结构化后的候选数据中提取出样本数据。
其中,分析需求可以为对医疗数据的分析目标,或者分析条件,例如,分析某种药物对治疗的影响、分析疾病治愈是否受到地区的影响等。根据实际的医学课题的研究需要,或者医学问题,可以确定分析需求,从而根据分析需求对医疗数据进行结构化。由于医疗数据大部分都是由医生记录产生,无法在计算机或者数据处理系统中进行检索,因此可以对医疗数据进行结构化,例如,将医疗数据按照疾病分期结构化、按照疾病类型结构化、按照治疗地区结构化等,再例如,结构化字段可以为疾病分期0期、1期、2期等。结构化后的医疗数据可以通过结构化的字段,查询获取到该字段在原数据中对应的内容,将结构化的字段以及字段对应的内容可以作为候选数据。也就是说,候选数据为医疗数据结构化之后的数据,可以包括结构化的字段,以及各字段对应的原数据字段。按照分析需求可以确定对应的结构化字段,例如分析需求可以为疾病各个分期的治疗效果,则可以确定疾病分期为结构化字段,进而可以利用结构化字段确定对应的样本数据。此外,本实施方式可以通过其他方式获取样本数据,例如,获取特定医院的数据为样本数据、获取住院记录为样本数据、获取门诊记录为样本数据等。
示例性实施方式中,对待处理数据进行结构化可以通过以下步骤S201至步骤S203,如图2所示,其中:
在步骤S201中,根据所述待处理数据的数据来源对所述待处理数据进行分类,获得多个数据集合。医疗数据的数据来源可以包括诊断记录,例如住院诊断、患病诊断、门诊诊断等,以及治疗过程记录,例如多次病历记录、手术记录等,患者基本信息等;还可以包括出院记录。此外,根据不同的需求可以确定不同的数据来源,例如,按照地区区分数据来源、按照疾病种类区分数据来源等等,本实施方式对此不做特殊限定。来自不同数据来源的医疗数据可以存放入不同的数据集合中,例如,将治疗过程记录保存在集合1中,将诊断记录保存在集合2中等。
在步骤S202中,按照所述分析需求确定所述待处理数据的结构化字段。
分析需求中可以包括结构化字段,可以直接从分析需求中提取出结构化字段;或者,可以预先定义分析需求与结构化字段的对应关系,从而获取分析需求对应的结构化字段,例如,预先确定与疾病复发性相关的分析需求对应的结构化字段为疾病的TNM分期,如果分析需求为分析疾病复发率与治疗依从性的关系,则根据该预先确定的对应关系可以确定结构化字段为疾病TNM分期。
在步骤S203中,从各所述数据集合中确定出所述结构化字段的取值,以获得所述候选数据。结构化字段的取值指的是结构化字段对应的医疗数据中的原始字段,可以从每个数据集合中分别确定出一字段,从而将得到的多个字段均作为该结构化字段的取值,也可以从多个数据集合中获取唯一一个字段作为结构化字段的取值。为了使各结构化字段的数据质量相对较高,字段值全面,在结构化中会有多处的取值,不同来源的数据可能会有冲突和偏差,可以设置取值结果的优先级。示例性,可以对各数据来源设置优先级,例如,可以设置治疗过程记录的优先级高于诊断记录的优先级,设置诊断记录的优先级高于出院记录的优先级等。然后,根据各个数据集合的优先级从各个数据集合中确定结构化字段的取值,例如,可以先从优先级高的数据集合中确定结构化字段的取值,如果不能确定结构化字段的取值,则再从优先级低的数据集合中确定该结构化字段的取值。此外,在本公开的其他实施方式中,可以通过其他方式确定结构化字段的取值,例如,从特定的数据来源对应的数据集合中获取结构化字段的取值等,这些均属于本公开的保护范围。
基于此,从结构化的候选数据中提取出样本数据的方法可以包括步骤S301和步骤S302,如图3所示,其中:
在步骤S301中,确定各所述数据集合的优先级。根据实际需求可以确定各数据集合的优先级,该优先级可以和确定结构化字段的取值时各个数据集合的优先级一致,也可以在该步骤中重新确定,本实施方式对此不做特殊限定。例如,可以设置优先级的从高到低依次为临床诊断、病理诊断、出院诊断、入院诊断的各数据集合。而且根据不同的结构化字段可以设置不同的优先级,例如,疾病分期的数据优先级从高到低可以依次为诊断记录、治疗过程、病历记录等。
在步骤S302中,按照所述优先级从各所述数据集合对应的候选数据中获取所述样本数据。具体的,根据优先级可以从各数据集合中提取出一定数量的数据作为样本数据,优先级高的数据集合可以提取较多的数据,优先级低的数据集合可以提取较少的数据。或者,根据确定好的纳排策略将各数据集合中符合条件的数据提取出来,并且在提取时按照优先级进行顺序提取。此外,本实施方式中还可以通过其他方式提取样本数据,例如,将各数据集合中所有数据均提取出来作为样本数据等。
在示例性的实施方式中,因来自不同医院的数据标准不一,可以对数据进行规范化处理后再进行结构化,或者在结构化之后进行规范化处理。举例而言,可以将不同的诊断名称按照统一的词库进行规范化,如标准的ICD-10词库,利用词库中的字段将候选数据或者医疗数据中原始的诊断名称进行替换;或者,还可以对原始的数据进行统一标注,通过统一的标注对不规范的数据进行识别等。
在步骤S130中,通过所述样本数据确定所述分析需求对应的分析指标,以通过所述分析指标确定对于所述待处理数据的分析结论。
举例而言,如果分析指标为疾病复发率,则可以统计样本数据中疾病复发的人群数量以及没有复发的人群数量之间的比例,从而得到疾病复发率。如果分析指标为治疗依从性,则可以统计依从性高的人群数量、依从性低的人群数量之间的占比,从而得到患者的依从性。此外,分析指标可以为各种医学指标,例如,特定疾病的死亡率、存活率,特定疾病的复发率、复发时间周期等,本实施方式对此不做特殊限定。确定分析指标后可以得到对于待处理数据的分析结论,该分析结论可以包括分析指标的变化规律,也可以包括分析指标的影响因素,或者还可以包括其他信息,例如,研究人员根据分析指标而做出的推测信息等。举例而言,如果从医疗数据中分析某疾病的复发率,确定复发率在治疗3年后达到最高值,则可以确定分析结论为该疾病在3年后容易复发;并且,医生还可以根据分析结论确定对于该类疾病的患者的建议信息,如在该时间期限内进行特别注意、忌口、定期复查等建议;此外,分析结论也可以作为患者、医学研究人员的参考信息,例如,分析结论为药物A引起过敏反应的概率,则患者可以根据自身的情况选择药物。
因患者治疗行为变化等原因,并不是所有患者均会坚持在同一家医院治疗疾病,导致数据间断、缺失可信度较低,因此,在确定分析指标之前,可以对样本数据进行验证,根据验证结果确定治疗周期不满足预设值的数据记录,然后将这些治疗周期不满足预设值的数据记录删去,得到验证通过的样本数据。不同的疾病治疗周期的预设值可以不同,举例来说,恶性肿瘤的患者的数据记录满足的治疗周期可以为3年以上,慢性病的治疗周期可以为5年以上。当然,该预设值还可以为其他数值,例如,2年、1年、6个月等,本实施方式对此不做特殊限定。按照不同的数据记录对应的疾病类型,可以确定出不满足治疗周期的数据记录,进而将该数据记录从样本数据中删去。
如图4所示,确定分析指标的方法可以包括以下步骤S401和步骤S402,其中:
在步骤S401中,按照分类条件对所述样本数据进行分类,以计算各类别的分析指标。为了确定出不同情况下分析指标是否会变化,分析指标是否会因为某些因素而改变,可以将样本数据进行分类,得到多个类别,按照各个类别中包含的样本数据计算各类型对应的分析指标。疾病分期对于治疗的影响非常重要,不同时期的治疗方案以及药物均不同,因此分类条件可以为疾病分期,按照疾病分期对样本数据进行分类,可以确定各类别的分析指标。疾病分期可以为疾病的临床分期,例如,将样本数据分为患病前期、患病中期、患病后期三类或者肿瘤的临床1,2,3,4期;疾病分期还可以为TNM分期,或者分子分型;此外,在本公开的其他实施方式中,根据实际需求可以确定不同的分类条件,例如,以用药依从性为分类条件,将样本数据分为高、中、低三类,依从性90%以上可以高、80%-90%为中、80%以下为低,再例如,按照手术记录或者手术方式为分类条件进行分类,可以分为未手术、1次手术、2次手术等,这些均属于本公开的保护范围。
在步骤S402中,基于各类别的分析指标以及所述分类条件,确定分析指标的影响因素,以确定对于所述待处理数据的分析结论。采用对比分析法,分组分析法等数据处理方法可以对各个类别的分析指标进行统计分析,从而确定各类别的分析指标是否不同以及变化的趋势,根据分析指标的变化趋势可以确定分析指标是否受到分类条件的影响,从而确定分析指标的影响因素,以获取分析结论。例如,分析指标为疾病复发率,按照用药依从性分类得到的多个类别中,可以得到对药物治疗依从性高的患者疾病的复发率低,则可以确定用药依从性为疾病复发率的影响因素。
示例性实施方式中,如果对样本数据按照一种分类条件进行分类,则可以确定该分类条件与分析指标之间的关系,即,确定该分类条件是否为影响因素,也可以同时按照多种分类条件对样本数据进行分类,得到多个分类条件与分析指标之间的关系,从而可以结合多种影响因素确定分析结论,有利于提高分析结论的有效性和合理性。例如,按照手术、用药依从性两个影响因素对样本数据进行分类,确定疾病复发率,可以得到分析记录为,1次术后的患者,用药依从性高的患者疾病的复发率最低。
如图5所示,该方法可以包括步骤S501至步骤S506,其中:
在步骤S501中,根据纳排策略获取待处理数据;纳排策略可以根据分析需求而定,例如,如果分析需求为对手术病人的治疗情况进行分析,则纳排策略可以为获取手术记录;在步骤S502中,对待处理数据进行数据过滤处理;例如,将医疗数据中缺失值的数据记录进行删除;在步骤S503中,对过滤处理后的待处理数据进行结构化,得到候选数据;按照分析需求对应的结构化字段,可以从医疗数据中确定出结构化字段对应的取值;在步骤S504中,从候选数据中抽取样本数据;例如,按照候选数据的优先级抽取一定数量的样本数据;在步骤S505中,对样本数据进行验证,删去验证失败的数据记录;例如,验证数据记录的时间周期是否满足一定的要求,如果不满足要求则确定该数据记录验证失败;在步骤S506中,通过验证后的样本数据确定分析指标,以获取分析结论;例如,确定疾病复发率是否受到用药依从性的影响等。需要说明的是,上述步骤S501至步骤S506在上述实施例中均已进行说明,此处不再赘述。
在本实施方式中,对样本数据进行统计计算分析指标,可以完成分析需求确定分析结论,解决患者治疗结果难以确定的问题,通过真实的数据得出结论,从而提高医学数据的利用率和价值。
进一步的,本示例实施方式中,还提供了一种医学数据处理装置,用于执行本公开上述的医学数据处理方法。该装置可以应用于一服务器或终端设备。
参考图6所示,该医学数据处理装置600可以包括:数据获取模块610、数据处理模块620以及数据分析模块630,其中:
数据获取模块610,用于基于纳排策略获取待处理数据。
数据处理模块620,用于按照分析需求对所述待处理数据进行结构化,从结构化后的候选数据中提取出样本数据。
数据分析模块630,用于通过所述样本数据确定所述分析需求对应的分析指标,以通过所述分析指标确定对于所述待处理数据的分析结论。
在本公开的一种示例性实施例中,数据处理模块620可以具体包括数据分类模块、数据结构化模块以及结构化取值模块,其中:
数据分类模块,用于根据所述待处理数据的数据来源对所述待处理数据进行分类,获得多个数据集合。
数据结构化模块,用于按照所述分析需求确定所述待处理数据的结构化字段。
结构化取值模块,用于从各所述数据集合中确定出所述结构化字段的取值,以获得所述候选数据。
在本公开的一种示例性实施例中,数据处理模块620可以具体包括优先级确定模块和数据提取模块,其中:
优先级确定模块,用于确定各所述数据集合的优先级。
数据提取模块,用于按照所述优先级从各所述数据集合对应的候选数据中获取所述样本数据。
在本公开的一种示例性实施例中,数据分析模块630可以具体包括指标计算模块和影响因素确定模块,其中:
指标计算模块,用于按照分类条件对所述样本数据进行分类,以计算各类别的分析指标。
影响因素确定模块,用于基于各类别的分析指标以及所述分类条件,确定分析指标的影响因素,以确定对于所述待处理数据的分析结论。
在本公开的一种示例性实施例中,指标计算模块可以具体用于:按照疾病分期对所述样本数据进行分类,以确定各类别的分析指标。
在本公开的一种示例性实施例中,该装置还包括数据验证模块和数据过滤模块,其中:
数据验证模块,用于对所述样本数据进行验证,根据验证结果确定治疗周期不满足预设值的数据记录。
数据过滤模块,用于将所述数据记录从所述样本数据中删去。
在本公开的一种示例性实施例中,数据获取模块610可以具体用于:针对疾病的分类类型,获取所述分类类型对应的纳排策略,以获取符合所述纳排策略的待处理数据。
由于本公开的示例实施例的医学数据处理装置的各个功能模块与上述医学数据处理方法的示例实施例的步骤对应,因此对于本公开装置实施例中未披露的细节,请参照本公开上述的医学数据处理方法的实施例。
参阅图7,图7示出了可以应用本公开实施例的一种医学数据处理方法及医学数据处理装置的示例性应用环境的系统架构的示意图。
如图7所示,系统架构700可以包括终端设备701、702、703中的一个或多个,网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备701、702、703可以是具有显示屏的各种电子设备,包括但不限于台式计算机、便携式计算机、智能手机和平板电脑等等。应该理解,图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器705可以是多个服务器组成的服务器集群等。
本公开实施例所提供的医学数据处理方法一般由服务器705执行,相应地,医学数据处理装置一般设置于服务器705中。但本领域技术人员容易理解的是,本公开实施例所提供的医学数据处理方法也可以由终端设备701、702、703执行,相应的,医学数据处理装置也可以设置于终端设备701、702、703中,本示例性实施例中对此不做特殊限定。
举例而言,在一种示例性实施例中,服务器705可以分析需求,根据分析需求对应的纳排策略获取待处理数据,并对待处理数据进行结构化获取候选数据,然后从候选数据中提取出样本数据,进而,根据样本数据计算分析指标,确定分析结论;以使得医生或者医学课题的研究者在研究医学问题时,能够参考有真实数据依据的分析结论,从而可以提高研究效率,并且可以提高医学数据的利用率和处理效率。
图8示出了适用于实现本公开实施例的电子设备的计算机系统的结构示意图。
需要说明的是,图8示出的电子设备的计算机系统800仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统操作所需的各种程序和数据。CPU801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施例,下文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本申请的方法和装置中限定的各种功能。
需要说明的是,本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如下述实施例中所述的方法。例如,所述的电子设备可以实现如图1和图2所示的各个步骤等。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种医学数据处理方法,其特征在于,包括:
基于纳排策略获取待处理数据;
按照分析需求对所述待处理数据进行结构化,从结构化后的候选数据中提取出样本数据;
通过所述样本数据确定所述分析需求对应的分析指标,以通过所述分析指标确定对于所述待处理数据的分析结论。
2.根据权利要求1所述的方法,其特征在于,所述按照分析需求对所述待处理数据进行结构化,包括:
根据所述待处理数据的数据来源对所述待处理数据进行分类,获得多个数据集合;
按照所述分析需求确定所述待处理数据的结构化字段;
从各所述数据集合中确定出所述结构化字段的取值,以获得所述候选数据。
3.根据权利要求2所述的方法,其特征在于,所述从结构化后的候选数据中提取出样本数据,包括:
确定各所述数据集合的优先级;
按照所述优先级从各所述数据集合对应的候选数据中获取所述样本数据。
4.根据权利要求1所述的方法,其特征在于,所述通过所述样本数据确定所述分析需求对应的分析指标,以通过所述分析指标确定对于所述待处理数据的分析结论,包括:
按照分类条件对所述样本数据进行分类,以计算各类别的分析指标;
基于各类别的分析指标以及所述分类条件,确定分析指标的影响因素,以确定对于所述待处理数据的分析结论。
5.根据权利要求4所述的方法,其特征在于,所述对所述样本数据进行分类,以计算各分类的分析指标,包括:
按照疾病分期对所述样本数据进行分类,以确定各类别的分析指标。
6.根据权利要求1所述的方法,其特征在于,通过所述样本数据确定所述分析需求对应的分析指标之前,还包括:
对所述样本数据进行验证,根据验证结果确定治疗周期不满足预设值的数据记录;
将所述数据记录从所述样本数据中删去。
7.根据权利要求1所述的方法,其特征在于,所述基于纳排策略获取待处理数据,包括:
针对疾病的分类类型,获取所述分类类型对应的纳排策略,以获取符合所述纳排策略的待处理数据。
8.一种医学数据处理装置,其特征在于,包括:
数据获取模块,用于基于纳排策略获取待处理数据;
数据处理模块,用于按照分析需求对所述待处理数据进行结构化,从结构化后的候选数据中提取出样本数据;
数据分析模块,用于通过所述样本数据确定所述分析需求对应的分析指标,以通过所述分析指标确定对于所述待处理数据的分析结论。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的方法。
CN201911374484.5A 2019-12-27 2019-12-27 医学数据处理方法、装置、介质及电子设备 Pending CN113053479A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911374484.5A CN113053479A (zh) 2019-12-27 2019-12-27 医学数据处理方法、装置、介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911374484.5A CN113053479A (zh) 2019-12-27 2019-12-27 医学数据处理方法、装置、介质及电子设备

Publications (1)

Publication Number Publication Date
CN113053479A true CN113053479A (zh) 2021-06-29

Family

ID=76506498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911374484.5A Pending CN113053479A (zh) 2019-12-27 2019-12-27 医学数据处理方法、装置、介质及电子设备

Country Status (1)

Country Link
CN (1) CN113053479A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609195A (zh) * 2021-08-04 2021-11-05 联仁健康医疗大数据科技股份有限公司 报告生成方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170143287A1 (en) * 2015-11-23 2017-05-25 Siemens Healthcare Gmbh Self-adjusting x-ray imaging method for stereotactic biopsy, x-ray source control device, and stereotactic biopsy machine
CN109448841A (zh) * 2018-11-09 2019-03-08 天津开心生活科技有限公司 建立数据模型方法及装置、临床辅助决策方法及装置
CN109582661A (zh) * 2018-11-23 2019-04-05 金色熊猫有限公司 数据结构化评估方法、装置、存储介质及电子设备
CN109830303A (zh) * 2019-02-01 2019-05-31 上海众恒信息产业股份有限公司 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170143287A1 (en) * 2015-11-23 2017-05-25 Siemens Healthcare Gmbh Self-adjusting x-ray imaging method for stereotactic biopsy, x-ray source control device, and stereotactic biopsy machine
CN109448841A (zh) * 2018-11-09 2019-03-08 天津开心生活科技有限公司 建立数据模型方法及装置、临床辅助决策方法及装置
CN109582661A (zh) * 2018-11-23 2019-04-05 金色熊猫有限公司 数据结构化评估方法、装置、存储介质及电子设备
CN109830303A (zh) * 2019-02-01 2019-05-31 上海众恒信息产业股份有限公司 基于互联网一体化医疗平台的临床数据挖掘分析与辅助决策方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113609195A (zh) * 2021-08-04 2021-11-05 联仁健康医疗大数据科技股份有限公司 报告生成方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Avati et al. Improving palliative care with deep learning
CN107767929B (zh) 病例报告表填写方法、装置、电子设备及存储介质
Polubriaginof et al. Disease heritability inferred from familial relationships reported in medical records
Trivedi et al. Automatic determination of the need for intravenous contrast in musculoskeletal MRI examinations using IBM Watson’s natural language processing algorithm
Taylor et al. Prediction of in‐hospital mortality in emergency department patients with sepsis: a local big data–driven, machine learning approach
US10796782B2 (en) System, method and apparatus to enhance privacy and enable broad sharing of bioinformatic data
US20140350954A1 (en) System and Methods for Personalized Clinical Decision Support Tools
US20130262140A1 (en) Patient cohort matching
CN109634941B (zh) 医疗数据处理方法、装置、电子设备及存储介质
Mehra et al. Database and registry research in thyroid cancer: striving for a new and improved national thyroid cancer database
US20230110360A1 (en) Systems and methods for access management and clustering of genomic, phenotype, and diagnostic data
CN111145847A (zh) 临床试验数据的录入方法及装置、介质和电子设备
US20210174380A1 (en) Efficient data processing to identify information and reformant data files, and applications thereof
EP3329403A1 (en) Reliability measurement in data analysis of altered data sets
Burke et al. Research Evaluation Alongside Clinical Treatment in COVID-19 (REACT COVID-19): an observational and biobanking study
CN109299214B (zh) 文本信息提取方法、装置、介质及电子设备
Upjohn et al. Demystifying AI in healthcare: historical perspectives and current considerations
US20110153344A1 (en) Methods and apparatus for integrated medical case research and collaboration
Surodina et al. Machine learning for risk group identification and user data collection in a herpes simplex virus patient registry: algorithm development and validation study
Li et al. Assessing the validity of aa priori patient-trial generalizability score using real-world data from a large clinical data research network: a colorectal cancer clinical trial case study
CN113053479A (zh) 医学数据处理方法、装置、介质及电子设备
Soh et al. Variability in doctors’ usage paths of mobile electronic health records across specialties: comprehensive analysis of log data
US20230197218A1 (en) Method and system for detection of waste, fraud, and abuse in information access using cognitive artificial intelligence
Macedonia et al. Advanced research and data methods in Women's health: big data analytics, adaptive studies, and the road ahead
US20220189641A1 (en) Opioid Use Disorder Predictor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210629

RJ01 Rejection of invention patent application after publication