CN111128389A - 病因分析方法、装置、系统、存储介质和电子设备 - Google Patents

病因分析方法、装置、系统、存储介质和电子设备 Download PDF

Info

Publication number
CN111128389A
CN111128389A CN201911261663.8A CN201911261663A CN111128389A CN 111128389 A CN111128389 A CN 111128389A CN 201911261663 A CN201911261663 A CN 201911261663A CN 111128389 A CN111128389 A CN 111128389A
Authority
CN
China
Prior art keywords
etiological
independent variable
independent
center
etiology
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911261663.8A
Other languages
English (en)
Other versions
CN111128389B (zh
Inventor
邹存璐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201911261663.8A priority Critical patent/CN111128389B/zh
Publication of CN111128389A publication Critical patent/CN111128389A/zh
Application granted granted Critical
Publication of CN111128389B publication Critical patent/CN111128389B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本公开涉及一种病因分析方法、装置、系统、存储介质和电子设备,应用于分中心,所述分中心用于存储对应的医院的临床数据,所述方法包括:从所述临床数据中获取多个用户的检测信息,其中,所述检测信息包括结果因变量的检测值以及和所述结果因变量对应的多个病因自变量的检测值;根据所述病因自变量的检测值和所述结果因变量的检测值,确定每个病因自变量对应的分布参数;向总中心发送所述分布参数和所述分中心的用户数量,以由所述总中心根据所述分布参数和所述用户数量确定目标病因自变量。因此,无需进行数据脱敏,可以保证原始数据的完整性。并且,既可以有效保护用户的隐私数据,又可以保证病因分析结果的准确性。

Description

病因分析方法、装置、系统、存储介质和电子设备
技术领域
本公开涉及计算机技术领域,具体地,涉及一种病因分析方法、装置、系统、存储介质和电子设备。
背景技术
循证医学研究强调任何医疗决策应当建立在最佳科学研究证据基础上,而支撑循证医学的最基础的证据来自于原始研究中大量的临床数据证据。例如医学原始研究中的病因分析性研究方法,该方法会根据目标疾病以及潜在病因变量对患者的临床诊疗数据进行入排标准筛查,举例来说,可以根据目标变量(如肺炎)以及病因自变量筛选出患者的临床数据以对肺炎进行病因分析性研究。而对于单一医院,往往目标疾病患者数量不足,尤其在研究罕见病时,单一医院的患者样本数量太少,不足以支撑整个研究成果的真实性与可靠性。
现有技术中,为了解决这个问题,会采用联合多家医院进行多中心联合研究的方式,但是由于医疗数据的敏感性,会对来自于多家医院的数据进行脱敏处理,从而根据脱敏处理后的数据进行病因分析性研究。但在上述过程中,一方面难以对脱敏的标准进行衡量,另一方面,若进行脱敏的部分数据与目标疾病有强相关性时,脱敏处理会严重影响确定出的病因分析结果的准确性。
发明内容
本公开的目的是提供一种保证原始数据的完整性和用户隐私的病因分析方法、装置、系统、存储介质和电子设备。
为了实现上述目的,根据本公开的第一方面,提供一种病因分析方法,应用于分中心,所述分中心用于存储对应的医院的临床数据,所述方法包括:
从所述临床数据中获取多个用户的检测信息,其中,所述检测信息包括结果因变量的检测值以及和所述结果因变量对应的多个病因自变量的检测值;
根据所述病因自变量的检测值和所述结果因变量的检测值,确定每个病因自变量对应的分布参数,所述分布参数用于表示所述病因自变量的回归系数在所述分中心下的分布特征,所述回归系数用于表示病因自变量与结果因变量之间的关系;
向总中心发送所述分布参数和所述分中心的用户数量,以由所述总中心根据所述分布参数和所述用户数量确定目标病因自变量。
根据本公开的第二方面,提供一种病因分析方法,应用于总中心,所述总中心与多个分中心进行数据通信,所述多个分中心与多个医院一一对应,所述方法包括:
接收多个分中心发送的多个病因自变量对应的分布参数和每个所述分中心的用户数量,所述分布参数用于表示所述病因自变量的回归系数在发送该分布参数的分中心下的分布特征,所述回归系数用于表示病因自变量与结果因变量之间的关系;
根据对应于同一病因自变量的分布参数和发送对应于同一病因自变量的分布参数的分中心的用户数量,确定该病因自变量的回归系数的显著性检验概率;
根据每个所述病因自变量的回归系数的显著性检验概率确定目标病因自变量。
根据本公开的第三方面,提供一种病因分析装置,应用于分中心,所述分中心用于存储对应的医院的临床数据,所述装置包括:
获取模块,用于从所述临床数据中获取多个用户的检测信息,其中,所述检测信息包括结果因变量的检测值以及和所述结果因变量对应的多个病因自变量的检测值;
第一确定模块,用于根据所述病因自变量的检测值和所述结果因变量的检测值,确定每个病因自变量对应的分布参数,所述分布参数用于表示所述病因自变量的回归系数在所述分中心下的分布特征,所述回归系数用于表示病因自变量与结果因变量之间的关系;
第一发送模块,用于向总中心发送所述分布参数和所述分中心的用户数量,以由所述总中心根据所述分布参数和所述用户数量确定目标病因自变量。
根据本公开的第四方面,提供一种病因分析装置,应用于总中心,所述总中心与多个分中心进行数据通信,所述多个分中心与多个医院一一对应,所述装置包括:
第四接收模块,用于接收多个分中心发送的多个病因自变量对应的分布参数和每个所述分中心的用户数量,所述分布参数用于表示所述病因自变量的回归系数在发送该分布参数的分中心下的分布特征,所述回归系数用于表示病因自变量与结果因变量之间的关系;
第六确定模块,用于根据对应于同一病因自变量的分布参数和发送对应于同一病因自变量的分布参数的分中心的用户数量,确定该病因自变量的回归系数的显著性检验概率;
第七确定模块,用于根据每个所述病因自变量的回归系数的显著性检验概率确定目标病因自变量。
根据本公开的第五方面,提供一种病因分析系统,所述病因分析系统包括:
多个分中心,所述分中心用于存储对应的医院的临床数据,每个所述分中心用于执行上述第一方面所述方法的步骤;
总中心,所述总中心与多个分中心进行数据通信,所述多个分中心与多个医院一一对应,所述总中心用于执行上述第二方面所述方法的步骤。
根据本公开的第六方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面或第二方面所述方法的步骤。
根据本公开的第七方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现上述第一方面或第二方面所述方法的步骤。
在上述技术方案中,分中心可以从临床数据中获取多个用户的检测信息,根据病因自变量的检测值和结果因变量的检测值,确定每个病因自变量对应的分布参数,并向总中心发送分布参数和分中心的用户数量,以由总中心根据分布参数和用户数量确定目标病因自变量。因此,通过上述技术方案,可以由每个分中心基于其存储的临床数据进行分析,从而无需进行数据脱敏,可以保证原始数据的完整性。并且,分中心只将确定出的分布参数和分中心的用户数量发送至总中心,一方面可以有效保护用户的隐私数据,另一方面,也可以有效保证病因分析的样本数据量,从而保证病因分析结果的准确性。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据本公开的一种实施方式提供的病因分析系统的示意图;
图2是根据本公开的一种实施方式提供的病因分析方法的流程图;
图3是根据本公开的另一种实施方式提供的病因分析方法的流程图;
图4是T临界值表的部分示意图;
图5是根据本公开的一种实施方式提供的病因分析装置的框图;
图6是根据本公开的一种实施方式提供的病因分析装置的框图;
图7是根据一示例性实施例示出的一种电子设备的框图;
图8是根据一示例性实施例示出的一种电子设备的框图。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
如背景技术中所述,现有技术中在联合多家医院进行多中心联合研究时,会对医疗数据进行脱敏处理,以保护用户的隐私或者处方等,从而基于脱敏后的数据进行病因分析性研究。但是,某些疾病分析与年龄、性别等变量有强相关的关系,但是进行多中心联合研究时,把该部分(年龄、性别)进行脱敏,则在基于脱敏后的数据进行病因分析性研究时,则会严重影响确定出的病因分析结果的准确性。
为了解决上述问题,本公开提供了一种病因分析系统,如图1所示,为根据本公开的一种实施方式提供的病因分析系统的示意图,该系统包括:
多个分中心10,所述分中心可以是终端或是服务器,且该分中心包括数据库用于存储对应的医院的临床数据,则该分中心可以基于该临床数据独立确定每个病因自变量对应的分布参数,并向总中心发送该分布参数和该分中心的用户数量;
总中心20,所述总中心可以为终端或服务器,并与多个分中心10进行数据通信,所述多个分中心与多个医院一一对应,根据每个分中心发送的分布参数和每个分中心的用户数量确定目标病因自变量,如图1所示,总中心20与4个分中心10进行数据通信,为便于下文说明,4个分中心分别记为分中心A、分中心B、分中心C、分中心D。
本公开该提供一种病因分析方法,如图2所示,为根据本公开的一种实施方式提供的病因分析方法的流程图,所述方法应用于分中心10,所述分中心用于存储对应的医院的临床数据,如图2所示,所述方法包括:
在S11中,从临床数据中获取多个用户的检测信息,其中,所述检测信息包括结果因变量的检测值以及和所述结果因变量对应的多个病因自变量的检测值。
其中,该结果因变量即为要进行病因分析的目标疾病,示例地,以肺癌分析为例,该结果因变量可以通过二值表示,如1表示患病,0表示未患病。又如该结果因变量也可是连续性数值,如剩余生存时间等。
示例地,从临床数据中获取多个用户的检测信息,可以是针对要分析的疾病,将患有该疾病的用户数据作为该多个用户的检测信息。其中,与该结果因变量对应的多个病因自变量可以是该用户的检测信息中包含的全部自变量,也可以是根据预设规则进行初步筛选确定出的部分自变量。例如,可以根据现有技术中已经存在的研究成果,排除掉已确定的部分不相关的自变量,从而简化分析过程,避免计算资源的浪费。
在S12中,根据病因自变量的检测值和结果因变量的检测值,确定每个病因自变量对应的分布参数,所述分布参数用于表示所述病因自变量的回归系数在所述分中心下的分布特征,所述回归系数用于表示病因自变量与结果因变量之间的关系。
示例地,本公开中在进行病因分析时,可以采用单因素回归的方式确定病因自变量和结果因变量之间的关系,例如,预先设置病因自变量和结果因变量对应的单因素回归表达式为:
y=β0jxj
其中,y表示结果因变量,xj表示第j个病因自变量;βj为所述回归系数,β0为常数项,因此,确定病因自变量对应的分布参数,可以是确定βj对应的分布参数。
在S13中,向总中心发送分布参数和分中心的用户数量,以由总中心根据分布参数和用户数量确定目标病因自变量。
在该实施例中,每个分中心可以基于其存储对应的医院的临床数据确定每个病因自变量对应的分布参数,从而只需要将分布参数和该分中心的用户的数量发送至总中心,从而实现各个分中心的数据的联合研究。
在上述技术方案中,分中心可以从临床数据中获取多个用户的检测信息,根据病因自变量的检测值和结果因变量的检测值,确定每个病因自变量对应的分布参数,并向总中心发送分布参数和分中心的用户数量,以由总中心根据分布参数和用户数量确定目标病因自变量。因此,通过上述技术方案,可以由每个分中心基于其存储的临床数据进行分析,从而无需进行数据脱敏,可以保证原始数据的完整性。并且,分中心只将确定出的分布参数和分中心的用户数量发送至总中心,一方面可以有效保护用户的隐私数据,另一方面,也可以有效保证病因分析的样本数据量,从而保证病因分析结果的准确性。
相应地,本公开还提供一种病因分析方法,应用于图1中的总中心20,所述总中心与多个分中心进行数据通信,所述多个分中心与多个医院一一对应,如图3所示,所述方法包括:
在S21中,接收多个分中心发送的多个病因自变量对应的分布参数和每个分中心的用户数量,所述分布参数用于表示所述病因自变量的回归系数在发送该分布参数的分中心下的分布特征,所述回归系数用于表示病因自变量与结果因变量之间的关系。
在S22中,根据对应于同一病因自变量的分布参数和发送对应于同一病因自变量的分布参数的分中心的用户数量,确定该病因自变量的回归系数的显著性检验概率。
示例地,分中心A发送至总中心的为病因自变量1、病因自变量2、病因自变量3和病因自变量4的分布参数,分别记为A1、A2、A3、A4。分中心B发送至总中心的为病因自变量1、病因自变量2、病因自变量3和病因自变量4的分布参数,分别记为B1、B2、B3、B4。分中心C发送至总中心的为病因自变量1、病因自变量2、病因自变量3的分布参数,分别记为C1、C2、C3。分中心D发送至总中心的为病因自变量1、病因自变量2、病因自变量3和病因自变量5的分布参数,分别记为D1、D2、D4、D5。
因此,可以基于A1、B1、C1和D1和分中心A、分中心B、分中心C、分中心D的用户数量确定病因自变量1的回归系数的显著性检验概率,基于A3、B3、C3(其中,分中心D没有病因自变量3的分布参数)和分中心A、分中心B、分中心C的用户数量确定病因自变量3的回归系数的显著性检验概率。
在S23中,根据每个病因自变量的回归系数的显著性检验概率确定目标病因自变量。
通过每个病因自变量的回归系数的显著性检验概率可以确定该病因自变量的回归系数的显著性,即该病因自变量对结果因变量是否有显著影响,因此,则可以将影响最显著的病因自变量确定为该目标病因自变量。
在上述技术方案中,总中心接收多个分中心发送分布参数和用户数量,从而实现各个分中心的协同分析,既可以保证原始数据的完整性,又可以保证总中心进行病因分析的样本量,从而保证病因分析的有效性。并且,在确定目标病因自变量时,根据对应于同一病因自变量的分布参数和发送对应于同一病因自变量的分布参数的分中心的用户数量,确定该病因自变量的回归系数的显著性检验概率,从而根据每个病因自变量的回归系数的显著性检验概率确定目标病因自变量,从而可以基于多个分中心的回归系数分布确定该回归系数在总中心下的分布特征,从而得出全局下的显著性检验概率,以保证得出的目标病因自变量的鲁棒性和准确性。
可选地,当该病因分析方法应用于分中心时,如上示例,预先设置的病因自变量和结果因变量对应的单因素回归表达式为y=β0jxj,βj为第j个病因自变量对应的回归系数,并对该回归系数进行参数估计。其中,则该回归系数服从正态分布,即
Figure BDA0002311759010000071
即所述分布参数包括回归系数方差估计
Figure BDA0002311759010000072
和回归系数期望估计
Figure BDA0002311759010000073
则,所述根据所述病因自变量的检测值和所述结果因变量的检测值,确定每个病因自变量对应的分布参数的一种示例性实现方式如下,包括:
针对每个病因自变量,通过如下方式确定所述分布参数:
Figure BDA0002311759010000074
Figure BDA0002311759010000075
其中,
Figure BDA0002311759010000076
表示在该分中心下的该病因自变量对应的回归表达式中的超参数,所述回归表达式用于表示该病因自变量与结果因变量之间的关系,其中,
Figure BDA0002311759010000077
Figure BDA0002311759010000078
为β0的估计值;
Figure BDA0002311759010000079
表示在该分中心下第j个病因自变量对应的回归系数期望估计;
Figure BDA0002311759010000081
表示在该分中心下第j个病因自变量对应的回归系数方差估计;
xjk表示在该分中心下第j个病因自变量的第k个检测值;
Figure BDA0002311759010000087
表示在该分中心下第j个病因自变量的检测值的平均值;
yk表示在该分中心下所述结果因变量的第k个检测值;
m表示该分中心的用户数量。
通过上述方式可以确定出该分中心下的第j个病因自变量对应的回归系数βj的正态分布的分布参数,从而可以基于其服从的分布确定该回归系数,示例地,可以将回归系数期望估计
Figure BDA0002311759010000086
近似替代该回归系数βj,从而确定病因自变量与结果因变量之间的关系。通过上述技术方案,可以根据原始临床数据中的检测信息确定病因自变量的回归系数的分布参数,便于后续多中心协同分析进行统一的数据分析。
可选地,总中心在接收到多个分中心发送的多个病因自变量对应的分布参数和每个所述分中心的用户数量时,所述根据对应于同一病因自变量的分布参数和发送对应于同一病因自变量的分布参数的分中心的用户数量,确定该病因自变量的回归系数的显著性检验概率的一种示例性实现方式如下,该步骤可以包括:
根据对应于同一病因自变量的分布参数和发送对应于同一病因自变量的分布参数的分中心的用户数量,确定该病因自变量对应的综合分布参数,所述综合分布参数用于表示所述病因自变量的回归系数在所述总中心下的分布特征。
示例地,所述分布参数包括回归系数方差估计和回归系数期望估计;根据对应于同一病因自变量的分布参数和发送对应于同一病因自变量的分布参数的分中心的用户数量,通过如下公式确定该病因自变量对应的综合分布参数:
Figure BDA0002311759010000082
Figure BDA0002311759010000083
其中,
Figure BDA0002311759010000084
表示第j个病因自变量的综合回归系数期望估计;
mi表示第i个分中心的用户数量;
Figure BDA0002311759010000085
表示第i个分中心的第j个病因自变量的回归系数期望估计;
l表示所述发送对应于同一病因自变量的分布参数的分中心的总个数;
Figure BDA0002311759010000091
表示第j个病因自变量的综合回归系数方差估计;
Figure BDA0002311759010000092
表示第i个分中心的第j个病因自变量的回归系数方差估计。
接上述示例,以计算综合回归系数期望估计为例进行如下说明。
针对病因自变量1而言,确定该病因自变量1对应的综合回归系数期望估计
Figure BDA0002311759010000093
公式如下:
Figure BDA0002311759010000094
即所述发送对应于同一病因自变量的分布参数的分中心的总个数l为4,即分中心A、分中心B、分中心C、分中心D的总个数;
针对病因自变量3而言,确定该病因自变量3对应的综合回归系数期望估计
Figure BDA0002311759010000095
公式如下:
Figure BDA0002311759010000096
即所述发送对应于同一病因自变量的分布参数的分中心的总个数l为3,即分中心A、分中心B、分中心C的总个数。
其中,在接收到的针对病因自变量的分布参数只有一个时,例如上述的病因自变量5(只有分中心D发送了该病因自变量5对应的分布参数),确定该病因自变量5对应的综合回归系数期望估计
Figure BDA0002311759010000097
公式如下:
Figure BDA0002311759010000098
即所述发送对应于同一病因自变量的分布参数的分中心的总个数l为1。其他病因自变量的确定方式以此类推,在此不再赘述。
其中,确定病因自变量的综合回归系数方差估计的方式与上文所述类似,在此不再赘述。
由此,通过上述技术方案,总中心可以在不获取分中心的临床数据的情况下,根据各个分中心的临床数据确定全局的回归系数,并且,在确定综合分布时,是基于各个分中心的用户数量进行加权平均,从而可以提高确定出的综合分布参数的准确性。
之后,根据每一所述病因自变量对应的综合分布参数,确定该病因自变量的回归系数的显著性检验概率。
其中,通过上述步骤,确定出各个病因自变量的综合分布参数,即各个病因自变量的回归系数在总中心下的分布特征,从而可以根据其分布特征进行回归系数的显著性检验。
可选地,所述综合分布参数包括综合回归系数方差估计和综合回归系数期望估计;
所述根据每一所述病因自变量对应的综合分布参数,确定该病因自变量的回归系数的显著性检验概率,包括:
根据每一所述病因自变量对应的综合分布参数,通过如下公式确定对该病因自变量的回归系数进行显著性检验的统计量和自由度:
Figure BDA0002311759010000101
Figure BDA0002311759010000102
其中,tCj表示第j个病因自变量的回归系数的显著性检验的所述统计量;
Figure BDA0002311759010000103
表示第j个病因自变量的综合回归系数期望估计;
Figure BDA0002311759010000104
表示第j个病因自变量的综合回归系数方差估计;
l表示所述发送对应于同一病因自变量的分布参数的分中心的总个数;
v表示所述显著性检验的所述自由度;
Q表示病因自变量对应的回归表达式中的超参数的个数;
根据针对每一所述病因自变量的回归系数进行显著性检验的统计量和自由度,确定该病因自变量的回归系数的显著性检验概率。
示例地,在该实施例中,在进行显著性检验时可以采用T检验,因此,可以通过综合回归系数方差估计和综合回归系数期望估计构造T检验的统计量。如上所述,在确定病因自变量的单因素回归的回归表达式中采用了两个超参数,即β0和βj,则在该实施例进行显著性检验时,采用无偏估计的方式,因此,可以在确定显著性检验的自由度时减去回归表达式中的超参数的个数。
在通过上述公式确定出该病因自变量的显著性检验的统计量和自由度之后,可以基于该统计量和自由度查询通过T检验临界值表确定该病因自变量对应的p值(即,显著性检验概率)。如图4所示,为T临界值表的部分示意图。示例地,以单侧检验为例,若针对病因自变量3确定出的统计量为2.528,自由度为20时,则该病因自变量3的回归系数的显著性检验概率为0.01,如图4中S点对应的概率;又如确定出的病因自变量4确定出的统计量为0.687,自由度为20时,则该病因自变量4的回归系数的显著性检验概率为0.25,如图4中G点对应的概率。
因此,通过上述技术方案,可以根据各个病因自变量对应的综合分布参数,确定对该病因自变量进行显著性检验时的统计量和自由度,进而确定其显著性检验概率,为后续确定该病因自变量的回归系数的显著性提供数据支持。
可选地,所述根据每个所述病因自变量的回归系数的显著性检验概率确定目标病因自变量的一种示例性实施方式如下,该步骤可以包括:
若最小的显著性检验概率小于显著性水平阈值,则将所述最小的显著性检验概率对应的病因自变量确定为所述目标病因自变量。
其中,回归系数的显著性检验就是要检验自变量x对因变量y的影响程度是否显著。在该实施例中通过假设检验的方式对病因自变量的回归系数进行显著性检验。示例地,可以预先定义原假设以及显著性水平阈值。采用如下假设:原假设H0:βj=0,即该病因自变量对结果因变量无显著性影响;设置显著性水平阈值可以设置为0.05,若显著性检验概率不小于显著性水平阈值,则接受原假设,即此时表示病因自变量对结果因变量无显著影响;若显著性检验概率小于显著性水平阈值,则拒绝原假设,即此时表示病因自变量对结果因变量有显著影响,且显著性检验概率越小,表示影响程度越显著。
示例地,确定出的病因自变量1的回归系数的显著性检验概率为0.025,确定出的病因自变量2的回归系数的显著性检验概率为0.025,确定出的病因自变量3的回归系数的显著性检验概率为0.01,病因自变量4的回归系数的显著性检验概率为0.25,确定出的病因自变量5的回归系数的显著性检验概率为0.25。因此,可以确定出病因自变量1、病因自变量2、病因自变量3为对结果因变量具有显著影响的变量,而病因自变量4和病因自变量5为对结果因变量无显著影响的变量。
作为示例,最小的显著性检验概率为0.01,且小于显著性水平阈值(0.05),则将该最小的显著性检验概率0.01对应的病因自变量3确定为该目标病因自变量。由此,通过对病因自变量的回归系数的显著性检验,以确定其对应的显著性检验概率,从而可以确定出对结果因变量具有最显著影响的病因自变量,以保证目标病因自变量的准确性。
需要说明的是,显著性水平阈值可以根据实际使用场景进行设置,本公开对此不进行限定。
可选地,若最小的显著性检验概率不小于显著性水平阈值,则表示多个病因自变量中没有对结果因变量具有显著影响的自变量,此时可以结束该病因分析过程。或者,可以预先设置需要分析的目标病因自变量的总个数,因此,在确定出目标病因自变量时检测目标病因自变量的计数,在该计数达到该预先设置的总个数时,结束该病因分析过程。由此,可以根据需要实际的病因分析需求进行病因分析,避免不必要的计算资源的浪费,同时贴合分析需求。
可选地,在总中心确定出目标病因自变量后,应用于该总中心的所述方法还可以包括:
将确定出的所述目标病因自变量和所述目标病因自变量对应的目标回归系数发送至每个所述分中心。其中,所述目标病因自变量对应的目标回归系数可以是该目标病因自变量的回归系数对应的综合回归系数期望估计。
若接收到来自一分中心的反馈消息,则向所述总中心下除该分中心之外的其他分中心分别发送建模请求,其中,所述反馈信息用于表示该分中心的检测信息中不包含所述目标病因自变量,所述建模请求中指示了待确定替代病因自变量的目标病因自变量;
根据接收到的所述其他分中心发送的、对应于同一候选替代病因自变量的分布参数和发送对应于同一候选病因自变量的分布参数的分中心的用户数量,确定该候选病因自变量的回归系数的显著性检验概率;
根据每个所述候选病因自变量的回归系数的显著性检验概率确定所述替代病因自变量。
以下分别根据不同的实施例对上述步骤进行详细说明。
相应地,在总中心将确定出的所述目标病因自变量和所述目标病因自变量对应的目标回归系数发送至每个所述分中心之后,应用于分中心的病因分析方法还可以包括:
接收所述总中心返回的所述目标病因自变量以及所述目标病因自变量对应的目标回归系数;
若所述分中心的检测信息中包含所述目标病因自变量,根据所述目标病因自变量和所述目标回归系数确定剩余结果因变量和剩余病因自变量;
将所述剩余结果因变量确定为新的结果因变量,将所述剩余病因自变量确定为新的病因自变量,并重新执行所述根据所述病因自变量的检测值和所述结果因变量的检测值,确定每个病因自变量对应的分布参数,以及所述向总中心发送所述分布参数和所述分中心的用户数量的步骤。
接上述示例,以下以分中心A作为示例进行说明。分中心A接收到总中心返回的目标病因自变量(即病因自变量3)及目标病因自变量对应的目标回归系数(即病因自变量3的回归系数对应的综合回归系数期望估计)之后,分中心A确定其检测信息中是否包含该病因自变量3,则在确定包含该病因自变量3时,根据目标病因自变量和目标回归系数确定剩余结果因变量和剩余病因自变量。
可选地,所述根据所述目标病因自变量和所述目标回归系数确定剩余结果因变量和剩余病因自变量的一种示例性实现方式如下,包括:
根据所述目标病因自变量和所述目标回归系数,通过如下公式确定所述剩余结果因变量:
Figure BDA0002311759010000131
其中,yResk表示在该分中心下的第k个剩余结果因变量的值;
yk表示在该分中心下所述结果因变量的第k个检测值;
Figure BDA0002311759010000132
表示所述目标回归系数;
xk表示在该分中心下所述目标病因自变量的第k个检测值;
其中,所述剩余病因自变量为所述检测信息中的病因自变量中除所述目标病因自变量之外的其他病因自变量。
也就是说,通过总中心的综合分析,已经确定出病因自变量3对结果因变量具有显著影响,则分中心可以根据总中心返回的病因自变量3及其综合回归系数期望估计,确定剩余结果因变量,即从结果因变量中排除掉病因自变量3的影响,同时从病因自变量中排除该病因自变量3,将剩余结果因变量确定为新的结果因变量,将剩余病因自变量确定为新的病因自变量,通过新的结果因变量和新的病因自变量进行下一步分析。
其中,将剩余结果因变量确定为新的结果因变量,将剩余病因自变量确定为新的病因自变量,并重新执行所述根据所述病因自变量的检测值和所述结果因变量的检测值,确定每个病因自变量对应的分布参数,以及所述向总中心发送所述分布参数和所述分中心的用户数量的步骤,该步骤的具体实施方式已在上文进行详述,在此不再赘述。
同样地,分中心B和分中心C在接收到总中心返回的病因自变量3及其综合回归系数期望估计时,执行上述操作步骤,以进行下一步分析确定新的分布参数。
通过上述技术方案,总中心将确定出的目标病因自变量以及目标病因自变量对应的目标回归系数发送至分中心,则分中心可以基于该目标病因自变量进行迭代递增回归参数的方式,即确定剩余结果因变量和剩余病因自变量,从而根据剩余结果因变量和剩余病因自变量进行迭代计算,从而可以避免全变量回归可能出现的过拟合问题,同时也可以将多因素回归计算简化成单因素回归计算,并保证分中心对应的参数的全局一致性,从而提高多中心协同分析的结果的全局有效性。
可选地,不同分中心对应的医院中,其存储的临床数据中对应的检测信息的维度可能并不完全是一致的,例如上述示例中,分中心A的检测信息汇总包括病因自变量3,但分中心D的检测信息中并不包含病因自变量3,此时分中心D无法进行后续的病因分析。
基于此,所述方法还可以包括:
接收总中心返回的目标病因自变量以及目标病因自变量对应的目标回归系数。
若分中心的检测信息中不包含目标病因自变量,向总中心发送反馈消息,以使总中心在收到反馈消息时,确定目标病因自变量的替代病因自变量;
接收总中心发送的替代病因自变量和替代病因自变量对应的替代回归系数;
若分中心的检测信息中包含替代病因自变量,则根据替代病因自变量、替代回归系数和目标回归系数确定剩余结果因变量和剩余病因自变量;
将剩余结果因变量确定为新的结果因变量,将剩余病因自变量确定为新的病因自变量,并重新执行所述根据所述病因自变量的检测值和所述结果因变量的检测值,确定每个病因自变量对应的分布参数的步骤12,以及所述向总中心发送所述分布参数和所述分中心的用户数量的步骤13。
以下,以分中心D为例进行详细说明。分中心D接收到总中心返回的目标病因自变量(即病因自变量3)及目标病因自变量对应的目标回归系数(即病因自变量3的回归系数对应的综合回归系数期望估计)之后,分中心D确定其检测信息中是否包含该病因自变量3,此时可以确定分中心D的检测信息中不包含该病因自变量3,则分中心D可以向总中心发送一反馈消息,该反馈消息用于通知总中心该分中心D不包含当前确定出的目标病因自变量。
因此,在总中心接收到来自分中心D的反馈消息时,则向所述总中心下除该分中心D之外的其他分中心分别发送建模请求,即总中心向分中心A、分中心B和分中心C分别发送建模请求,该建模请求中指示了待确定替代病因自变量的目标病因自变量为病因自变量3。由此,可以在分中心不包含目标病因自变量时,确定与该目标病因自变量对应替代病因自变量,以有效增加该分中心参与后续病因分析的可能性,保证病因分析的数据样本的丰富性,进而保证病因分析的结果的准确性。
相应地,应用于分中心的病因分析方法还可以包括:
若接收到所述总中心发送的建模请求,则将所述分中心的病因自变量中除所述建模请求中指示的病因自变量之外的病因自变量确定为目标自变量;
将所述建模请求中指示的病因自变量确定为新的结果因变量,将所述目标自变量确定为新的病因自变量,并重新执行所述根据所述病因自变量的检测值和所述结果因变量的检测值,确定每个病因自变量对应的分布参数,以及所述向总中心发送所述分布参数和所述分中心的用户数量的步骤,以使所述总中心根据所述新接收到的分布参数和所述用户数量确定与所述建模请求中指示的病因自变量对应的替代病因自变量。
以下以分中心B为例对接收建模请求时的操作进行说明。分中心B接收到总中心发送的建模请求,则将病因自变量3作为新的结果因变量,将病因自变量1、病因自变量2和病因自变量4作为新的病因自变量,重新执行所述根据所述病因自变量的检测值和所述结果因变量的检测值,确定每个病因自变量对应的分布参数,以及所述向总中心发送所述分布参数和所述分中心的用户数量的步骤。
也就是说,分别确定将病因自变量3作为结果因变量时,病因自变量1、病因自变量2和病因自变量4分别对应的分布参数,并将新确定出的上述分布参数和分中心B的用户数量发送至总中心。其中确定病因自变量对应的分布参数的方式与上文所述确定方式相同,在此不再赘述。
同样地,分中心A接收到建模请求时,确定出将病因自变量3作为结果因变量时,病因自变量1、病因自变量2和病因自变量4分别对应的分布参数,并将新确定的该分布参数和分中心A的用户数量发送至总中心。分中心C接收到建模请求时,确定出将病因自变量3作为结果因变量时,病因自变量1、病因自变量2分别对应的分布参数,并将新确定的该分布参数和分中心A的用户数量发送至总中心。
因此,总中心可以根据接收到的所述其他分中心(即,分中心A、分中心B和分中心C)发送的新的分布参数和分中心的用户数量确定该病因自变量3的替代病因自变量。
示例地,总中心可以根据接收到的所述其他分中心发送的、对应于同一候选替代病因自变量的分布参数和发送对应于同一候选病因自变量的分布参数的分中心的用户数量,确定该候选病因自变量的回归系数的显著性检验概率。例如,根据分中心A、分中心B和分中心C发送的病因自变量1的分布参数和分中心A、分中心B和分中心C的用户数量确定病因自变量1的回归系数的显著性检验概率;根据分中心A、分中心B发送的病因自变量4的分布参数和分中心A、分中心B的用户数量确定病因自变量4的回归系数的显著性检验概率。其中确定回归系数的显著性检验概率的具体实施方式已在上文进行详述,在此不再赘述。
根据每个所述候选病因自变量的回归系数的显著性检验概率确定所述替代病因自变量。
其中,根据每个所述候选病因自变量的回归系数的显著性检验概率确定所述替代病因自变量的方式与上文所述根据每个所述病因自变量的回归系数的显著性检验概率确定目标病因自变量的具体实施方式类似,即若候选病因自变量对应的最小的显著性检验概率小于显著性水平阈值,则将所述最小的显著性检验概率对应的候选病因自变量确定为所述替代病因自变量,具体实施方式在此不再赘述。
可选地,若候选病因自变量对应的最小的显著性检验概率不小于显著性水平阈值,则表示目标病因自变量没有对应的替代病因自变量,此时,不包含该病因自变量的分中心不再参与后续的病因分析过程。
可选地,总中心在确定出目标病因自变量对应的替代病因自变量时,将该替代病因自变量和替代病因自变量对应的替代回归系数发送至不包含该目标病因自变量的分中心,即分中心D。
之后,转回分中心,接收总中心发送的替代病因自变量和替代病因自变量对应的替代回归系数,其中,所述替代病因自变量对应的替代回归系数可以是该替代病因自变量的回归系数对应的综合回归系数期望估计。即,分中心D接收总中心发送的替代病因自变量和替代病因自变量对应的替代回归系数。示例地,该替代病因自变量为病因自变量2。之后,分中心D确定其检测信息中包含该替代病因自变量,则根据所述替代病因自变量、所述替代回归系数和所述目标回归系数确定剩余结果因变量和剩余病因自变量。
可选地,所述根据所述替代病因自变量、所述替代回归系数和所述目标回归系数确定剩余结果因变量和剩余病因自变量的一种示例性实施例如下,包括:
根据所述替代病因自变量、所述替代回归系数和所述目标回归系数通过如下公式确定所述剩余结果因变量:
Figure BDA0002311759010000171
其中,yResk表示在该分中心下的第k个剩余结果因变量的值;
yk表示在该分中心下所述结果因变量的第k个检测值;
Figure BDA0002311759010000172
表示所述目标回归系数;
Figure BDA0002311759010000173
表示所述替代回归系数;
Uk表示在该分中心下所述替代病因自变量的第k个检测值;
Figure BDA0002311759010000174
表示所述替代病因自变量的标准差估计,其中,该标准差估计可以通过该替代病因自变量的综合回归系数方差估计确定,该标准差估计是综合回归系数方差估计的算术平方根,其中,替代病因自变量的综合回归系数方差估计与上文所述确定各个病因自变量的综合回归系数方差估计的方式相同,在此不再赘述;
ε表示高斯分布的噪音随机数;
其中,所述剩余病因自变量为所述检测信息中的病因自变量中除所述替代病因自变量之外的其他病因自变量。
其中,在上述技术方案中,根据替代病因自变量和替代回归系数,通过
Figure BDA0002311759010000175
替代目标病因自变量的检测值。并且,由于替代病因自变量和目标病因自变量之间的误差,在确定剩余结果因变量时,通过增加替代病因自变量的标准差估计
Figure BDA0002311759010000176
的高斯白噪声,从而使得在替代病因自变量和目标病因自变量之间的误差越大时,该分中心后续的病因分析计算结果的显著性越低,反之,在替代病因自变量和目标病因自变量之间的误差越小时,该分中心后续的病因分析计算结果的显著性越高。若替代病因自变量和目标病因自变量之间的误差为0,则表示该替代病因自变量可以完全替代该目标病因自变量。由此,既可以将不包含该目标病因自变量的分中心继续参与后续的病因分析过程,又可以避免替代病因自变量与目标病因自变量之间的误差对后续病因分析的影响,保证病因分析结果的准确性。
将所述剩余结果因变量确定为新的结果因变量,将所述剩余病因自变量确定为新的病因自变量,并重新执行所述根据所述病因自变量的检测值和所述结果因变量的检测值,确定每个病因自变量对应的分布参数,以及所述向总中心发送所述分布参数和所述分中心的用户数量的步骤。其具体实施方式已在上文进行详述,在此不再赘述。
若分中心的检测信息中不包含该替代病因自变量,则该分中心结束病因分析过程。
通过上述技术方案,在分中心的检测信息中的病因自变量的维度不同时,通过确定替代病因自变量的方式,从而可以在一定程度上使得缺少目标病因自变量的分中心可以参与病因分析,从而保证多中心协同分析的数据样本量,同时也可以应对在迭代分析过程中随着迭代次数的增多使得分中心不断减少的问题,进一步提高病因分析的准确性和有效性。
本公开还提供一种病因分析装置,应用于分中心,所述分中心用于存储对应的医院的临床数据,如图5所示,所述装置100包括:
获取模块101,用于从所述临床数据中获取多个用户的检测信息,其中,所述检测信息包括结果因变量的检测值以及和所述结果因变量对应的多个病因自变量的检测值;
第一确定模块102,用于根据所述病因自变量的检测值和所述结果因变量的检测值,确定每个病因自变量对应的分布参数,所述分布参数用于表示所述病因自变量的回归系数在所述分中心下的分布特征,所述回归系数用于表示病因自变量与结果因变量之间的关系;
第一发送模块103,用于向总中心发送所述分布参数和所述分中心的用户数量,以由所述总中心根据所述分布参数和所述用户数量确定目标病因自变量。
可选地,所述装置还包括:
第一接收模块,用于接收所述总中心返回的所述目标病因自变量以及所述目标病因自变量对应的目标回归系数;
第二确定模块,用于在所述分中心的检测信息中包含所述目标病因自变量的情况下,根据所述目标病因自变量和所述目标回归系数确定剩余结果因变量和剩余病因自变量;将所述剩余结果因变量确定为新的结果因变量,将所述剩余病因自变量确定为新的病因自变量,并触发所述第一确定模块根据所述病因自变量的检测值和所述结果因变量的检测值,确定每个病因自变量对应的分布参数,以及所述第一发送模块向总中心发送所述分布参数和所述分中心的用户数量。
可选地,所述分布参数包括回归系数方差估计和回归系数期望估计;
所述第一确定模块用于:针对每个病因自变量,通过如下方式确定所述分布参数:
Figure BDA0002311759010000191
Figure BDA0002311759010000192
其中,
Figure BDA0002311759010000193
表示在该分中心下的该病因自变量对应的回归表达式中的超参数,所述回归表达式用于表示该病因自变量与结果因变量之间的关系,其中,
Figure BDA0002311759010000194
Figure BDA0002311759010000195
表示在该分中心下第j个病因自变量对应的回归系数期望估计;
Figure BDA0002311759010000196
表示在该分中心下第j个病因自变量对应的回归系数方差估计;
xjk表示在该分中心下第j个病因自变量的第k个检测值;
Figure BDA0002311759010000197
表示在该分中心下第j个病因自变量的检测值的平均值;
yk表示在该分中心下所述结果因变量的第k个检测值;
m表示该分中心的用户数量。
可选地,所述第二确定模块用于:
根据所述目标病因自变量和所述目标回归系数,通过如下公式确定所述剩余结果因变量:
Figure BDA0002311759010000198
其中,yResk表示在该分中心下的第k个剩余结果因变量的值;
yk表示在该分中心下所述结果因变量的第k个检测值;
Figure BDA0002311759010000199
表示所述目标回归系数;
xk表示在该分中心下所述目标病因自变量的第k个检测值;
其中,所述剩余病因自变量为所述检测信息中的病因自变量中除所述目标病因自变量之外的其他病因自变量。
可选地,所述装置还包括:
第二接收模块,用于接收所述总中心返回的所述目标病因自变量以及所述目标病因自变量对应的目标回归系数;
第二发送模块,用于在所述分中心的检测信息中不包含所述目标病因自变量的情况下,向所述总中心发送反馈消息,以使所述总中心在收到所述反馈消息时,确定所述目标病因自变量的替代病因自变量;
第三接收模块,用于接收所述总中心发送的所述替代病因自变量和所述替代病因自变量对应的替代回归系数;
第三确定模块,用于在所述分中心的检测信息中包含所述替代病因自变量的情况下,根据所述替代病因自变量、所述替代回归系数和所述目标回归系数确定剩余结果因变量和剩余病因自变量;将所述剩余结果因变量确定为新的结果因变量,将所述剩余病因自变量确定为新的病因自变量,并触发所述第一确定模块根据所述病因自变量的检测值和所述结果因变量的检测值,确定每个病因自变量对应的分布参数,以及所述第一发送模块向总中心发送所述分布参数和所述分中心的用户数量。
可选地,所述第三确定模块用于:
根据所述替代病因自变量、所述替代回归系数和所述目标回归系数通过如下公式确定所述剩余结果因变量:
Figure BDA0002311759010000201
其中,yResk表示在该分中心下的第k个剩余结果因变量的值;
yk表示在该分中心下所述结果因变量的第k个检测值;
Figure BDA0002311759010000202
表示所述目标回归系数;
Figure BDA0002311759010000203
表示所述替代回归系数;
Uk表示在该分中心下所述替代病因自变量的第k个检测值;
Figure BDA0002311759010000204
表示所述替代病因自变量的标准差估计;
ε表示高斯分布的噪音随机数;
其中,所述剩余病因自变量为所述检测信息中的病因自变量中除所述替代病因自变量之外的其他病因自变量。
可选地,所述装置还包括:
第四确定模块,用于在接收到所述总中心发送的建模请求的情况下,将所述分中心的病因自变量中除所述建模请求中指示的病因自变量之外的病因自变量确定为目标自变量;
第五确定模块,用于将所述建模请求中指示的病因自变量确定为新的结果因变量,将所述目标自变量确定为新的病因自变量,并触发所述第一确定模块根据所述病因自变量的检测值和所述结果因变量的检测值,确定每个病因自变量对应的分布参数,以及所述第一发送模块向总中心发送所述分布参数和所述分中心的用户数量,以使所述总中心根据所述新接收到的分布参数和所述用户数量确定与所述建模请求中指示的病因自变量对应的替代病因自变量。
本公开还提供一种病因分析装置,应用于总中心,所述总中心与多个分中心进行数据通信,所述多个分中心与多个医院一一对应,如图6所示,所述装置200包括:
第四接收模块201,用于接收多个分中心发送的多个病因自变量对应的分布参数和每个所述分中心的用户数量,所述分布参数用于表示所述病因自变量的回归系数在发送该分布参数的分中心下的分布特征,所述回归系数用于表示病因自变量与结果因变量之间的关系;
第六确定模块202,用于根据对应于同一病因自变量的分布参数和发送对应于同一病因自变量的分布参数的分中心的用户数量,确定该病因自变量的回归系数的显著性检验概率;
第七确定模块203,用于根据每个所述病因自变量的回归系数的显著性检验概率确定目标病因自变量。
可选地,所述第六确定模块包括:
第一确定子模块,用于根据对应于同一病因自变量的分布参数和发送对应于同一病因自变量的分布参数的分中心的用户数量,确定该病因自变量对应的综合分布参数,所述综合分布参数用于表示所述病因自变量的回归系数在所述总中心下的分布特征;
第二确定子模块,用于根据每一所述病因自变量对应的综合分布参数,确定该病因自变量的回归系数的显著性检验概率。
可选地,所述分布参数包括回归系数方差估计和回归系数期望估计;
所述第一确定子模块用于根据对应于同一病因自变量的分布参数和发送对应于同一病因自变量的分布参数的分中心的用户数量,通过如下公式确定该病因自变量对应的综合分布参数:
Figure BDA0002311759010000211
Figure BDA0002311759010000212
其中,
Figure BDA0002311759010000213
表示第j个病因自变量的综合回归系数期望估计;
mi表示第i个分中心的用户数量;
Figure BDA0002311759010000221
表示第i个分中心的第j个病因自变量的回归系数期望估计;
l表示所述发送对应于同一病因自变量的分布参数的分中心的总个数;
Figure BDA0002311759010000222
表示第j个病因自变量的综合回归系数方差估计;
Figure BDA0002311759010000223
表示第i个分中心的第j个病因自变量的回归系数方差估计。
可选地,所述综合分布参数包括综合回归系数方差估计和综合回归系数期望估计;
所述第二确定子模块包括:
第三确定子模块,用于根据每一所述病因自变量对应的综合分布参数,通过如下公式确定对该病因自变量的回归系数进行显著性检验的统计量和自由度:
Figure BDA0002311759010000224
Figure BDA0002311759010000225
其中,tCj表示第j个病因自变量的回归系数的显著性检验的所述统计量;
Figure BDA0002311759010000226
表示第j个病因自变量的综合回归系数期望估计;
Figure BDA0002311759010000227
表示第j个病因自变量的综合回归系数方差估计;
l表示所述发送对应于同一病因自变量的分布参数的分中心的总个数;
v表示所述显著性检验的所述自由度;
Q表示病因自变量对应的回归表达式中的超参数的个数;
第四确定子模块,用于根据针对每一所述病因自变量的回归系数进行显著性检验的统计量和自由度,确定该病因自变量的回归系数的显著性检验概率。
可选地,所述第七确定模块包括:
若最小的显著性检验概率小于显著性水平阈值,则将所述最小的显著性检验概率对应的病因自变量确定为所述目标病因自变量。
可选地,所述装置还包括:
第三发送模块,用于将确定出的所述目标病因自变量和所述目标病因自变量对应的目标回归系数发送至每个所述分中心;
第四发送模块,用于若接收到来自一分中心的反馈消息,则向所述总中心下除该分中心之外的其他分中心分别发送建模请求,其中,所述反馈信息用于表示该分中心的检测信息中不包含所述目标病因自变量,所述建模请求中指示了待确定替代病因自变量的目标病因自变量;
第八确定模块,用于根据接收到的所述其他分中心发送的、对应于同一候选替代病因自变量的分布参数和发送对应于同一候选病因自变量的分布参数的分中心的用户数量,确定该候选病因自变量的回归系数的显著性检验概率;
第九确定模块,用于根据每个所述候选病因自变量的回归系数的显著性检验概率确定所述替代病因自变量。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是根据一示例性实施例示出的一种电子设备700的框图。如图7所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的病因分析方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的病因分析方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的病因分析方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的病因分析方法。
图8是根据一示例性实施例示出的一种电子设备1900的框图。例如,电子设备1900可以被提供为一服务器。参照图8,电子设备1900包括处理器1922,其数量可以为一个或多个,以及存储器1932,用于存储可由处理器1922执行的计算机程序。存储器1932中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理器1922可以被配置为执行该计算机程序,以执行上述的病因分析方法。
另外,电子设备1900还可以包括电源组件1926和通信组件1950,该电源组件1926可以被配置为执行电子设备1900的电源管理,该通信组件1950可以被配置为实现电子设备1900的通信,例如,有线或无线通信。此外,该电子设备1900还可以包括输入/输出(I/O)接口1958。电子设备1900可以操作基于存储在存储器1932的操作系统,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM等等。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的病因分析方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器1932,上述程序指令可由电子设备1900的处理器1922执行以完成上述的病因分析方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的病因分析方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种病因分析方法,其特征在于,应用于分中心,所述分中心用于存储对应的医院的临床数据,所述方法包括:
从所述临床数据中获取多个用户的检测信息,其中,所述检测信息包括结果因变量的检测值以及和所述结果因变量对应的多个病因自变量的检测值;
根据所述病因自变量的检测值和所述结果因变量的检测值,确定每个病因自变量对应的分布参数,所述分布参数用于表示所述病因自变量的回归系数在所述分中心下的分布特征,所述回归系数用于表示病因自变量与结果因变量之间的关系;
向总中心发送所述分布参数和所述分中心的用户数量,以由所述总中心根据所述分布参数和所述用户数量确定目标病因自变量。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收所述总中心返回的所述目标病因自变量以及所述目标病因自变量对应的目标回归系数;
若所述分中心的检测信息中包含所述目标病因自变量,根据所述目标病因自变量和所述目标回归系数确定剩余结果因变量和剩余病因自变量;
将所述剩余结果因变量确定为新的结果因变量,将所述剩余病因自变量确定为新的病因自变量,并重新执行所述根据所述病因自变量的检测值和所述结果因变量的检测值,确定每个病因自变量对应的分布参数,以及所述向总中心发送所述分布参数和所述分中心的用户数量的步骤。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若接收到所述总中心发送的建模请求,将所述分中心的病因自变量中除建模请求中指示的病因自变量之外的病因自变量确定为目标自变量;
将所述建模请求中指示的病因自变量确定为新的结果因变量,将所述目标自变量确定为新的病因自变量,并重新执行所述根据所述病因自变量的检测值和所述结果因变量的检测值,确定每个病因自变量对应的分布参数,以及所述向总中心发送所述分布参数和所述分中心的用户数量的步骤,以使所述总中心根据所述新接收到的分布参数和所述用户数量确定与所述建模请求中指示的病因自变量对应的替代病因自变量。
4.一种病因分析方法,其特征在于,应用于总中心,所述总中心与多个分中心进行数据通信,所述多个分中心与多个医院一一对应,所述方法包括:
接收多个分中心发送的多个病因自变量对应的分布参数和每个所述分中心的用户数量,所述分布参数用于表示所述病因自变量的回归系数在发送该分布参数的分中心下的分布特征,所述回归系数用于表示病因自变量与结果因变量之间的关系;
根据对应于同一病因自变量的分布参数和发送对应于同一病因自变量的分布参数的分中心的用户数量,确定该病因自变量的回归系数的显著性检验概率;
根据每个所述病因自变量的回归系数的显著性检验概率确定目标病因自变量。
5.根据权利要求4所述的方法,其特征在于,所述根据对应于同一病因自变量的分布参数和发送对应于同一病因自变量的分布参数的分中心的用户数量,确定该病因自变量的回归系数的显著性检验概率,包括:
根据对应于同一病因自变量的分布参数和发送对应于同一病因自变量的分布参数的分中心的用户数量,确定该病因自变量对应的综合分布参数,所述综合分布参数用于表示所述病因自变量的回归系数在所述总中心下的分布特征;
根据每一所述病因自变量对应的综合分布参数,确定该病因自变量的回归系数的显著性检验概率。
6.一种病因分析装置,其特征在于,应用于分中心,所述分中心用于存储对应的医院的临床数据,所述装置包括:
获取模块,用于从所述临床数据中获取多个用户的检测信息,其中,所述检测信息包括结果因变量的检测值以及和所述结果因变量对应的多个病因自变量的检测值;
第一确定模块,用于根据所述病因自变量的检测值和所述结果因变量的检测值,确定每个病因自变量对应的分布参数,所述分布参数用于表示所述病因自变量的回归系数在所述分中心下的分布特征,所述回归系数用于表示病因自变量与结果因变量之间的关系;
第一发送模块,用于向总中心发送所述分布参数和所述分中心的用户数量,以由所述总中心根据所述分布参数和所述用户数量确定目标病因自变量。
7.一种病因分析装置,其特征在于,应用于总中心,所述总中心与多个分中心进行数据通信,所述多个分中心与多个医院一一对应,所述装置包括:
第四接收模块,用于接收多个分中心发送的多个病因自变量对应的分布参数和每个所述分中心的用户数量,所述分布参数用于表示所述病因自变量的回归系数在发送该分布参数的分中心下的分布特征,所述回归系数用于表示病因自变量与结果因变量之间的关系;
第六确定模块,用于根据对应于同一病因自变量的分布参数和发送对应于同一病因自变量的分布参数的分中心的用户数量,确定该病因自变量的回归系数的显著性检验概率;
第七确定模块,用于根据每个所述病因自变量的回归系数的显著性检验概率确定目标病因自变量。
8.一种病因分析系统,其特征在于,所述病因分析系统包括:
多个分中心,所述分中心用于存储对应的医院的临床数据,每个所述分中心用于执行权利要求1-3中任一项所述方法的步骤;
总中心,所述总中心与多个分中心进行数据通信,所述多个分中心与多个医院一一对应,所述总中心用于执行权利要求4或5所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-5中任一项所述方法的步骤。
CN201911261663.8A 2019-12-10 2019-12-10 病因分析方法、装置、系统、存储介质和电子设备 Active CN111128389B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911261663.8A CN111128389B (zh) 2019-12-10 2019-12-10 病因分析方法、装置、系统、存储介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911261663.8A CN111128389B (zh) 2019-12-10 2019-12-10 病因分析方法、装置、系统、存储介质和电子设备

Publications (2)

Publication Number Publication Date
CN111128389A true CN111128389A (zh) 2020-05-08
CN111128389B CN111128389B (zh) 2023-08-11

Family

ID=70498253

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911261663.8A Active CN111128389B (zh) 2019-12-10 2019-12-10 病因分析方法、装置、系统、存储介质和电子设备

Country Status (1)

Country Link
CN (1) CN111128389B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070191721A1 (en) * 2006-02-14 2007-08-16 Jason Parker System and method for managing medical data
WO2007117141A1 (en) * 2006-04-07 2007-10-18 Academisch Ziekenhuis H.O.D.N. Lumc Systems and methods for predicting an individual's risk of developing rheumatoid arthritus
CN101584578A (zh) * 2008-09-10 2009-11-25 上海市肺科医院 一种对结节病与不典型结核病的综合评分参数的分析方法
US20100262434A1 (en) * 2007-12-13 2010-10-14 Shaya Steven A Method and apparatus to calculate diabetic sensitivity factors affecting blood glucose
US20110082672A1 (en) * 2009-10-02 2011-04-07 Nova Southeastern University Statistical model for predicting falling in humans
US20130226611A1 (en) * 2011-03-22 2013-08-29 Keimyung University Industry Academic Cooperation Foundation Significance parameter extraction method and its clinical decision support system for differential diagnosis of abdominal diseases based on entropy rough approximation technology
CN109214672A (zh) * 2018-08-27 2019-01-15 石家庄铁道大学 一种居民出行因素的统计方法、系统及终端设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070191721A1 (en) * 2006-02-14 2007-08-16 Jason Parker System and method for managing medical data
WO2007117141A1 (en) * 2006-04-07 2007-10-18 Academisch Ziekenhuis H.O.D.N. Lumc Systems and methods for predicting an individual's risk of developing rheumatoid arthritus
US20100262434A1 (en) * 2007-12-13 2010-10-14 Shaya Steven A Method and apparatus to calculate diabetic sensitivity factors affecting blood glucose
CN101584578A (zh) * 2008-09-10 2009-11-25 上海市肺科医院 一种对结节病与不典型结核病的综合评分参数的分析方法
US20110082672A1 (en) * 2009-10-02 2011-04-07 Nova Southeastern University Statistical model for predicting falling in humans
US20130226611A1 (en) * 2011-03-22 2013-08-29 Keimyung University Industry Academic Cooperation Foundation Significance parameter extraction method and its clinical decision support system for differential diagnosis of abdominal diseases based on entropy rough approximation technology
CN109214672A (zh) * 2018-08-27 2019-01-15 石家庄铁道大学 一种居民出行因素的统计方法、系统及终端设备

Also Published As

Publication number Publication date
CN111128389B (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
AU2015207845B2 (en) API version testing based on query schema
CN108073519B (zh) 测试用例生成方法和装置
Kulich et al. Improving the efficiency of relative-risk estimation in case-cohort studies
AU2013308885B2 (en) Graph query logic
Liu et al. CUSHAW3: sensitive and accurate base-space and color-space short-read alignment with hybrid seeding
Cakici et al. CASE: a framework for computer supported outbreak detection
Kang et al. Marginal hazards model for case-cohort studies with multiple disease outcomes
USRE47933E1 (en) Reliability estimator for ad hoc applications
US11152087B2 (en) Ensuring quality in electronic health data
CN107222331A (zh) 分布式应用系统性能的监控方法、装置、存储介质及设备
US20200058408A1 (en) Systems, methods, and apparatus for linking family electronic medical records and prediction of medical conditions and health management
Williford et al. Dealing with highly skewed hospital length of stay distributions: the use of Gamma mixture models to study delivery hospitalizations
CN112382406A (zh) 传染病的基本再生数的估算方法及装置、介质和设备
CN111291131A (zh) 数据处理方法、装置、存储介质及电子设备
Robinson et al. Deep learning models for COVID-19 chest x-ray classification: Preventing shortcut learning using feature disentanglement
CN115798602A (zh) 基因调控网络构建方法、装置、设备及存储介质
Kundu et al. Survival trees based on heterogeneity in time‐to‐event and censoring distributions using parameter instability test
CN111161884A (zh) 针对不平衡数据的疾病预测方法、装置、设备及介质
Li et al. Recurrent event data analysis with intermittently observed time‐varying covariates
Geng et al. Goodness‐of‐fit test for a parametric mixture cure model with partly interval‐censored data
Dickman A SEIR-like model with a time-dependent contagion factor describes the dynamics of the Covid-19 pandemic
CN110909824A (zh) 试验数据的核查方法及装置、存储介质及电子设备
CN111128389A (zh) 病因分析方法、装置、系统、存储介质和电子设备
CN113053531B (zh) 医疗数据处理方法、装置、计算机可读存储介质及设备
Qi et al. Generalized semiparametric varying‐coefficient model for longitudinal data with applications to adaptive treatment randomizations

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant