CN114743665A - 患病风险估计网络的优化方法、装置、介质及设备 - Google Patents

患病风险估计网络的优化方法、装置、介质及设备 Download PDF

Info

Publication number
CN114743665A
CN114743665A CN202210278345.8A CN202210278345A CN114743665A CN 114743665 A CN114743665 A CN 114743665A CN 202210278345 A CN202210278345 A CN 202210278345A CN 114743665 A CN114743665 A CN 114743665A
Authority
CN
China
Prior art keywords
patient
loss value
target
samples
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210278345.8A
Other languages
English (en)
Inventor
徐卓扬
赵婷婷
胡岗
孙行智
赵越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210278345.8A priority Critical patent/CN114743665A/zh
Priority to PCT/CN2022/089727 priority patent/WO2023178789A1/zh
Publication of CN114743665A publication Critical patent/CN114743665A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Toxicology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请公开了一种患病风险估计网络的优化方法及系统、存储介质和计算机设备,方法包括:获取患者样本库;在患者样本库中随机选取至少三个患者样本;将至少三个患者样本的样本信息两两输入预设的神经网络中,利用神经网络计算每两个患者样本之间的第一距离,其中,神经网络用于估计患者患病风险;根据第一距离计算神经网络的损失值;将损失值写入损失值列表,并判断损失值列表是否满足预设收敛条件;若不满足,则根据损失值调整神经网络的参数,并返回在患者样本库中随机选取至少三个患者样本的步骤,直至损失值列表满足预设收敛条件。本申请的方法提高了用于患病风险估计的神经网络的精准度。

Description

患病风险估计网络的优化方法、装置、介质及设备
技术领域
本申请涉及智慧医疗技术领域,尤其是涉及到一种患病风险估计网络的优化方法、装置、介质及设备。
背景技术
随着人工智能技术的兴起,其应用场景越发丰富,可以支持疾病辅助诊断、健康管理、远程会诊等功能。在对患者进行疾病诊断的过程中,可以利用人工智能技术判断患者是否为疾病的高发人群,进而为医生的诊断提供参考,以提高医生诊断效率以及准确度。而现有的相似患者估计模型准确度低,其估计结果往往与患者病情不符。
发明内容
有鉴于此,本申请提供了一种患病风险估计网络的优化方法、装置、介质及设备,提高了用于患病风险估计的神经网络的精准度。
根据本申请的一个方面,提供了一种患病风险估计网络的优化方法,包括:
获取患者样本库;
在所述患者样本库中随机选取至少三个患者样本;
将所述至少三个患者样本的样本信息两两输入预设的神经网络中,利用所述神经网络计算每两个所述患者样本之间的第一距离,其中,所述神经网络用于估计患者患病风险;
根据所述第一距离计算所述神经网络的损失值;
将所述损失值写入损失值列表,并判断所述损失值列表是否满足预设收敛条件,其中,所述损失值列表包括每次计算得到的所述神经网络损失值;
若不满足,则根据所述损失值调整所述神经网络的参数,并返回所述在所述患者样本库中随机选取至少三个患者样本的步骤,直至所述损失值列表满足所述预设收敛条件。
可选地,所述根据所述第一距离计算所述神经网络的损失值,具体包括:
在所述至少三个患者样本中选择任两个患者样本作为目标样本,判断两个所述目标样本的患病信息是否相同,并根据判断结果确定与两个所述目标样本对应的预设数值;
将两个所述目标样本之间的第一距离与所述预设数值的差值作为中间差值,并将所述中间差值的平方作为两个所述目标样本之间的子损失值;
根据每两个所述目标样本之间的子损失值确定所述损失值。
可选地,所述将所述至少三个患者样本的样本信息两两输入预设的神经网络中之前,所述方法还包括:
确定所述至少三个患者样本中每个患者样本的患病信息;
若所述至少三个患者样本的患病信息均相同,则重新在患者样本库中随机选取至少三个患者样本。
可选地,所述判断所述损失值列表是否满足预设收敛条件,具体包括:
若所述损失值记录中的损失值数量大于或等于第一预设数量阈值m,且第N+1至第N+m-1个损失函数值均不小于第N个损失函数值,则判定所述损失值列表满足所述预设收敛条件,其中,m为正整数,m>1,N为正整数。
可选地,所述在所述患者样本库中随机选取至少三个患者样本之前,所述方法还包括:
获取患者数据,并根据所述患者数据生成所述患者样本,其中,所述患者样本包括所述样本信息以及所述患病信息,所述样本信息包括患者基本信息、药物信息以及检验信息;
根据所述患者样本建立所述患者样本库。
可选地,所述损失值列表满足所述预设收敛条件之后,所述方法还包括:
分别计算所述目标患者与所述患者样本库中每个患者样本之间的第二距离;
将所述第二距离按照由小至大的顺序排序,得到距离列表,并将所述距离列表中前k个第二距离作为目标距离,其中,k为预设正整数;
根据所述目标距离对应的患者样本判断所述目标患者是否属于疾病高发人群;
若属于,则根据所述目标距离对应的患者样本的药物信息生成推荐药物数据。
可选地,所述根据所述目标距离对应的患者样本判断所述目标患者是否属于疾病高发人群,具体包括:
在与所述目标距离对应的患者样本中,确定所述患病信息为患病的患者样本为目标样本;
若所述目标样本的数量大于第二预设数量阈值,则判定所述目标患者属于所述疾病高发人群;和/或,
若所有所述目标样本的第二距离之和小于预设距离阈值,则判定所述目标患者属于所述疾病高发人群。
根据本申请的另一方面,提供了一种患病风险估计网络的优化装置,包括:
获取模块,用于获取患者样本库;
初始化模块,用于在所述患者样本库中随机选取至少三个患者样本;
计算模块,用于将所述至少三个患者样本的样本信息两两输入预设的神经网络中,利用所述神经网络计算每两个所述患者样本之间的第一距离,其中,所述神经网络用于估计患者患病风险;
所述计算模块,还用于根据所述第一距离计算所述神经网络的损失值;
判断模块,用于将所述损失值写入损失值列表,并判断所述损失值列表是否满足预设收敛条件,其中,所述损失值列表包括每次计算得到的所述神经网络损失值;
优化模块,用于若不满足,则根据所述损失值调整所述神经网络的参数,并返回所述在所述患者样本库中随机选取至少三个患者样本的步骤,直至所述损失值列表满足所述预设收敛条件。
根据本申请又一个方面,提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述患病风险估计网络的优化方法。
根据本申请再一个方面,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述患病风险估计网络的优化方法。
上述基于患病风险估计网络的优化方法、装置、介质及设备所时限的方案中,同时输入至少三个患者样本对神经网络进行训练,通过多次循环训练可区分患者样本不同特征的重要程度,有效提高了神经网络针对目标患者的判断准确度。此外,由于同时训练了相同以及不同结果的患者样本,因此训练效率高,神经网络的精准度高。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1示出了本申请实施例提供的一种患病风险估计网络的优化方法的流程示意图;
图2示出了本申请实施例提供的另一种患病风险估计网络的优化方法的流程示意图;
图3示出了本申请实施例提供的另一种患病风险估计网络的优化方法的流程示意图;
图4示出了本申请实施例提供的另一种患病风险估计网络的优化方法的流程示意图;
图5示出了本申请实施例提供的另一种患病风险估计网络的优化方法的流程示意图;
图6示出了本申请实施例提供的一种患病风险估计网络的优化装置的结构框图;
图7示出了本申请实施例提供的一种计算机社保的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本申请实施例提供了一种基于区块链的去中心化自适应协同训练方法,可以应用在具有指令或程序运行能力的电子设备中,其中,电子设备可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,也可以用独立的服务器或者是多个服务器组成的服务器集群来实现。下面通过具体的实施例对本发明进行详细的描述。
请参阅图1所示,图1为本发明实施例提供的患病风险估计网络的优化方法的一个流程示意图,包括如下步骤:
S101:获取患者样本库;
S102:在患者样本库中随机选取至少三个患者样本;
S103:将至少三个患者样本的样本信息两两输入预设的神经网络中,利用神经网络计算每两个患者样本之间的第一距离,其中,神经网络用于估计患者患病风险;
本发明提供的方法,用于优化患病风险估计网络,其中,患病风险估计网络可以为神经网络,该神经网络可以估计患者患病风险,具体为估计患者是否为疾病高发人群。
其中,本发明利用机器学习方法,通过训练患者样本实现神经网络的优化。具体地,以在患者样本库中随机选取三个患者样本为例,将第一个患者样本以及第二个患者样本的样本信息输入神经网络中,得到第一个患者样本和第二个患者样本之间的第一距离;类似地,将第一个患者样本以及第三个患者样本的样本信息输入神经网络中,得到第一个患者样本和第三个患者样本之间的第一距离;第二个患者样本以及第三个患者样本的样本信息输入神经网络中,得到第二个患者样本和第三个患者样本之间的第一距离;进而利用输出的三个第一距离对神经网络进行优化。
其中,第一距离可以是进行归一化处理后的距离,其值在[0,1]之间。
需要理解的是,这里的神经网络,可以是自组织特征映射网络或学习向量量化网络,也可以是其他神经网络,在此不做限定。
其中,如图2所示,步骤S103中,将至少三个患者样本的样本信息两两输入预设的神经网络中之前,包括如下步骤:
S103-1:确定至少三个患者样本中每个患者样本的患病信息;
S103-2:若至少三个患者样本的患病信息均相同,则重新在患者样本库中随机选取至少三个患者样本。
对于步骤S103-1和S103-2,在随机选取至少三个患者样本后,判断其患病信息是否相同,若所有患者样本的患病信息均相同,则重新随机选取至少三个患者样本,直至有一个患者样本的患病信息与另两个患者样本不同,其中,重新选取的患者样本数量可以与本次随机选取的患者样本数量不同。
其中,患病信息可以为患病或未患病。例如,若随机选取得到的所有患者样本的患病信息均为患病或均为未患病,则重新选取,直至得到至少两个未患病的样本和至少一个患病的样本,或得到至少两个患病的样本和至少一个未患病的样本。
通过此步骤选取多个患者样本并输入神经网络,本发明可以同时训练到患病信息相同的样本以及患病信息不同的样本,也即同时训练了神经网络对于相似关系以及区分关系的处理能力,其训练效率更高,可以更快地得到较精准的神经网络模型。
S104:根据第一距离计算神经网络的损失值;
将至少三个患者样本信息中的两个输入神经网络,输出与这两个样本信息对应的两个患者样本之间的第一距离,进而可构造损失函数,将每个第一距离带入损失函数中以计算神经网络的损失值。
其中,每个样本信息可以包含多个特征,比较两个样本信息中每个特征的异同以及差别,综合分析各个特征得到第一距离。
其中,如图3所示,步骤S104中,根据第一距离计算神经网络的损失值,包括如下步骤:
S104-1:在至少三个患者样本中选择任两个患者样本作为目标样本,判断两个目标样本的患病信息是否相同,并根据判断结果确定与两个目标样本对应的预设数值;
S104-2:将两个目标样本之间的第一距离与预设数值的差值作为中间差值,并将中间差值的平方作为两个目标样本之间的子损失值;
S104-3:根据每两个目标样本之间的子损失值确定损失值。
对于步骤S104-1至S104-3,在该步骤中,在至少三个患者样本中选择两个目标样本,并基于两个目标样本的患病信息来设置与这两个目标样本对应的预设数值,也即预设数值取决于两个目标样本的患病信息。之后利用第一距离与预设数值之间的差值的平方作为这两个目标样本之间的子损失值,利用类似的方法得到每两个目标样本之间的子损失值,并根据所有子损失值确定神经网络的损失值。
在该步骤中,第一距离可以反应两个目标样本的患病信息是否相同,子损失值可以反应针对这两个目标样本的计算误差。本申请在利用子损失值表征第一距离与预设数值的相近程度的同时,利用平方处理使子损失值为非负数,消除了负数对于最终损失值计算的影响。
例如,以选取三个患者样本为例,若第一个目标样本和第二个目标样本的疾病信息相同,而第三个目标样本的疾病信息与前两个目标样本不同,则可以确定第一个目标样本和第二个目标样本对应的预设数值为0,而第一个目标样本和第三个目标样本对应的预设数值为1,第二个目标样本和第三个目标样本对应的预设数值也为1。
在确定每两个目标样本之间的距离e(p1,p2)、e(p1,p3)和e(p2,p3)之后,可以确定第一个目标样本和第二个目标样本之间的子损失值为L1=(e(p1,p2)-0)2,第一个目标样本和第三个目标样本之间的子损失值为L2=(e(p1,p3)-0)2,第二个目标样本和第三个目标样本之间的子损失值为L3=(e(p2,p3)-1)2,进而根据所有子损失值确定神经网络的损失值L=L1+L2+L3。其中,p1、p2和p3分别为第一个、第二个和第三个目标样本的样本信息。
此外,若第一距离的值在[0,1]之间,则可以确定两个疾病信息相同的目标样本对应的预设数值为0,两个疾病信息不同的目标样本对应的预设数值为1;若第一距离的至在[0,d]之间,则可以确定两个疾病信息相同的目标样本对应的预设数值为0,两个疾病信息不同的目标样本对应的预设数值为d。
S105:将损失值写入损失值列表,并判断损失值列表是否满足预设收敛条件,其中,损失值列表包括每次计算得到的神经网络的损失值;
S106:若不满足,则根据损失值调整神经网络的参数,并返回在患者样本库中随机选取至少三个患者样本的步骤,直至损失值列表满足预设收敛条件。
在该步骤中,利用循环的方式,多次根据损失值调整神经网络的参数,使得循环过程中产生的损失值记录满足收敛条件,也即损失值收敛。
具体地,在得到损失值并将损失值写入损失值列表后,若判定列表满足收敛条件,则认为当前的神经网络已经不需再优化,因此结束运算;若判定列表不满足收敛条件,则调整神经网络的参数,以使损失值减小;然后返回随机选取至少三个患者样本的步骤,并将重新选取的患者样本输入神经网络中训练,也即利用调整后的参数重新计算得到新的第一距离以及新的损失值,再次调整参数以使新的损失值减小,经过多次循环之后,神经网络在计算两个样本信息的患病信息之间的第一距离时,其值更加逼近预设数值。
例如,在前述实施例中,L1=(e(p1,p2)-0)2,L2=(e(p1,p3)-0)2,L3=(e(p2,p3)-1)2,经过多次循环使e(p1,p2)的值逼近0,而e(p1,p3)和e(p2,p3)的值逼近1。损失值有效减小,神经网络的计算精度得到提高。
其中,步骤S105中,判断损失值列表是否满足预设收敛条件,具体包括:
若损失值记录中的损失值数量大于或等于第一预设数量阈值m,且第N+1至第N+m-1个损失函数值均不小于第N个损失函数值,则判定损失值列表满足预设收敛条件,其中,m为正整数,m>1,N为正整数。
具体地,每次训练得到一个损失值,在循环多次之后,损失值列表中包含多个损失值,损失值数量大于或等于第一预设阈值m也就是循环次数大于或等于m。其中,m的数值越大,循环次数越多,神经网络的精准度越高。
此外,第N+1至第N+m-1个损失函数值均不小于第N个损失函数值,也即第N个损失函数值小于或等于其之后的若干个损失函数值,在此情况下,可认为损失值已经进入稳态,损失值记录满足收敛条件。
例如,预先设置m=10,则若损失值记录中包括至少10个损失值,并且第N+1至第N+9个损失至均不小于第N个损失值,那么可以认为此时损失值记录满足收敛条件,因而结束循环。
进一步地,此时可将当前的参数作为神经网络的最终参数,也可将输出第N个损失值时所使用的参数作为神经网络的最终参数。
其中,如图4所示,步骤S106后,还包括如下步骤:
S107:分别计算目标患者与患者样本库中每个患者样本之间的第二距离;
S108:将第二距离按照由小至大的顺序排序,得到距离列表,并将距离列表中前k个第二距离作为目标距离,其中,k为预设正整数;
S109:根据目标距离对应的患者样本判断目标患者是否属于疾病高发人群;
S110:若属于,则根据目标距离对应的患者样本的药物信息生成推荐药物数据。
对于步骤S107至S110,在通过多次循环并调整参数,使得损失值列表满足预设收敛条件,得到最终的神经网络之后,可以利用该神经网络分析目标患者的患病风险,也即判断目标患者是否属于患病高发人群。
具体地,将目标患者的信息和患者样本库中的每个患者样本的样本信息输入神经网络中,利用神经网络处理这些信息,得到目标患者与每个患者样本之间的第二距离。可以理解的是,第二距离可以表征目标患者与患者样本之间的相似程度,第二距离越小,则目标患者与患者样本越相似,在此情况下,若患者样本的患病信息为患病,那么目标患者患病的可能性较大。
基于此,可以取数值最小的k个第二距离为目标距离,并根据目标距离对应的患者样本分析目标患者,若目标距离对应的患者样本患病,那么可以认为目标患者属于疾病高发人群;若目标距离对应的患者样本未患病,那么可以认为目标患者不属于疾病高发人群。
进一步地,若判定目标患者属于疾病高发人群,那么分析目标距离对应的患者样本的药物信息,也即分析目标距离对应的患者样本服用了哪些药物、医生诊断处方包含哪些药物等,然后根据这些药物信息生成针对目标患者的推荐药物数据,以辅助医生诊断开药,提高医生工作效率以及准确度。
其中,可以将第二距离按照由小至大的顺序排序得到距离列表,此时距离列表中前k个第二距离即为数值最小的k个第二距离。当然,也可以将第二距离按照由大至小的顺序排序得到距离列表,此时距离列表中后k个第二距离为数值最小的k个第二距离。
其中,步骤S109中,根据目标距离对应的患者样本判断目标患者是否属于疾病高发人群,包括如下步骤:
S109-1:在与目标距离对应的患者样本中,确定患病信息为患病的患者样本为目标样本;
S109-2:若目标样本的数量大于第二预设数量阈值,则判定目标患者属于疾病高发人群;和/或,
S109-3:若所有目标样本的第二距离之和小于预设距离阈值,则判定目标患者属于疾病高发人群。
对于步骤S109-1至S109-3,在分析目标患者的患病风险时,与目标距离对应的患者样本可以作为分析依据。基于此,分析与目标距离对应的患者样本的患病信息,若患病,则确定该患者样本为目标样本,进而根据目标样本的数量或者目标样本与目标患者之间的第二距离来分析目标患者的患病风险。本申请提供了两种判断目标患者是否属于疾病高发人群的方法,适用于不同场景或不同需求。
具体地,若根据目标样本的数量分析,那么在目标样本的数量大于第二预设阈值时,也即与目标距离对应的患者样本中,患病信息为患病的样本数量够大时,可以认为目标患者属于疾病高发人群。
若根据目标样本与目标患者之间的第二距离分析,那么可以计算所有目标样本与目标患者之间的第二距离之和,若其和小于预设距离阈值,也即与目标距离对应的患者样本中,患病信息为患病的样本与目标患者的相似度够高时,可以认为目标患者属于疾病高发人群。
其中,如图5所示,步骤S101中,在患者样本库中随机选取至少三个患者样本之前,包括如下步骤:
S100-1:获取患者数据,并根据患者数据生成患者样本,其中,患者样本包括样本信息以及患病信息,样本信息包括患者基本信息、药物信息以及检验信息;
S100-2:根据患者样本建立患者样本库。
对于步骤S100-1至S100-2,首先需要建立患者样本库,进而从患者样本库中选取患者。
其中,患者基本信息包括:性别、年龄、收入、职业、婚育史、既往病史、遗传病史等;患病信息包括:疾病种类以及是否患病等;检验信息与疾病种类相对应,包括检查该种类疾病通常需要的检查项目以及检查结果;药物信息为与疾病种类对应的信息,可包括患者的服药信息以及医生的诊断开药信息。
其中,检验项目信息中的检查项目可以根据患者历史就医记录得出,也可由有经验的医生提供。例如,对于患者A,疾病种类为糖尿病时,检验项目信息可以包括:糖化血红蛋白、低密度脂蛋白胆固醇、血尿酸、尿蛋白、甘油三酯、空腹血糖等;与疾病种类对应的用药信息中,患者的服药信息可以包括是否使用二甲双胍、是否使用磺脲类药物、是否使用GLP-1、是否使用DPP4等。
可见,在上述方案中,同时输入至少三个患者样本对神经网络进行训练,由于同时训练了相同以及不同结果的患者样本,训练效率高,神经网络的精准度高。此外,本申请不仅仅只针对样本信息进行相似度量,在训练过程中还引入了表征结果的患病信息,通过多次循环训练可区分患者样本不同特征的重要程度,进一步提高了神经网络针对目标患者的判断准确度。进一步地,利用神经网络可以估计非线性关系的特性,解决了现有技术利用线性模型计算第一距离所导致的效率低等问题。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种患病风险估计网络的优化装置,该患病风险估计网络的优化装置与上述实施例中患病风险估计网络的优化方法一一对应。如图6所示,该患病风险估计网络的优化装置包括:获取模块、初始化模块、计算模块、判断模块以及优化模块。各功能模块详细说明如下:
获取模块,用于获取患者样本库;
初始化模块,用于在患者样本库中随机选取至少三个患者样本;
计算模块,用于将至少三个患者样本的样本信息两两输入预设的神经网络中,利用神经网络计算每两个患者样本之间的第一距离,其中,神经网络用于估计患者患病风险;
计算模块,还用于利根据第一距离计算神经网络的损失值;
判断模块,用于将损失值写入损失值列表,并判断损失值列表是否满足预设收敛条件,其中,损失值列表包括每次计算得到的神经网络损失值;
优化模块,用于若不满足,则根据损失值调整神经网络的参数,并返回在患者样本库中随机选取至少三个患者样本的步骤,直至损失值列表满足预设收敛条件。
在一实施例中,计算模块,具体用于:
在至少三个患者样本中选择任两个患者样本作为目标样本,判断两个目标样本的患病信息是否相同,并根据判断结果确定与两个目标样本对应的预设数值;
将两个目标样本之间的第一距离与预设数值的差值作为中间差值,并将中间差值的平方作为两个目标样本之间的子损失值;
根据每两个目标样本之间的子损失值确定损失值。
在一实施例中,计算模块,还用于:
确定至少三个患者样本中每个患者样本的患病信息;
若至少三个患者样本的患病信息均相同,则重新在患者样本库中随机选取至少三个患者样本。
在一实施例中,判定损失值列表是否满足预设收敛条件,具体包括:
若损失值记录中的损失值数量大于或等于第一预设数量阈值m,且第N+1至第N+m-1个损失函数值均不小于第N个损失函数值,则判定所述损失值列表满足所述预设收敛条件,其中,m为正整数,m>1,N为正整数。
在一实施例中,装置还包括样本库建立模块,具体用于:
获取患者数据,并根据患者数据生成患者样本,其中,患者样本包括样本信息以及患病信息,样本信息包括患者基本信息、药物信息以及检验信息;
根据患者样本建立患者样本库。
在一实施例中,装置还包括分析模块,具体用于:
分别计算目标患者与患者样本库中每个患者样本之间的第二距离;
将第二距离按照由小至大的顺序排序,得到距离列表,并将距离列表中前k个第二距离作为目标距离,其中,k为预设正整数;
根据目标距离对应的患者样本判断目标患者是否属于疾病高发人群;
若属于,则根据目标距离对应的患者样本的药物信息生成推荐药物数据。
在一实施例中,分析模块,具体用于:
在与目标距离对应的患者样本中,确定患病信息为患病的患者样本为目标样本;
若目标样本的数量大于第二预设数量阈值,则判定目标患者属于疾病高发人群;和/或,
若所有目标样本的第二距离之和小于预设距离阈值,则判定目标患者属于疾病高发人群。
在一个实施例中,提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
在患者样本库中随机选取至少三个患者样本,并将至少三个患者样本的样本信息两两输入预设的神经网络中,其中,神经网络用于估计患者患病风险;
利用神经网络计算每两个患者样本之间的第一距离,并根据第一距离计算神经网络的损失值;
将损失值写入损失值列表,并判断损失值列表是否满足预设收敛条件,其中,损失值列表包括每次计算得到的神经网络损失值;
若不满足,则根据损失值调整神经网络的参数,并重新在患者样本库中随机选取至少三个患者样本,利用调整后的参数重新计算第一距离以及损失值;
若满足,则结束运算。
该计算机设备内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机程序被处理器执行时以实现一种上述患病风险估计网络的优化方法的功能或步骤。
在一个实施例中,提供了一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
在患者样本库中随机选取至少三个患者样本,并将至少三个患者样本的样本信息两两输入预设的神经网络中,其中,神经网络用于估计患者患病风险;
利用神经网络计算每两个患者样本之间的第一距离,并根据第一距离计算神经网络的损失值;
将损失值写入损失值列表,并判断损失值列表是否满足预设收敛条件,其中,损失值列表包括每次计算得到的神经网络损失值;
若不满足,则根据损失值调整神经网络的参数,并重新在患者样本库中随机选取至少三个患者样本,利用调整后的参数重新计算第一距离以及损失值;
若满足,则结束运算。
需要说明的是,上述关于存储介质或计算机设备所能实现的功能或步骤,可对应参阅前述方法实施例中的相关描述,为避免重复,这里不再一一描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的单元或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的系统中的单元可以按照实施场景描述进行分布于实施场景的系统中,也可以进行相应变化位于不同于本实施场景的一个或多个系统中。上述实施场景的单元可以合并为一个单元,也可以进一步拆分成多个子单元。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。

Claims (10)

1.一种患病风险估计网络的优化方法,其特征在于,所述方法包括:
获取患者样本库;
在所述患者样本库中随机选取至少三个患者样本;
将所述三个患者样本的样本信息两两输入预设的神经网络中,利用所述神经网络计算每两个所述患者样本之间的第一距离,其中,所述神经网络用于估计患者患病风险;
根据所述第一距离计算所述神经网络的损失值;将所述损失值写入损失值列表,并判断所述损失值列表是否满足预设收敛条件,其中,所述损失值列表包括每次计算得到的所述神经网络损失值;
若不满足,则根据所述损失值调整所述神经网络的参数,并返回所述在所述患者样本库中随机选取至少三个患者样本的步骤,直至所述损失值列表满足所述预设收敛条件。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一距离计算所述神经网络的损失值,具体包括:
在所述至少三个患者样本中选择任两个患者样本作为目标样本,判断两个所述目标样本的患病信息是否相同,并根据判断结果确定与两个所述目标样本对应的预设数值;
将两个所述目标样本之间的第一距离与所述预设数值的差值作为中间差值,并将所述中间差值的平方作为两个所述目标样本之间的子损失值;
根据每两个所述目标样本之间的子损失值确定所述损失值。
3.根据权利要求2所述的方法,其特征在于,所述将所述至少三个患者样本的样本信息两两输入预设的神经网络中之前,所述方法还包括:
确定所述至少三个患者样本中每个患者样本的患病信息;
若所述至少三个患者样本的患病信息均相同,则重新在患者样本库中随机选取至少三个患者样本。
4.根据权利要求1所述的方法,其特征在于,所述判断所述损失值列表是否满足预设收敛条件,具体包括:
若所述损失值记录中的损失值数量大于或等于第一预设数量阈值m,且第N+1至第N+m-1个损失函数值均不小于第N个损失函数值,则判定所述损失值列表满足所述预设收敛条件,其中,m为正整数,m>1,N为正整数。
5.根据权利要求3所述的方法,其特征在于,所述在所述患者样本库中随机选取至少三个患者样本之前,所述方法还包括:
获取患者数据,并根据所述患者数据生成所述患者样本,其中,所述患者样本包括所述样本信息以及所述患病信息,所述样本信息包括患者基本信息、药物信息以及检验信息;
根据所述患者样本建立所述患者样本库。
6.根据权利要求5所述的方法,其特征在于,所述损失值列表满足所述预设收敛条件之后,所述方法还包括:
分别计算所述目标患者与所述患者样本库中每个患者样本之间的第二距离;
将所述第二距离按照由小至大的顺序排序,得到距离列表,并将所述距离列表中前k个第二距离作为目标距离,其中,k为预设正整数;
根据所述目标距离对应的患者样本判断所述目标患者是否属于疾病高发人群;
若属于,则根据所述目标距离对应的患者样本的药物信息生成推荐药物数据。
7.根据权利要求6所述的方法,其特征在于,所述根据所述目标距离对应的患者样本判断所述目标患者是否属于疾病高发人群,具体包括:
在与所述目标距离对应的患者样本中,确定所述患病信息为患病的患者样本为目标样本;
若所述目标样本的数量大于第二预设数量阈值,则判定所述目标患者属于所述疾病高发人群;和/或,
若所有所述目标样本的第二距离之和小于预设距离阈值,则判定所述目标患者属于所述疾病高发人群。
8.一种患病风险估计网络的优化装置,其特征在于,所述装置包括:
获取模块,用于获取患者样本库;
初始化模块,用于在所述患者样本库中随机选取至少三个患者样本;
计算模块,用于将所述至少三个患者样本的样本信息两两输入预设的神经网络中,利用所述神经网络计算每两个所述患者样本之间的第一距离,其中,所述神经网络用于估计患者患病风险;
所述计算模块,还用于根据所述第一距离计算所述神经网络的损失值;
判断模块,用于将所述损失值写入损失值列表,并判断所述损失值列表是否满足预设收敛条件,其中,所述损失值列表包括每次计算得到的所述神经网络损失值;
优化模块,用于若不满足,则根据所述损失值调整所述神经网络的参数,并返回所述在所述患者样本库中随机选取至少三个患者样本的步骤,直至所述损失值列表满足所述预设收敛条件。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法的步骤。
10.一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法。
CN202210278345.8A 2022-03-21 2022-03-21 患病风险估计网络的优化方法、装置、介质及设备 Pending CN114743665A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210278345.8A CN114743665A (zh) 2022-03-21 2022-03-21 患病风险估计网络的优化方法、装置、介质及设备
PCT/CN2022/089727 WO2023178789A1 (zh) 2022-03-21 2022-04-28 患病风险估计网络的优化方法、装置、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210278345.8A CN114743665A (zh) 2022-03-21 2022-03-21 患病风险估计网络的优化方法、装置、介质及设备

Publications (1)

Publication Number Publication Date
CN114743665A true CN114743665A (zh) 2022-07-12

Family

ID=82276211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210278345.8A Pending CN114743665A (zh) 2022-03-21 2022-03-21 患病风险估计网络的优化方法、装置、介质及设备

Country Status (2)

Country Link
CN (1) CN114743665A (zh)
WO (1) WO2023178789A1 (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509963B (zh) * 2017-02-28 2023-04-28 株式会社日立制作所 基于深度学习的目标差异性检测方法和目标差异性检测设备
CN108985135A (zh) * 2017-06-02 2018-12-11 腾讯科技(深圳)有限公司 一种人脸检测器训练方法、装置及电子设备
KR101898414B1 (ko) * 2018-04-24 2018-09-12 한림대학교 산학협력단 3차원 안구 움직임 측정 방법 및 전자동 딥러닝 기반 어지럼 진단 시스템
CN109493971A (zh) * 2019-01-25 2019-03-19 中电健康云科技有限公司 基于舌相识别的脂肪肝预测方法及装置
CN112017742B (zh) * 2020-09-08 2024-05-24 平安科技(深圳)有限公司 分诊数据处理方法、装置、计算机设备及存储介质
CN113705311A (zh) * 2021-04-02 2021-11-26 腾讯科技(深圳)有限公司 图像处理方法和装置、存储介质及电子装置

Also Published As

Publication number Publication date
WO2023178789A1 (zh) 2023-09-28

Similar Documents

Publication Publication Date Title
EP3667301B1 (en) Method and system for determining concentration of an analyte in a sample of a bodily fluid, and method and system for generating a software-implemented module
CN112017789B (zh) 分诊数据处理方法、装置、设备及介质
CN112016318B (zh) 基于解释模型的分诊信息推荐方法、装置、设备及介质
WO2020034801A1 (zh) 医疗特征筛选方法、装置、计算机设备和存储介质
CN112639833A (zh) 可自适应神经网络
CN113705685B (zh) 疾病特征识别模型训练、疾病特征识别方法、装置及设备
CN112132624A (zh) 医疗理赔数据预测系统
CN111312341B (zh) 华法林剂量预测方法及预测装置
CN112447270A (zh) 一种用药推荐方法、装置、设备及存储介质
CN116864139A (zh) 疾病风险评估方法、装置、计算机设备及可读存储介质
CN117612703A (zh) 一种基于医学检验指标的糖尿病视网膜病变分类方法
WO2021139223A1 (zh) 分群模型的解释方法、装置、计算机设备和存储介质
CN112017788B (zh) 基于强化学习模型的疾病排序方法、装置、设备及介质
CN116313086A (zh) 一种亚健康预测模型构建方法、装置、设备及存储介质
CN114743665A (zh) 患病风险估计网络的优化方法、装置、介质及设备
CN112382395B (zh) 基于机器学习的一体化建模系统
Prakash et al. RETRACTED ARTICLE: Deep multilayer and nonlinear Kernelized Lasso feature learning for healthcare in big data environment
CN113782187A (zh) 指标数据处理方法、相关设备及介质
WO2020142035A1 (en) Disease diagnosis system
US20220208356A1 (en) Radiological Based Methods and Systems for Detection of Maladies
CN116597971B (zh) 基于数字孪生的医院空间优化模拟方法及系统
CN116486975A (zh) 缺失数据的填充方法、装置、设备及介质
Tasnim et al. Comparative Performance Analysis of Feature Selection for Mortality Prediction in ICU with Explainable Artificial Intelligence
CN118172645A (zh) 一种人工智能图像识别方法、装置和电子设备
Antony Seba et al. Perceptive Analysis of Chronic Kidney Disease Data Through Conceptual Visualization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination