CN114913986B - 一种医疗对象聚类方法、装置、电子设备及存储介质 - Google Patents

一种医疗对象聚类方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114913986B
CN114913986B CN202210829754.2A CN202210829754A CN114913986B CN 114913986 B CN114913986 B CN 114913986B CN 202210829754 A CN202210829754 A CN 202210829754A CN 114913986 B CN114913986 B CN 114913986B
Authority
CN
China
Prior art keywords
feature
data set
sub
feature data
medical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210829754.2A
Other languages
English (en)
Other versions
CN114913986A (zh
Inventor
杨翠
刘万利
谢静
田言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
West China Hospital of Sichuan University
Original Assignee
West China Hospital of Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by West China Hospital of Sichuan University filed Critical West China Hospital of Sichuan University
Priority to CN202210829754.2A priority Critical patent/CN114913986B/zh
Publication of CN114913986A publication Critical patent/CN114913986A/zh
Application granted granted Critical
Publication of CN114913986B publication Critical patent/CN114913986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本申请实施例公开了一种医疗对象聚类方法、装置、电子设备及存储介质,该方法包括:获取医疗特征数据集;将医疗特征数据集输入聚类模型,得到每个医疗对象所属的聚类簇;从医疗特征数据集中,获取聚类簇对应的子特征数据集;根据子特征数据集中特征的条件关联结构,对子特征数据集中特征的频次进行二次分配,得到所述子特征数据集中每个特征对应的二次分配频次;基于所述子特征数据集中每个特征对应的二次分配频次估计每个特征对应的条件概率;根据所述条件概率对预设分类模型进行训练,得到目标医疗对象分类模型,并基于所述目标医疗对象分类模型对待分类医疗对象进行分类。本申请提升医疗对象分类可靠性。

Description

一种医疗对象聚类方法、装置、电子设备及存储介质
技术领域
本申请涉及人工智能技术领域,具体涉及一种医疗对象聚类方法、装置、电子设备及存储介质。
背景技术
在现行的医疗对象分类方式中,医院根据不同的医疗对象来源(即门诊医疗对象、住院医疗对象和急诊医疗对象等)的标准对医疗对象进行分类,然后根据对应的分类进行后续安排。
但是,仅仅依靠医疗对象来源的标准并不能很好的反映医疗对象的真实情况,从而存在使得医疗对象等待时间过长而不能及时获取所匹配的医疗项目的问题。另外,由于医疗资源有限的情况下,医疗资源不能与医疗对象很好的匹配起来,例如,导致病情紧急/严重的医疗对象不能及时获得优质的治疗资源,从而丧失最佳的诊疗时机。因此,现有技术中存在医疗对象分类可靠性较差的问题。
发明内容
本申请实施例提供一种医疗对象聚类方法及相关装置,旨在提升医疗对象分类可靠性。
为解决上述技术问题,本申请实施例提供以下技术方案:
根据本申请的一个实施例,一种医疗对象聚类方法,包括:获取医疗特征数据集,所述医疗特征数据集中包括多个医疗对象以及每个所述医疗对象对应的特征;将所述医疗特征数据集输入聚类模型,得到每个所述医疗对象所属的聚类簇,其中,每个所述聚类簇对应一个类别;从所述医疗特征数据集中,获取所述聚类簇对应的子特征数据集;根据所述子特征数据集中特征的条件关联结构,对所述子特征数据集中特征的频次进行二次分配,得到所述子特征数据集中每个特征对应的二次分配频次,所述条件关联结构为特征之间的条件关系所对应结构,所述特征的频次为所述特征在对应的子特征数据集中出现的个数;基于所述子特征数据集中每个特征对应的二次分配频次估计每个特征对应的条件概率;根据所述条件概率对预设分类模型进行训练,得到目标医疗对象分类模型,并基于所述目标医疗对象分类模型对待分类医疗对象进行分类。
根据本申请的一个实施例,一种医疗对象聚类装置,包括:获取模块,用于获取医疗特征数据集,所述医疗特征数据集中包括多个医疗对象以及每个所述医疗对象对应的特征;聚类模块,用于将所述医疗特征数据集输入聚类模型,得到每个所述医疗对象所属的聚类簇,其中,每个所述聚类簇对应一个类别;划分模块,用于从所述医疗特征数据集中,获取所述聚类簇对应的子特征数据集;分配模块,用于根据所述子特征数据集中特征的条件关联结构,对所述子特征数据集中特征的频次进行二次分配,得到所述子特征数据集中每个特征对应的二次分配频次;估计模块,用于基于所述子特征数据集中每个特征对应的二次分配频次估计每个特征对应的条件概率;分类模块,用于根据所述条件概率对预设分类模型进行训练,得到目标医疗对象分类模型,并基于所述目标医疗对象分类模型对待分类医疗对象进行分类。
在本申请的一些实施例中,所述装置还包括:匹配表获取模块,用于获取条件关系匹配表,所述条件关系匹配表中预设有特征样本之间的条件关联结构;关系匹配模块,用于基于所述子特征数据集中所包含的特征与所述条件关系匹配表中预设的特征样本的匹配关系,确定所述子特征数据集中特征的条件关联结构。
在本申请的一些实施例中,所述装置还包括:特征获取模块,用于获取所述子特征数据集中所包含的特征;结构分析模块,用于将所述子特征数据集中所包含的特征,输入结构分析模型,得到所述结构分析模型输出的所述子特征数据集中特征的条件关联结构。
在本申请的一些实施例中,所述分配模块,包括:策略确定单元,用于根据所述子特征数据集中特征的条件关联结构,确定所述子特征数据集对应的二次分配策略;策略分配单元,用于根据所述子特征数据集对应的二次分配策略,对所述子特征数据集中特征的频次进行二次分配,得到所述子特征数据集每个特征对应的二次分配频次。
在本申请的一些实施例中,所述二次分配策略包括平滑处理策略,所述策略分配单元,用于:根据所述平滑处理策略,对所述子特征数据集每个特征的频次进行平滑处理,得到每个特征对应的平滑处理后的频次;将每个特征对应的平滑处理后的频次,确定为所述子特征数据集每个特征对应的二次分配频次。
在本申请的一些实施例中,所述二次分配策略包括基于频次分配模型的分配策略;所述策略分配单元,用于:获取所述子特征数据集中各特征的频次及所属医疗对象;将各特征的频次及所属医疗对象,输入所述频次分配模型,得到所述子特征数据集中每个特征对应的二次分配频次。
在本申请的一些实施例中,所述分类模块,包括:参数训练模块,用于根据各所述子特征数据集中每个特征对应的条件概率,对预设分类模型进行训练,以使得所述预设分类模型确定各所述子特征数据集中特征所对应的参数分布;参数确定模块,用于将各所述子特征数据集中特征所对应的参数分布,作为所述预设分类模型在各所述子特征数据集所对应类别下的模型参数分布,得到所述目标医疗对象分类模型。
根据本申请的另一实施例,一种电子设备可以包括:存储器,存储有计算机可读指令;处理器,读取存储器存储的计算机可读指令,以执行本申请实施例所述的方法。
根据本申请的另一实施例,一种存储介质,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行本申请实施例所述的方法。
本申请实施例通过获取医疗特征数据集,该医疗特征数据集中包括多个医疗对象以及每个医疗对象对应特征的特征数据;将医疗特征数据集输入聚类模型,得到每个医疗对象所属的聚类簇,其中,每个聚类簇对应一个类别;从医疗特征数据集中,获取聚类簇对应的子特征数据集;根据子特征数据集中特征的条件关联结构,对子特征数据集中特征的频次进行二次分配,得到子特征数据集中每个特征对应的二次分配频次;基于子特征数据集中每个特征对应的二次分配频次估计每个特征对应的条件概率;根据条件概率对预设分类模型进行训练,得到目标医疗对象分类模型,并基于目标医疗对象分类模型对待分类医疗对象进行分类。
以这种方式,首先通过聚类处理,可以基于医疗对象之间的特征相似性为医疗对象标定类别;然后,对各类别下的子特征数据集中特征的频次进行二次分配,可以使得稀疏性特征分配到对应的二次分配频次;进而,基于子特征数据集中每个特征对应的二次分配频次估计每个特征对应的条件概率,根据条件概率对预设分类模型进行训练,可以使得训练得到的目标医疗对象分类模型学习到每个特征对应的参数;进而,基于目标医疗对象分类模型对待分类医疗对象进行分类,可以准确评估医疗对象的真实情况,可以根据不同类别的医疗对象进行对应可靠处理,例如根据不同类别分配对应的医疗资源,进而有效提升医疗对象分类的可靠性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了可以应用本申请实施例的系统的示意图。
图2示出了根据本申请的一个实施例的医疗对象聚类方法的流程图。
图3示出了根据本申请的一个实施例的二次分配的方法的流程图。
图4示出了根据本申请的一个实施例的平滑处理的方法的流程图。
图5示出了根据本申请的一个实施例的基于频次分配模型的分配的方法的流程图。
图6示出了应用本申请的实施例的一种场景下医疗对象分类的流程图。
图7示出了根据本申请的一个实施例的医疗对象聚类装置的框图。
图8示出了根据本申请的一个实施例的电子设备的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在以下的说明中,本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明,除非另有述明。因此,这些步骤及操作将有数次提到由计算机执行,本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处,其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置,其具有由该数据格式所定义的特定特性。但是,本申请原理以上述文字来说明,其并不代表为一种限制,本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。
图1示出了可以应用本申请实施例的系统100的示意图。如图1所示,系统100可以包括服务器101及终端102,服务器101上可以存储医疗数据,用户可以通过终端102上保存医疗数据。
服务器101可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,例如,服务器101为医院中设置的用于存储医疗数据的服务器。终端102可以是边缘设备,例如智能手机,电脑等,例如,终端102为归属于某个科室或某个医生的电脑。
其中,终端102和服务器101可以通过无线通信方式进行直接或间接地连接,本申请在此不做特殊限制。
本示例的一种实施方式中,终端102可以获取医疗特征数据集,该医疗特征数据集中包括多个医疗对象以及每个医疗对象对应特征的特征数据;将医疗特征数据集输入聚类模型,得到每个医疗对象所属的聚类簇,其中,每个聚类簇对应一个类别;从医疗特征数据集中,获取聚类簇对应的子特征数据集;根据子特征数据集中特征的条件关联结构,对子特征数据集中特征的频次进行二次分配,得到子特征数据集中每个特征对应的二次分配频次,条件关联结构为特征之间的条件关系所对应结构,特征的频次为所述特征在对应的子特征数据集中出现的个数;基于子特征数据集中每个特征对应的二次分配频次估计每个特征对应的条件概率;根据条件概率对预设分类模型进行训练,得到目标医疗对象分类模型,并基于目标医疗对象分类模型对待分类医疗对象进行分类。
图2示意性示出了根据本申请的一个实施例的医疗对象聚类方法的流程图。该医疗对象聚类方法的执行主体可以是具有计算处理功能的电子设备,比如图1中所示的服务器101或者终端102。
如图2所示,该医疗对象聚类方法可以包括步骤S210至步骤S260。
步骤S210,获取医疗特征数据集,该医疗特征数据集中包括多个医疗对象以及每个医疗对象对应特征的特征数据;
步骤S220,将医疗特征数据集输入聚类模型,得到每个医疗对象所属的聚类簇,其中,每个聚类簇对应一个类别;
步骤S230,从医疗特征数据集中,获取聚类簇对应的子特征数据集;
步骤S240,根据子特征数据集中特征的条件关联结构,对子特征数据集中特征的频次进行二次分配,得到子特征数据集中每个特征对应的二次分配频次,条件关联结构为特征之间的条件关系所对应结构,特征的频次为特征在对应的子特征数据集中出现的个数;
步骤S250,基于子特征数据集中每个特征对应的二次分配频次估计每个特征对应的条件概率;
步骤S260,根据条件概率对预设分类模型进行训练,得到目标医疗对象分类模型,并基于目标医疗对象分类模型对待分类医疗对象进行分类。
下面描述医疗对象分类时,所进行的各步骤的具体过程。
在步骤S210,获取医疗特征数据集,该医疗特征数据集中包括多个医疗对象以及每个医疗对象对应特征。
本示例的实施方式中,医疗特征数据集为采集的多个医疗对象的相关医疗数据,例如疾病诊断信息、医嘱信息、全程所涉及的医疗服务项目信息。其中,多个医疗对象为至少两个医疗对象,医疗对象即患者。
医疗特征数据集中包括多个医疗对象以及每个医疗对象对应特征的特征数据,特征数据可以包括疾病诊断数据以及诊断资源消耗数据及用户画像数据。
疾病诊断数据可以包括多个诊断项(即特征)对应的诊断项数据(即特征数据),诊断资源消耗数据可以包括多个消耗项(即特征)对应的消耗项数据(即特征数据)。其中,诊断项即医疗对象参与的诊断项目,例如视力诊断项、腹部诊断项等,视力诊断项对应的诊断项数据包括诊断结果数据;消耗项即目标对象诊断过程中诊断资源消耗项,例如诊断用时项、总诊断项数量及诊断花费项等,某项诊断用时时长对应的消耗项数据包括具体时长数据。
用户画像数据为医疗对象的画像数据,可以包括医疗对象的性别、年龄及地域、饮食喜好等特征对应的各类画像数据(即特征数据)。一个示例中,用户画像数据包括医疗对象的身份属性信息特征对应的特征数据,例如年龄、性别及地域等身份属性信息,基于该示例,可以高效进行医疗对象的分类且在一定程度上保证分类准确性;一个示例中用户画像数据包括医疗对象的身份属性信息特征对应的特征数据加上医疗对象在合作平台中的生活习惯特征对应的画像数据(即特征数据),基于该示例的方式可以更加精准的对医疗对象进行分类。
采集用户画像数据以及医疗诊断数据,可以对医疗对象在诊断全流程中,通过诊断医生所管理的终端,可实时上传目标对象的医疗诊断数据至服务器,例如诊断项、诊断结果数据、诊断耗时数据、诊断过程中产生的所有诊断花费数据及诊断地点(即诊断轨迹数据)等,也可以通过医疗对象随身的终端(例如手机等)从诊断开始实时采集医疗对象的诊断轨迹数据。
用户画像数据可以是通过信息采集终端采集的目标对象的数据,例如医疗对象在进入医院时进行采集其身份属性信息,也可以是服务器中历史上采集的其用户画像数据;也可以是从目标合作平台的数据库中获取的医疗对象的画像数据(例如某购物平台对于该医疗对象的饮食喜好等画像的数据等)。
例如,位置1、位置2、位置3及位置4区域为医院内的科室,每个科室内设置由归属于对应科室的终端(例如电脑),医疗对象在诊断全流程中,可以随机经位置1、位置2、位置3及位置4所对应的科室进行诊断,诊断医生可通过对应科室内容终端,将医疗数据包括疾病诊断数据以及诊断资源消耗数据上传至医院的服务器。
通过位置1、位置2、位置3及位置4的终端,可以在医疗对象进入目标位置的科室时,开始记录,通过预设的数据上报界面上的触发按钮,触发对该医疗对象的记录,在诊断结束时上报对应科室的诊断数据。
触发对该医疗对象的记录后,可以由医生通过数据上报界面实时记录诊断数据,例如诊断项及诊断结果数据等;也可以由终端通过语音识别功能实时记录医生与目标对象的对象,然后,通过将语音转换为文本,进行关键词检索的方式实现数据记录;可以理解,手动记录与语音识别的两种记录方式,可以进行相互辅助,实现医疗数据的可靠记录。
获取到的医疗特征数据集包括疾病诊断数据以及诊断资源消耗数据及用户画像数据,可以通过数据表的形式存储于医院服务器,在后续步骤中按需获取。
在步骤S220,将医疗特征数据集输入聚类模型,得到每个医疗对象所属的聚类簇,其中,每个聚类簇对应一个类别。
本示例的实施方式中,聚类模型为无监督的机器学习模型,例如K-means聚类模型或者DBSCAN聚类模型。
通过将医疗特征数据集输入聚类模型,聚类模型可以基于医疗对象之间的特征相似性对医疗对象聚类,得到每个医疗对象所属的聚类簇,其中,每个聚类簇对应一个类别。进而可以基于医疗对象对应特征的特征数据以及医疗对象所属的类别,在后续步骤中训练对医疗对象进行分类的预设分类模型。
以K-means聚类模型为例进行说明:以K-means聚类模型为例,首先确定聚类簇的簇数k;然后,K-means聚类模型从数据集(多个待分类对象对应的标记后疾病诊断数据和标记后诊断资源消耗数据以及用户画像数据)中随机选取k个待分类对象作为质心;然后,对集合中每一个其他待分类对象,计算与每一个质心的距离,将其他待分类对象划分到距离小于预定阈值的质心所在的簇,得到k个聚类簇,其中,计算与质心的距离时,根据每个待分类对象与质心之间特征数据的相似度确定两者的距离;然后,对于每个聚类簇重新计算簇中新的质心,并计算新的质心与原来质心的距离,当该距离小于等于预定阈值时,则该簇划分合理,否则,基于新的质心重新对数据集进行划分k个簇,直至所有簇划分合理,得到最终的k个聚类簇。
一种实施例中,医疗特征数据集可以包括特定医疗阶段(例如术前检查阶段之前的术前诊断阶段)的疾病诊断数据以及诊断资源消耗数据及用户画像数据,该特征阶段为目标阶段(术前检查阶段)的预备阶段。
例如,术前诊断阶段的疾病诊断数据可以包括多个诊断项对应的诊断项数据,诊断资源消耗数据可以包括多个消耗项对应的消耗项数据。其中,诊断项即目标对象参与的诊断项目,例如视力诊断项、腹部诊断项等,视力诊断项对应的诊断项数据包括诊断结果数据;消耗项即目标对象诊断过程中诊断资源消耗项,例如诊断用时项、总诊断项数量及诊断花费项等,某项诊断用时时长对应的消耗项数据包括具体时长数据。
将医疗特征数据集输入聚类模型,得到每个医疗对象所属的聚类簇,可以结合医疗对象疾病诊疗信息与资源消耗信息度量医疗对象资源消耗相似度,进而考虑医疗对象的诊断资源消耗情况,对所有医疗对象进行聚类。此时特别对于医疗对象为待进行医疗资源(例如术前检查阶段的检查设备或者检测医生资源等)分配的医疗对象,可以有效确定医疗对象的聚类簇。
在步骤S230,从医疗特征数据集中,获取聚类簇对应的子特征数据集。
本示例的实施方式中,聚类簇中包括属于该聚类簇的医疗对象,从医疗特征数据集中,获取每个聚类簇中医疗对象对应的特征及每个特征对应的特征数据,即可得到每个聚类簇对应的子特征数据集。
获取到的聚类簇对应的子特征数据集,即属于某个类别的医疗对象对应的特征的特征数据的集合,例如,A聚类簇中包含多个急需类医疗对象对应的特征的特征数据的集合,B聚类簇中包含多个普通类医疗对象对应的特征数据的集合。
在步骤S240,根据子特征数据集中特征的条件关联结构,对子特征数据集中特征的频次进行二次分配,得到子特征数据集中每个特征对应的二次分配频次,条件关联结构为特征之间的条件关系所对应结构,特征的频次为特征在对应的子特征数据集中出现的个数。
本示例的实施方式中,鉴于医疗数据的缺乏性,子特征数据集中包括稀疏性特征(即没有对应特征数据的特征),这些稀疏性特征在后续步骤中进行分类模型训练时无法学习到这部分特征的参数,通过对子特征数据集中特征的频次(特征在对应的子特征数据集中出现的个数)进行二次分配,可以为每个特征分配到对应的频次,可以在后续步骤中训练到每个特征对应的模型参数分布,保证训练得到的分类模型的分类可靠性。
特征的条件关联结构为特征之间的条件关系所对应结构,包括独立的父代特征结构、一一对应的条件关联特征结构及多对一的条件关联特征结构;其中,独立的父代特征结构即特征数据集中每个特征相互独立,同为父代特征;一一对应的条件关联特征结构即特征数据集中存在父代特征及子代特征,且每个父代特征与子代特征为一对一的条件关系,例如,出现特征A的情况下出现特征A1;多对一的条件关联特征结构即特征数据集中存在父代特征及子代特征,且父代特征与子代特征为多对一的条件关系,至少两个父代特征对应一个子代特征,例如,出现特征A、特征B及特征C的情况下出现特征D。
特征的条件关联结构对应后续步骤中预设分析模型的结构,预设分析模型为贝叶斯网络模型时,特征的条件关联结构对应似然函数的结构,可以基于似然函数的极大似然估计来估计每个特征对应的参数分别。
具体地,根据子特征数据集中特征的条件关联结构,对子特征数据集中特征的频次进行二次分配,可以按照子特征数据集中特征是父代特征与子代特征的对应关系进行频次分配,进而在可以用于预设分析模型进行特征的条件频率估计。
具体可以基于后续实施例中的二次分配策略进行特征的频次的二次分配。
一种实施例中,参阅图3,步骤S240,根据子特征数据集中特征的条件关联结构,对子特征数据集中特征的频次进行二次分配,得到子特征数据集中每个特征对应的二次分配频次,包括:
步骤S310,根据子特征数据集中特征的条件关联结构,确定子特征数据集对应的二次分配策略;
步骤S320,根据子特征数据集对应的二次分配策略,对子特征数据集中特征的频次进行二次分配,得到子特征数据集每个特征对应的二次分配频次。
二次分配策略可以包括平滑处理策略及基于频次分配模型的分配策略。
根据子特征数据集中特征的条件关联结构,确定匹配该条件关联结构的二次分配策略可以包括确定匹配该条件关联结构的平滑处理算法(例如对于独立的父代特征可以确定任意平滑算法进行平滑,对于多对一的条件关联特征结构采用古德图灵平滑算法进行平滑),和/或确定匹配该条件关联结构频次分配模型(例如对于独立的父代特征可以确定第一频次分配模型,对于多对一的条件关联特征结构采用第二频次分配模型)。
一种实施例中,二次分配策略包括平滑处理策略,参阅图4,步骤S320,根据子特征数据集对应的二次分配策略,对子特征数据集中特征的频次进行二次分配,得到子特征数据集每个特征对应的二次分配频次,包括:
步骤S410,根据平滑处理策略,对子特征数据集每个特征的频次进行平滑处理,得到每个特征对应的平滑处理后的频次;
步骤S420,将每个特征对应的平滑处理后的频次,确定为子特征数据集每个特征对应的二次分配频次。
平滑处理策略即基于平滑算法的平滑策略,平滑算法可以包括古德图灵平滑算法及其他平滑算法。
例如,对子特征数据集,基于公式古德图灵平滑公式fr=(r+1)*N(r+1)/Nr,对目标子特征数据集中特征的频次,进行古德图灵平滑处理,得到子特征数据集中每个特征对应的平滑处理后的频次,作为子特征数据集中每个特征对应的二次分配频次。其中,所述fr为平滑处理后的频次;r为子特征数据集中各特征的频次;Nr为子特征数据集中出现r次的特征的总数;N(r+1)为子特征数据集中出现r+1次的特征的总数。
一种实施例中,二次分配策略包括基于频次分配模型的分配策略;参阅图5,步骤S320,根据子特征数据集对应的二次分配策略,对子特征数据集中特征的频次进行二次分配,得到子特征数据集每个特征对应的二次分配频次,包括:
步骤S510,获取子特征数据集中各特征的频次及所属医疗对象;
步骤S520,将各特征的频次及所属医疗对象,输入频次分配模型,得到子特征数据集中每个特征对应的二次分配频次。
频次分配模型的训练方法包括:对于多个子特征数据集,收集每个子特征数据集样本中各特征的频次及所属医疗对象,以及每个子特征数据集样本中各特征对应的由专家二次分配的频次;然后,将每个子特征数据集样本中各特征的频次及所属医疗对象作为频次分配模型的输入数据,以及每个子特征数据集样本中各特征对应的由专家二次分配的频次作为频次分配模型的期望输出,训练频次分配模型,直至频次分配模型的误差小于等于预定阈值。
基于频次分配模型的二词分配方式可以进一步保证二次分配的可靠性。
一种实施例中,在步骤S240,根据子特征数据集中特征的条件关联结构,对子特征数据集中特征的频次进行二次分配之前,还包括:
获取条件关系匹配表,条件关系匹配表中预设有特征样本之间的条件关联结构;
基于子特征数据集中所包含的特征与条件关系匹配表中预设的特征样本的匹配关系,确定子特征数据集中特征的条件关联结构。
条件关系匹配表中预设有特征样本之间的条件关联结构,通过子特征数据集中所包含的特征与条件关系匹配表中预设的特征样本的匹配,可以从条件关系匹配表查找到子特征数据集中所包含的特征匹配的特征样本,进而基于匹配的特征样本之间的条件关联结构确定子特征数据集中特征的条件关联结构。
一种实施例中,在步骤S240,在根据子特征数据集中特征的条件关联结构,对子特征数据集中特征的频次进行二次分配之前,所述方法还包括:
获取子特征数据集中所包含的特征;
将子特征数据集中所包含的特征,输入结构分析模型,得到结构分析模型输出的子特征数据集中特征的条件关联结构。
结构分析模型的训练方法包括:对于多个子特征数据集样本,收集每个子特征数据集样本中所包含的特征,以及每个子特征数据集样本中各特征对应的由专家标定条件关联结构;然后,将每个子特征数据集样本中所包含的特征作为结构分析模型的输入数据,以及每个子特征数据集样本中各特征对应的由专家标定条件关联结构作为结构分析模型的期望输出,训练结构分析模型,直至结构分析模型的误差小于等于预定阈值。这样可以基于结构分析模型智能分析特征数据集中特征的条件关联结构。
在步骤S250,基于子特征数据集中每个特征对应的二次分配频次估计每个特征对应的条件概率。
本示例的实施方式中,条件概率即对应于条件关联结构的特征概率,例如子特征数据集中特征在一一对应的条件关联特征结构下的特征概率,可以包括父代特征出现的第一概率以及出现父代特征的条件下出现子代特征的第二概率。
基于条件概率可以准确反映子特征数据集所对应类别下,每个特征的重要性,进而可以在后续步骤中准确反映每个类别下各特征对应的参数出现的可能性。
一种实施例中,条件关联结构包括独立的父代特征结构;基于子特征数据集中每个特征对应的二次分配频次估计每个特征对应的条件概率,包括:基于公式
Figure 198097DEST_PATH_IMAGE002
,利用各子特征数据集中每个特征对应的二次分配频次估计每个特征对应的条件概率,其中,N为各子特征数据集中患者数目,A为独立的父代特征,a归属于A,
Figure 294058DEST_PATH_IMAGE004
为a的条件概率。
一种实施例中,条件关联结构包括一一对应的条件关联特征结构;基于各子特征数据集中每个特征对应的二次分配频次估计每个特征对应的条件概率,包括:基于公式
Figure 13621DEST_PATH_IMAGE006
,利用子特征数据集中每个特征对应的二次分配频次估计每个特征对应的条件概率,其中,A为父代特征,B为A的子代特征,b归属于所述B,
Figure 120511DEST_PATH_IMAGE008
为b的条件概率。
一种实施例中,条件关联结构包括多对一的条件关联特征结构;基于子特征数据集中每个特征对应的二次分配频次估计每个特征对应的条件概率,包括:基于公式
Figure 569815DEST_PATH_IMAGE010
,利用子特征数据集中每个特征对应的二次分配频次估计每个特征对应的条件概率,其中,所述D为子代特征,所述par(D)为子代特征D的父代特征集合,所述
Figure 12779DEST_PATH_IMAGE012
为d的条件概率。
以上实施例的公式中,fr代表为古德图灵平滑处理,得到的子特征数据集中每个特征对应的平滑处理后的频次;可以理解,在基于频次分配模型的策略下,以上实施例的公式中将古德图灵平滑处理,得到的子特征数据集中每个特征对应的平滑处理后的频次替换为频次分配模型分配的频次即可。
在步骤S260,根据条件概率对预设分类模型进行训练,得到目标医疗对象分类模型,并基于目标医疗对象分类模型对待分类医疗对象进行分类。
本示例的实施方式中,条件概率可以准确反映子特征数据集所对应类别下,每个特征的重要性,进而可以训练预设分类模型根据条件概率估计每个类别下各特征对应的参数出现的可能性,得到各类别下的模型参数分布,得到目标医疗对象分类模型。进而可以基于目标医疗对象分类模型对待分类医疗对象,利用待分类医疗对象的医疗特征数据,通过训练得到的参数分布估计待分类医疗对象的类别。
一种实施例中,步骤S260,根据条件概率对预设分类模型进行训练,得到目标医疗对象分类模型,包括:
根据各子特征数据集中每个特征对应的条件概率,对预设分类模型进行训练,以使得预设分类模型确定各子特征数据集中特征所对应的参数分布;
将各子特征数据集中特征所对应的参数分布,作为预设分类模型在各子特征数据集所对应类别下的模型参数分布,得到目标医疗对象分类模型。
各子特征数据集中每个特征对应的条件概率,对应每个特征的重要性,以此对预设分类模型进行训练,使得预设分类模型确定各子特征数据集中特征所对应的重要性分布,作为特征所对应的参数分布,即作为预设分类模型在各子特征数据集所对应类别下的模型参数分布,进而训练出各类别下所对应的目标医疗对象分类模型中的参数分布。
一种实施例中,步骤S260,基于目标医疗对象分类模型对待分类医疗对象进行分类,包括:
获取k个验证数据集,每个验证数据集中包括多个类别的医疗对象及每个医疗对象对应特征的特征数据;
利用目标医疗对象分类模型分别对k个验证数据集中医疗对象进行分类,得到每个验证数据集对应的分类结果;
根据每个验证数据集对应的分类结果,计算目标医疗对象分类模型对应于每个验证数据集的
Figure 547535DEST_PATH_IMAGE014
基于公式
Figure 943269DEST_PATH_IMAGE016
计算目标医疗对象分类模型对应于每个验证数据集的参数权重wi
对所有验证数据集的参数权重wi取均值,作为目标医疗对象分类模型中参数的权重,得到新的目标医疗对象分类模型;
基于新的目标医疗对象分类模型对待分类医疗对象进行分类。
这样可以通过k次验证,对目标医疗对象分类模型的参数进行进一步有效平滑,进一步提升分类的可靠性。
一种实施例中,预设分类模型为贝叶斯网络模型,子特征数据集中
Figure 981501DEST_PATH_IMAGE018
中共有|S|=n位医疗对象,其中有m位医疗对象具有某类特征,n-m位患者未具有该特征。假设待估计的独立父代特征c的参数为
Figure 349028DEST_PATH_IMAGE020
,其具有该特征的概率为
Figure 848710DEST_PATH_IMAGE022
,不具有该特征的概率为
Figure 638680DEST_PATH_IMAGE024
,因此可得似然函数:
Figure 940873DEST_PATH_IMAGE026
计算对数似然函数可得:
Figure 525307DEST_PATH_IMAGE028
计算极大对数似然函数:
Figure 953097DEST_PATH_IMAGE030
令:
Figure 281179DEST_PATH_IMAGE032
在子特征数据集中特征的初始频次下,解得:
具有该独立父代特征c的概率:
Figure 969037DEST_PATH_IMAGE034
不具有该特征c的概率:
Figure 724372DEST_PATH_IMAGE036
此时,条件关联结构包括独立的父代特征结构,基于子特征数据集中特征对应的二次分配频次估计独立父代特征c的条件概率即
Figure 464225DEST_PATH_IMAGE038
,根据独立父代特征c的条件概率(fr/n)对贝叶斯网络模型进行训练,贝叶斯网络模型根据条件概率估计(fr/n)出子特征数据集所对应类别下中特征c所对应的重要性,作为特征c所对应的参数的分布,得到训练好的贝叶斯网络模型(即目标医疗对象分类模型)。
一种实施例中,预设分类模型为贝叶斯网络模型,子特征数据集中
Figure 753255DEST_PATH_IMAGE040
中共有|S|=n位医疗对象,其中有m1位具有特征c1的患者中同时有
Figure 151745DEST_PATH_IMAGE042
位患者具有子代特征c2;在n-m1位不具有c1特征的患者中同时有
Figure 753015DEST_PATH_IMAGE044
位患者具有子代特征c2,因此可得似然函数:
Figure 971375DEST_PATH_IMAGE046
Figure 372751DEST_PATH_IMAGE048
计算对数似然函数:
Figure 750380DEST_PATH_IMAGE050
Figure 116027DEST_PATH_IMAGE052
将对数似然函数
Figure 87263DEST_PATH_IMAGE054
Figure 976152DEST_PATH_IMAGE056
求偏导,可得:
Figure 427862DEST_PATH_IMAGE058
Figure 620203DEST_PATH_IMAGE060
Figure 95046DEST_PATH_IMAGE062
令偏导数等于0,可解得在子特征数据集中特征的初始频次下:
具有该独立父代特征c1的概率:
Figure 228438DEST_PATH_IMAGE064
出现特征c1的情况下出现c2的概率:
Figure 128129DEST_PATH_IMAGE066
不出现特征c1的情况下出现c2的概率:
Figure 209480DEST_PATH_IMAGE068
此时,条件关联结构包括独立的父代特征结构及对应的子代特征,基于子特征数据集中特征c1对应的二次分配频次估计独立父代特征c1的条件概率即
Figure 226735DEST_PATH_IMAGE070
,根据独立父代特征c1的条件概率(fr/n)对贝叶斯网络模型进行训练,贝叶斯网络模型根据条件概率估计(fr/n)出子特征数据集所对应类别下中特征c1所对应的重要性,作为特征c1所对应的参数的分布,得到训练好的贝叶斯网络模型(即目标医疗对象分类模型);同理,对于子代特征c2可以根据对应的二次分配频次估计特征c2对应的条件概率,即基于公式
Figure 448637DEST_PATH_IMAGE072
,利用子特征数据集中每个特征c2对应的二次分配频次估计每个特征对应的条件概率,其中,A(即c1)为父代特征,B为A的子代特征,b=c2归属于B,
Figure 799241DEST_PATH_IMAGE074
为b=c2的条件概率,训练对应的参数分布。
以下结合具体地场景进一步描述本申请的实施例,图6示出了应用本申请的实施例的一种场景下医疗对象分类的流程图。该场景为一医院对医疗对象进行分类并分配医疗资源的场景。
如图6所示,该场景下主要包括步骤S610和步骤S620。在步骤S610基于前述医疗对象分类的实施例对目标医疗对象进行分类,根据该目标医疗对象在术前诊断阶段的相关医疗诊断数据进行分类;在步骤S620为该目标医疗对象分配与其类别匹配的医疗资源,该医疗资源包括术前检查阶段的各项医疗资源(可以包括医院的设施、人力和设备)。
目前,医院在术前检查阶段由于产能有限,经常出现医疗资源难以有效分配的情况,在医院方出现例如检查科室排队堆积等情况,在患者方同样面临严重患者等待时间过长等,不能准确确定患者实际所需,进而可能会耽误进一步的手术阶段相关安排。
基于步骤S610和步骤S620,可以实现医疗资源的可靠分配,进而保证后续步骤中术前检查及手术过程的进行。
其中,在步骤S610,获取目标医疗对象(即待分类医疗对象)的医疗特征数据集,并基于目标医疗对象分类模型,利用目标医疗对象(即待分类医疗对象)的医疗特征数据集,对目标医疗对象(即待分类医疗对象)进行分类,得到目标医疗对象(即待分类医疗对象)的医疗资源分配类别。
步骤S610中具体实施方式可以依据前述实施例中的任意实施方式。例如,获取目标医疗对象(即待分类医疗对象)的医疗特征数据集之前,还可以包括:
获取医疗特征数据集,医疗特征数据集中包括多个医疗对象以及每个医疗对象对应的特征;将医疗特征数据集输入聚类模型,得到每个医疗对象所属的聚类簇,其中,每个聚类簇对应一个类别;从医疗特征数据集中,获取聚类簇对应的子特征数据集;根据子特征数据集中特征的条件关联结构,对子特征数据集中特征的频次进行二次分配,得到子特征数据集中每个特征对应的二次分配频次;基于子特征数据集中每个特征对应的二次分配频次估计每个特征对应的条件概率;根据条件概率对预设分类模型进行训练,得到目标医疗对象分类模型,并基于目标医疗对象分类模型对待分类医疗对象进行分类。
其中,在术前诊断阶段获取医疗特征数据集,例如,在如图6所示的位置1、位置2、位置3及位置4区域为医院内的科室,每个科室内设置由归属于对应科室的终端(例如电脑),医疗对象在诊断全流程中,可以随机经位置1、位置2、位置3及位置4所对应的科室进行诊断,诊断医生可通过对应科室内的终端,将医疗特征数据集上传至医院的服务器。
通过位置1、位置2、位置3及位置4的终端,可以在医疗对象进入目标位置的科室时,开始记录,通过预设的数据上报界面上的触发按钮,触发对该医疗对象的记录,在诊断结束时上报对应科室的诊断数据。
触发对该医疗对象的记录后,可以由医生通过数据上报界面实时记录诊断数据,例如诊断项及诊断结果数据等;也可以由终端通过语音识别功能实时记录医生与目标对象的对象,然后,通过将语音转换为文本,进行关键词检索的方式实现数据记录;可以理解,手动记录与语音识别的两种记录方式,可以进行相互辅助,实现医疗数据的可靠记录。
在步骤S620,根据医疗资源分配类别,为目标医疗对象(即待分类医疗对象)分配匹配医疗资源分配类别的医疗资源(术前检查阶段的医疗资源)。
确定目标医疗对象所属的类别后,如果目标医疗对象想要继续进行术前检查,一个示例中,目标医疗对象可以通过客户端申请术前检查项目,进而系统在接收到目标医疗对象的申请后,可以根据目标医疗对象所属的医疗资源分配类别,为目标医疗对象分配匹配医疗资源分配类别的医疗资源;一个示例中,系统可以自动向目标医疗对象发送匹配医疗资源分配类别的医疗资源的相关信息。
为便于更好的实施本申请实施例提供的医疗对象聚类方法,本申请实施例还提供一种基于上述医疗对象聚类方法的医疗对象聚类装置。其中名词的含义与上述医疗对象聚类方法中相同,具体实现细节可以参考方法实施例中的说明。图7示出了根据本申请的一个实施例的医疗对象聚类装置的框图。
如图7所示,医疗对象聚类装置700中可以包括获取模块710、聚类模块720、划分模块730、分配模块740、估计模块750及分类模块760。
获取模块710可以用于获取医疗特征数据集,所述医疗特征数据集中包括多个医疗对象以及每个所述医疗对象对应的特征;聚类模块720可以用于将所述医疗特征数据集输入聚类模型,得到每个所述医疗对象所属的聚类簇,其中,每个所述聚类簇对应一个类别;划分模块730可以用于从所述医疗特征数据集中,获取所述聚类簇对应的子特征数据集;分配模块740可以用于根据所述子特征数据集中特征的条件关联结构,对所述子特征数据集中特征的频次进行二次分配,得到所述子特征数据集中每个特征对应的二次分配频次,所述条件关联结构为特征之间的条件关系所对应结构,所述特征的频次为所述特征在对应的子特征数据集中出现的个数;估计模块750可以用于基于所述子特征数据集中每个特征对应的二次分配频次估计每个特征对应的条件概率;分类模块760可以用于根据所述条件概率对预设分类模型进行训练,得到目标医疗对象分类模型,并基于所述目标医疗对象分类模型对待分类医疗对象进行分类。
在本申请的一些实施例中,所述装置还包括:匹配表获取模块,用于获取条件关系匹配表,所述条件关系匹配表中预设有特征样本之间的条件关联结构;关系匹配模块,用于基于所述子特征数据集中所包含的特征与所述条件关系匹配表中预设的特征样本的匹配关系,确定所述子特征数据集中特征的条件关联结构。
在本申请的一些实施例中,所述装置还包括:特征获取模块,用于获取所述子特征数据集中所包含的特征;结构分析模块,用于将所述子特征数据集中所包含的特征,输入结构分析模型,得到所述结构分析模型输出的所述子特征数据集中特征的条件关联结构。
在本申请的一些实施例中,所述分配模块,包括:策略确定单元,用于根据所述子特征数据集中特征的条件关联结构,确定所述子特征数据集对应的二次分配策略;策略分配单元,用于根据所述子特征数据集对应的二次分配策略,对所述子特征数据集中特征的频次进行二次分配,得到所述子特征数据集每个特征对应的二次分配频次。
在本申请的一些实施例中,所述二次分配策略包括平滑处理策略,所述策略分配单元,用于:根据所述平滑处理策略,对所述子特征数据集每个特征的频次进行平滑处理,得到每个特征对应的平滑处理后的频次;将每个特征对应的平滑处理后的频次,确定为所述子特征数据集每个特征对应的二次分配频次。
在本申请的一些实施例中,所述二次分配策略包括基于频次分配模型的分配策略;所述策略分配单元,用于:获取所述子特征数据集中各特征的频次及所属医疗对象;将各特征的频次及所属医疗对象,输入所述频次分配模型,得到所述子特征数据集中每个特征对应的二次分配频次。
在本申请的一些实施例中,所述分类模块,包括:参数训练模块,用于根据各所述子特征数据集中每个特征对应的条件概率,对预设分类模型进行训练,以使得所述预设分类模型确定各所述子特征数据集中特征所对应的参数分布;参数确定模块,用于将各所述子特征数据集中特征所对应的参数分布,作为所述预设分类模型在各所述子特征数据集所对应类别下的模型参数分布,得到所述目标医疗对象分类模型。
本申请实施例通过医疗对象聚类装置,可以首先通过聚类处理,可以基于医疗对象之间的特征相似性为医疗对象标定类别;然后,对各类别下的子特征数据集中特征的频次进行二次分配,可以使得稀疏性特征分配到对应的二次分配频次;进而,基于子特征数据集中每个特征对应的二次分配频次估计每个特征对应的条件概率,根据条件概率对预设分类模型进行训练,可以使得训练得到的目标医疗对象分类模型学习到每个特征对应的参数;进而,基于目标医疗对象分类模型对待分类医疗对象进行分类,可以有效提升医疗对象分类的可靠性。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,本申请实施例还提供一种电子设备,该电子设备可以为终端或者服务器,如图8所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器801、一个或一个以上计算机可读存储介质的存储器802、电源803和输入单元804等部件。本领域技术人员可以理解,图8中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器801是该电子设备的控制中心,利用各种接口和线路连接整个计算机设备的各个部分,通过运行或执行存储在存储器802内的软件程序和/或模块,以及调用存储在存储器802内的数据,执行计算机设备的各种功能和处理数据,从而对电子设备进行整体监控。可选的,处理器801可包括一个或多个处理核心;优选的,处理器801可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户页面和应用程序等,调制解调处理器主要处理无线通讯。可以理解的是,上述调制解调处理器也可以不集成到处理器801中。
存储器802可用于存储软件程序以及模块,处理器801通过运行存储在存储器802的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器802可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据计算机设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器802还可以包括存储器控制器,以提供处理器801对存储器802的访问。
电子设备还包括给各个部件供电的电源803,优选的,电源803可以通过电源管理系统与处理器801逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源803还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元804,该输入单元804可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器801会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器802中,并由处理器801来运行存储在存储器802中的应用程序,从而实现各种功能,如下:
获取医疗特征数据集,所述医疗特征数据集中包括多个医疗对象以及每个所述医疗对象对应的特征;
将所述医疗特征数据集输入聚类模型,得到每个所述医疗对象所属的聚类簇,其中,每个所述聚类簇对应一个类别;
从所述医疗特征数据集中,获取所述聚类簇对应的子特征数据集;
根据所述子特征数据集中特征的条件关联结构,对所述子特征数据集中特征的频次进行二次分配,得到所述子特征数据集中每个特征对应的二次分配频次,所述条件关联结构为特征之间的条件关系所对应结构,所述特征的频次为所述特征在对应的子特征数据集中出现的个数;
基于所述子特征数据集中每个特征对应的二次分配频次估计每个特征对应的条件概率;
根据所述条件概率对预设分类模型进行训练,得到目标医疗对象分类模型,并基于所述目标医疗对象分类模型对待分类医疗对象进行分类。
一种实施例中,在根据所述子特征数据集中特征的条件关联结构,对所述子特征数据集中特征的频次进行二次分配之前,还包括:
获取条件关系匹配表,所述条件关系匹配表中预设有特征样本之间的条件关联结构;
基于所述子特征数据集中所包含的特征与所述条件关系匹配表中预设的特征样本的匹配关系,确定所述子特征数据集中特征的条件关联结构。
一种实施例中,在根据所述子特征数据集中特征的条件关联结构,对所述子特征数据集中特征的频次进行二次分配之前,还包括:
获取所述子特征数据集中所包含的特征;
将所述子特征数据集中所包含的特征,输入结构分析模型,得到所述结构分析模型输出的所述子特征数据集中特征的条件关联结构。
一种实施例中,所述根据所述子特征数据集中特征的条件关联结构,对所述子特征数据集中特征的频次进行二次分配,得到所述子特征数据集中每个特征对应的二次分配频次,包括:
根据所述子特征数据集中特征的条件关联结构,确定所述子特征数据集对应的二次分配策略;
根据所述子特征数据集对应的二次分配策略,对所述子特征数据集中特征的频次进行二次分配,得到所述子特征数据集每个特征对应的二次分配频次。
一种实施例中,所述二次分配策略包括平滑处理策略,所述根据所述子特征数据集对应的二次分配策略,对所述子特征数据集中特征的频次进行二次分配,得到所述子特征数据集每个特征对应的二次分配频次,包括:
根据所述平滑处理策略,对所述子特征数据集每个特征的频次进行平滑处理,得到每个特征对应的平滑处理后的频次;
将每个特征对应的平滑处理后的频次,确定为所述子特征数据集每个特征对应的二次分配频次。
一种实施例中,所述二次分配策略包括基于频次分配模型的分配策略;所述根据所述子特征数据集对应的二次分配策略,对所述子特征数据集中特征的频次进行二次分配,得到所述子特征数据集每个特征对应的二次分配频次,包括:
获取所述子特征数据集中各特征的频次及所属医疗对象;
将各特征的频次及所属医疗对象,输入所述频次分配模型,得到所述子特征数据集中每个特征对应的二次分配频次。
一种实施例中,所述根据所述条件概率对预设分类模型进行训练,得到目标医疗对象分类模型,包括:
根据各所述子特征数据集中每个特征对应的条件概率,对预设分类模型进行训练,以使得所述预设分类模型确定各所述子特征数据集中特征所对应的参数分布;
将各所述子特征数据集中特征所对应的参数分布,作为所述预设分类模型在各所述子特征数据集所对应类别下的模型参数分布,得到所述目标医疗对象分类模型。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过计算机程序来完成,或通过计算机程序控制相关的硬件来完成,该计算机程序可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例还提供一种存储介质,其中存储有计算机程序,该计算机程序能够被处理器进行加载,以执行本申请实施例所提供的任一种方法中的步骤。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的计算机程序,可以执行本申请实施例所提供的任一种方法中的步骤,因此,可以实现本申请实施例所提供的方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
本领域技术人员在考虑说明书及实践这里公开的实施方式后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的实施例,而可以在不脱离其范围的情况下进行各种修改和改变。

Claims (8)

1.一种医疗对象聚类方法,其特征在于,包括:
获取医疗特征数据集,所述医疗特征数据集中包括多个医疗对象以及每个所述医疗对象对应的特征;
将所述医疗特征数据集输入聚类模型,得到每个所述医疗对象所属的聚类簇,其中,每个所述聚类簇对应一个类别;
从所述医疗特征数据集中,获取所述聚类簇对应的子特征数据集;
获取条件关系匹配表,所述条件关系匹配表中预设有特征样本之间的条件关联结构;
基于所述子特征数据集中所包含的特征与所述条件关系匹配表中预设的特征样本的匹配关系,确定所述子特征数据集中特征的条件关联结构;
根据所述子特征数据集中特征的条件关联结构,对所述子特征数据集中特征的频次进行二次分配,得到所述子特征数据集中每个特征对应的二次分配频次,所述条件关联结构为特征之间的条件关系所对应结构,所述特征的频次为所述特征在对应的子特征数据集中出现的个数;
基于所述子特征数据集中每个特征对应的二次分配频次估计每个特征对应的条件概率;
根据所述条件概率对预设分类模型进行训练,得到目标医疗对象分类模型,并基于所述目标医疗对象分类模型对待分类医疗对象进行分类,所述根据所述条件概率对预设分类模型进行训练,得到目标医疗对象分类模型,包括:根据各所述子特征数据集中每个特征对应的条件概率,对预设分类模型进行训练,以使得所述预设分类模型确定各所述子特征数据集中特征所对应的参数分布;将各所述子特征数据集中特征所对应的参数分布,作为所述预设分类模型在各所述子特征数据集所对应类别下的模型参数分布,得到所述目标医疗对象分类模型。
2.根据权利要求1所述方法,其特征在于,在根据所述子特征数据集中特征的条件关联结构,对所述子特征数据集中特征的频次进行二次分配之前,所述方法还包括:
获取所述子特征数据集中所包含的特征;
将所述子特征数据集中所包含的特征,输入结构分析模型,得到所述结构分析模型输出的所述子特征数据集中特征的条件关联结构。
3.根据权利要求1至2任一项所述方法,其特征在于,所述根据所述子特征数据集中特征的条件关联结构,对所述子特征数据集中特征的频次进行二次分配,得到所述子特征数据集中每个特征对应的二次分配频次,包括:
根据所述子特征数据集中特征的条件关联结构,确定所述子特征数据集对应的二次分配策略;
根据所述子特征数据集对应的二次分配策略,对所述子特征数据集中特征的频次进行二次分配,得到所述子特征数据集每个特征对应的二次分配频次。
4.根据权利要求3所述方法,其特征在于,所述二次分配策略包括平滑处理策略,所述根据所述子特征数据集对应的二次分配策略,对所述子特征数据集中特征的频次进行二次分配,得到所述子特征数据集每个特征对应的二次分配频次,包括:
根据所述平滑处理策略,对所述子特征数据集每个特征的频次进行平滑处理,得到每个特征对应的平滑处理后的频次;
将每个特征对应的平滑处理后的频次,确定为所述子特征数据集中每个特征对应的二次分配频次。
5.根据权利要求3所述方法,其特征在于,所述二次分配策略包括基于频次分配模型的分配策略;所述根据所述子特征数据集对应的二次分配策略,对所述子特征数据集中特征的频次进行二次分配,得到所述子特征数据集每个特征对应的二次分配频次,包括:
获取所述子特征数据集中各特征的频次及所属医疗对象;
将各特征的频次及所属医疗对象,输入所述频次分配模型,得到所述子特征数据集中每个特征对应的二次分配频次。
6.一种医疗对象聚类装置,其特征在于,包括:
获取模块,用于获取医疗特征数据集,所述医疗特征数据集中包括多个医疗对象以及每个所述医疗对象对应的特征;
聚类模块,用于将所述医疗特征数据集输入聚类模型,得到每个所述医疗对象所属的聚类簇,其中,每个所述聚类簇对应一个类别;
划分模块,用于从所述医疗特征数据集中,获取所述聚类簇对应的子特征数据集;
匹配表获取模块,用于获取条件关系匹配表,所述条件关系匹配表中预设有特征样本之间的条件关联结构;
关系匹配模块,用于基于所述子特征数据集中所包含的特征与所述条件关系匹配表中预设的特征样本的匹配关系,确定所述子特征数据集中特征的条件关联结构;
分配模块,用于根据所述子特征数据集中特征的条件关联结构,对所述子特征数据集中特征的频次进行二次分配,得到所述子特征数据集中每个特征对应的二次分配频次,所述条件关联结构为特征之间的条件关系所对应结构,所述特征的频次为所述特征在对应的子特征数据集中出现的个数;
估计模块,用于基于所述子特征数据集中每个特征对应的二次分配频次估计每个特征对应的条件概率;
分类模块,用于根据所述条件概率对预设分类模型进行训练,得到目标医疗对象分类模型,并基于所述目标医疗对象分类模型对待分类医疗对象进行分类;所述分类模块,包括:参数训练模块,用于根据各所述子特征数据集中每个特征对应的条件概率,对预设分类模型进行训练,以使得所述预设分类模型确定各所述子特征数据集中特征所对应的参数分布;参数确定模块,用于将各所述子特征数据集中特征所对应的参数分布,作为所述预设分类模型在各所述子特征数据集所对应类别下的模型参数分布,得到所述目标医疗对象分类模型。
7.一种电子设备,其特征在于,包括:存储器,存储有计算机可读指令;处理器,读取存储器存储的计算机可读指令,以执行权利要求1-5任一项所述的方法。
8.一种存储介质,其特征在于,其上存储有计算机可读指令,当所述计算机可读指令被计算机的处理器执行时,使计算机执行权利要求1-5任一项所述的方法。
CN202210829754.2A 2022-07-15 2022-07-15 一种医疗对象聚类方法、装置、电子设备及存储介质 Active CN114913986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210829754.2A CN114913986B (zh) 2022-07-15 2022-07-15 一种医疗对象聚类方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210829754.2A CN114913986B (zh) 2022-07-15 2022-07-15 一种医疗对象聚类方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114913986A CN114913986A (zh) 2022-08-16
CN114913986B true CN114913986B (zh) 2022-10-14

Family

ID=82772765

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210829754.2A Active CN114913986B (zh) 2022-07-15 2022-07-15 一种医疗对象聚类方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114913986B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017062867A1 (en) * 2015-10-09 2017-04-13 Helmy Eltoukhy Population based treatment recommender using cell free dna
CN109003279A (zh) * 2018-07-06 2018-12-14 东北大学 一种基于K-Means聚类标注和朴素贝叶斯模型的眼底视网膜血管分割方法及系统
CN109359670A (zh) * 2018-09-18 2019-02-19 北京工业大学 一种基于交通大数据的个体关联强度自动检测方法
CN110222171A (zh) * 2019-05-08 2019-09-10 新华三大数据技术有限公司 一种分类模型应用、分类模型训练方法及装置
CN110472680A (zh) * 2019-08-08 2019-11-19 京东城市(北京)数字科技有限公司 目标分类方法、装置和计算机可读存储介质
CN112149400A (zh) * 2020-09-23 2020-12-29 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及存储介质
CN112365975A (zh) * 2020-11-12 2021-02-12 医渡云(北京)技术有限公司 医疗辅助决策模型解释方法及装置、存储介质、电子设备
CN112948583A (zh) * 2021-02-26 2021-06-11 中国光大银行股份有限公司 数据的分类方法及装置、存储介质、电子装置
CN113658712A (zh) * 2021-08-31 2021-11-16 平安医疗健康管理股份有限公司 医患匹配方法、装置、设备及存储介质
CN114334169A (zh) * 2022-03-07 2022-04-12 四川大学 医疗对象的类别决策方法、装置、电子设备及存储介质
CN114387650A (zh) * 2022-01-11 2022-04-22 浙江商汤科技开发有限公司 聚类及模型训练方法和装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160287106A1 (en) * 2015-03-31 2016-10-06 Xerox Corporation Method for assessing patient risk for ventricular tachycardia
US11402905B2 (en) * 2018-01-09 2022-08-02 Holland Bloorview Kids Rehabilitation Hospital EEG brain-computer interface platform and process for detection of changes to mental state
EP3796241A1 (en) * 2019-09-18 2021-03-24 Tata Consultancy Services Limited System and method for categorical time-series clustering

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017062867A1 (en) * 2015-10-09 2017-04-13 Helmy Eltoukhy Population based treatment recommender using cell free dna
CN109003279A (zh) * 2018-07-06 2018-12-14 东北大学 一种基于K-Means聚类标注和朴素贝叶斯模型的眼底视网膜血管分割方法及系统
CN109359670A (zh) * 2018-09-18 2019-02-19 北京工业大学 一种基于交通大数据的个体关联强度自动检测方法
CN110222171A (zh) * 2019-05-08 2019-09-10 新华三大数据技术有限公司 一种分类模型应用、分类模型训练方法及装置
CN110472680A (zh) * 2019-08-08 2019-11-19 京东城市(北京)数字科技有限公司 目标分类方法、装置和计算机可读存储介质
CN112149400A (zh) * 2020-09-23 2020-12-29 腾讯科技(深圳)有限公司 一种数据处理方法、装置、设备及存储介质
CN112365975A (zh) * 2020-11-12 2021-02-12 医渡云(北京)技术有限公司 医疗辅助决策模型解释方法及装置、存储介质、电子设备
CN112948583A (zh) * 2021-02-26 2021-06-11 中国光大银行股份有限公司 数据的分类方法及装置、存储介质、电子装置
CN113658712A (zh) * 2021-08-31 2021-11-16 平安医疗健康管理股份有限公司 医患匹配方法、装置、设备及存储介质
CN114387650A (zh) * 2022-01-11 2022-04-22 浙江商汤科技开发有限公司 聚类及模型训练方法和装置、设备及存储介质
CN114334169A (zh) * 2022-03-07 2022-04-12 四川大学 医疗对象的类别决策方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"大型综合医院床位资源调度工作负荷评价";申文武;《解放军医院管理杂志》;20190419(第3期);201-204 *
类属数据的贝叶斯聚类算法;朱杰等;《计算机应用》;20170410(第04期);1026-1030 *

Also Published As

Publication number Publication date
CN114913986A (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
Jabeen et al. An IoT based efficient hybrid recommender system for cardiovascular disease
KR20220064395A (ko) 이미지들 및 전문 지식으로부터 피부 상태들을 수집하고 식별하기 위한 시스템
CN114334169B (zh) 医疗对象的类别决策方法、装置、电子设备及存储介质
US20240029866A1 (en) Image-driven brain atlas construction method, device and storage medium
CN112633601A (zh) 疾病事件发生概率的预测方法、装置、设备及计算机介质
WO2023024411A1 (zh) 基于机器学习对关联规则进行评估的方法及装置
CN113539460A (zh) 用于远程医疗平台的智能导诊方法和装置
US11075004B2 (en) Discrimination result providing apparatus, operating method of discrimination result providing apparatus, discrimination result providing program, and discrimination result providing system
GB2603831A (en) Mobile AI
CN111640517B (zh) 病历编码方法、装置、存储介质及电子设备
CN114913986B (zh) 一种医疗对象聚类方法、装置、电子设备及存储介质
CN116936117A (zh) 基于ai分析模型的慢性病大数据识别和分析处理方法
Hantke et al. Trustability-based dynamic active learning for crowdsourced labelling of emotional audio data
CN116844711A (zh) 基于深度学习的疾病辅助识别方法及装置
CN116108276A (zh) 基于人工智能的信息推荐方法、装置及相关设备
CN113903433B (zh) 一种图像处理方法、装置和电子设备
AU2021102593A4 (en) A Method for Detection of a Disease
US20220391760A1 (en) Combining model outputs into a combined model output
US20230334868A1 (en) Surgical phase recognition with sufficient statistical model
CN114722977B (zh) 一种医疗对象分类方法、装置、电子设备及存储介质
US11783165B1 (en) Generating vectors from data
CN111063436A (zh) 数据处理方法及装置、存储介质及电子终端
Akhtar et al. Effective voting ensemble of homogenous ensembling with multiple attribute-selection approaches for improved identification of thyroid disorder. Electron. 2021; 10 (23): 3026
Latif et al. Improving Thyroid Disorder Diagnosis via Ensemble Stacking and Bidirectional Feature Selection.
US20220319650A1 (en) Method and System for Providing Information About a State of Health of a Patient

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant