CN117373657B - 基于大数据分析的个性化医疗辅助问诊系统 - Google Patents
基于大数据分析的个性化医疗辅助问诊系统 Download PDFInfo
- Publication number
- CN117373657B CN117373657B CN202311667792.3A CN202311667792A CN117373657B CN 117373657 B CN117373657 B CN 117373657B CN 202311667792 A CN202311667792 A CN 202311667792A CN 117373657 B CN117373657 B CN 117373657B
- Authority
- CN
- China
- Prior art keywords
- patients
- patient
- cluster
- individual
- retention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000007405 data analysis Methods 0.000 title claims abstract description 18
- 208000024891 symptom Diseases 0.000 claims abstract description 69
- 230000014759 maintenance of location Effects 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 55
- 230000008569 process Effects 0.000 claims abstract description 27
- 238000000926 separation method Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims abstract description 5
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 39
- 201000010099 disease Diseases 0.000 claims description 31
- 230000008451 emotion Effects 0.000 claims description 16
- 238000010606 normalization Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000002996 emotional effect Effects 0.000 claims description 7
- 206010020751 Hypersensitivity Diseases 0.000 claims description 6
- 208000026935 allergic disease Diseases 0.000 claims description 6
- 230000007815 allergy Effects 0.000 claims description 6
- 238000002347 injection Methods 0.000 claims description 6
- 239000007924 injection Substances 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 230000003449 preventive effect Effects 0.000 claims description 4
- 230000000717 retained effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 4
- 238000005259 measurement Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 4
- 239000000758 substrate Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 201000009240 nasopharyngitis Diseases 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000001154 acute effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000000987 immune system Anatomy 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H80/00—ICT specially adapted for facilitating communication between medical practitioners or patients, e.g. for collaborative diagnosis, therapy or health monitoring
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Theoretical Computer Science (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Pathology (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及电子数字数据处理技术领域,具体涉及基于大数据分析的个性化医疗辅助问诊系统,包括:对患者的问诊单数据进行迭代聚类时,根据问诊单数据的差异获得患者的相对相似度和相对差异度,并进一步获得患者的保留度,以调整对聚类簇内患者的保留和分离处理过程,获得最终聚类簇。本发明避免了在迭代聚类过程中,数据之间的距离度量的依据过少,导致聚类结果不准确的问题,提高了对患者的问诊单数据的聚类效果,为同一个最终聚类簇中病症相似的患者分配同一个医生,提高了问诊的效率以及个性化程度。
Description
技术领域
本发明涉及电子数字数据处理技术领域,具体涉及基于大数据分析的个性化医疗辅助问诊系统。
背景技术
在大数据时代下的医疗辅助问诊系统能够为患者提供更为精准和个性化的服务,满足人们的需求,目前数字医疗和大数据问诊技术使线上问诊成为了一种新型的医疗咨询服务,极大提高了医疗服务的便利性和效率。
由于线上问诊系统会收到大量患者的问诊单数据,因此需要对问诊单数据进行分类以合理匹配对应的医生,而在分类过程中通常会使用现有的ISODATA聚类算法,由于在大量问诊单数据中可能存在病情或病理特征特殊的数据,导致ISODATA聚类算法在聚类过程中,无法对该数据更好的聚类而划分到错误的聚类簇中,使得患者无法得到有效且个性化的问诊服务。
发明内容
本发明提供基于大数据分析的个性化医疗辅助问诊系统,以解决现有的问题。
本发明的基于大数据分析的个性化医疗辅助问诊系统采用如下技术方案:
本发明一个实施例提供了基于大数据分析的个性化医疗辅助问诊系统,该系统包括以下模块:
数据采集模块,用于获取若干个患者的问诊单数据,问诊单数据中包含患者的年龄、症状、症状持续时间以及既往史信息,根据问诊单数据中既往史信息获得既往史数量参数;
相对相似模块,用于根据患者的年龄、症状、症状持续时间以及既往史信息获取患者的病症严重程度,对患者的问诊单数据中的症状进行分词,获得患者的病症数量和情感得分;对所有患者进行迭代聚类,在迭代聚类过程中获得若干个聚类簇,根据任意聚类簇中患者的病症数量、病症严重程度、既往史数量参数以及情感得分之间分别对应的差异,获得患者的相对相似度;
保留度模块,用于获取聚类簇的聚类中心,根据聚类簇的聚类中心之间的距离获取任意聚类簇的近距聚类簇,根据任意患者与所属聚类簇的近距聚类簇中患者的年龄、症状持续时间、病症严重程度之间的差异,获得患者的相对差异度;将相对相似度和相对差异度的融合结果记为患者的保留度,根据保留度差异大小,将患者分为保留患者和分离患者;
聚类模块,用于对所有保留患者和分离患者进行迭代聚类,获得最终聚类簇,对各个最终聚类簇分配问诊医生。
进一步地,所述根据问诊单数据中既往史信息获得既往史数量参数,包括的具体方法为:
既往史信息中包含患者的手术史、过敏史以及预防注射史,将患者的问诊单数据中既往史信息所包含的手术史、过敏史以及预防注射史的数量记为患者的既往史数量参数。
进一步地,所述根据患者的年龄、症状、症状持续时间以及既往史信息获取患者的病症严重程度,包括的具体方法为:
利用神经网络获取患者的病症严重程度,预设区间内的整数作为患者的病症严重程度的数值,病症严重程度最大时对应数值为N,病症严重程度最小时对应数值为1,其中/>为预设的超参数。
进一步地,所述对患者的问诊单数据中的症状进行分词,获得患者的病症数量和情感得分,包括的具体方法为:
利用jieba中文分词工具对任意问诊单数据的症状数据进行分词,获得若干个字符串,将字符串的数量作为患者的病症数量;利用VADER方法对任意问诊单数据的症状数据进行分析,获得患者的情感得分。
进一步地,所述根据任意聚类簇中患者的病症数量、病症严重程度、既往史数量参数以及情感得分之间分别对应的差异,获得患者的相对相似度,包括的具体方法为:
相对相似度的具体计算方法为:
其中,表示第/>个患者的相对相似度;/>表示第/>个患者所在聚类簇内所有患者的数量;/>表示第/>个患者的病症数量;/>表示聚类簇内除第/>个患者以外的第/>个患者的病症数量;/>表示第/>个患者的病症严重程度;/>表示聚类簇内除第/>个患者以外的第/>个患者的病症严重程度;/>表示第/>个患者的既往史数量参数;/>表示聚类簇内除第/>个患者以外的第/>个患者的既往史数量参数;/>表示第/>个患者的情感得分;/>表示聚类簇内除第/>个患者以外的第/>个患者的情感得分;/>表示线性归一化函数;/>表示绝对值符号。
进一步地,所述根据聚类簇的聚类中心之间的距离获取任意聚类簇的近距聚类簇,包括的具体方法为:
获取任意两个聚类簇的聚类中心之间的欧氏距离,在最小欧氏距离下,将一个聚类簇称为另一个聚类簇的近距聚类簇。
进一步地,所述根据任意患者与所属聚类簇的近距聚类簇中患者的年龄、症状持续时间、病症严重程度之间的差异,获得患者的相对差异度,包括的具体方法为:
相对差异度的具体计算方法为:
其中,表示第/>个患者的相对差异度;/>表示第/>个患者的差异因子;/>表示第/>个患者的病症严重程度;/>表示第/>个患者所属聚类簇的近距聚类簇中第k个患者的病症严重程度;/>表示第/>个患者所属聚类簇的近距聚类簇中包含患者的数量;/>表示绝对值符号。
进一步地,所述差异因子的具体获取方法为:
将第个患者的年龄记为/>,将第/>个患者所属聚类簇的近距聚类簇中所有患者的平均年龄记为/>,将/>记为第/>个患者的年龄差异因子/>;
将第个患者的症状持续时间记为/>,将第/>个患者所属聚类簇的近距聚类簇中所有患者的平均症状持续时间记为/>,将/>记为第/>个患者的症状持续时间差异因子/>,其中/>表示绝对值符号;
将记为第/>个患者的差异因子/>。
进一步地,所述将相对相似度和相对差异度的融合结果记为患者的保留度,根据保留度差异大小,将患者分为保留患者和分离患者,包括的具体方法为:
对聚类簇内所有患者的相对差异度进行线性归一化处理,获得归一相对差异度;
将记为第/>个患者的保留度,其中/>表示第i个患者的相对相似度;表示第/>个患者的归一相对差异度;
将任意聚类簇内所有患者的保留度按照从大到小的顺序进行排序,将得到的序列记为保留度序列,获取保留度序列中任意相邻两个患者的保留度的差值绝对值记为相邻保留差,获取聚类簇内所有相邻保留差最大时对应的两个患者记为目标患者,将目标患者中的最大保留度记为目标保留度,将保留度大于目标保留度的患者记为保留患者,将保留度小于目标保留度的患者记为分离患者。
进一步地,所述对所有保留患者和分离患者进行迭代聚类,获得最终聚类簇,对各个最终聚类簇分配问诊医生,包括的具体方法为:
首先,预设ISODATA聚类算法的聚类中心数量,最小类别元素数量,类别内部差异/>,类别合并的阈值/>,在一次迭代运算中可以合并的聚类簇的数量/>,最大迭代次数/>;
然后,利用ISODATA聚类算法对所有患者进行迭代聚类,ISODATA聚类算法对患者进行迭代聚类过程中,使保留患者不参与到聚类簇分裂的过程中,使分离患者参与到聚类簇分裂过程中,迭代完成后获得若干个最终聚类簇,一个最终聚类簇中包括若干个患者以及患者的问诊单数据;
最后,为一个最终聚类簇分配一位医生,对最终聚类簇中的患者进行问诊。
本发明的技术方案的有益效果是:通过获取患者和其他患者的问诊单数据之间的相对相似度和相对差异度,以进一步获得患者在所属聚类簇中的保留度,避免了在迭代聚类过程中,数据之间的距离度量的依据过于简单,导致聚类结果不准确的问题,提高了对患者的问诊单数据的聚类效果,为同一个最终聚类簇中病症相似的患者分配同一个医生,提高了问诊的效率以及个性化程度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于大数据分析的个性化医疗辅助问诊系统的结构框图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于大数据分析的个性化医疗辅助问诊系统,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的基于大数据分析的个性化医疗辅助问诊系统的具体方案。
请参阅图1,其示出了本发明一个实施例提供的基于大数据分析的个性化医疗辅助问诊系统的结构框图,该系统包括以下模块:
数据采集模块,用于获取若干个患者的问诊单数据,根据问诊单数据中既往史信息获得既往史数量参数。
需要说明的是,在线医院是指通过互联网提供医疗服务的一种模式,在这种模式下,患者可以在家中通过电脑或者手机设备,与医生进行实时交流,获取医生咨询、诊断和治疗建议。另外,由于大量患者通过在线医院进行问诊所产生的问诊单数据庞大,因此需要对问诊单数据进行合理分类,提高问诊效率。
为了实现本实施例提出的基于大数据分析的个性化医疗辅助问诊系统,首先需要采集问诊单数据,具体过程为:
在本实施例中以感冒患者的问诊单数据为例,获取同时间内感冒患者的问诊单数据,一位患者对应一个问诊单数据。
需要说明的是,本实施例获取的同时间内为一分钟内所有的感冒患者的问诊单数据,具体时间范围可根据实际情况进行调整,本实施例不进行具体限定。
所述问诊单数据中包含患者的年龄、症状、症状持续时间以及既往史信息,其中症状数据为文本数据,既往史信息中包含患者的手术史、过敏史以及预防注射史,既往史信息的数据类型为文本数据,将患者的问诊单数据中既往史信息所包含的手术史、过敏史以及预防注射史的数量记为患者的既往史数量参数。
至此,通过上述方法得到问诊单数据。
相对相似模块,用于根据患者的年龄、症状、症状持续时间以及既往史信息获取患者的病症严重程度,对患者的问诊单数据中的症状进行分词,获得患者的病症数量和情感得分,对所有患者进行迭代聚类,在迭代聚类过程中获得若干个聚类簇,根据任意聚类簇中患者的病症数量、病症严重程度、既往史数量参数以及情感得分之间分别对应的差异,获得患者的相对相似度。
需要说明的是,由于感冒由于严重程度不同会有多种不同的症状,本实施例在通过距离划分好聚簇的基础上通过患者问诊单数据中的病症、既往史两个维度的信息来确定患者问诊单数据之间的差异度。
具体的,首先,利用神经网络获取患者的病症严重程度,预设区间内的整数作为患者的病症严重程度,病症严重程度最大时对应数值为/>,病症严重程度最小时对应数值为1,其中/>为预设的超参数。
需要说明的是,根据经验预设超参数为10,可根据实际情况进行调整,本实施例不进行具体限定。
需要说明的是,患者的严重程度越高对应的病症严重程度的数值越大。
需要说明的是,所述神经网络的训练过程为:首先,获取大量不同年龄且不同患病程度的患者对应问诊单数据中年龄、症状、症状持续时间以及既往史信息,将区间内的整数作为人工标签,反映患者的病症严重程度,对每一个患者进行人工标注;然后,将带有标签的问诊单数据作为一个样本,则将大量样本形成的集合作为用于神经网络训练的数据集,选取RNN神经网络模型,并将交叉熵损失函数作为所述神经网络的损失函数;最后,获得训练完成的神经网络,并用于获取患者的病症严重程度。
然后,利用jieba中文分词工具对任意问诊单数据的症状数据进行分词,获得若干个字符串,将字符串的数量作为患者的病症数量;利用VADER方法对任意问诊单数据的症状数据进行分析,获得患者的情感得分。
需要说明的是,jieba中文分词工具为现有的中文分词工具,因此本实施例不进行赘述;VADER方法为现有的用于情感分析的自然语言处理工具,因此本实施例不进行赘述。
最后,将任意患者的年龄、病症严重程度以及既往史数量参数形成的数组记为患者的个人数据数组,依据患者之间个人数据数组的欧氏距离并利用ISODATA聚类算法对所有患者进行迭代聚类,获得若干个聚类簇,在迭代聚类过程中,获取患者的相对相似度,具体计算方法为:
其中,表示第/>个患者的相对相似度;/>表示第/>个患者所在聚类簇内所有患者的数量;/>表示第/>个患者的病症数量;/>表示聚类簇内除第/>个患者以外的第/>个患者的病症数量;/>表示第/>个患者的病症严重程度;/>表示聚类簇内除第/>个患者以外的第/>个患者的病症严重程度;/>表示第/>个患者的既往史数量参数;/>表示聚类簇内除第/>个患者以外的第/>个患者的既往史数量参数;/>表示第/>个患者的情感得分;/>表示聚类簇内除第/>个患者以外的第/>个患者的情感得分;/>表示线性归一化函数;/>表示绝对值符号。
需要说明的是,表示聚类簇内患者与其他患者的病症严重程度之间的差异,差异越小,两个患者的问诊单数据之间的相似性越高。
需要说明的是,相似因子反映了聚类簇中患者和其他患者之间病症严重程度的相对差异,差异越大表示患者的问诊单数据和其他患者的问诊单数据之间的相似度越小;例如有两个患者的病症严重程度相差不大,但是病症数量相差较大,这种情况通常为患者的病症严重程度是受到多个轻症状影响而形成的,而另一个患者是的病症严重程度时受到较少的重症状影响而形成的,因此将两个患者关于病症严重程度和病症数量上的差异称为病症严重程度的相对差异,则两位患者之间的病症严重程度的相对差异较大,因此表示两位患者之间的问诊单数据之间的相似度小。
需要说明的是,表示聚类簇中患者和其他患者之间既往史数量参数的差异,差异越小,则患者的相对相似度越高。
需要说明的是,由于每个患者的问诊单中会有对自己病情的形容词语,比如严重、急性、轻、好转等情感词,因此本事实施例通过VADER方法获取患者的问诊单数据的情感得分。
需要说明的是,表示聚类簇中患者和其他患者之间情感得分的差异,差异越小,则患者的相对相似度越高。
至此,通过上述方法得到患者的相对相似度。
保留度模块,用于获取聚类簇的聚类中心,根据聚类簇的聚类中心之间的距离获取任意聚类簇的近距聚类簇,根据任意患者与所属聚类簇的近距聚类簇中患者的年龄、症状持续时间、病症严重程度之间的差异,获得患者的相对差异度,将相对相似度和相对差异度的融合结果记为患者的保留度,根据保留度差异大小,将患者分为保留患者和分离患者。
需要说明的是,在ISODATA的聚类过程中,聚类簇通常会有多个分裂操作,为了保证分裂过程中聚类簇内患者的问诊单数据在合理范围内相似,因此本实施例需要在聚类簇进行分裂之前,获取聚类簇内患者与其他患者之间的差异。
需要说明的是,由于要判断本簇内的患者的问诊单数据是否参与到分裂过程中不仅要考虑其在本簇内所有患者的问诊单数据的相似度,还有考虑其和距离本簇最近的簇内数据的差异度,两者来共同决定本簇内患者的问诊单数据是否参与到分裂计算过程中。
具体的,步骤(1),首先,获取任意两个聚类簇的聚类中心之间的欧氏距离,在最小欧氏距离下,将一个聚类簇称为另一个聚类簇的近距聚类簇。
然后,获取任意聚类簇中患者的相对差异度,具体计算方法为:
其中,表示第/>个患者的相对差异度;/>表示第/>个患者的年龄;/>表示第/>个患者的症状持续时间;/>表示第/>个患者所属聚类簇的近距聚类簇中所有患者的平均年龄;/>表示第/>个患者所属聚类簇的近距聚类簇中所有患者的平均症状持续时间;/>表示第/>个患者的病症严重程度;/>表示第/>个患者所属聚类簇的近距聚类簇中第/>个患者的病症严重程度;/>表示第/>个患者所属聚类簇的近距聚类簇中包含患者的数量;/>表示绝对值符号。
需要说明的是,年龄差异因子表示患者的年龄与所属聚类簇的近距聚类簇中所有患者的平均年龄的差异,差异越大,表示患者的问诊单数据中年龄和近距聚类簇中所有患者的问诊单数据中年龄之间的差异越大。
需要说明的是,症状持续时间差异因子表示患者的症状持续时间与所述聚类簇的近距聚类簇中所有患者的平均症状持续时间之间的差异,差异越大,表示患者的问诊单数据中症状持续时间和近距聚类簇中患者的问诊单数据的症状持续时间之间的差异越大。
需要说明的是,表示患者与近距聚类簇中患者的病症严重程度之间的差异,差异越大,差异越大,表示患者的相对差异度越大。
所述相对差异度用于描述患者与问诊单数据类似的患者之间的差异程度,相对差异度越大,表示患者与问诊单数据类似的患者之间的差异程度越大。
步骤(2),首先,对聚类簇内所有患者的相对差异度进行线性归一化处理,获得归一相对差异度;获取任意聚类簇内患者的保留度,具体计算方法为:
其中,表示第/>个患者的保留度;/>表示第i个患者的相对相似度;/>表示第/>个患者的归一相对差异度。
需要说明的是,所述保留度用于描述患者与聚类簇内其他患者之间的相似程度。
然后,将任意聚类簇内所有患者的保留度按照从大到小的顺序进行排序,将得到的序列记为保留度序列,获取保留度序列中任意相邻两个患者的保留度的差值绝对值记为相邻保留差,获取聚类簇内所有相邻保留差最大时对应的两个患者记为目标患者,将目标患者中的最大保留度记为目标保留度,将保留度大于目标保留度的患者记为保留患者,将保留度小于目标保留度的患者记为分离患者。
需要说明的是,根据计算出的需要分裂的簇内患者的问诊单数据与其他数据的相似度以及和该簇簇内中心距离最近的簇内所有患者的问诊单数据的差异度来确定一个保留度,根据需要分裂的簇内所有患者的问诊单数据的保留值的变化特征来确定需要参与分裂计算的患者问诊单数据。
需要说明的是,通常随着年龄增大,人体的免疫系统会减弱,对疾病的抵抗力也会降低,因此疾病引起并发症的可能性越大,因此病症严重程度就越大,且症状持续时间也会越长,利用ISODATA聚类算法对患者进行聚类的过程中,通常根据问诊单数据中患者的年龄和症状持续时间之间的欧氏距离来决定聚类簇的合并和分裂,但是仅仅通过年龄和症状持续时间之间的欧氏距离来确定会导致本该属于该聚类簇的患者被分裂出去,例如当一个聚类簇中患者都是感冒严重程度较高的,其中有年龄较小的患者,且该患者的病症较重但持续时间较短,如果按照年龄和症状持续时间之间的欧氏距离会导致该患者被分裂出去,从而导致聚类结果不准确,因本实施例此在聚类簇进行分裂前需要患者是否参与ISODATA聚类算法中聚类簇分裂的过程,即判断患者是否为保留患者或分离患者。
至此,通过上述方法得到保留患者和分离患者。
聚类模块,用于对所有保留患者和分离患者进行迭代聚类,获得最终聚类簇,对各个最终聚类簇分配问诊医生。
具体的,首先,预设ISODATA聚类算法的聚类中心数量,最小类别元素数量,类别内部差异/>,类别合并的阈值/>,在一次迭代运算中可以合并的聚类簇的数量/>,最大迭代次数/>。
需要说明的是,需要本实施例中超参数、/>、/>以及/>的具体数值可根据实际情况进行调整,本实施例不进行具体限定。
然后,利用ISODATA聚类算法对所有患者进行迭代聚类,ISODATA聚类算法对患者进行迭代聚类过程中,使保留患者不参与到聚类簇分裂的过程中,使分离患者参与到聚类簇分裂过程中,迭代完成后获得若干个最终聚类簇,一个最终聚类簇中包括若干个患者以及患者的问诊单数据。
需要说明的是,最小类别元素数量即每一聚类域中最少的患者数量,若少于此数即不作为一个独立的聚类簇;类别内部差异即一个聚类簇中患者的个人数据数组分布的离散程度;类别合并的阈值即两个聚类中心之间的最小距离,若小于此数,两个聚类簇需进行合并;
最后,为一个最终聚类簇分配一位医生,对最终聚类簇中的患者进行问诊。
至此,本实施例完成。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.基于大数据分析的个性化医疗辅助问诊系统,其特征在于,该系统包括以下模块:
数据采集模块,用于获取若干个患者的问诊单数据,问诊单数据中包含患者的年龄、症状、症状持续时间以及既往史信息,根据问诊单数据中既往史信息获得既往史数量参数;
相对相似模块,用于根据患者的年龄、症状、症状持续时间以及既往史信息获取患者的病症严重程度,对患者的问诊单数据中的症状进行分词,获得患者的病症数量和情感得分;对所有患者进行迭代聚类,在迭代聚类过程中获得若干个聚类簇,根据任意聚类簇中患者的病症数量、病症严重程度、既往史数量参数以及情感得分之间分别对应的差异,获得患者的相对相似度;
所述根据任意聚类簇中患者的病症数量、病症严重程度、既往史数量参数以及情感得分之间分别对应的差异,获得患者的相对相似度,包括的具体方法为:
相对相似度的具体计算方法为:其中,表示第/>个患者的相对相似度;/>表示第/>个患者所在聚类簇内所有患者的数量;/>表示第/>个患者的病症数量;/>表示聚类簇内除第/>个患者以外的第/>个患者的病症数量;/>表示第/>个患者的病症严重程度;/>表示聚类簇内除第/>个患者以外的第/>个患者的病症严重程度;/>表示第/>个患者的既往史数量参数;/>表示聚类簇内除第/>个患者以外的第/>个患者的既往史数量参数;/>表示第/>个患者的情感得分;/>表示聚类簇内除第/>个患者以外的第/>个患者的情感得分;/>表示线性归一化函数;/>表示绝对值符号;保留度模块,用于获取聚类簇的聚类中心,根据聚类簇的聚类中心之间的距离获取任意聚类簇的近距聚类簇,根据任意患者与所属聚类簇的近距聚类簇中患者的年龄、症状持续时间、病症严重程度之间的差异,获得患者的相对差异度;将相对相似度和相对差异度的融合结果记为患者的保留度,根据保留度差异大小,将患者分为保留患者和分离患者;
所述根据任意患者与所属聚类簇的近距聚类簇中患者的年龄、症状持续时间、病症严重程度之间的差异,获得患者的相对差异度,包括的具体方法为:
相对差异度的具体计算方法为:其中,/>表示第/>个患者的相对差异度;/>表示第/>个患者的差异因子;/>表示第/>个患者的病症严重程度;/>表示第/>个患者所属聚类簇的近距聚类簇中第k个患者的病症严重程度;/>表示第/>个患者所属聚类簇的近距聚类簇中包含患者的数量;/>表示绝对值符号;所述差异因子的具体获取方法为:
将第个患者的年龄记为/>将第/>个患者所属聚类簇的近距聚类簇中所有患者的平均年龄记为/>,将/>记为第/>个患者的年龄差异因子/>;将第/>个患者的症状持续时间记为/>,将第/>个患者所属聚类簇的近距聚类簇中所有患者的平均症状持续时间记为/>,将/>记为第/>个患者的症状持续时间差异因子/>,其中/>表示绝对值符号;将/>记为第/>个患者的差异因子/>;聚类模块,用于对所有保留患者和分离患者进行迭代聚类,获得最终聚类簇,对各个最终聚类簇分配问诊医生;
所述对所有保留患者和分离患者进行迭代聚类,获得最终聚类簇,对各个最终聚类簇分配问诊医生,包括的具体方法为:
首先,利用ISODATA聚类算法对所有患者进行迭代聚类,ISODATA聚类算法对患者进行迭代聚类过程中,使保留患者不参与到聚类簇分裂的过程中,使分离患者参与到聚类簇分裂过程中,迭代完成后获得若干个最终聚类簇,一个最终聚类簇中包括若干个患者以及患者的问诊单数据;
然后,为一个最终聚类簇分配一位医生,对最终聚类簇中的患者进行问诊。
2.根据权利要求1所述基于大数据分析的个性化医疗辅助问诊系统,其特征在于,所述根据问诊单数据中既往史信息获得既往史数量参数,包括的具体方法为:
既往史信息中包含患者的手术史、过敏史以及预防注射史,将患者的问诊单数据中既往史信息所包含的手术史、过敏史以及预防注射史的数量记为患者的既往史数量参数。
3.根据权利要求1所述基于大数据分析的个性化医疗辅助问诊系统,其特征在于,所述根据患者的年龄、症状、症状持续时间以及既往史信息获取患者的病症严重程度,包括的具体方法为:
利用神经网络获取患者的病症严重程度,预设区间内的整数作为患者的病症严重程度的数值,病症严重程度最大时对应数值为/>,病症严重程度最小时对应数值为1,其中/>为预设的超参数。
4.根据权利要求1所述基于大数据分析的个性化医疗辅助问诊系统,其特征在于,所述对患者的问诊单数据中的症状进行分词,获得患者的病症数量和情感得分,包括的具体方法为:
利用jieba中文分词工具对任意问诊单数据的症状数据进行分词,获得若干个字符串,将字符串的数量作为患者的病症数量;利用VADER方法对任意问诊单数据的症状数据进行分析,获得患者的情感得分。
5.根据权利要求1所述基于大数据分析的个性化医疗辅助问诊系统,其特征在于,所述根据聚类簇的聚类中心之间的距离获取任意聚类簇的近距聚类簇,包括的具体方法为:
获取任意两个聚类簇的聚类中心之间的欧氏距离,在最小欧氏距离下,将一个聚类簇称为另一个聚类簇的近距聚类簇。
6.根据权利要求1所述基于大数据分析的个性化医疗辅助问诊系统,其特征在于,所述将相对相似度和相对差异度的融合结果记为患者的保留度,根据保留度差异大小,将患者分为保留患者和分离患者,包括的具体方法为:
对聚类簇内所有患者的相对差异度进行线性归一化处理,获得归一相对差异度;将记为第/>个患者的保留度,其中/>表示第i个患者的相对相似度;/>表示第/>个患者的归一相对差异度;将任意聚类簇内所有患者的保留度按照从大到小的顺序进行排序,将得到的序列记为保留度序列,获取保留度序列中任意相邻两个患者的保留度的差值绝对值记为相邻保留差,获取聚类簇内所有相邻保留差最大时对应的两个患者记为目标患者,将目标患者中的最大保留度记为目标保留度,将保留度大于目标保留度的患者记为保留患者,将保留度小于目标保留度的患者记为分离患者。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311667792.3A CN117373657B (zh) | 2023-12-07 | 2023-12-07 | 基于大数据分析的个性化医疗辅助问诊系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311667792.3A CN117373657B (zh) | 2023-12-07 | 2023-12-07 | 基于大数据分析的个性化医疗辅助问诊系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117373657A CN117373657A (zh) | 2024-01-09 |
CN117373657B true CN117373657B (zh) | 2024-02-20 |
Family
ID=89391299
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311667792.3A Active CN117373657B (zh) | 2023-12-07 | 2023-12-07 | 基于大数据分析的个性化医疗辅助问诊系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117373657B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117609813B (zh) * | 2024-01-23 | 2024-04-23 | 山东第一医科大学附属省立医院(山东省立医院) | 一种重症患者监护数据智能管理方法 |
CN117912712B (zh) * | 2024-03-20 | 2024-05-28 | 徕兄健康科技(威海)有限责任公司 | 基于大数据的甲状腺疾病数据智能管理方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07234854A (ja) * | 1994-02-23 | 1995-09-05 | Olympus Optical Co Ltd | クラスタ分類装置 |
CN109886065A (zh) * | 2018-12-07 | 2019-06-14 | 武汉理工大学 | 一种在线增量式回环检测方法 |
CN110880362A (zh) * | 2019-11-12 | 2020-03-13 | 南京航空航天大学 | 一种大规模医疗数据知识挖掘与治疗方案推荐系统 |
CN114171199A (zh) * | 2021-12-14 | 2022-03-11 | 中国科学院深圳先进技术研究院 | 脑恶性肿瘤患者生存预测方法、系统、终端及存储介质 |
CN116662553A (zh) * | 2023-07-21 | 2023-08-29 | 深圳市亿康医疗技术有限公司 | 基于问诊意向的智能助诊系统 |
-
2023
- 2023-12-07 CN CN202311667792.3A patent/CN117373657B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07234854A (ja) * | 1994-02-23 | 1995-09-05 | Olympus Optical Co Ltd | クラスタ分類装置 |
CN109886065A (zh) * | 2018-12-07 | 2019-06-14 | 武汉理工大学 | 一种在线增量式回环检测方法 |
CN110880362A (zh) * | 2019-11-12 | 2020-03-13 | 南京航空航天大学 | 一种大规模医疗数据知识挖掘与治疗方案推荐系统 |
CN114171199A (zh) * | 2021-12-14 | 2022-03-11 | 中国科学院深圳先进技术研究院 | 脑恶性肿瘤患者生存预测方法、系统、终端及存储介质 |
CN116662553A (zh) * | 2023-07-21 | 2023-08-29 | 深圳市亿康医疗技术有限公司 | 基于问诊意向的智能助诊系统 |
Also Published As
Publication number | Publication date |
---|---|
CN117373657A (zh) | 2024-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117373657B (zh) | 基于大数据分析的个性化医疗辅助问诊系统 | |
Font et al. | Varieties of inclusionary populism? SYRIZA, Podemos and the Five Star Movement | |
CN106557653A (zh) | 一种移动医疗智能导医系统及其方法 | |
US20180165413A1 (en) | Gene expression data classification method and classification system | |
Zhang et al. | We make choices we think are going to save us: Debate and stance identification for online breast cancer CAM discussions | |
CN110931128B (zh) | 非结构化医疗文本无监督症状自动识别方法、系统、装置 | |
CN107066514A (zh) | 老年人的情绪识别方法和系统 | |
CN111460091B (zh) | 医学短文本数据负样例采样方法及医学诊断标准术语映射模型训练方法 | |
CN112164459A (zh) | 一种抑郁症状的信息评估方法 | |
CN110110724A (zh) | 基于指数型挤压函数驱动胶囊神经网络的文本验证码识别方法 | |
CN116910172B (zh) | 基于人工智能的随访量表生成方法及系统 | |
CN113808747A (zh) | 一种缺血性脑卒中复发预测方法 | |
CN109410074A (zh) | 智能核保方法与系统 | |
Lin et al. | Ded: Diagnostic evidence distillation for acne severity grading on face images | |
Wang et al. | Assessing depression risk in Chinese microblogs: a corpus and machine learning methods | |
CN113936317A (zh) | 一种基于先验知识的人脸表情识别方法 | |
CN112927797A (zh) | 一种基于贝叶斯概率推断的急诊临床诊断分析系统 | |
CN117195027A (zh) | 基于成员选择的簇加权聚类集成方法 | |
CN112185585A (zh) | 一种基于代谢组学的糖尿病早期预警方法 | |
CN111243728A (zh) | 一种智能中医四诊信息融合系统、方法及存储介质 | |
Li et al. | Analyzing patient decision making in online health communities | |
Karthik et al. | Virtual doctor: an artificial medical diagnostic system based on hard and soft inputs | |
CN113972009A (zh) | 一种基于临床检验医学大数据的医学检验咨询系统 | |
Kim et al. | Determining the quality of life of marriage migrant women in Korea | |
CN116521875B (zh) | 引入群体情绪感染的原型增强小样本对话情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |