CN117912712A - 基于大数据的甲状腺疾病数据智能管理方法及系统 - Google Patents
基于大数据的甲状腺疾病数据智能管理方法及系统 Download PDFInfo
- Publication number
- CN117912712A CN117912712A CN202410315708.XA CN202410315708A CN117912712A CN 117912712 A CN117912712 A CN 117912712A CN 202410315708 A CN202410315708 A CN 202410315708A CN 117912712 A CN117912712 A CN 117912712A
- Authority
- CN
- China
- Prior art keywords
- data
- patient
- thyroid
- data point
- difference
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 208000024799 Thyroid disease Diseases 0.000 title claims abstract description 64
- 208000021510 thyroid gland disease Diseases 0.000 title claims abstract description 61
- 238000007726 management method Methods 0.000 title claims description 22
- 210000001685 thyroid gland Anatomy 0.000 claims abstract description 63
- 238000012544 monitoring process Methods 0.000 claims abstract description 53
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000013523 data management Methods 0.000 claims abstract description 11
- 238000001514 detection method Methods 0.000 claims description 46
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000012360 testing method Methods 0.000 claims description 15
- 238000010606 normalization Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 208000024891 symptom Diseases 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- XUIIKFGFIJCVMT-GFCCVEGCSA-N D-thyroxine Chemical compound IC1=CC(C[C@@H](N)C(O)=O)=CC(I)=C1OC1=CC(I)=C(O)C(I)=C1 XUIIKFGFIJCVMT-GFCCVEGCSA-N 0.000 description 2
- 206010020850 Hyperthyroidism Diseases 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 229940088597 hormone Drugs 0.000 description 2
- 239000005556 hormone Substances 0.000 description 2
- 208000003532 hypothyroidism Diseases 0.000 description 2
- 230000002989 hypothyroidism Effects 0.000 description 2
- 229940034208 thyroxine Drugs 0.000 description 2
- XUIIKFGFIJCVMT-UHFFFAOYSA-N thyroxine-binding globulin Natural products IC1=CC(CC([NH3+])C([O-])=O)=CC(I)=C1OC1=CC(I)=C(O)C(I)=C1 XUIIKFGFIJCVMT-UHFFFAOYSA-N 0.000 description 2
- 208000023328 Basedow disease Diseases 0.000 description 1
- 208000015023 Graves' disease Diseases 0.000 description 1
- 208000001204 Hashimoto Disease Diseases 0.000 description 1
- 208000030836 Hashimoto thyroiditis Diseases 0.000 description 1
- 102000009843 Thyroglobulin Human genes 0.000 description 1
- 108010034949 Thyroglobulin Proteins 0.000 description 1
- 208000009453 Thyroid Nodule Diseases 0.000 description 1
- 102000011923 Thyrotropin Human genes 0.000 description 1
- 108010061174 Thyrotropin Proteins 0.000 description 1
- 208000010928 autoimmune thyroid disease Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 229960002175 thyroglobulin Drugs 0.000 description 1
- 206010043778 thyroiditis Diseases 0.000 description 1
- 229960000874 thyrotropin Drugs 0.000 description 1
- 230000001748 thyrotropin Effects 0.000 description 1
Landscapes
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明涉及甲状腺疾病数据处理技术领域,具体涉及基于大数据的甲状腺疾病数据智能管理方法及系统。方法包括:获取每个甲状腺疾病患者的年龄和监测数据;根据每个患者的监测数据与其他患者的监测数据的差异,得到每个患者的甲状腺特征值,基于甲状腺特征值和年龄获得对应的数据点;根据每个数据点与其邻域内数据点的甲状腺特征值的差异和年龄差异确定初始聚类半径;基于初始聚类半径对数据点聚类获得初始聚类簇;基于不同初始聚类簇内的数据点对应的患者的甲状腺特征值的差异对初始聚类半径进行修正获得目标聚类半径,对数据点再次聚类获得目标聚类簇,进而对监测数据进行管理。本发明提高了对甲状腺疾病患者监测数据分类结果的准确性。
Description
技术领域
本发明涉及甲状腺疾病数据处理技术领域,具体涉及基于大数据的甲状腺疾病数据智能管理方法及系统。
背景技术
甲状腺疾病是指影响甲状腺功能或结构的一类疾病,包括甲状腺功能亢进、甲状腺功能减退、甲状腺结节、甲状腺炎等。为了了解甲状腺疾病患者的监测数据的分布情况,一般通过聚类的方式将相近病症的甲状腺疾病患者的监测数据分为一类,以便于帮助医生更好地了解患者的病情,实现个性化治疗。同时根据分类的结果可以了解到不同年龄段的甲状腺疾病患者的具体分布情况,以便于对甲状腺疾病患者进行更好地分类和管理。
在对甲状腺疾病患者监测数据进行分类管理时,一般采用现有的DBSCAN聚类算法对甲状腺疾病患者的监测数据通过聚类的方式划分为不同的类簇,以便于进行分析和管理。但是利用该算法对采集的甲状腺疾病患者的监测数据进行聚类时,选择的聚类半径过大,可能导致多个簇被合并成一个簇,而如果聚类半径过小,则可能导致将一个密集的簇拆分成多个簇,因此若聚类半径选择的不合适会影响到最终聚类结果的准确性。
发明内容
为了解决现有DBSCAN聚类算法对甲状腺患者的监测数据进行聚类时聚类半径设置的不合适,导致聚类结果的准确性较低的问题,本发明的目的在于提供一种基于大数据的甲状腺疾病数据智能管理方法及系统,所采用的技术方案具体如下:
第一方面,本发明提供了一种基于大数据的甲状腺疾病数据智能管理方法,该方法包括以下步骤:
获取预设时间段内每个甲状腺疾病患者的年龄和不同检测项目的监测数据;
根据每个患者的每个检测项目的监测数据与其他患者的检测项目的监测数据之间的差异情况,得到每个患者的甲状腺特征值;基于所述甲状腺特征值和年龄获得每个患者对应的数据点;根据每个数据点与其邻域内数据点的甲状腺特征值的差异以及年龄的差异,得到每个数据点的局部密度;
根据所有数据点的局部密度的分布情况确定初始聚类半径;基于所述初始聚类半径采用DBSCAN聚类算法对所有数据点进行初次聚类获得各初始聚类簇;基于不同初始聚类簇内的数据点对应的患者的甲状腺特征值的差异对初始聚类半径进行修正,获得目标聚类半径;
基于所述目标聚类半径采用DBSCAN聚类算法对所有数据点进行再次聚类获得各目标聚类簇,将同一目标聚类簇内的所有数据点对应的患者的监测数据作为一类进行数据管理。
优选的,所述根据每个患者的每个检测项目的监测数据与其他患者的检测项目的监测数据之间的差异情况,得到每个患者的甲状腺特征值,包括:
对于第i个患者:
对于第s个检测项目:分别将第i个患者的第s个检测项目的监测数据与除第i个患者外的其他每个患者的第s个检测项目的监测数据之间的差值的平方,作为除第i个患者外的其他每个患者的第s个检测项目对应的第一差异;
基于除第i个患者外的其他每个患者的每个检测项目对应的第一差异,获得第i个患者的甲状腺特征值。
优选的,所述基于除第i个患者外的其他每个患者的每个检测项目对应的第一差异,获得第i个患者的甲状腺特征值,包括:
分别将除第i个患者外的其他每个患者的所有检测项目对应的第一差异的平均值,作为除第i个患者外的其他每个患者的第一特征指标;
将除第i个患者外的其他所有患者的第一特征指标的平均值,作为第i个患者的甲状腺特征值。
优选的,所述基于所述甲状腺特征值和年龄获得每个患者对应的数据点,包括:
将每个患者的年龄作为坐标系中的横坐标,将每个患者的甲状腺特征值作为坐标系的纵坐标,构建坐标系,获得每个患者对应的数据点。
优选的,所述根据每个数据点与其邻域内数据点的甲状腺特征值的差异以及年龄的差异,得到每个数据点的局部密度,包括:
对于第y个数据点:
分别将第y个数据点与其邻域内每个数据点之间的甲状腺特征值的差值的绝对值,作为第y个数据点的邻域内每个数据点对应的第二差异;分别将第y个数据点与其邻域内每个数据点之间的年龄的差值的绝对值,作为第y个数据点的邻域内每个数据点对应的第三差异;
基于所述第二差异和所述第三差异获得第y个数据点的局部密度。
优选的,所述基于所述第二差异和所述第三差异获得第y个数据点的局部密度,包括:
对于第y个数据点的邻域内第v个数据点:将第y个数据点的邻域内第v个数据点对应的第二差异与第y个数据点的邻域内第v个数据点对应的第三差异之和,作为第y个数据点的邻域内第v个数据点的第二特征指标;
将第y个数据点的邻域内所有数据点的第二特征指标的平均值,记为第y个数据点对应的差异指标;将所述差异指标的负相关归一化结果,确定为第y个数据点的局部密度。
优选的,所述根据所有数据点的局部密度的分布情况确定初始聚类半径,包括:
分别计算所有数据点的局部密度的平均值和极差;
根据所有数据点的局部密度的平均值、极差以及每个数据点的局部密度与所有数据点的局部密度的平均值之间的差异,获得初始聚类半径。
优选的,采用如下公式计算初始聚类半径:
其中,R表示初始聚类半径,表示所有数据点的局部密度的最大值,/>表示所有数据点的局部密度的最小值,/>表示所有数据点的局部密度的平均值,Y表示数据点的数量,/>表示第y个数据点的局部密度,/>表示取绝对值符号,norm( )表示归一化函数。
优选的,采用如下公式计算目标聚类半径:
其中,表示目标聚类半径,R表示初始聚类半径,/>表示第a个初始聚类簇内所有数据点对应的患者的甲状腺特征值的平均值,/>表示第b个初始聚类簇内所有数据点对应的患者的甲状腺特征值的平均值,k表示初始聚类簇的数量,/>表示取绝对值符号,norm( )表示归一化函数,C表示预设超参数,C大于0。
第二方面,本发明提供了一种基于大数据的甲状腺疾病数据智能管理系统,包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现上述所述的基于大数据的甲状腺疾病数据智能管理方法。
本发明至少具有如下有益效果:
本发明在对甲状腺疾病患者不同检测项目的监测数据进行分类管理时,首先对每个患者的每个检测项目的监测数据与其他患者的检测项目的监测数据之间的差异情况进行了分析,得到了每个患者的甲状腺特征值,由于甲状腺疾病患者的病症与年龄具有一定的关系,因此本发明结合甲状腺特征值和年龄获得了每个患者对应的数据点,对每个数据点的局部密度进行了分析,确定了初始聚类半径,根据初始聚类半径使用DBSCAN聚类算法对所有数据点进行初次聚类获得了多个初始聚类簇,为了提高甲状腺疾病患者监测数据聚类结果的准确性,本发明根据初次聚类的聚类效果对初始聚类半径进行了修正,从而得到更加准确的目标聚类半径,利用目标聚类半径对所有数据点进行聚类,使得最终的聚类结果更加准确,从而提高了对甲状腺疾病患者监测数据分类和管理的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明实施例所提供的一种基于大数据的甲状腺疾病数据智能管理方法的流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于大数据的甲状腺疾病数据智能管理方法及系统进行详细说明如下。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的基于大数据的甲状腺疾病数据智能管理方法及系统的具体方案。
基于大数据的甲状腺疾病数据智能管理方法实施例:
本实施例所针对的具体场景为:在采用DBSCAN聚类算法对甲状腺疾病患者的监测数据进行聚类时,聚类半径设置的不合适会影响到最终聚类结果的准确性,本实施例对每个患者的每个检测项目的监测数据与其他患者的检测项目的监测数据之间的差异以及年龄之间的差异进行分析,确定初始聚类半径,进而采用DBSCAN聚类算法对所有数据点进行初次聚类获得多个初始聚类簇,基于不同初始聚类簇内的数据点对应的患者的甲状腺特征值的差异对初始聚类半径进行修正,获得目标聚类半径,进而再次对所有数据点进行再次聚类获得多个目标聚类簇,以实现甲状腺疾病患者监测数据聚类结果的准确性。
本实施例提出了基于大数据的甲状腺疾病数据智能管理方法,如图1所示,本实施例的基于大数据的甲状腺疾病数据智能管理方法包括以下步骤:
步骤S1,获取预设时间段内每个甲状腺疾病患者的年龄和不同检测项目的监测数据。
本实施例通过医院的血液检测仪等相关设备采集预设时间段内每个甲状腺疾病患者血液中的不同检测项目的监测数据,本实施例中的检测项目包括促甲状腺素(三代TSH)、游离甲状腺素T4(FT4)、游离甲状腺素T3(FT3)、甲状腺球蛋白抗体(A-TG)等,并记录每个患者的年龄数据,以便于后续的分析,在具体应用中,实施者根据具体情况设置检测项目的种类,本实施例中预设时间段为与当前时刻的时间间隔小于或等于预设时长的所有历史时刻构成的集合,本实施例中预设时长为三个月,在具体应用中,实施者可根据具体情况进行设置。
至此,本实施例获取了近三个月内每个甲状腺疾病患者的年龄和不同检测项目的监测数据。
步骤S2,根据每个患者的每个检测项目的监测数据与其他患者的检测项目的监测数据之间的差异情况,得到每个患者的甲状腺特征值;基于所述甲状腺特征值和年龄获得每个患者对应的数据点;根据每个数据点与其邻域内数据点的甲状腺特征值的差异以及年龄的差异,得到每个数据点的局部密度。
不同甲状腺疾病患者的症状不同,在对甲状腺疾病患者进行分类时,应尽可能地将相同或者相近患病特征的患者的监测数据分为一类,而患者的症状则与其自身甲状腺各种激素水平具有很大关系,因此,本实施例接下来将通过对每个患者的每个检测项目的监测数据与其他患者的检测项目的监测数据之间的差异情况进行分析,从而得到每个患者的基本特征。
具体地,对于第i个患者:
对于第s个检测项目:分别将第i个患者的第s个检测项目的监测数据与除第i个患者外的其他每个患者的第s个检测项目的监测数据之间的差值的平方,作为除第i个患者外的其他每个患者的第s个检测项目对应的第一差异;需要说明的是:除第i个患者外的其他每个患者的第s个检测项目均对应一个第一差异。分别将除第i个患者外的其他每个患者的所有检测项目对应的第一差异的平均值,作为除第i个患者外的其他每个患者的第一特征指标;需要说明的是:除第i个患者外的其他每个患者均对应一个第一特征指标。将除第i个患者外的其他所有患者的第一特征指标的平均值,作为第i个患者的甲状腺特征值。第i个患者的甲状腺特征值的具体计算公式为:
其中,表示第i个患者的甲状腺特征值,m表示预设时间段内所有甲状腺疾病患者的数量,S表示每个患者的检测项目的数量,/>表示第i个患者的第s个检测项目的监测数据,/>表示除第i个患者外的第j个患者的第s个检测项目的监测数据。
表示除第i个患者外的第j个患者的第s个检测项目对应的第一差异,用于反映这两个患者第s个检测项目的监测数据之间的差异情况;/>表示除第i个患者外的第j个患者的第一特征指标,用于表征第i个患者除第i个患者外的第j个患者的所有检测项目的监测数据之间的平均差异,反映这两个患者总体检测项目的监测数据之间的差异程度;/>表示第i个患者与其他患者的检测项目的监测数据之间的整体差异,即作为第i个患者的检测数据的特征。当第i个患者与其他患者的检测项目的监测数据之间的差异越大时,第i个患者的甲状腺特征值越大。
采用上述方法,能够获得每个患者的甲状腺特征值,监测数据特征相近的患者的甲状腺特征值较相近,则说明他们的检测项目总体激素数据是比较接近的,那么他们所表现的症状可能是比较相近的,在进行聚类分析时,则有可能将相近监测数据特征的患者进行分为一类,以便于后续对不同分类患者进行个性化的服务和诊断等举措。同时,由于年龄是影响甲状腺疾病的重要因素之一。一般来说,甲状腺功能亢进症在年轻人中较为常见,而甲状腺功能减退症则更常见于中老年人群。此外,自身免疫性甲状腺疾病(如Graves病和Hashimoto甲状腺炎)通常在成年后发病率增加。因此,年龄可以影响甲状腺疾病的类型和发病率。为了将甲状腺疾病患者相近患病特征和类型聚为一起,将每个患者的年龄作为坐标系中的横坐标,将每个患者的甲状腺特征值作为坐标系的纵坐标,构建坐标系,获得每个患者对应的数据点,也即获得了甲状腺患者数据的散点图。
在使用DBSCAN聚类算法对坐标系中所有数据点进行聚类分析时,则需要选择合适的聚类半径,从而将坐标系中的数据点进行更加准确的聚类。然而聚类半径的选择与采集到的甲状腺患者的监测数据的整体分布和密度有关,坐标中的数据点越密集,选择的聚类半径则应当尽可能小,因为密集的数据点之间的距离是比较小的,如果使用较大的聚类半径,可能会将多个密集的簇合并成一个大的簇,导致聚类结果不够精细。因此,在对聚类半径进行计算时,首先估计出每个数据点的局部密度,通过对每个数据点整体的局部密度进行分析,从而得到更加准确的聚类半径。为了对每个数据点的局部密度进行准确地估计,本实施例将对每个数据点与其邻域内数据点的甲状腺特征值的差异以及年龄的差异情况进行分析,从而得到更加准确的局部密度估计值。
具体地,对于第y个数据点:
分别将第y个数据点与其邻域内每个数据点之间的甲状腺特征值的差值的绝对值,作为第y个数据点的邻域内每个数据点对应的第二差异;分别将第y个数据点与其邻域内每个数据点之间的年龄的差值的绝对值,作为第y个数据点的邻域内每个数据点对应的第三差异;第y个数据点的邻域内每个数据点均对应一个第三差异。对于第y个数据点的邻域内第v个数据点:将第y个数据点的邻域内第v个数据点对应的第二差异与第y个数据点的邻域内第v个数据点对应的第三差异之和,作为第y个数据点的邻域内第v个数据点的第二特征指标。采用上述方法,能够获得第y个数据点的邻域内每个数据点的第二特征指标,将第y个数据点的邻域内所有数据点的第二特征指标的平均值,记为第y个数据点对应的差异指标;将所述差异指标的负相关归一化结果,确定为第y个数据点的局部密度。第y个数据点的局部密度的具体计算公式为:
其中,表示第y个数据点的局部密度,n表示第y个数据点的邻域内数据点的数量,/>表示第y个数据点对应的患者的甲状腺特征值,/>表示第y个数据点的邻域内第v个数据点对应的患者的甲状腺特征值,/>表示第y个数据点对应的患者的年龄,/>表示第y个数据点的邻域内第v个数据点对应的患者的年龄,/>表示取绝对值符号,exp( )表示以自然常数为底数的指数函数。
对于任一数据点,其邻域内的数据点的获取过程为:分别计算该数据点与其他每个数据点之间的欧式距离,按照欧式距离从小到大的顺序,对除该数据点外的其他所有数据点进行排序获得对应的数据点序列,将数据点序列中前预设数量个数据点作为该数据点的邻域内的数据点,也即筛选了预设数量个与该数据点欧式距离最近的数据点作为了该数据点的邻域内的数据点。本实施例中预设数量为5,在具体应用中,实施者可根据具体情况进行设置。
表示第y个数据点的邻域内第v个数据点对应的第二差异,/>表示第y个数据点的邻域内第v个数据点对应的第三差异,/>表示第y个数据点的邻域内第v个数据点的第二特征指标,也即第y个数据点与其邻域内第v个数据点的横纵坐标值差异之和,用于反映第y个数据点与其邻域内第v个数据点之间的差异;表示第y个数据点的邻域内第v个数据点的第二特征指标,也即第y个数据点与其邻域内所有数据点之间差异性的均值,该值越小,说明第y个数据点的局部密度越大。
采用上述方法,能够获得二维坐标系中每个数据点的局部密度。
步骤S3,根据所有数据点的局部密度的分布情况确定初始聚类半径;基于所述初始聚类半径采用DBSCAN聚类算法对所有数据点进行初次聚类获得各初始聚类簇;基于不同初始聚类簇内的数据点对应的患者的甲状腺特征值的差异对初始聚类半径进行修正,获得目标聚类半径。
本实施例对每个数据点的局部密度分布情况进行了判断,获得了每个数据点的局部密度,接下来根据每个数据点的局部密度,分别计算所有数据点的局部密度的平均值和极差;根据所有数据点的局部密度的平均值、极差以及每个数据点的局部密度与所有数据点的局部密度的平均值之间的差异,获得初始聚类半径。初始聚类半径的具体计算公式为:
其中,R表示初始聚类半径,表示所有数据点的局部密度的最大值,/>表示所有数据点的局部密度的最小值,/>表示所有数据点的局部密度的平均值,Y表示数据点的数量,/>表示第y个数据点的局部密度,/>表示取绝对值符号,norm( )表示归一化函数。
表示所有数据点的局部密度的极差,反映坐标系中数据点局部密度的分布情况,该值越大,说明坐标系中数据点局部密度越不均匀,因为当数据点局部密度分布越均匀时,数据点之间的距离越一致,而且簇的密度变化相对较小,那么在进行聚类半径选择时通常选择较大的聚类半径,这样可以更好地捕捉数据点之间的关系和聚类簇的结构,从而得到更合理的聚类结果。/>表示坐标系中每个数据点的局部密度与所有数据点的局部密度的差异的均值,用于反映坐标系中数据点分布的均匀性,该值越大,说明坐标系中数据点的分布越均匀,那么聚类半径的选择应当越大。表示坐标系中数据点分布均匀性大小,将该值作为坐标系中数据点的局部密度均值的调整参数,从而得到聚类时的初始聚类半径。
采用上述方法,获得了初始聚类半径,本实施例设置DBSCAN聚类时的最小邻域点数(minPts)的值为4,在具体应用中,实施者可根据具体情况进行设置,然后基于初始聚类半径,使用DBSCAN聚类算法对坐标系中的所有数据点进行聚类,将此时获得的聚类簇记为初始聚类簇,也即获得了多个初始聚类簇。DBSCAN聚类算法为现有技术,此处不再过多赘述。
为了提高患者的监测数据聚类结果的准确性,本实施例将根据初次聚类结果对初始聚类半径进行反馈调整,进一步提高对坐标系中数据点聚类结果的准确性。目标聚类半径的具体计算公式为:
其中,表示目标聚类半径,R表示初始聚类半径,/>表示第a个初始聚类簇内所有数据点对应的患者的甲状腺特征值的平均值,/>表示第b个初始聚类簇内所有数据点对应的患者的甲状腺特征值的平均值,k表示初始聚类簇的数量,/>表示取绝对值符号,norm( )表示归一化函数,C表示预设超参数,C大于0。
本实施例中预设超参数为2,在具体应用中,实施者可根据具体情况进行设置。
表示第a个初始聚类簇内数据点对应的患者的甲状腺特征值的均值和其余初始聚类簇内数据点对应的患者的甲状腺特征值的均值的平均差异,用于反映第a个初始聚类簇和其余初始聚类簇的整体性差异;/>表示所有初始聚类簇差异性的均值,即反映初始聚类簇之间的总体性差异,该值越大,说明初始聚类簇之间的差异性越大,此时说明初次聚类的效果越好,也即初始聚类半径越合适,即越不需要对初始聚类半径进行调整,此时/>的值越接近1,因此本实施例将作为对初始聚类半径调整的参数,对选择的初始聚类半径进一步调整,以提高聚类结果的精度和准确性。
至此,本实施例对初始聚类半径进行了修正获得了目标聚类半径。
步骤S4,基于所述目标聚类半径采用DBSCAN聚类算法对所有数据点进行再次聚类获得各目标聚类簇,将同一目标聚类簇内的所有数据点对应的患者的监测数据作为一类进行数据管理。
本实施例在步骤S3中对DBSCAN聚类时的初始聚类半径进行了修正获得了目标聚类半径,接下来基于目标聚类半径,采用DBSCAN聚类算法对坐标系中所有数据点进行再次聚类,获得多个聚类簇,将此时获得的聚类簇记为目标聚类簇,也即获得了多个目标聚类簇。
同一目标聚类簇内的数据点对应的甲状腺疾病患者的检测项目的监测数据的相似度较高,不同目标聚类簇内的数据点对应的甲状腺疾病患者的检测项目的监测数据的差异较大,因此本实施例分别将每个目标聚类簇内的甲状腺疾病患者的检测项目的监测数据作为一类,并进行管理,通过不同分类中甲状腺疾病患者的年龄以及数量分布等信息,医生可以对甲状腺疾病患者提供更加准确和个性化的医疗服务,以辅助患者快速痊愈。
本实施例在对甲状腺疾病患者不同检测项目的监测数据进行分类管理时,首先对每个患者的每个检测项目的监测数据与其他患者的检测项目的监测数据之间的差异情况进行了分析,得到了每个患者的甲状腺特征值,由于甲状腺疾病患者的病症与年龄具有一定的关系,因此本实施例结合甲状腺特征值和年龄获得了每个患者对应的数据点,对每个数据点的局部密度进行了分析,确定了初始聚类半径,根据初始聚类半径使用DBSCAN聚类算法对所有数据点进行初次聚类获得了多个初始聚类簇,为了提高甲状腺疾病患者监测数据聚类结果的准确性,本实施例根据初次聚类的聚类效果对初始聚类半径进行了修正,从而得到更加准确的目标聚类半径,利用目标聚类半径对所有数据点进行聚类,使得最终的聚类结果更加准确,从而提高了对甲状腺疾病患者监测数据分类和管理的准确性。
基于大数据的甲状腺疾病数据智能管理系统实施例:
本实施例基于大数据的甲状腺疾病数据智能管理系统包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现上述所述的基于大数据的甲状腺疾病数据智能管理方法。
由于基于大数据的甲状腺疾病数据智能管理方法已经在基于大数据的甲状腺疾病数据智能管理方法实施例中进行了说明,所以本实施例不再对基于大数据的甲状腺疾病数据智能管理方法进行赘述。
需要说明的是:以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于大数据的甲状腺疾病数据智能管理方法,其特征在于,该方法包括以下步骤:
获取预设时间段内每个甲状腺疾病患者的年龄和不同检测项目的监测数据;
根据每个患者的每个检测项目的监测数据与其他患者的检测项目的监测数据之间的差异情况,得到每个患者的甲状腺特征值;基于所述甲状腺特征值和年龄获得每个患者对应的数据点;根据每个数据点与其邻域内数据点的甲状腺特征值的差异以及年龄的差异,得到每个数据点的局部密度;
根据所有数据点的局部密度的分布情况确定初始聚类半径;基于所述初始聚类半径采用DBSCAN聚类算法对所有数据点进行初次聚类获得各初始聚类簇;基于不同初始聚类簇内的数据点对应的患者的甲状腺特征值的差异对初始聚类半径进行修正,获得目标聚类半径;
基于所述目标聚类半径采用DBSCAN聚类算法对所有数据点进行再次聚类获得各目标聚类簇,将同一目标聚类簇内的所有数据点对应的患者的监测数据作为一类进行数据管理。
2.根据权利要求1所述的基于大数据的甲状腺疾病数据智能管理方法,其特征在于,所述根据每个患者的每个检测项目的监测数据与其他患者的检测项目的监测数据之间的差异情况,得到每个患者的甲状腺特征值,包括:
对于第i个患者:
对于第s个检测项目:分别将第i个患者的第s个检测项目的监测数据与除第i个患者外的其他每个患者的第s个检测项目的监测数据之间的差值的平方,作为除第i个患者外的其他每个患者的第s个检测项目对应的第一差异;
基于除第i个患者外的其他每个患者的每个检测项目对应的第一差异,获得第i个患者的甲状腺特征值。
3.根据权利要求2所述的基于大数据的甲状腺疾病数据智能管理方法,其特征在于,所述基于除第i个患者外的其他每个患者的每个检测项目对应的第一差异,获得第i个患者的甲状腺特征值,包括:
分别将除第i个患者外的其他每个患者的所有检测项目对应的第一差异的平均值,作为除第i个患者外的其他每个患者的第一特征指标;
将除第i个患者外的其他所有患者的第一特征指标的平均值,作为第i个患者的甲状腺特征值。
4.根据权利要求1所述的基于大数据的甲状腺疾病数据智能管理方法,其特征在于,所述基于所述甲状腺特征值和年龄获得每个患者对应的数据点,包括:
将每个患者的年龄作为坐标系中的横坐标,将每个患者的甲状腺特征值作为坐标系的纵坐标,构建坐标系,获得每个患者对应的数据点。
5.根据权利要求1所述的基于大数据的甲状腺疾病数据智能管理方法,其特征在于,所述根据每个数据点与其邻域内数据点的甲状腺特征值的差异以及年龄的差异,得到每个数据点的局部密度,包括:
对于第y个数据点:
分别将第y个数据点与其邻域内每个数据点之间的甲状腺特征值的差值的绝对值,作为第y个数据点的邻域内每个数据点对应的第二差异;分别将第y个数据点与其邻域内每个数据点之间的年龄的差值的绝对值,作为第y个数据点的邻域内每个数据点对应的第三差异;
基于所述第二差异和所述第三差异获得第y个数据点的局部密度。
6.根据权利要求5所述的基于大数据的甲状腺疾病数据智能管理方法,其特征在于,所述基于所述第二差异和所述第三差异获得第y个数据点的局部密度,包括:
对于第y个数据点的邻域内第v个数据点:将第y个数据点的邻域内第v个数据点对应的第二差异与第y个数据点的邻域内第v个数据点对应的第三差异之和,作为第y个数据点的邻域内第v个数据点的第二特征指标;
将第y个数据点的邻域内所有数据点的第二特征指标的平均值,记为第y个数据点对应的差异指标;将所述差异指标的负相关归一化结果,确定为第y个数据点的局部密度。
7.根据权利要求1所述的基于大数据的甲状腺疾病数据智能管理方法,其特征在于,所述根据所有数据点的局部密度的分布情况确定初始聚类半径,包括:
分别计算所有数据点的局部密度的平均值和极差;
根据所有数据点的局部密度的平均值、极差以及每个数据点的局部密度与所有数据点的局部密度的平均值之间的差异,获得初始聚类半径。
8.根据权利要求7所述的基于大数据的甲状腺疾病数据智能管理方法,其特征在于,采用如下公式计算初始聚类半径:
其中,R表示初始聚类半径,表示所有数据点的局部密度的最大值,/>表示所有数据点的局部密度的最小值,/>表示所有数据点的局部密度的平均值,Y表示数据点的数量,表示第y个数据点的局部密度,/>表示取绝对值符号,norm( )表示归一化函数。
9.根据权利要求1所述的基于大数据的甲状腺疾病数据智能管理方法,其特征在于,采用如下公式计算目标聚类半径:
其中,表示目标聚类半径,R表示初始聚类半径,/>表示第a个初始聚类簇内所有数据点对应的患者的甲状腺特征值的平均值,/>表示第b个初始聚类簇内所有数据点对应的患者的甲状腺特征值的平均值,k表示初始聚类簇的数量,/>表示取绝对值符号,norm( )表示归一化函数,C表示预设超参数,C大于0。
10.一种基于大数据的甲状腺疾病数据智能管理系统,包括存储器和处理器,其特征在于,所述处理器执行所述存储器存储的计算机程序,以实现如权利要求1-9任一项所述的基于大数据的甲状腺疾病数据智能管理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410315708.XA CN117912712B (zh) | 2024-03-20 | 2024-03-20 | 基于大数据的甲状腺疾病数据智能管理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410315708.XA CN117912712B (zh) | 2024-03-20 | 2024-03-20 | 基于大数据的甲状腺疾病数据智能管理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117912712A true CN117912712A (zh) | 2024-04-19 |
CN117912712B CN117912712B (zh) | 2024-05-28 |
Family
ID=90689381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410315708.XA Active CN117912712B (zh) | 2024-03-20 | 2024-03-20 | 基于大数据的甲状腺疾病数据智能管理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117912712B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110096236A (ko) * | 2010-02-22 | 2011-08-30 | 숭실대학교산학협력단 | 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법 |
US20190080253A1 (en) * | 2017-09-12 | 2019-03-14 | Sas Institute Inc. | Analytic system for graphical interpretability of and improvement of machine learning models |
US20190251121A1 (en) * | 2018-01-13 | 2019-08-15 | Huizhou University | Data Clustering Method and Apparatus Based on K-Nearest Neighbor and Computer Readable Storage Medium |
CN111461225A (zh) * | 2020-04-01 | 2020-07-28 | 支付宝(杭州)信息技术有限公司 | 聚类系统及其方法 |
WO2021135063A1 (zh) * | 2020-01-03 | 2021-07-08 | 平安科技(深圳)有限公司 | 病理数据分析方法、装置、设备及存储介质 |
US20230197203A1 (en) * | 2021-07-26 | 2023-06-22 | Nantong University | Method for classifying multi-granularity breast cancer genes based on double self-adaptive neighborhood radius |
CN117056761A (zh) * | 2023-08-07 | 2023-11-14 | 大连交通大学 | 一种基于x-dbscan算法的客户细分方法 |
CN117373657A (zh) * | 2023-12-07 | 2024-01-09 | 深圳问止中医健康科技有限公司 | 基于大数据分析的个性化医疗辅助问诊系统 |
CN117542536A (zh) * | 2024-01-10 | 2024-02-09 | 中国人民解放军海军青岛特勤疗养中心 | 一种基于体检数据的智能护理方法及系统 |
CN117609813A (zh) * | 2024-01-23 | 2024-02-27 | 山东第一医科大学附属省立医院(山东省立医院) | 一种重症患者监护数据智能管理方法 |
CN117688410A (zh) * | 2024-02-02 | 2024-03-12 | 山东同利新材料有限公司 | 一种对马来酸二乙酯生产数据智能管理方法 |
-
2024
- 2024-03-20 CN CN202410315708.XA patent/CN117912712B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110096236A (ko) * | 2010-02-22 | 2011-08-30 | 숭실대학교산학협력단 | 클러스터 간 상호정보를 이용한 클러스터링 장치 및 방법 |
US20190080253A1 (en) * | 2017-09-12 | 2019-03-14 | Sas Institute Inc. | Analytic system for graphical interpretability of and improvement of machine learning models |
US20190251121A1 (en) * | 2018-01-13 | 2019-08-15 | Huizhou University | Data Clustering Method and Apparatus Based on K-Nearest Neighbor and Computer Readable Storage Medium |
WO2021135063A1 (zh) * | 2020-01-03 | 2021-07-08 | 平安科技(深圳)有限公司 | 病理数据分析方法、装置、设备及存储介质 |
CN111461225A (zh) * | 2020-04-01 | 2020-07-28 | 支付宝(杭州)信息技术有限公司 | 聚类系统及其方法 |
US20230197203A1 (en) * | 2021-07-26 | 2023-06-22 | Nantong University | Method for classifying multi-granularity breast cancer genes based on double self-adaptive neighborhood radius |
CN117056761A (zh) * | 2023-08-07 | 2023-11-14 | 大连交通大学 | 一种基于x-dbscan算法的客户细分方法 |
CN117373657A (zh) * | 2023-12-07 | 2024-01-09 | 深圳问止中医健康科技有限公司 | 基于大数据分析的个性化医疗辅助问诊系统 |
CN117542536A (zh) * | 2024-01-10 | 2024-02-09 | 中国人民解放军海军青岛特勤疗养中心 | 一种基于体检数据的智能护理方法及系统 |
CN117609813A (zh) * | 2024-01-23 | 2024-02-27 | 山东第一医科大学附属省立医院(山东省立医院) | 一种重症患者监护数据智能管理方法 |
CN117688410A (zh) * | 2024-02-02 | 2024-03-12 | 山东同利新材料有限公司 | 一种对马来酸二乙酯生产数据智能管理方法 |
Non-Patent Citations (3)
Title |
---|
张勃华;姜昌镐;: "延边地区少数民族与汉族甲状腺疾病患者的临床特征", 实用临床医学, no. 08, 20 August 2018 (2018-08-20) * |
王艳娥;安健;王红刚;丁心安;杨倩;: "基于医疗数据的聚类挖掘策略研究", 计算机技术与发展, no. 07, 10 July 2020 (2020-07-10) * |
王雷;刘小芳;赵良军;: "基于ARIA的K均值聚类算法研究", 四川理工学院学报(自然科学版), no. 02, 20 April 2019 (2019-04-20) * |
Also Published As
Publication number | Publication date |
---|---|
CN117912712B (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Duggal et al. | Prediction of thyroid disorders using advanced machine learning techniques | |
CN111161879B (zh) | 一种基于大数据的疾病预测系统 | |
CN110364259B (zh) | 一种高原疾病预测方法、系统、介质及电子设备 | |
US20080260254A1 (en) | Automatic 3-D Object Detection | |
JP2006252559A (ja) | 画像において対象物の位置を特定する方法および対象物の画像を相異なる画像カテゴリに分類する方法 | |
Octaviani et al. | Random forest for breast cancer prediction | |
Yang et al. | Multi-Source transfer learning via ensemble approach for initial diagnosis of Alzheimer’s disease | |
CN112381178B (zh) | 一种基于多损失特征学习的医学影像分类方法 | |
CN110910377B (zh) | 一种基于神经网络的脑梗死mri图像识别方法 | |
CN110033432B (zh) | 基于机器学习和能谱ct的泌尿结石成分分析方法及系统 | |
CN117349630B (zh) | 一种用于生化数据分析的方法及系统 | |
CN113272860A (zh) | 用于表面识别的原子力显微镜 | |
CN112862756A (zh) | 识别甲状腺肿瘤病理图像中病变类型及基因突变的方法 | |
CN111986814A (zh) | 一种红斑狼疮患者的狼疮性肾炎预测模型的建模方法 | |
CN108520283A (zh) | 一种基于脑区间接关系网络构建的医学图像分类方法 | |
Verma et al. | Towards facial recognition using likelihood ratio approach to facial landmark indices from images | |
US20210406272A1 (en) | Methods and systems for supervised template-guided uniform manifold approximation and projection for parameter reduction of high dimensional data, identification of subsets of populations, and determination of accuracy of identified subsets | |
CN117912712B (zh) | 基于大数据的甲状腺疾病数据智能管理方法及系统 | |
CN113270191A (zh) | 一种数据校正及分类方法及存储介质 | |
CN115393946A (zh) | 基于眼动注意力的视觉信息识别方法、系统、介质及设备 | |
CN111598144B (zh) | 图像识别模型的训练方法和装置 | |
Sultana et al. | Infantile hemangioma detection using deep learning | |
Li et al. | An efficient clustering method for medical data applications | |
CN110993091A (zh) | 从数据生成向量 | |
CN115240014B (zh) | 基于残差神经网络的医学图像分类系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |