CN113971426A - 一种信息获取方法、装置、设备及存储介质 - Google Patents

一种信息获取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113971426A
CN113971426A CN202010714048.4A CN202010714048A CN113971426A CN 113971426 A CN113971426 A CN 113971426A CN 202010714048 A CN202010714048 A CN 202010714048A CN 113971426 A CN113971426 A CN 113971426A
Authority
CN
China
Prior art keywords
cluster
target
sample data
clusters
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010714048.4A
Other languages
English (en)
Inventor
洪华剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Suzhou Software Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202010714048.4A priority Critical patent/CN113971426A/zh
Publication of CN113971426A publication Critical patent/CN113971426A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种信息获取方法,该方法包括:获取目标样本数据,并对所述目标样本数据进行聚类处理,得到第一类簇集合;其中,所述目标样本数据包括至少一个样本数据,所述第一类簇集合包括至少一个类簇;对所述第一类簇集合的类簇的样本数据进行聚类处理,得到第二类簇集合;基于所述第二类簇集合,确定目标检测模型;基于所述目标检测模型,对待检测数据进行预测处理,得到预测结果,从而实现了精确区分出大类簇中的小类簇,避免了密度峰值算法在应用过程中出现误判的可能性,保证了密度峰值算法在应用过程中判断的准确性。本申请实施例还公开了一种信息获取装置、设备和存储介质。

Description

一种信息获取方法、装置、设备及存储介质
技术领域
本申请涉及数据分析统计领域,尤其涉及一种信息获取方法、装置、设备及存储介质。
背景技术
在现有数据分析技术领域中,聚类技术是一种发现数据内在结构的技术,是数据挖掘发现知识的重要手段之一。聚类是指把数据集中相似数据组织成相似组,而这些相似组则被称之为类簇,即处于同一类簇中的数据彼此相似,不同类簇中的数据彼此不同。现有聚类技术中,常用的严重聚类方法为密度峰值算法。密度峰值的基本思想为:(1)聚类中心点的密度大于其周围邻近点的密度;(2)聚类中心点与高密度点之间的距离相对较大。
密度峰值算法在寻找初始密度中心时具有先天优势,能在众多数据中通过密度值和距离值形成决策图,从而形象客观的描述聚类中心。但是由于其距离值是通过计算与更高密度之间的距离值而得出的,导致密度峰值算法不能精准的区分出某些大类簇中的小类簇,造成在应用过程中出现误判。
申请内容
为解决上述技术问题,本申请实施例期望提供一种信息获取方法、装置、设备及存储介质,解决了目前密度峰值算法进行聚类分析时容易导致误判的问题,实现了精确区分出大类簇中的小类簇,避免了密度峰值算法在应用过程中出现误判的可能性,保证了密度峰值算法在应用过程中判断的准确性。
本申请的技术方案是这样实现的:
第一方面,一种信息获取方法,所述方法包括:
获取目标样本数据,并对所述目标样本数据进行聚类处理,得到第一类簇集合;其中,所述目标样本数据包括至少一个样本数据,所述第一类簇集合包括至少一个类簇;
对所述第一类簇集合的类簇的样本数据进行聚类处理,得到第二类簇集合;
基于所述第二类簇集合,确定目标检测模型;
基于所述目标检测模型,对待检测数据进行预测处理,得到预测结果。
可选的,所述对所述第一类簇集合的类簇的样本数据进行聚类处理,得到第二类簇集合,包括:
对所述第一类簇集合中的类簇进行分类处理,得到第一目标类簇集合和第二目标类簇集合;其中,所述第二目标类簇集合中每一类簇的样本数量均大于或等于所述第一目标类簇集合中每一类簇的样本数量;
对所述第二目标类簇集合中的每一类簇的样本数据进行聚类处理,得到第三目标类簇集合;其中,所述第二类簇集合包括所述第一目标类簇集合和所述第三目标类簇集合。
可选的,所述对所述第一类簇集合中的类簇进行分类处理,得到第一目标类簇集合和第二目标类簇集合,包括:
统计所述第一类簇集合中每一类簇的样本数量,得到第一数量集合;
对所述第一数量集合中的样本数量按照从小到大的顺序进行排序,得到目标数量序列;
基于所述目标数量序列,对所述第一类簇集合中的类簇进行分类处理,得到所述第一目标类簇集合和所述第二目标类簇集合。
可选的,所述基于所述目标数量序列,对所述第一类簇集合中的类簇进行分类处理,得到所述第一目标类簇集合和所述第二目标类簇集合,包括:
计算所述目标数量序列中第1至第r个样本数量的和值,与所述目标数量序列中第r+1至第m个样本数量的和值的比值,得到包括m-1个比值的比值集合;其中,r=1,2,……,m-1,m为大于1的整数,m为所述第一数量集合中的元素个数;
获取第一阈值;
从所述比值集合中确定比值小于或等于所述第一阈值的目标比值,并确定目标比值中最大比值对应的排序位置L,从所述第一类簇集合中获取所述第1至第L个样本数量对应的类簇,得到所述第一目标类簇集合;
从所述第L+1至第m个样本数量对应的类簇中,获取所述第二目标类簇集合。
可选的,所述从所述第L+1至第m个样本数量对应的类簇,获取所述第二目标类簇集合,包括:
计算所述第L+1至第m个样本数量对应的类簇中每一类簇的误差平方和;
从所述第L+1至第m个样本数量对应的类簇中,获取误差平方和大于或等于第二阈值的类簇,从而得到所述第二目标类簇集合。
可选的,所述对所述第二目标类簇集合中的每一类簇的样本数据进行聚类处理,得到第三目标类簇集合,包括:
获取所述目标样本数据对应的决策图,获取所述第二目标类簇集合中第j类簇对应的k个第一聚类中心;其中,j为正整数,k为正整数;
基于所述k个第一聚类中心对所述第j类簇的样本数据进行聚类处理,得到k个第一子类簇;
计算每一第一子类簇的样本数据的平均值,得到k个第二聚类中心;
若所述第j类簇中的样本数据未分配完成,且所述k个第二聚类中心与所述第一聚类中心相同,或所述k个第一子类簇误差平方和的平均值小于第三阈值,得到所述第三目标类簇集合;其中,所述第三目标类簇集合包括所述k个第一子类簇;
若所述第j类簇中的样本数据均分配完成,得到所述第三目标类簇集合;其中,所述第三目标类簇集合包括所述k个第一子类簇;
若所述第j类簇中的样本数据未分配完成且所述k个第二聚类中心与所述第一聚类中心不相同,或所述第j类簇中的样本数据未分配完成且所述k个第一子类簇误差平方和的平均值大于或等于所述第三阈值,基于所述k个第二聚类中心对所述k个第一子类簇的样本数据进行聚类处理,得到k个第i子类簇,直到所述第j类簇中的样本数据分配完,或所述k个第i子类簇的聚类中心与k个第i-1子类簇的聚类中心相同,或所述k个第i子类簇误差平方和的平均值小于第三阈值;其中,所述第三目标类簇集合包括所述k个第i子类簇,i为正整数。
可选的,所述基于所述第二类簇集合,确定目标检测模型,包括:
获取所述第二类簇集合中每一类簇的聚类中心;
基于预设类型与数据之间的对应关系和所述第二类簇集合中每一类簇的聚类中心,确定所述第二类簇集合中每一类簇的聚类中心对应的目标类型;
基于所述第二类簇集合中每一类簇的聚类中心和对应的所述目标类型,生成所述目标检测模型。
可选的,所述基于所述目标检测模型,对待检测数据进行预测处理,得到预测结果,包括:
计算所述待检测数据与所述目标检测模型中的每一类簇的聚类中心的距离,得到第一预测距离集合;
基于所述目标检测模型,确定所述第一预设距离集合中最小距离值对应的聚类中心的目标类型,得到所述预测结果。
可选的,所述方法还包括:
获取所述第一预设距离集合中最小距离值对应的聚类中心的平均距离值;
计算所述第一预设距离集合中最小距离值与所述平均距离值的比值,得到预测概率;其中,所述预测概率用于指示所述待检测数据对应所述目标类型的概率。
可选的,所述获取第一阈值,包括:
计算所述目标数量序列中第1至第p个样本数量的和值,与所述目标数量序列中第p+1至第m个样本数量的和值的比值,得到参考比值;其中,p为正整数;
获取所述参考比值中在0至1范围内的最大比值,得到所述第一阈值。
可选的,所述获取目标样本数据,并对所述目标样本数据进行聚类处理得到第一类簇集合,包括:
获取目标样本数据;
获取截断距离,并基于所述截断距离和所述目标样本数据得到局部密度值集合和距离集合;其中,所述距离集合中的距离元素为所述目标样本数据中每一样本数据与高密度样本数据之间的距离值,所述局部密度集合中的局部密度值元素与所述距离集合中的距离元素之间具有对应关系;
基于所述局部密度值集合、所述距离集合和所述目标样本数据,确定聚类中心集合;其中,所述聚类中心集合中包括至少一个第三聚类中心;
基于所述聚类中心集合和所述目标样本数据,得到所述第一类簇集合。
可选的,所述基于所述聚类中心集合和所述目标样本数据,得到所述第一类簇集合,包括:
计算所述聚类中心集合中的每一第三聚类中心与所述目标样本数据中第i样本数据之间的距离,得到第一距离集合;其中,i大于或等于1,小于或等于所述目标样本数据的总样本数量;
确定所述第一距离集合中最小距离值对应的第三聚类中心为目标聚类中心,并将所述第i样本数据归类至所述目标聚类中心对应的类簇中,从而得到所述第一类簇集合。
第二方面,一种信息获取装置,所述装置包括:第一处理单元、第二处理单元、确定单元和第三处理单元;其中:
所述第一处理单元,用于获取目标样本数据,并对所述目标样本数据进行聚类处理,得到第一类簇集合;其中,所述目标样本数据包括至少一个样本数据,所述第一类簇集合包括至少一个类簇;
所述第二处理单元,用于对所述第一类簇集合中的类簇进行聚类处理,得到第二类簇集合;
所述确定单元,用于基于所述第二类簇集合,确定目标检测模型;
所述第三处理单元,用于基于所述目标检测模型,对待检测数据进行预测处理,得到预测结果。
第三方面,一种信息获取设备,所述设备包括存储器、处理器和通信总线;其中:
所述通信总线,用于实现所述处理器和所述存储器之间的通信连接;
所述处理器,用于执行所述存储器中存储的信息获取程序,实现如上述任一项所述的信息获取方法的步骤。
第四方面,一种存储介质,所述存储介质上存储有信息获取程序,所述信息获取程序被处理器执行时实现如上述任一项所述的信息获取方法的步骤。
本申请实施例提供的信息获取方法、装置、设备及存储介质,通过获取目标样本数据,并对目标样本数据进行聚类处理,得到第一类簇集合,然后对第一类簇集合的类簇的样本数据进行聚类处理,得到第二类簇集合,并基于第二类簇集合,确定目标检测模型,最后基于目标检测模型,对待检测数据进行预测处理,得到预测结果。这样,对目标样本数据进行初步聚类后得到的第一类簇集合中的类簇的样本数据继续进行聚类处理,得到第二类簇集合,从而基于第二类簇集合得到目标检测模型,以便基于目标检测模型对待检测数据进行预测处理,得到更为精确的预测结果,解决了目前密度峰值算法进行聚类分析时容易导致误判的问题,实现了精确区分出大类簇中的小类簇,避免了密度峰值算法在应用过程中出现误判的可能性,保证了密度峰值算法在应用过程中判断的准确性。
附图说明
图1为本申请实施例提供的一种信息获取方法的流程示意图;
图2为本申请实施例提供的另一种信息获取方法的流程示意图;
图3为本申请实施例提供的一种数据点偏离趋势变化示意图;
图4为本申请实施例提供的一种截断距离的示意图;
图5为本申请实施例提供的一种预设类型与数据之间的对应关系的示意图;
图6为本申请实施例提供的又一种信息获取方法的流程示意图;
图7为本申请实施例提供的一种目标样本数据的分布示意图;
图8为本申请实施例提供的一种决策图的示意图;
图9本申请实施例提供的一种应用场景示意图;
图10为本申请实施例提供的另一种应用场景示意图;
图11为本申请另一实施例提供的一种信息获取方法的流程示意图;
图12为本申请另一实施例提供的另一种信息获取方法的流程示意图;
图13为本申请实施例提供的一种信息获取装置的结构示意图;
图14为本申请实施例提供的一种信息获取设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
本申请的实施例提供一种信息获取方法,参照图1所示,方法应用于信息获取设备,该方法包括以下步骤:
步骤101、获取目标样本数据,并对目标样本数据进行聚类处理,得到第一类簇集合。
其中,目标样本数据包括至少一个样本数据,第一类簇集合包括至少一个类簇。
在本申请实施例中,信息获取设备可以是具有计算能力,并具有显示屏幕的电子设备,例如可以是计算机设备、平板电脑、智能手机等电子设备。目标样本数据可以是可用于进行聚类分析的属于同一种的历史样本数据。第一类簇集合包括至少一个类簇,一个类簇中包括多个样本数据。
步骤102、对第一类簇集合的类簇的样本数据进行聚类处理,得到第二类簇集合。
在本申请实施例中,对第一类簇集合中的部分类簇或者全部类簇中的每一类簇的样本数据继续进行聚类处理,得到第二类簇集合。
步骤103、基于第二类簇集合,确定目标检测模型。
在本申请实施例中,对第二类簇集合中的每一类簇均进行分析处理,从而得到目标检测模型,即目标检测模型与第二类簇集合中的每一类簇相关。
步骤104、基于目标检测模型,对待检测数据进行预测处理,得到预测结果。
在本申请实施例中,采用目标检测模型对待检测数据进行预测处理,从而能得到预测结果,目标检测模型对待检测数据进行预测时的预测方法由目标检测模型决定,例如可以是计算待检测数据与目标检测模型中的参数之间的距离,得到预测结果,或者是确定待检测数据在目标检测模型中所属的数据范围,从而得到预测结果,还可以是其他预测方法,此处不做具体限定。
本申请实施例提供的信息获取方法,通过获取目标样本数据,并对目标样本数据进行聚类处理,得到第一类簇集合,然后对第一类簇集合的类簇的样本数据进行聚类处理,得到第二类簇集合,并基于第二类簇集合,确定目标检测模型,最后基于目标检测模型,对待检测数据进行预测处理,得到预测结果。这样,对目标样本数据进行初步聚类后得到的第一类簇集合中的类簇的样本数据继续进行聚类处理,得到第二类簇集合,从而基于第二类簇集合得到目标检测模型,以便基于目标检测模型对待检测数据进行预测处理,得到更为精确的预测结果,解决了目前密度峰值算法进行聚类分析时容易导致误判的问题,实现了精确区分出大类簇中的小类簇,避免了密度峰值算法在应用过程中出现误判的可能性,保证了密度峰值算法在应用过程中判断的准确性。
基于前述实施例,本申请的实施例提供一种信息获取方法,参照图2所示,方法应用于信息获取设备,该方法包括以下步骤:
步骤201、获取目标样本数据,并对目标样本数据进行聚类处理,得到第一类簇集合。
其中,目标样本数据包括至少一个样本数据,第一类簇集合包括至少一个类簇。
在本申请实施例中,以目标样本数据为抑郁症患者的历史特征数据为例进行说明,信息获取设备从历史数据库中获取存储的抑郁症患者的历史特征数据,并采用密度峰值算法对历史特征数据进行聚类处理,得到第一类簇集合。
在本申请其他实施例中,步骤201可以由以下步骤a11~a14来实现:
步骤a11、获取目标样本数据。
在本申请实施例中,信息获取设备从历史数据库中获取存储的抑郁症患者的历史特征数据,得到目标样本数据。
步骤a12、获取截断距离,并基于截断距离和目标样本数据得到局部密度值集合和距离集合。
其中,距离集合中的距离元素为目标样本数据中每一样本数据与高密度样本数据之间的距离值,局部密度集合中的局部密度值元素与距离集合中的距离元素之间具有对应关系。
在本申请实施例中,截断距离可以是用户输入的,也可以是信息获取设备根据预先设置的计算分析截断距离的算法对目标样本数据进行计算分析得到的。其中,计算分析截断距离的算法至少包括以下两种算法:第一种算法可以是基于目标样本数据中两个样本数据点之间的距离来确定,距离通常采用欧式距离进行计算得到。具体为:目标样本数据可以记为D={X1,X2,X3,…,Xn},Xn表示目标样本数据中的第n个样本数据,n为目标样本数据的样本总数,n为正整数。其中,目标样本数据中的第i个样本数据Xi可以用p维属性表示:Xi={xi1,xi2,xi3,…xip},其中,xip表示第i个样本数据Xi的第p分量。这样,目标样本数据中的第i个样本数据Xi和第j个样本数据Xj之间的距离可以通过第i个样本数据Xi的p维属性和第j个样本数据Xj的p维属性计算得到,具体计算公式可以为:
Figure BDA0002597551870000091
其中,xjp表示第j个样本数据Xj的第p分量,利用该计算公式计算出全部任意两个样本数据之间的距离后并对计算得到的全部距离进行升序处理,并从升序处理后的升序结果中选取1%到2%位置处的值作为截断距离。
第二种算法可以是计算目标样本数据中第i样本数据的密度值ρi与第i样本数据与更高密度之间的距离对应的距离值δi的乘积,即采用公式γi=ρi×δi构造第i样本数据的类簇中心权值γi,并利用类簇中心权值γi的变化趋势寻找拐点,并以拐点之前的一组数据作为簇类中心。具体为:将计算得到的类簇中心权值γi按照从大到小的顺序进行排序,其中,类簇中心权值的总个数为m,例如m=30个点,则以数据点为横坐标,以簇中心权值为纵坐标,做出数据点偏离趋势图,具体如图3所示,从图3中可以看出中心权值在下降过程中趋势由急变缓。这样,基于图3,利用两点之间的斜率表示类簇的下降趋势,具体可以采用公式:
Figure BDA0002597551870000101
其中
Figure BDA0002597551870000102
代表在区间[i,i+m]内类簇中心权值的变化率,δi+m表示第i+m个样本数据的密度值;可以采用公式
Figure BDA0002597551870000103
确定拐点,其中,
Figure BDA0002597551870000104
表示
Figure BDA0002597551870000105
取最大值时的i值,
Figure BDA0002597551870000106
表示为第一个点到第i个点的斜率,
Figure BDA0002597551870000107
表示为第i个点到第i+1个点的斜率,即拐点的含义表示偏离度变化趋势最大的临界点。与图3对应的拐点如图4中A所示,其中,图4中趋势变化幅值为纵坐标,聚类点为横坐标。
局部密度值集合中的元素对应为每一样本数据的局部密度,局部密度具体可以采用以下公式来计算得到:局部密度值ρi表示目标样本数据中的第i个样本数据Xi在截断距离distcutoff范围中数据点的个数,即:
Figure BDA0002597551870000108
其中,
Figure BDA0002597551870000109
距离集合中的元素对应为目标样本数据中的第i个样本数据Xi的距离值δi,是与高密度之间的距离,定义如下:
Figure BDA00025975518700001010
其中,样本数据Xi与局部更高密度ρj之间的距离δi采用公式
Figure BDA00025975518700001011
确定第i样本数据与对应的更高密度的第j样本数据的距离中的最小值,在第i样本数据Xi为全局最高时,δi采用公式
Figure BDA00025975518700001012
确定第i样本数据Xi与对应的低密度的第j样本数据Xj的距离中的最大值。
步骤a13、基于局部密度值集合、距离集合和目标样本数据,确定聚类中心集合。
其中,聚类中心集合中包括至少一个第三聚类中心。
在本申请实施例中,基于局部密度值集合中的元素与距离集合中的元素,确定得到至少一个聚类中心,将得到的至少一个聚类中心采用集合的形式进行表示会,得到聚类中心集合。
步骤a14、基于聚类中心集合和目标样本数据,得到第一类簇集合。
在本申请实施例中,基于聚类中心集合中的每一聚类中心,将目标样本数据进行分析并将目标样本数据中的样本数据归类至对应的聚类中心,从而得到第一类簇集合,其中,第一类簇集合包括至少一个类簇,每一类簇包括目标样本数据中的多个样本数据。需说明的是,目标样本数据中的任意一个样本数据只属于一个类簇。
步骤202、对第一类簇集合中的类簇进行分类处理,得到第一目标类簇集合和第二目标类簇集合。
其中,第二目标类簇集合中每一类簇的样本数量均大于或等于第一目标类簇集合中每一类簇的样本数量。
在本申请实施例中,统计第一类簇集合中每一类簇的样本数量,通过对统计得到的每一类簇的样本数量,对第一类簇集合中的类簇进行分类划分,得到第一目标类簇集合和第二目标类簇集合。第二目标类簇集合中的每一类簇为包括至少两个小类簇的大类簇,需对第二目标类簇集合中的每一类簇的样本数据继续进行聚类处理。
步骤203、对第二目标类簇集合中的每一类簇的样本数据进行聚类处理,得到第三目标类簇集合。
其中,第二类簇集合包括第一目标类簇集合和第三目标类簇集合。
在本申请实施例中,可以采用k均值聚类算法(k-means clustering algorithm)等其他聚类算法继续对第二目标类簇集合中的每一类簇的样本数据继续进行聚类处理,从而得到第三目标类簇集合。第三目标类簇中的每一类簇均不可在进行聚类处理。在得到第三目标类簇集合后,将第一目标类簇集合和第三目标类簇集合确定为第二类簇集合。
步骤204、获取第二类簇集合中每一类簇的聚类中心。
在本申请实施例中,第二类簇集合中每一类簇的聚类中心是确定的,因此可以直接获取前述分析得到的第二类簇集合中每一类簇的聚类中心。
步骤205、基于预设类型与数据之间的对应关系和第二类簇集合中每一类簇的聚类中心,确定第二类簇集合中每一类簇的聚类中心对应的目标类型。
在本申请实施例中,预设类型与数据之间的对应关系为当前得到的抑郁症类型与对应的特征数据之间的一个经验关系,可以是根据大量实验分析得到的,也可以是根据实际情况得到的,也可以是两者结合得到的,在应用过程中,根据样本数据的改变,对应的预设类型与数据之间的对应关系可以进行相应的改变。
示例性的,如图5所示,为预设类型与数据之间的对应关系,假设A1、A2、A3、A4为四个预设的抑郁症类型,对应的,特征数据范围为B1~B2时,属于A1类型,B2~B3属于A2类型,B3~B4属于A3类型,B4~B5属于A4类型。这样,假设第二类簇集合中每一类簇的聚类中心依次为C1、C2、C3、C4时,若C1在B4~B5范围内时,确定C4所在类簇对应的目标类型为A4类型,C2在B1~B2范围内时,确定C2所在类簇对应的目标类型为A1类型,C3在B3~B4范围内时,确定C3所在类簇对应的目标类型为A3类型,C4在B2~B3范围内时,确定C4所在类簇对应的目标类型为A2类型。
步骤206、基于第二类簇集合中每一类簇的聚类中心和对应的目标类型,生成目标检测模型。
在本申请实施例中,生成的目标检测模型对应的可以是第二类簇集合中每一类簇的聚类中心和对应的目标类型之间的对应关系,如:C2对应A1类型,C4对应A2类型,C3对应A3类型,C1对应A4类型。
步骤207、计算待检测数据与目标检测模型中的每一类簇的聚类中心的距离,得到第一预测距离集合。
在本申请实施例中,待检测数据与目标检测模型中的每一类簇的聚类中心的距离具体可以为:计算待检测数据与目标检测模型中每一类簇的聚类中心的差值,然后获取计算得到的差值的绝对值,作为对应的距离,并将计算得到的距离采用集合的方式进行存储。
步骤208、基于目标检测模型,确定第一预设距离集合中最小距离值对应的聚类中心的目标类型,得到预测结果。
在本申请实施例中,获取第一预设距离集合中的最小距离值,并确定该最小距离值对应的聚类中心,得到参考聚类中心,从目标检测模型中获取参考聚类中心对应的目标类型,得到预测结果。
需要说明的是,本实施例中与其它实施例中相同步骤和相同内容的说明,可以参照其它实施例中的描述,此处不再赘述。
本申请实施例提供的信息获取方法,通过获取目标样本数据,并对目标样本数据进行聚类处理,得到第一类簇集合,然后对第一类簇集合的类簇的样本数据进行聚类处理,得到第二类簇集合,并基于第二类簇集合,确定目标检测模型,最后基于目标检测模型,对待检测数据进行预测处理,得到预测结果。这样,对目标样本数据进行初步聚类后得到的第一类簇集合中的类簇的样本数据继续进行聚类处理,得到第二类簇集合,从而基于第二类簇集合得到目标检测模型,以便基于目标检测模型对待检测数据进行预测处理,得到更为精确的预测结果,解决了目前密度峰值算法进行聚类分析时容易导致误判的问题,实现了精确区分出大类簇中的小类簇,避免了密度峰值算法在应用过程中出现误判的可能性,保证了密度峰值算法在应用过程中判断的准确性。
基于前述实施例,本申请的实施例提供一种信息获取方法,参照图6所示,方法应用于信息获取设备,该方法包括以下步骤:
步骤301、获取目标样本数据,并对目标样本数据进行聚类处理,得到第一类簇集合。
其中,目标样本数据包括至少一个样本数据,第一类簇集合包括至少一个类簇。
在本申请其他实施例中,步骤301可以由以下步骤b11~b14来实现:
步骤b11、获取目标样本数据。
在本申请其他实施例中,步骤b11可以由以下步骤b111~b114来实现:
步骤b111、获取第一样本数据。
其中,第一样本数据包括至少一个样本数据。
在本申请实施例中,第一样本数据为未经处理的原始样本数据。
步骤b112、对第一样本数据进行去噪处理,得到第二样本数据。
在本申请实施例中,对第一样本数据中的噪音数据进行去噪处理,得到第二样本数据,第二样本数据中的样本数量小于或等于第一样本数据中的样本数量。
步骤b113、若第二样本数据均为0至1范围内的数值,确定第二样本数据为目标样本数据。
步骤b114、若第二样本数据中存在大于1的数值,对第二样本数据进行归一化处理,得到目标样本数据。
在本申请实施例中,归一化处理方法至少可以为以下方法之一:min-max标准化方法和z-score标准化方法。min-max标准化方法具体可以为:
Figure BDA0002597551870000141
y为第二样本数据中的任意一个样本数据,ymin为第二样本数据中的最小样本数据,ymax为第二样本数据中的最大样本数据,y’为y归一化处理后对应的归一化数据。
步骤b12、获取截断距离,并基于截断距离和目标样本数据得到局部密度值集合和距离集合。
其中,距离集合中的距离元素为目标样本数据中每一样本数据与更高密度样本数据之间的距离值,局部密度集合中的局部密度值元素与距离集合中的距离元素之间具有对应关系。
步骤b13、基于局部密度值集合、距离集合和目标样本数据,确定聚类中心集合。
其中,聚类中心集合中包括至少一个第三聚类中心。
在本申请其他实施例中,步骤b13可以由以下步骤b131~b132来实现:
步骤b131、基于局部密度值集合和距离集合,对目标样本数据进行处理得到决策图。
在本申请实施例中,决策图以局部密度为横坐标,每一样本数据与更高密度样本数据之间的距离值为纵坐标,基于局部密度值集合和距离集合,确定目标样本数据中每一样本数据在决策图中的位置,得到目标样本数据对应的决策图。示例性的,得到的目标样本数据可以如图7所示,对图7所示的目标样本数据得到的决策图可以如图8所示。
步骤b132、从决策图中,获取至少一个第三聚类中心,得到聚类中心集合。
在本申请实施例中,从决策图中获取横坐标与纵坐标的乘积较大的样本数据,得到至少一个第三聚类中心,并采用集合的形式进行表示。或者,可以获取决策图中右上角区域中的样本数据作为第三聚类中心。如图8所示,获取决策图中右上角区域中远离其他样本的两个样本数据1和10为第三聚类中心,得到聚类中心集合。
步骤b14、基于聚类中心集合和目标样本数据,得到第一类簇集合。
在本申请其他实施例中,步骤b14可以由以下步骤b141~b142来实现:
步骤b141、计算聚类中心集合中的每一第三聚类中心与目标样本数据中第i样本数据之间的距离,得到第一距离集合。
其中,i大于或等于1,小于或等于目标样本数据的总样本数量。
在本申请实施例中,计算聚类中心集合中的每一第三聚类中心与目标样本数据中第i样本数据之间的距离可以采用欧式距离计算方式计算得到。
步骤b142、确定第一距离集合中最小距离值对应的第三聚类中心为目标聚类中心,并将第i样本数据归类至目标聚类中心对应的类簇中,从而得到第一类簇集合。
在本申请实施例中,根据距离采用最近邻方法对目标样本数据进行归类,得到以第三聚类中心为目标聚类中心的类簇。示例性的,得到的第一类簇集合可以如图9所示,包括两个类簇D和E。
步骤302、统计第一类簇集合中每一类簇的样本数量,得到第一数量集合。
在本申请实施例中,第一类簇集合{D,E}对应的第一数量集合可以记为{|D|,|E|},其中,|D|用于表示D类簇中的样本数量,|E|用于表示E类簇中的样本数量。
步骤303、对第一数量集合中的样本数量按照从小到大的顺序进行排序,得到目标数量序列。
在本申请实施例中,对应的对|D|和|E|进行从小到大的顺序进行排序,得到的目标数量序列为|E|,|D|。
步骤304、基于目标数量序列,对第一类簇集合中的类簇进行分类处理,得到第一目标类簇集合和第二目标类簇集合。
其中,第二目标类簇集合中每一类簇的样本数量均大于或等于第一目标类簇集合中每一类簇的样本数量。
在本申请其他实施例中,步骤304可以由以下步骤c11~c14来实现:
步骤c11、计算目标数量序列中第1至第r个样本数量的和值,与目标数量序列中第r+1至第m个样本数量的和值的比值,得到包括m-1个比值的比值集合。
其中,r=1,2,……,m-1,m为大于1的整数,m为第一数量集合中的元素个数。
在本申请实施例中,计算比值的公式可以记为
Figure BDA0002597551870000161
其中,p1,p2,p3,…,pm表示第一类簇集合中的m个不同的类簇,对应的|p1|、|p2|、|p3|、…、|pm|分别表示对应类簇中的样本数量,其中,目标数量序列中|p1|≤|p2|≤|p3|≤…≤|pm|,对应的,比值集合包括
Figure BDA0002597551870000162
Figure BDA0002597551870000163
示例性的,比值集合为
Figure BDA0002597551870000171
步骤c12、获取第一阈值。
在本申请实施例中,第一阈值可以是用户设定的一个经验值,也可以是对第一类簇集合中的类簇的样本数量进行分析得到的。
在本申请其他实施例中,步骤c12可以由步骤c121~c122来实现:
步骤c121、计算目标数量序列中第1至第p个样本数量的和值,与目标数量序列中第p+1至第m个样本数量的和值的比值,得到参考比值。
其中,p为正整数。
在本申请实施例中,计算参考比值的计算公式与计算目标比值的计算公式相同,此处不再详细赘述。参考比值包括m-1个比值。
步骤c122、获取参考比值中在0至1范围内的最大比值,得到第一阈值。
步骤c13、从比值集合中确定比值小于或等于第一阈值的目标比值,并确定目标比值中最大比值对应的排序位置L,从所述第一类簇集合中获取所述第1至第L个样本数量对应的类簇,得到第一目标类簇集合。
步骤c14、从第L+1至第m个样本数量对应的类簇中,获取第二目标类簇集合。
在本申请其他实施例中,步骤c14可以由步骤c141~c142来实现:
步骤c141、计算第L+1至第m个样本数量对应的类簇中每一类簇的误差平方和。
在本申请实施例中,每一类簇的误差平方和可以采用公式
Figure BDA0002597551870000172
来计算得到,其中,xi表示每一类簇中的样本数据,yi表示每一类簇的类簇中心,∑表示累加。
步骤c142、从第L+1至第m个样本数量对应的类簇中,获取误差平方和大于或等于第二阈值的类簇,从而得到第二目标类簇集合。
在本申请实施例中,第二阈值为评判阈值,是用户设定的一个经验值,根据实际情况可以进行相应的校正修改。示例性的,对图9所示的D类簇和E类簇进行分析处理,假设确定D类簇为第二目标类簇集合。
步骤305、获取目标样本数据对应的决策图,获取第二目标类簇集合中第j类簇对应的k个第一聚类中心。
其中,j为正整数,k为正整数。
在本申请实施例中,获取的目标样本数据对应的决策图为步骤b131中的决策图,使用步骤b131中的决策图,降低了计算资源的消耗。基于步骤b131中的决策图,找出第二目标类簇集合即大类簇局部密度值和与更高密度间的距离都较大的多个样本数据作为大类簇的初始聚类中心。需说明的是,j的取值为从1至第二目标类簇集合的元素个数,即基于目标样本数据对应的决策图,总共获取到第二目标类簇集合的元素个数组k个第一聚类中心,对应的,k为第二目标类簇集合的每一类簇的样本数量。示例性的,假设针对图9对应的第二目标类簇集合中的D类簇确定了三个聚类中心。
步骤306、基于k个第一聚类中心对第j类簇的样本数据进行聚类处理,得到k个第一子类簇。
在本申请实施例中,是采用距离最近的方法对第j类簇的样本数据进行聚类处理,得到k个第一子类簇。需说明的是,第二目标类簇集合有多少个类簇,对应的会得到多少组k个第一子类簇,每一组的k值由每一类簇的样本数量确定。示例性的,对图9所示D类簇进行聚类处理,得到了如图10所示的3个子类簇:D1、D2和D3。
步骤307、计算每一第一子类簇的样本数据的平均值,得到k个第二聚类中心。
在本申请实施例中,每一第一子类簇的样本数据的平均值可以是采用对每一第一子类簇中的样本数据求和后求平均计算得到的。示例性的,计算D1中样本数据的平均值,得到D1类簇的第二聚类中心,计算D2中样本数据的平均值,得到D2类簇的第二聚类中心,计算D3中样本数据的平均值,得到D3类簇的第二聚类中心。
需说明的是,信息获取设备执行步骤307之后,选择执行步骤308或步骤309,或者步骤310之后,继续执行步骤311至317;其中,若第j类簇中的样本数据未分配完成,且k个第二聚类中心与第一聚类中心相同,或k个第一子类簇误差平方和的平均值小于第三阈值,选择执行步骤308;若第j类簇中的样本数据均分配完成,选择执行步骤309;若第j类簇中的样本数据未分配完成且k个第二聚类中心与第一聚类中心不相同,或第j类簇中的样本数据未分配完成且k个第一子类簇误差平方和的平均值大于或等于第三阈值,选择执行步骤310。
步骤308、若第j类簇中的样本数据未分配完成,且k个第二聚类中心与第一聚类中心相同,或k个第一子类簇误差平方和的平均值小于第三阈值,得到第三目标类簇集合。
其中,第三目标类簇集合包括k个第一子类簇。
在本申请实施例中,k个第一子类簇误差平方和的平均值是通过计算k个第一子类簇中每一第一子类簇的误差平方和,然后将k个第一子类簇的误差平方和进行累加后求平均值得到的。若第j类簇中的样本数据未分配完成,且k个第二聚类中心与第一聚类中心相同,得到第三目标类簇集合;或,若k个第一子类簇误差平方和的平均值小于第三阈值,得到第三目标类簇集合。
步骤309、若第j类簇中的样本数据均分配完成,得到第三目标类簇集合。
其中,第三目标类簇集合包括k个第一子类簇。
步骤310、若第j类簇中的样本数据未分配完成且k个第二聚类中心与第一聚类中心不相同,或第j类簇中的样本数据未分配完成且k个第一子类簇误差平方和的平均值大于或等于第三阈值,基于k个第二聚类中心对k个第一子类簇的样本数据进行聚类处理,得到k个第i子类簇,直到第j类簇中的样本数据分配完,或k个第i子类簇的聚类中心与k个第i-1子类簇的聚类中心相同,或k个第i子类簇误差平方和的平均值小于第三阈值。
其中,第三目标类簇集合包括k个第i子类簇,i为正整数。
步骤311、获取第二类簇集合中每一类簇的聚类中心。
步骤312、基于预设类型与数据之间的对应关系和第二类簇集合中每一类簇的聚类中心,确定第二类簇集合中每一类簇的聚类中心对应的目标类型。
步骤313、基于第二类簇集合中每一类簇的聚类中心和对应的目标类型,生成目标检测模型。
步骤314、计算待检测数据与目标检测模型中的每一类簇的聚类中心的距离,得到第一预测距离集合。
步骤315、基于目标检测模型,确定第一预设距离集合中最小距离值对应的聚类中心的目标类型,得到预测结果。
步骤316、获取第一预设距离集合中最小距离值对应的聚类中心的平均距离值。
步骤317、计算第一预设距离集合中最小距离值与平均距离值的比值,得到预测概率。
其中,预测概率用于指示待检测数据对应目标类型的概率。
在本申请实施例中,示例性的,预测概率用于表示用户患有预测结果即预测的抑郁症类型的概率。
需说明的是,本申请实施例提供一种获得对抑郁症进行预测的预测模型的方案,具体实现过程如图11所示:
步骤401、获得抑郁症患者的特征数据集;
步骤402、对特征数据集进行数据预处理,去除噪音数据,得到目标样本数据;
步骤403、确定初始决断距离,计算得到目标样本数据的局部密度值集合和距离集合,并生成决策图;
步骤404、根据决策图选定聚类中心,并基于选定的聚类中心进行初步聚类,得到多个类簇;
步骤405、统计多个类簇中的数据对象的个数,并基于统计的数据对象的个数进行排序;
步骤406、从排序序列中寻找大类簇集;
步骤407、利用误差值对寻找到的大类簇集进行进一步筛选,得到最终的大类簇集;
步骤408、针对最终得到的大类簇集进行二次划分聚类,得到最终的小类簇;
步骤409、基于无需进行二次划分的类簇的类簇中心和二次划分后得到的小类簇的类簇中心,形成预测模型即目标检测模型。
其中,步骤408的具体实现方案可以如图12所示,包括:步骤408a、利用决策图获取大类簇的类簇中心;步骤408b、基于每一大类簇的类簇中心,将每一大类簇的其余数据分配到距离最近的类簇中心对应的类簇,并在分配结束后,重新计算分配后的每一大类簇的类簇中心;步骤408c、判断是否达到停止条件,若不满足停止条件,则继续执行步骤408b,直至满足停止条件,若满足停止条件,则执行步骤408d;步骤408d、输出最终形成的类簇集合。
需要说明的是,本实施例中与其它实施例中相同步骤和相同内容的说明,可以参照其它实施例中的描述,此处不再赘述。
本申请实施例提供的信息获取方法,通过获取目标样本数据,并对目标样本数据进行聚类处理,得到第一类簇集合,然后对第一类簇集合的类簇的样本数据进行聚类处理,得到第二类簇集合,并基于第二类簇集合,确定目标检测模型,最后基于目标检测模型,对待检测数据进行预测处理,得到预测结果。这样,对目标样本数据进行初步聚类后得到的第一类簇集合中的类簇的样本数据继续进行聚类处理,得到第二类簇集合,从而基于第二类簇集合得到目标检测模型,以便基于目标检测模型对待检测数据进行预测处理,得到更为精确的预测结果,解决了目前密度峰值算法进行聚类分析时容易导致误判的问题,实现了精确区分出大类簇中的小类簇,避免了密度峰值算法在应用过程中出现误判的可能性,保证了密度峰值算法在应用过程中判断的准确性。
基于前述实施例,本申请的实施例提供一种信息获取装置,该装置可以应用于图1~2、6、11~12对应的实施例提供的信息获取方法中,参照图13所示,该信息获取装置5可以包括:第一处理单元51、第二处理单元52、确定单元53和第三处理单元54,其中:
第一处理单元51,用于获取目标样本数据,并对目标样本数据进行聚类处理,得到第一类簇集合;其中,目标样本数据包括至少一个样本数据,第一类簇集合包括至少一个类簇;
第二处理单元52,用于对第一类簇集合中的类簇进行聚类处理,得到第二类簇集合;
确定单元53,用于基于第二类簇集合,确定目标检测模型;
第三处理单元54,用于基于目标检测模型,对待检测数据进行预测处理,得到预测结果。
在本申请其他实施例中,第二处理单元包括:划分模块和聚类处理模块;其中:
划分模块,用于对第一类簇集合中的类簇进行分类处理,得到第一目标类簇集合和第二目标类簇集合;其中,第二目标类簇集合中每一类簇的样本数量均大于或等于第一目标类簇集合中每一类簇的样本数量;
聚类处理模块,用于对第二目标类簇集合中的每一类簇的样本数据进行聚类处理,得到第三目标类簇集合;其中,第二类簇集合包括第一目标类簇集合和第三目标类簇集合。
在本申请其他实施例中,划分模块具体用于:
统计第一类簇集合中每一类簇的样本数量,得到第一数量集合;
对第一数量集合中的样本数量按照从小到大的顺序进行排序,得到目标数量序列;
基于目标数量序列,对第一类簇集合中的类簇进行分类处理,得到第一目标类簇集合和第二目标类簇集合。
在本申请其他实施例中,划分模块具体用于实现基于目标数量序列,对第一类簇集合中的类簇进行分类处理,得到第一目标类簇集合和第二目标类簇集合时,具体可以通过以下步骤来实现:
计算目标数量序列中第1至第r个样本数量的和值,与目标数量序列中第r+1至第m个样本数量的和值的比值,得到包括m-1个比值的比值集合;其中,r=1,2,……,m-1,m为大于1的整数,m为第一数量集合中的元素个数;
获取第一阈值;
从所述比值集合中确定比值小于或等于所述第一阈值的目标比值,并确定目标比值中最大比值对应的排序位置L,从所述第一类簇集合中获取所述第1至第L个样本数量对应的类簇,得到第一目标类簇集合;
从第L+1至第m个样本数量对应的类簇中,获取第二目标类簇集合。
在本申请其他实施例中,划分模块具体用于实现从第L+1至第m个样本数量对应的类簇,获取第二目标类簇集合时,具体可以通过以下步骤来实现:
计算第L+1至第m个样本数量对应的类簇中每一类簇的误差平方和;
从第L+1至第m个样本数量对应的类簇中,获取误差平方和大于或等于第二阈值的类簇,从而得到第二目标类簇集合。
在本申请其他实施例中,聚类处理模块具体用于:
获取目标样本数据对应的决策图,获取第二目标类簇集合中第j类簇对应的k个第一聚类中心;其中,j为正整数,k为正整数;
基于k个第一聚类中心对第j类簇的样本数据进行聚类处理,得到k个第一子类簇;
计算每一第一子类簇的样本数据的平均值,得到k个第二聚类中心;
若第j类簇中的样本数据未分配完成,且k个第二聚类中心与第一聚类中心相同,或k个第一子类簇误差平方和的平均值小于第三阈值,得到第三目标类簇集合;其中,第三目标类簇集合包括k个第一子类簇;
若第j类簇中的样本数据均分配完成,得到第三目标类簇集合;其中,第三目标类簇集合包括k个第一子类簇;
若第j类簇中的样本数据未分配完成且k个第二聚类中心与第一聚类中心不相同,或第j类簇中的样本数据未分配完成且k个第一子类簇误差平方和的平均值大于或等于第三阈值,基于k个第二聚类中心对k个第一子类簇的样本数据进行聚类处理,得到k个第i子类簇,直到第j类簇中的样本数据分配完,或k个第i子类簇的聚类中心与k个第i-1子类簇的聚类中心相同,或k个第i子类簇误差平方和的平均值小于第三阈值;其中,第三目标类簇集合包括k个第i子类簇,i为正整数。
在本申请其他实施例中,确定单元包括:第一计算模块、第一确定模块和生成模块;其中:
第一计算模块,用于获取第二类簇集合中每一类簇的聚类中心;
第一确定模块,用于基于预设类型与数据之间的对应关系和第二类簇集合中每一类簇的聚类中心,确定第二类簇集合中每一类簇的聚类中心对应的目标类型;
生成模块,用于基于第二类簇集合中每一类簇的聚类中心和对应的目标类型,生成目标检测模型。
在本申请其他实施例中,第三处理单元包括:第二计算模块和第一处理模块;其中:
第二计算模块,用于计算待检测数据与目标检测模型中的每一类簇的聚类中心的距离,得到第一预测距离集合;
第一处理模块,用于基于目标检测模型,确定第一预设距离集合中最小距离值对应的聚类中心的目标类型,得到预测结果。
在本申请其他实施例中,信息获取装置还包括:获取单元和计算单元;其中:
获取单元,用于获取第一预设距离集合中最小距离值对应的聚类中心的平均距离值;
计算单元,用于计算第一预设距离集合中最小距离值与平均距离值的比值,得到预测概率;其中,预测概率用于指示待检测数据对应目标类型的概率。
在本申请其他实施例中,划分模块具体用于实现获取第一阈值时,具体可以通过以下步骤来实现:
计算目标数量序列中第1至第p个样本数量的和值,与目标数量序列中第p+1至第m个样本数量的和值的比值,得到参考比值;其中,p为正整数;
获取参考比值中在0至1范围内的最大比值,得到第一阈值。
在本申请其他实施例中,第一处理单元包括:获取模块,第二处理模块、第二确定模块和第三处理模块;其中:
获取模块,用于获取目标样本数据;
第二处理模块,用于获取截断距离,并基于截断距离和目标样本数据得到局部密度值集合和距离集合;其中,距离集合中的距离元素为目标样本数据中每一样本数据与高密度样本数据之间的距离值,局部密度集合中的局部密度值元素与距离集合中的距离元素之间具有对应关系;
第二确定模块,用于基于局部密度值集合、距离集合和目标样本数据,确定聚类中心集合;其中,聚类中心集合中包括至少一个第三聚类中心;
第三处理模块,用于基于聚类中心集合和目标样本数据,得到第一类簇集合。
在本申请其他实施例中,获取模块具体用于:
获取第一样本数据;其中,第一样本数据包括至少一个样本数据;
对第一样本数据进行去噪处理,得到第二样本数据;
若第二样本数据均为0至1范围内的数值,确定第二样本数据为目标样本数据;
若第二样本数据中存在大于1的数值,对第二样本数据进行归一化处理,得到目标样本数据。
在本申请其他实施例中,第二确定模块具体用于:
基于局部密度值集合和距离集合,对目标样本数据进行处理得到决策图;
从决策图中,获取至少一个第三聚类中心,得到聚类中心集合。
在本申请其他实施例中,第三处理模块具体用于:
计算聚类中心集合中的每一第三聚类中心与目标样本数据中第i样本数据之间的距离,得到第一距离集合;其中,i大于或等于1,小于或等于目标样本数据的总样本数量;
确定第一距离集合中最小距离值对应的第三聚类中心为目标聚类中心,并将第i样本数据归类至目标聚类中心对应的类簇中,从而得到第一类簇集合。
需要说明的是,本实施例中信息获取装置中的单元或模块之间信息交互的具体实现过程,可以参照图1~2、6、11~12对应的实施例提供的信息获取方法中的实现过程,此处不再赘述。
本申请实施例提供的信息获取装置,对目标样本数据进行初步聚类后得到的第一类簇集合中的类簇的样本数据继续进行聚类处理,得到第二类簇集合,从而基于第二类簇集合得到目标检测模型,以便基于目标检测模型对待检测数据进行预测处理,得到更为精确的预测结果,解决了目前密度峰值算法进行聚类分析时容易导致误判的问题,实现了精确区分出大类簇中的小类簇,避免了密度峰值算法在应用过程中出现误判的可能性,保证了密度峰值算法在应用过程中判断的准确性。
基于前述实施例,本申请的实施例提供一种信息获取设备,该信息获取设备可以应用于图1~2、6、11~12对应的实施例提供的信息获取方法中,参照图14所示,该信息获取设备6可以包括:存储器61、通信总线62、和处理器63,其中:
通信总线62,用于实现存储器61和处理器63之间的通信连接;
处理器63,用于执行存储器61中存储的信息获取程序,以实现图1~2、6、11~12对应的实施例提供的信息获取方法中的实现过程,此处不再赘述。
基于前述实施例,本申请的实施例提供一种计算机可读存储介质,简称为存储介质,该计算机可读存储介质存储有一个或者多个程序,该一个或者多个程序可被一个或者多个处理器执行,以实现参照图1~2、6、11~12对应的实施例提供的信息获取方法中的实现过程,此处不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。

Claims (15)

1.一种信息获取方法,其特征在于,所述方法包括:
获取目标样本数据,并对所述目标样本数据进行聚类处理,得到第一类簇集合;其中,所述目标样本数据包括至少一个样本数据,所述第一类簇集合包括至少一个类簇;
对所述第一类簇集合的类簇的样本数据进行聚类处理,得到第二类簇集合;
基于所述第二类簇集合,确定目标检测模型;
基于所述目标检测模型,对待检测数据进行预测处理,得到预测结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一类簇集合的类簇的样本数据进行聚类处理,得到第二类簇集合,包括:
对所述第一类簇集合中的类簇进行分类处理,得到第一目标类簇集合和第二目标类簇集合;其中,所述第二目标类簇集合中每一类簇的样本数量均大于或等于所述第一目标类簇集合中每一类簇的样本数量;
对所述第二目标类簇集合中的每一类簇的样本数据进行聚类处理,得到第三目标类簇集合;其中,所述第二类簇集合包括所述第一目标类簇集合和所述第三目标类簇集合。
3.根据权利要求2所述的方法,其特征在于,所述对所述第一类簇集合中的类簇进行分类处理,得到第一目标类簇集合和第二目标类簇集合,包括:
统计所述第一类簇集合中每一类簇的样本数量,得到第一数量集合;
对所述第一数量集合中的样本数量按照从小到大的顺序进行排序,得到目标数量序列;
基于所述目标数量序列,对所述第一类簇集合中的类簇进行分类处理,得到所述第一目标类簇集合和所述第二目标类簇集合。
4.根据权利要求3所述的方法,其特征在于,所述基于所述目标数量序列,对所述第一类簇集合中的类簇进行分类处理,得到所述第一目标类簇集合和所述第二目标类簇集合,包括:
计算所述目标数量序列中第1至第r个样本数量的和值,与所述目标数量序列中第r+1至第m个样本数量的和值的比值,得到包括m-1个比值的比值集合;其中,m为大于1的整数,r=1,2,……,m-1,m为所述第一数量集合中的元素个数;
获取第一阈值;
从所述比值集合中确定比值小于或等于所述第一阈值的目标比值,并确定目标比值中最大比值对应的排序位置L,从所述第一类簇集合中获取所述第1至第L个样本数量对应的类簇,得到所述第一目标类簇集合;
从所述第L+1至第m个样本数量对应的类簇中,获取所述第二目标类簇集合。
5.根据权利要求4所述的方法,其特征在于,所述从所述第L+1至第m个样本数量对应的类簇,获取所述第二目标类簇集合,包括:
计算所述第L+1至第m个样本数量对应的类簇中每一类簇的误差平方和;
从所述第L+1至第m个样本数量对应的类簇中,获取误差平方和大于或等于第二阈值的类簇,从而得到所述第二目标类簇集合。
6.根据权利要求2所述的方法,其特征在于,所述对所述第二目标类簇集合中的每一类簇的样本数据进行聚类处理,得到第三目标类簇集合,包括:
获取所述目标样本数据对应的决策图,获取所述第二目标类簇集合中第j类簇对应的k个第一聚类中心;其中,j为正整数,k为正整数;
基于所述k个第一聚类中心对所述第j类簇的样本数据进行聚类处理,得到k个第一子类簇;
计算每一第一子类簇的样本数据的平均值,得到k个第二聚类中心;
若所述第j类簇中的样本数据未分配完成,且所述k个第二聚类中心与所述第一聚类中心相同,或所述k个第一子类簇误差平方和的平均值小于第三阈值,得到所述第三目标类簇集合;其中,所述第三目标类簇集合包括所述k个第一子类簇;
若所述第j类簇中的样本数据均分配完成,得到所述第三目标类簇集合;其中,所述第三目标类簇集合包括所述k个第一子类簇;
若所述第j类簇中的样本数据未分配完成且所述k个第二聚类中心与所述第一聚类中心不相同,或所述第j类簇中的样本数据未分配完成且所述k个第一子类簇误差平方和的平均值大于或等于所述第三阈值,基于所述k个第二聚类中心对所述k个第一子类簇的样本数据进行聚类处理,得到k个第i子类簇,直到所述第j类簇中的样本数据分配完,或所述k个第i子类簇的聚类中心与k个第i-1子类簇的聚类中心相同,或所述k个第i子类簇误差平方和的平均值小于第三阈值;其中,所述第三目标类簇集合包括所述k个第i子类簇,i为正整数。
7.根据权利要求1至6任一所述的方法,其特征在于,所述基于所述第二类簇集合,确定目标检测模型,包括:
获取所述第二类簇集合中每一类簇的聚类中心;
基于预设类型与数据之间的对应关系和所述第二类簇集合中每一类簇的聚类中心,确定所述第二类簇集合中每一类簇的聚类中心对应的目标类型;
基于所述第二类簇集合中每一类簇的聚类中心和对应的所述目标类型,生成所述目标检测模型。
8.根据权利要求7所述的方法,其特征在于,所述基于所述目标检测模型,对待检测数据进行预测处理,得到预测结果,包括:
计算所述待检测数据与所述目标检测模型中的每一类簇的聚类中心的距离,得到第一预测距离集合;
基于所述目标检测模型,确定所述第一预设距离集合中最小距离值对应的聚类中心的目标类型,得到所述预测结果。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
获取所述第一预设距离集合中最小距离值对应的聚类中心的平均距离值;
计算所述第一预设距离集合中最小距离值与所述平均距离值的比值,得到预测概率;其中,所述预测概率用于指示所述待检测数据对应所述目标类型的概率。
10.根据权利要求4或5所述的方法,其特征在于,所述获取第一阈值,包括:
计算所述目标数量序列中第1至第p个样本数量的和值,与所述目标数量序列中第p+1至第m个样本数量的和值的比值,得到参考比值;其中,p为正整数;
获取所述参考比值中在0至1范围内的最大比值,得到所述第一阈值。
11.根据权利要求1至6、8至9任一所述的方法,其特征在于,所述获取目标样本数据,并对所述目标样本数据进行聚类处理得到第一类簇集合,包括:
获取目标样本数据;
获取截断距离,并基于所述截断距离和所述目标样本数据得到局部密度值集合和距离集合;其中,所述距离集合中的距离元素为所述目标样本数据中每一样本数据与高密度样本数据之间的距离值,所述局部密度集合中的局部密度值元素与所述距离集合中的距离元素之间具有对应关系;
基于所述局部密度值集合、所述距离集合和所述目标样本数据,确定聚类中心集合;其中,所述聚类中心集合中包括至少一个第三聚类中心;
基于所述聚类中心集合和所述目标样本数据,得到所述第一类簇集合。
12.根据权利要求11所述的方法,其特征在于,所述基于所述聚类中心集合和所述目标样本数据,得到所述第一类簇集合,包括:
计算所述聚类中心集合中的每一第三聚类中心与所述目标样本数据中第i样本数据之间的距离,得到第一距离集合;其中,i大于或等于1,小于或等于所述目标样本数据的总样本数量;
确定所述第一距离集合中最小距离值对应的第三聚类中心为目标聚类中心,并将所述第i样本数据归类至所述目标聚类中心对应的类簇中,从而得到所述第一类簇集合。
13.一种信息获取装置,其特征在于,所述装置包括:第一处理单元、第二处理单元、确定单元和第三处理单元;其中:
所述第一处理单元,用于获取目标样本数据,并对所述目标样本数据进行聚类处理,得到第一类簇集合;其中,所述目标样本数据包括至少一个样本数据,所述第一类簇集合包括至少一个类簇;
所述第二处理单元,用于对所述第一类簇集合中的类簇进行聚类处理,得到第二类簇集合;
所述确定单元,用于基于所述第二类簇集合,确定目标检测模型;
所述第三处理单元,用于基于所述目标检测模型,对待检测数据进行预测处理,得到预测结果。
14.一种信息获取设备,其特征在于,所述设备包括存储器、处理器和通信总线;其中:
所述通信总线,用于实现所述处理器和所述存储器之间的通信连接;
所述处理器,用于执行所述存储器中存储的信息获取程序,实现如权利要求1至12中任一项所述的信息获取方法的步骤。
15.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1至12中任一项所述的信息获取方法的步骤。
CN202010714048.4A 2020-07-22 2020-07-22 一种信息获取方法、装置、设备及存储介质 Pending CN113971426A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010714048.4A CN113971426A (zh) 2020-07-22 2020-07-22 一种信息获取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010714048.4A CN113971426A (zh) 2020-07-22 2020-07-22 一种信息获取方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113971426A true CN113971426A (zh) 2022-01-25

Family

ID=79585088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010714048.4A Pending CN113971426A (zh) 2020-07-22 2020-07-22 一种信息获取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113971426A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115374855A (zh) * 2022-08-23 2022-11-22 北京交通大学 一种基于聚类的对铁路突发事件进行分级的方法
CN116303480B (zh) * 2023-05-22 2023-08-04 新乡市万新电气有限公司 基于云计算的电能表误差校验方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115374855A (zh) * 2022-08-23 2022-11-22 北京交通大学 一种基于聚类的对铁路突发事件进行分级的方法
CN115374855B (zh) * 2022-08-23 2024-05-14 北京交通大学 一种基于聚类的对铁路突发事件进行分级的方法
CN116303480B (zh) * 2023-05-22 2023-08-04 新乡市万新电气有限公司 基于云计算的电能表误差校验方法

Similar Documents

Publication Publication Date Title
CN109656366B (zh) 一种情感状态识别方法、装置、计算机设备及存储介质
CN115392408B (zh) 一种电子数粒机运行异常检测方法及系统
CN113971426A (zh) 一种信息获取方法、装置、设备及存储介质
CN111950620A (zh) 基于DBSCAN和K-means算法的用户筛选方法
CN109525994A (zh) 基于支持向量机的高能效频谱感知方法
WO2018142816A1 (ja) 支援装置および支援方法
CN111985815A (zh) 一种能源电力运营评价指标的筛选方法及装置
CN113537321A (zh) 一种基于孤立森林和x均值的网络流量异常检测方法
CN111738319A (zh) 一种基于大规模样本的聚类结果评价方法及装置
CN111767273B (zh) 基于改进som算法的数据智能检测方法及装置
CN117474918A (zh) 异常检测方法和装置、电子设备以及存储介质
CN112632000A (zh) 日志文件聚类方法、装置、电子设备和可读存储介质
CN115527610B (zh) 一种单细胞组学数据的聚类分析方法
CN110879821A (zh) 评分卡模型衍生标签生成方法、装置、设备及存储介质
CN115292303A (zh) 数据处理方法及装置
CN111652733B (zh) 基于云计算和区块链的金融信息管理系统
CN115170838A (zh) 一种数据筛选方法及装置
CN111523576B (zh) 一种适用于电子质量检测的密度峰值聚类离群点检测方法
CN111127485B (zh) 一种ct图像中目标区域提取方法、装置及设备
CN112836747A (zh) 眼动数据的离群处理方法及装置、计算机设备、存储介质
CN116610806B (zh) 基于ai的rpa数字化业务处理方法及计算机设备
Li NNGDPC: a kNNG-based density peaks clustering
CN117992856B (zh) 用户用电行为分析方法、系统、设备、介质及程序产品
CN116610969A (zh) 基于半监督的密度筛选Kmeans异常日志检索方法
CN117523324B (zh) 图像处理方法和图像样本分类方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination