CN116257788A - 一种基于熵值分析的分类方法、系统及存储介质 - Google Patents
一种基于熵值分析的分类方法、系统及存储介质 Download PDFInfo
- Publication number
- CN116257788A CN116257788A CN202211476868.XA CN202211476868A CN116257788A CN 116257788 A CN116257788 A CN 116257788A CN 202211476868 A CN202211476868 A CN 202211476868A CN 116257788 A CN116257788 A CN 116257788A
- Authority
- CN
- China
- Prior art keywords
- evaluation
- target
- values
- value
- type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000004458 analytical method Methods 0.000 title claims abstract description 51
- 238000011156 evaluation Methods 0.000 claims description 103
- 239000011159 matrix material Substances 0.000 claims description 47
- 238000004364 calculation method Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 25
- 238000010606 normalization Methods 0.000 claims description 21
- 239000006185 dispersion Substances 0.000 claims description 17
- 230000005484 gravity Effects 0.000 claims description 14
- 238000012360 testing method Methods 0.000 claims description 8
- 238000003491 array Methods 0.000 claims description 5
- 238000007689 inspection Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 description 12
- 239000013598 vector Substances 0.000 description 7
- 238000007405 data analysis Methods 0.000 description 4
- 230000019771 cognition Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Computational Mathematics (AREA)
- Mathematical Optimization (AREA)
- Theoretical Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Biology (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种基于熵值分析的分类方法、系统及存储介质,所述基于熵值分析的分类方法包括以下步骤:针对多个目标对象,获取每个目标对象的多个不同类型的特征值;基于熵值分析确定所述多个目标对象的同一类型的特征值之间的离散程度;基于所述离散程度计算每一类型特征值对应的目标权重;针对每个目标对象,基于所述每一类型特征值对应的目标权重以及与该目标对象关联的全部类型的特征值确定该目标对象的类别。本申请在由相关领域专业人员的主观评定的特征值中融入计算离散程度的客观因素,将主客观相结合,使得对目标对象的分类更具客观性和可信度。
Description
技术领域
本申请涉及大数据分析处理的领域,尤其是涉及一种基于熵值分析的分类方法、系统及存储介质。
背景技术
目前,数据分析处理的对象日趋复杂,某些分析对象具有错综复杂的特征,不同特征之间存在不同程度的联系,而需要将多个这样的特征作为数据分析的依据,必然会带来较大的困难。
许多领域均需要对此类分析对象进行分类,但其分类标准较为复杂,其包含多种评估维度,并且每个评估维度之间存在不同程度的相互关联。针对此类对象进行分类,需要对目标对象进行多个评估维度的分析,并且需要结合对应领域的专业人员意见对多个评估维度之间的关联性进行分析,再将这些分析结果进行量化后,才能确定此类对象的分类方案。
此类分析对象的分类工作通常依靠对应领域的专业人员已经进行评价权重确定,由专业人员组成团队主观地对多个评价指标的权重进行赋值,虽然该获取评价权重的过程符合逻辑认知,但是其存在较强的主观依赖性,这导致传统方法的局限性较强。
针对上述情况,本申请提出了一种基于熵值分析的分类方法、系统及存储介质,用以降低上述分析对象分类的主观依赖性。
发明内容
为了降低上述分析对象分类的主观依赖性,本申请提供一种基于熵值分析的分类方法、系统及存储介质。
第一方面,本申请提供的一种基于熵值分析的分类方法,采用如下的技术方案:
一种基于熵值分析的分类方法,包括以下步骤:
针对多个目标对象,获取每个目标对象的多个不同类型的特征值;
基于熵值分析确定所述多个目标对象的同一类型的特征值之间的离散程度;
基于所述离散程度计算每一类型特征值对应的目标权重;
针对每个目标对象,基于所述每一类型特征值对应的目标权重以及与该目标对象关联的全部类型的特征值确定该目标对象的类别。
通过采用上述技术方案,针对多个目标对象存在着多个相互关联的不同类型的特征值,以这些特征值作为目标对象的分类依据。在确定同一特征值对应多个目标对象的离散程度后,即可通过该离散程度判断对应的特征值在分类过程中的必要性。
若某个特征值针对不同的目标对象,其离散程度较大,这表明对于不同的目标,这一特征值的区分度较大,区分较为明显,因此应当提高这一特征值在目标对象的分类当中的比重。反之,若某个特征值针对不同的目标对象的离散程度较小,则表明该特征值对于不同的目标对象,其区分度较小,分类效果不明显,则需要减小其在分类过程中的比重。
综上所述,本方法在由相关领域专业人员的主观评定的特征值中融入计算离散程度的客观因素,将主客观相结合,使得对目标对象的分类更具客观性和可信度。
可选的,所述基于熵值分析确定所述多个目标对象的同一类型的特征值之间的离散程度包括:
将所有目标对象所关联的全部特征值进行归一化处理;
根据所述多个目标对象的归一化处理后的同一类型的特征值确定每一类型特征值对应的比重;基于所述比重计算每一类型特征值对应的熵值;
根据所述熵值确定每一类型特征值对应的差异性系数,所述差异性系数指示同一类型特征值之间的离散程度。
通过采用上述技术方案,对目标对象的特征值进行归一化处理能够将获取到的将不同类型的特征值数据规范至1-0之间,从而简化复杂的比重计算过程。以差异性系数来量化上述的离散程度,使得分类的权重的确定过程更加清楚直观。
可选的,所述基于所述离散程度计算每一类型特征值对应的目标权重包括:
基于所述差异性系数计算每一类型特征值对应的第一评估权重;
确定所述多个不同类型的特征值之间的相对重要性程度信息;
基于所述相对重要性程度信息计算每一类型特征值对应的第二评估权重;
根据所述第一评估权重和所述第二评估权重确定每一类型特征值对应的所述目标权重。
通过采用上述技术方案,将上述通过差异性系数确定的第一评估权重和通过不同特征值之间的相对重要性程度信息确定的第二评估权重相结合,能够将客观的判断方法与主观确定的相对重要性程度信息相结合,使得分类结果更具客观性。
可选的,所述针对每个目标对象,基于所述每一类型特征值对应的目标权重以及与该目标对象关联的全部类型的特征值确定该目标对象的类别包括:
基于所述目标权重确定所述目标对象的评估值;
基于全部目标对象的所述评估值构建分类方案,并根据所述分类方案以及所述评估值确定所述目标对象的类别。
可选的,所述基于全部目标对象的所述评估值构建分类方案的步骤包括:
将所述评估值按照数值大小依次排序构成评估值序列;
将所述评估值序列按照多种分配方案进行分段,从而组成对应不同分配方案的数组群,其中,所述数组群中包含预设数量的数组;
计算对应不同分配方案的数组群的对应评估值平均值的偏差平方和;
选取最小的所述偏差平方和所对应的数组群,以所述数组群对应的所述分配方案作为所述分类方案。
通过采用上述技术方案,通过对评估值进行计算的方式对目标对象进行分类,能够进一步减小主观因素对分类结果的影响,而使得分类结果更具客观性又能够使得分类方法更广泛地应用,更大程度上满足大数据计算的普适性要求。
可选的,所述基于所述相对重要性程度信息计算每一类型特征值对应的第二评估权重包括:
基于所述相对重要性程度信息构造重要性矩阵;
对所述重要性矩阵进行一致性检验;
在所述重要性矩阵检验通过之后,对所述重要性矩阵中的数据进行归一化处理,得到所述第二评估权重。
通过采用上述技术方案,对重要性矩阵进行一致性检验,能够检验重要性矩阵中的相对重要性程度之间是否存在矛盾,若其没有能够通过一致性检验,则表明重要性矩阵中不同的相对重要性程度信息之间存在矛盾,那么就说明通过该重要性矩阵确定的归一化数据和最终得出的第二评估权重将均为无效结果,此时可重新确定响度重要性信息,并重新构造重要性矩阵,直至新的重要性矩阵能够通过一致性检验;反之,若其能够通过一致性检验,则表明重要性矩阵中不同的相对重要性程度信息之间不存在矛盾,那么就说明通过该重要性矩阵确定的归一化数据和最终得出的第二评估权重将均为有效结果。
可选的,所述将所有目标对象所关联的全部特征值进行归一化处理包括:
对正向特征值进行正向归一化处理;
对负向特征值进行逆向归一化处理。
通过采用上述技术方案,正向特征值指对于目标对象的评估值产生正向影响的特征值,负向特征值指对于目标对象的评估值产生负面影响的特征值。
第二方面,本申请提供一种基于熵值分析的分类系统,采用如下技术方案:
一种基于熵值分析的分类系统,包括:
数据获取单元,用于针对多个目标对象,获取每个目标对象的多个不同类型的特征值;
数据处理单元,用于基于熵值分析确定所述多个目标对象的同一类型的特征值之间的离散程度;
权重计算单元,用于基于所述离散程度计算每一类型特征值对应的目标权重;
分类单元,用于针对每个目标对象,基于所述每一类型特征值对应的目标权重以及与该目标对象关联的全部类型的特征值确定该目标对象的类别。
第三方面,本申请提供一种存储介质,采用如下技术方案:
一种存储介质,所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上所述的基于熵值分析的分类方法。
综上所述,本申请包括以下至少一种有益技术效果:
1.在由相关领域专业人员的主观评定的特征值中融入计算离散程度的客观因素,将主客观相结合,使得对目标对象的分类更具客观性和可信度。
2.通过差异性系数确定的第一评估权重和通过不同特征值之间的相对重要性程度信息确定的第二评估权重相结合,能够将客观的判断方法与主观确定的相对重要性程度信息相结合,使得分类结果更具客观性。
附图说明
图1是本申请实施例中一种基于熵值分析的分类方法的步骤流程图。
图2是本申请实施例中一种基于熵值分析的分类方法中S2的步骤流程图。
图3是本申请实施例中一种基于熵值分析的分类方法中S3的步骤流程图。
图4是本申请实施例中一种基于熵值分析的分类方法中S33的步骤流程图。
图5是本申请实施例中一种基于熵值分析的分类方法中S4的步骤流程图。
图6是本申请实施例中一种基于熵值分析的分类方法中S42的步骤流程图。
图7是本申请实施例中一种基于熵值分析的分类系统的逻辑连接示意图。
附图标记说明:
1、基于熵值分析的分类系统;11、数据获取单元;12、数据处理单元;13、权重计算单元;14、分类单元。
具体实施方式
以下结合附图,对本申请作进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在以下描述中,为了解释的目的,阐述了很多具体细节,以便提供对发明构思的彻底理解。作为本说明书的一部分,本公开的附图中的一些附图以框图形式表示结构和设备,以避免使所公开的原理复杂难懂。为了清晰起见,实际具体实施的并非所有特征都有必要进行描述。在本公开中对“一个具体实施”或“具体实施”的提及意指结合该具体实施所述的特定特征、结构或特性被包括在至少一个具体实施中,并且对“一个具体实施”或“具体实施”的多个提及不应被理解为必然地全部是指同一具体实施。
除非明确限定,否则术语“一个”、“一种”和“该”并非旨在指代单数实体,而是包括其特定示例可以被用于举例说明的一般性类别。因此,术语“一个”或“一种”的使用可以意指至少一个的任意数目,包括“一个”、“一个或多个”、“至少一个”和“一个或不止一个”。术语“或”意指可选项中的任意者以及可选项的任何组合,包括所有可选项,除非可选项被明确指示是相互排斥的。短语“中的至少一者”在与项目列表组合时是指列表中的单个项目或列表中项目的任何组合。所述短语并不要求所列项目的全部,除非明确如此限定。
本申请实施例公开一种基于熵值分析的分类方法。
参照图1,一种基于熵值分析的分类方法包括以下步骤:
S1.针对多个目标对象,获取每个目标对象的多个不同类型的特征值;
具体地,针对多个目标对象存在着多个相互关联的不同类型的特征值,以这些特征值作为目标对象的分类依据。其中,在对多个目标对象进行分类的过程中,同一目标对象对应的不同特征值各不相同,不同目标对象对应的同一特征值也各不相同。
S2.基于熵值分析确定上述多个目标对象的同一类型的特征值之间的离散程度;
参照图1和图2,具体地,若某个特征值针对不同的目标对象,其离散程度较大,这表明对于不同的目标,这一特征值的区分度较大,区分较为明显,因此应当提高这一特征值在目标对象的分类当中的比重。反之,若某个特征值针对不同的目标对象的离散程度较小,则表明该特征值对于不同的目标对象,其区分度较小,分类效果不明显,则需要减小其在分类过程中的比重。
进一步地,在不同的实施例中,上述的S2中确定多个目标对象的同一类型的特征值之间的离散程度可以采用不同的方法,本申请具体但非限定地提供一种方法,包括以下S21-S24的步骤:
S21.将所有目标对象所关联的全部特征值进行归一化处理;
对目标对象的特征值进行归一化处理能够将获取到的将不同类型的特征值数据规范至1-0之间,从而简化复杂的比重计算过程。
由于各个特征值的类型、单位、量纲不同,当特征值间数值差异很大的时,会导致数值较大的特征值对结果的影响高于数值水平较低的特征值对结果的影响。因此,在保障结果准确性的前提下,需要将原始特征值数值进行归一化处理,消除特征值数值量纲、单位对评价结果的影响。
在本实施例中,步骤S21还包括以下S211-S212的子步骤:
S211.对正向特征值进行正向归一化处理;
正向特征值指对于目标对象的评估值产生正向影响的特征值。
具体地,正向归一化公式为:
其中,Xij和Xi'j分别为第i个目标对象第j个正向特征值的原始数值和归一化后的数值;max(Xj)和min(Xj)分别为i个目标对象所对应的第j个正向特征值中的最大值和最小值。
作为示例的,以本方案分析乡村的活力并对乡村的类型进行划定的分析场景为例,其正向特征值可以为人才引进程度。
S212.对负向特征值进行逆向归一化处理。
负向特征值指对于目标对象的评估值产生负面影响的特征值,逆向归一化的目的是在计算最终结果时对特征值的负面影响的权衡,比如负向特征值的数值越高带来的效果是越负面的,对计算结果带来的正面效果是越来越小的,因此应当通过逆向归一化公式将大的值变小。
具体地,正向归一化公式为:
其中,Xij和Xi'j分别为第i个目标对象第j个负向特征值的原始数值和归一化后的数值;max(Xj)和min(Xj)分别为i个目标对象所对应的第j个负向特征值中的最大值和最小值。
作为示例的,以本方案分析乡村的活力并对乡村的类型进行划定的分析场景为例,其负向特征值可以为人口吸引力部分中空心化程度。
S22.根据上述多个目标对象的归一化处理后的同一类型的特征值确定每一类型特征值对应的比重;
具体地,上述每一类型特征值对应的比重的计算公式为:
其中,Xi'j为第i个目标对象的第j个特征值的归一值;Qij为第i个目标对象的第j个特征值的比重;m为目标对象的数量。
S23.基于上述比重计算每一类型特征值对应的熵值;
具体地,上述每一类型特征值对应的熵值的计算公式为:
其中,ej为第j个特征值的熵值;m为目标对象的数量;n为特征值的数量。
S24.根据上述熵值确定每一类型特征值对应的差异性系数,上述差异性系数指示同一类型特征值之间的离散程度。
以差异性系数来量化上述的离散程度,使得分类的权重的确定过程更加清楚直观。具体地,上述的差异性系数的计算公式为:
Fj=1-ej
其中,Fj为第j个特征值的差异性系数,ej为第j个特征值的熵值,若Fj越大,则表示同一类型特征值之间的离散程度越大,因此,该特征值对于目标对象分类的重要性程度越大。
S3.基于上述离散程度计算每一类型特征值对应的目标权重;
参照图3和图4,具体地,在不同的实施例中,计算目标权重可以采用不同的方法,本申请具体但非限定地提供一种方法,包括以下S31-S34的子步骤:
S31.基于上述差异性系数计算每一类型特征值对应的第一评估权重;
具体地,计算第一评估权重的公式为:
S32.确定上述多个不同类型的特征值之间的相对重要性程度信息;
具体地,上述的相对重要性程度信息由目标对象所对应领域的专业人员确定。
S33.基于上述相对重要性程度信息计算每一类型特征值对应的第二评估权重;
具体地,在不同的实施例中,计算上述的第二评估权重可以采用不同的方法,本申请具体但非限定地提供一种方法,采用以下S331-S333的子步骤:
S331.基于上述相对重要性程度信息构造重要性矩阵;
具体地,上述重要性矩阵为:
其中,P为上述的重要性矩阵;ui、uj(i,j=1,2…n)为第i、j个特征值;n为特征值数量;uij为ui对uj的相对重要性程度;n为特征值的数量。
进一步地,在构造上述的重要性矩阵P的过程中,针对某些目标对象会产生特征值较多的问题。因此,本申请具体但非限定地提供一种方案,从而减少相对重要性程度数值的数量:
由于实际计算过程中,ui对uj的相对重要性程度和uj对ui的相对重要性程度是存在重叠的,因此可以通过构建下三角矩阵,只需要标度个相对重要性程度系数uij,如此即可减少50%的计算量,同时还能够大大提高重要性矩阵的一致性下三角重要性矩阵P’的计算方法如下所示:
其中,P’为上述的下三角重要性矩阵;ui、uj(i,j=1,2…n)为第i、j个特征值;n为特征值数量;uij为ui对uj的相对重要性程度;n为特征值的数量。
S332.对上述重要性矩阵进行一致性检验;
具体地,对重要性矩阵的一致性检验方法为:
一致性检验是指对矩阵确定不一致的允许范围。其中,n阶一致阵的唯一非零特征根为n;n阶正互反阵P的最大特征根λ≥n,当且仅当λ=n时,其为一致矩阵。
由于λ连续的依赖于uij,则λ相较于n越大,重要性矩阵P的不一致性越严重。一致性指标由CI确定,而CI越小,表明重要性矩阵P的一致性越大。采用最大特征值对应的特征向量作为被比较因素对上层某因素影响程度的权向量,其不一致程度越大,引起的判断误差越大。因而可以用λ-n数值的大小来衡量P的不一致程度。CI=0,有完全的一致性;CI接近于0,有较强的一致性;而CI越大,不一致越严重。
S333.在上述重要性矩阵检验通过之后,对上述重要性矩阵中的数据进行归一化处理,得到上述第二评估权重。
具体地,第二评估权重的计算方法具体为:
计算最大特征值的特征向量,公式为:
P×w=λmax×w
求解过程为:
(P-λE)w=0
其中E为n阶单位矩阵;
求解行列式
|P-λE|=0
所有可能λ的值;
对于最大的λ值,求解此时(P-λE)w=0的基础解系w,则所有kw(k≠0)均为最大特征值λ的特征向量。
最后,通过计算归一值获得上述第二评估权重:
S34.根据上述第一评估权重和上述第二评估权重确定每一类型特征值对应的上述目标权重。
具体地,本申请具体但非限定地提供一种计算方法:
将上述通过差异性系数确定的第一评估权重和通过不同特征值之间的相对重要性程度信息确定的第二评估权重相结合,能够将客观的判断方法与主观确定的相对重要性程度信息相结合,使得分类结果更具客观性。
S4.针对每个目标对象,基于上述每一类型特征值对应的目标权重以及与该目标对象关联的全部类型的特征值确定该目标对象的类别。
参照图5和图6,具体地,在不同的实施例中,确定目标对象的类别可以采用不同的方法,本申请具体但非限定地提供一种方法,包括以下S41-S42的子步骤:
S41.基于上述目标权重确定上述目标对象的评估值;
S42.基于全部目标对象的上述评估值构建分类方案,并根据上述分类方案以及上述评估值确定上述目标对象的类别。
S421.将上述评估值按照数值大小依次排序构成评估值序列;
S422.将上述评估值序列按照多种分配方案进行分段,从而组成对应不同分配方案的数组群,其中,上述数组群中包含预设数量的数组;
S423.计算对应不同分配方案的数组群的对应评估值平均值的偏差平方和;
具体地,变量与总平均数的偏差的平方和是刻画所得全部数据的离散程度的一个指标,因此,各个总体是否同分布,可以从偏差平方和中获得信息,而偏差平方和中包含各总体之间所抽取数据的差异和随机因素造成的试验误差两部分信息,如果能把偏差平方和中的这两部分信息分解出来并对其进行比较,就可以达到检验假设的目的。
通过计算各不同分配方案所对应数组的与评估值平均值的偏差平方和,能够找出与评估值的平均值偏差最小的分配方案,此分配方案即为最符合评估值分布规律的分配方案。
S424.选取最小的上述偏差平方和所对应的数组群,以上述数组群对应的上述分配方案作为上述分类方案。
通过对评估值进行计算的方式对目标对象进行分类,能够进一步减小主观因素对分类结果的影响,而使得分类结果更具客观性又能够使得分类方法更广泛地应用,更大程度上满足大数据计算的普适性要求。
作为补充地,还可以基于本方案构建相关数据库,采用大数据统计的方式量化上述的特征值,构建上述的重要性矩阵,并将上述数据存储于数据库中,这对于后续的加入的目标对象能够起到即时计算并分类的作用,并且便于其他维度的数据分析,为目标对象的研究提供了数据支持。
本方法可以用于对乡村指标的评价与乡村类型的划定等社会经济领域。
具体地,随着互联网的日益发达,乡村与城市之间的人流、物流、交通流等要素流动所带来的传递效应以及增益对于乡村活力激发、乡村提质增效至关重要,传统乡村活力评价指标体系更加关注“从乡到城”单项流动,缺少“城乡要素双向流动”的评价指标。因此,对乡村活力的评价体系中应结合现阶段研究成果和该领域专业人员的意见,在传统的乡村活力评价指标体系中添加城乡流动要素以体现乡村的核心竞争力。而传统乡村活力指标体系多使用主观赋值的方法进行权重确定,获取权重的过程符合逻辑认知,但是存在较强的主观依赖性,局限性较强。
使用本方法对乡村活力进行评定,并由此对乡村类型进行划分,其实施原理为:
首先按照上述方法构建乡村活力指标评价体系:第一,以乡村作为上述的目标对象。第二,以影响乡村活力的评价指标作为上述的特征值,其中,以对乡村活力产生正面影响的评价指标作为上述的正向特征值,并以对乡村活力产生负面影响的评价指标作为上述的负向特征值。第三,采取本领域专业人员的意见,确定根据各评价指标之间相对重要性程度信息,并构造上述的重要性矩阵。
其次,将上述的目标对象、特征值、重要性矩阵等,并依照上述方法步骤进行各评价指标的权重、评估值的计算,以对乡村进行分类。具体计算方法不再赘述。
最后,还可以将此方法用于对除乡村活力指数之外的维度进行分类,包括人口吸引力指数、产业发展力指数、文化影响力指数、要素流动力指数等等,以对乡村类型进行全面的评估和划分。
作为补充的,可以将上述的各个评价指标对应的评价体系加入数据库,形成从数据采集、数据存储、指标构建、权重赋值、计算结果、乡村分类的整套乡村活力计算流程,解决了乡村活力计算时遇到的数据缺失、数据更新慢、数据时效性低、动态性不足的问题。使用手机信令数据、网络开源数据以及其他能够反映人流、物流等流动要素的多源大数据构建乡村活力评价数据库,服务于乡村活力评价、乡村优化路径制定、决策应用等功能。其中,手机信令此类数据源的优势在于不仅能反映出人口等数据总量分布,还能利用出行轨迹直观反映人口等要素在城乡之间流动范围与流动特征,解决了传统社会经济统计数据更新慢、数据时效性低、动态性不足等问题,保障了评价结果的科学性。
除此之外,本方法还可以用于图像识别等领域中对目标对象进行复杂特征值的计算与分类。
另外,参照图7,本申请提供一种基于熵值分析的分类系统1,包括数据获取单元11、数据处理单元12、权重计算单元13和分类单元14。其中,数据获取单元11用于针对多个目标对象,获取每个目标对象的多个不同类型的特征值,数据处理单元12用于基于熵值分析确定多个目标对象的同一类型的特征值之间的离散程度,权重计算单元13用于基于离散程度计算每一类型特征值对应的目标权重,分类单元14用于针对每个目标对象,分类单元14基于每一类型特征值对应的目标权重以及与该目标对象关联的全部类型的特征值确定该目标对象的类别。
具体地,数据处理单元12首先将所有目标对象所关联的全部特征值进行归一化处理,并根据多个目标对象的归一化处理后的同一类型的特征值确定每一类型特征值对应的比重,从而基于比重计算每一类型特征值对应的熵值,进而根据熵值确定每一类型特征值对应的差异性系数,差异性系数指示同一类型特征值之间的离散程度。
具体地,权重计算单元13首先基于差异性系数计算每一类型特征值对应的第一评估权重,并且确定多个不同类型的特征值之间的相对重要性程度信息,从而基于相对重要性程度信息计算每一类型特征值对应的第二评估权重。最后,根据第一评估权重和第二评估权重确定每一类型特征值对应的目标权重。
进一步地,权重计算单元13计算第二评估权重时,首先基于相对重要性程度信息构造重要性矩阵,并对重要性矩阵进行一致性检验,最后,在重要性矩阵检验通过之后,对重要性矩阵中的数据进行归一化处理,得到第二评估权重。
具体地,分类单元14能够基于目标权重确定目标对象的评估值,并且基于全部目标对象的评估值构建分类方案,从而根据分类方案以及评估值确定目标对象的类别。
进一步地,分类单元14在构建分类方法时,首先将评估值按照数值大小依次排序构成评估值序列,将评估值序列按照多种分配方案进行分段,从而组成对应不同分配方案的数组群,值得注意的是,数组群中包含预设数量的数组。进而计算对应不同分配方案的数组群的对应评估值平均值的偏差平方和,最后,选取最小的偏差平方和所对应的数组群,以数组群对应的分配方案作为分类方案。
上述数据获取单元11、数据处理单元12、权重计算单元13和分类单元14的工作原理均与上述的方法步骤相同,此处不再赘述。
本申请提供一种存储介质,存储介质存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上的基于熵值分析的分类方法。
以上均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。
Claims (9)
1.一种基于熵值分析的分类方法,其特征在于,包括以下步骤:
针对多个目标对象,获取每个目标对象的多个不同类型的特征值;
基于熵值分析确定所述多个目标对象的同一类型的特征值之间的离散程度;
基于所述离散程度计算每一类型特征值对应的目标权重;
针对每个目标对象,基于所述每一类型特征值对应的目标权重以及与该目标对象关联的全部类型的特征值确定该目标对象的类别。
2.根据权利要求1所述的基于熵值分析的分类方法,其特征在于,所述基于熵值分析确定所述多个目标对象的同一类型的特征值之间的离散程度包括:
将所有目标对象所关联的全部特征值进行归一化处理;
根据所述多个目标对象的归一化处理后的同一类型的特征值确定每一类型特征值对应的比重;
基于所述比重计算每一类型特征值对应的熵值;
根据所述熵值确定每一类型特征值对应的差异性系数,所述差异性系数指示同一类型特征值之间的离散程度。
3.根据权利要求2所述的基于熵值分析的分类方法,其特征在于,所述基于所述离散程度计算每一类型特征值对应的目标权重包括:
基于所述差异性系数计算每一类型特征值对应的第一评估权重;
确定所述多个不同类型的特征值之间的相对重要性程度信息;
基于所述相对重要性程度信息计算每一类型特征值对应的第二评估权重;
根据所述第一评估权重和所述第二评估权重确定每一类型特征值对应的所述目标权重。
4.根据权利要求1-3中任一项所述的基于熵值分析的分类方法,其特征在于,所述针对每个目标对象,基于所述每一类型特征值对应的目标权重以及与该目标对象关联的全部类型的特征值确定该目标对象的类别包括:
基于所述目标权重确定所述目标对象的评估值;
基于全部目标对象的所述评估值构建分类方案,并根据所述分类方案以及所述评估值确定所述目标对象的类别。
5.根据权利要求4所述的基于熵值分析的分类方法,其特征在于,所述基于全部目标对象的所述评估值构建分类方案的步骤包括:
将所述评估值按照数值大小依次排序构成评估值序列;
将所述评估值序列按照多种分配方案进行分段,从而组成对应不同分配方案的数组群,其中,所述数组群中包含预设数量的数组;
计算对应不同分配方案的数组群的对应评估值平均值的偏差平方和;
选取最小的所述偏差平方和所对应的数组群,以所述数组群对应的所述分配方案作为所述分类方案。
6.根据权利要求4所述的基于熵值分析的分类方法,其特征在于,所述基于所述相对重要性程度信息计算每一类型特征值对应的第二评估权重包括:
基于所述相对重要性程度信息构造重要性矩阵;
对所述重要性矩阵进行一致性检验;
在所述重要性矩阵检验通过之后,对所述重要性矩阵中的数据进行归一化处理,得到所述第二评估权重。
7.根据权利要求2所述的基于熵值分析的分类方法,其特征在于,所述将所有目标对象所关联的全部特征值进行归一化处理包括:
对正向特征值进行正向归一化处理;
对负向特征值进行逆向归一化处理。
8.一种基于熵值分析的分类系统,其特征在于,包括:
数据获取单元(11),用于针对多个目标对象,获取每个目标对象的多个不同类型的特征值;
数据处理单元(12),用于基于熵值分析确定所述多个目标对象的同一类型的特征值之间的离散程度;
权重计算单元(13),用于基于所述离散程度计算每一类型特征值对应的目标权重;
分类单元(14),用于针对每个目标对象,基于所述每一类型特征值对应的目标权重以及与该目标对象关联的全部类型的特征值确定该目标对象的类别。
9.一种存储介质,其特征在于,所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8中任一项所述的基于熵值分析的分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211476868.XA CN116257788A (zh) | 2022-11-23 | 2022-11-23 | 一种基于熵值分析的分类方法、系统及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211476868.XA CN116257788A (zh) | 2022-11-23 | 2022-11-23 | 一种基于熵值分析的分类方法、系统及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116257788A true CN116257788A (zh) | 2023-06-13 |
Family
ID=86679939
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211476868.XA Pending CN116257788A (zh) | 2022-11-23 | 2022-11-23 | 一种基于熵值分析的分类方法、系统及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116257788A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117197591A (zh) * | 2023-11-06 | 2023-12-08 | 青岛创新奇智科技集团股份有限公司 | 一种基于机器学习的数据分类方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109190164A (zh) * | 2018-07-30 | 2019-01-11 | 贵州万峰电力股份有限公司 | 节点电压暂降严重程度多指标评估方法 |
CN110751171A (zh) * | 2019-09-06 | 2020-02-04 | 平安医疗健康管理股份有限公司 | 图像数据分类方法、装置、计算机设备和存储介质 |
CN112990976A (zh) * | 2021-03-29 | 2021-06-18 | 华南理工大学 | 基于开源数据挖掘的商业网点选址方法、系统、设备及介质 |
CN113393149A (zh) * | 2021-06-29 | 2021-09-14 | 华南理工大学 | 城市民宿选址优化方法、系统、计算机设备及存储介质 |
CN113657545A (zh) * | 2021-08-30 | 2021-11-16 | 平安医疗健康管理股份有限公司 | 用户业务数据的处理方法、装置、设备及存储介质 |
CN113934904A (zh) * | 2021-09-24 | 2022-01-14 | 广东烟草惠州市有限责任公司 | 一种基于rfm模型的卷烟零售客户价值评价方法 |
-
2022
- 2022-11-23 CN CN202211476868.XA patent/CN116257788A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109190164A (zh) * | 2018-07-30 | 2019-01-11 | 贵州万峰电力股份有限公司 | 节点电压暂降严重程度多指标评估方法 |
CN110751171A (zh) * | 2019-09-06 | 2020-02-04 | 平安医疗健康管理股份有限公司 | 图像数据分类方法、装置、计算机设备和存储介质 |
CN112990976A (zh) * | 2021-03-29 | 2021-06-18 | 华南理工大学 | 基于开源数据挖掘的商业网点选址方法、系统、设备及介质 |
CN113393149A (zh) * | 2021-06-29 | 2021-09-14 | 华南理工大学 | 城市民宿选址优化方法、系统、计算机设备及存储介质 |
CN113657545A (zh) * | 2021-08-30 | 2021-11-16 | 平安医疗健康管理股份有限公司 | 用户业务数据的处理方法、装置、设备及存储介质 |
CN113934904A (zh) * | 2021-09-24 | 2022-01-14 | 广东烟草惠州市有限责任公司 | 一种基于rfm模型的卷烟零售客户价值评价方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117197591A (zh) * | 2023-11-06 | 2023-12-08 | 青岛创新奇智科技集团股份有限公司 | 一种基于机器学习的数据分类方法 |
CN117197591B (zh) * | 2023-11-06 | 2024-03-12 | 青岛创新奇智科技集团股份有限公司 | 一种基于机器学习的数据分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Feng et al. | Probabilistic linguistic QUALIFLEX approach with possibility degree comparison | |
CN112989621B (zh) | 一种模型性能评价方法、装置、设备及存储介质 | |
CN108460101A (zh) | 面向位置社交网络基于地理位置正则化的兴趣点推荐方法 | |
CN108092798B (zh) | 一种基于变粒度的云服务优选方法、云服务器 | |
CN111898839B (zh) | 电力用户的重要程度分类方法及装置 | |
Wang et al. | Some programming models to derive priority weights from additive interval fuzzy preference relation | |
Dos Santos et al. | A canonical correlation analysis of the relationship between sustainability and competitiveness | |
CN116257788A (zh) | 一种基于熵值分析的分类方法、系统及存储介质 | |
CN113128893A (zh) | 区域防旱减灾的评估方法和装置 | |
CN114742520A (zh) | 岗位匹配方法、装置、设备及存储介质 | |
CN111523080A (zh) | 一种电力系统的pas系统综合评估方法及相关装置 | |
CN114112984B (zh) | 一种基于自注意力的织物纤维成分定性方法 | |
CN113947280A (zh) | 一种基于反馈调整权值的组合评价方法 | |
Zhang et al. | An improved OWA-Fuzzy AHP decision model for multi-attribute decision making problem | |
CN116484005B (zh) | 一种分类模型构建方法、装置及存储介质 | |
CN115438886A (zh) | 家政从业人员服务评价和匹配方法及系统 | |
CN107644285A (zh) | 售电市场盈利能力评估指标的筛选与权重确定方法及系统 | |
CN110533528A (zh) | 评估企业信用的方法及设备 | |
CN115829209A (zh) | 基于碳路径的绿色智能仓库环保质量分析方法及装置 | |
CN111028012A (zh) | 景区客群定位方法、系统、装置及其可存储介质 | |
Das et al. | Iterative use of weighted voronoi diagrams to improve scalability in recommender systems | |
CN116245422A (zh) | 外部数据质量的评价方法、装置和电子设备 | |
CN111008324A (zh) | 大数据下旅游服务推送方法、系统、装置及可读存储介质 | |
Chen et al. | Research on Network Security Risk Assessment Model Based on Grey Language Variables | |
Sudakov et al. | Decision making in case of inconsistent pair comparison matrixes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information | ||
CB03 | Change of inventor or designer information |
Inventor after: Zhang Jing Inventor after: Guan Chenyue Inventor after: Su Chong Inventor after: Li Lei Inventor after: Gan Muye Inventor after: Bai Longlong Inventor before: Zhang Jing Inventor before: Li Lei Inventor before: Bai Longlong |