CN114169406A - 基于对称不确定性联合条件熵的特征选择方法 - Google Patents

基于对称不确定性联合条件熵的特征选择方法 Download PDF

Info

Publication number
CN114169406A
CN114169406A CN202111363477.2A CN202111363477A CN114169406A CN 114169406 A CN114169406 A CN 114169406A CN 202111363477 A CN202111363477 A CN 202111363477A CN 114169406 A CN114169406 A CN 114169406A
Authority
CN
China
Prior art keywords
feature
features
candidate
uncertainty
symmetry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111363477.2A
Other languages
English (en)
Inventor
周红芳
王晨光
连延彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian University of Technology
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN202111363477.2A priority Critical patent/CN114169406A/zh
Publication of CN114169406A publication Critical patent/CN114169406A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于对称不确定性联合条件熵的特征选择方法,通过计算已选特征和候选特征以及分类之间的互信息来选取最优特征,基于对称不确定性联合条件熵的算法不仅考虑了特征和类别之间的相关性,还考虑了特征和特征之间的冗余性。本发明能够快速地定位到与类别相关性强并且与已选特征之间冗余较小的特征,极大的提高了分类的准确性和效率。

Description

基于对称不确定性联合条件熵的特征选择方法
技术领域
本发明属于特征选择技术领域,具体涉及基于对称不确定性联合条件熵的特征选择方法。
背景技术
随着科技的发展以及物联网的普及,据统计全国现在已经有9.4亿网民,网络为人民的生活和工作带来极大的遍历。人与人之间进行沟通的效率得到了极大的提高。在互联网给我们带来便利的同时,也出现了很多的弊端,如网上的社交软件和各种信息平台,每秒都会产生海量的数据,这些数据绝大多数是无用的数据,因此我们从海量的数据中获取到有价值的信息就变得极为重要。特性选择是为了从大量的数据中选择出信息量大、与类别高度相关的数据。作为数据的预处理部分,特征选择的好坏直接会对后续的分类结果产生影响。
特征选择主要用于数据的预处理阶段,对数据进行降维,即特征子集选择,从已有的含有M个特征的集合个中选择出N个冗余性小且与类别高度相关的特征来,使得最终构造出的分类模型性能最好。特征选择的步骤一般分为产生过程,评价函数,停止准则,验证过程。
特征选择算法主要分为包装方法、过滤方法以及嵌入方法。过滤式特征选择算法只考虑候选特征集合和目标类之间的相关性的大小,与分类模型的构造过程无关。过滤式的特征选择算法实现难度较低,时间开销较少,MRMR算法是常见的基于过滤式的特征选择算法。包装式算法是将特征选择和模型构建关联起来,两者相互指导,彼此反馈。即用每个特征子集来训练模型,将训练得到的模型的泛化性为选择的子集进行打分,模型的分类性能会影响特征选择的最终结果。包装式特征选择算法的性能较优于过滤式方法,但是计算时间过长,且也容易产生过拟合现象。常见的包装式特征选择算法例如遗传算法。嵌入式特征选择算法将特征选择和模型构建融合在一起,常见的如决策树算法,选择信息增益得分最大的特征进行模型的构建,上述算法存在复杂度高、计算时间长的缺陷。
发明内容
本发明的目的是提供基于对称不确定性联合条件熵的特征选择方法,结合候选特征与已选特征以及类别之间的关系,剔除不相关的特征,提高分类器的分类准确率。
本发明所采用的技术方案是,基于对称不确定性联合条件熵的特征选择方法,具体按照以下步骤实施:
步骤1、对连续型样本数据集的特征值进行离散化处理,得到特征值离散化后的样本数据,并将样本数据按照9:1的比例随机划分出训练集和测试集;
步骤2、将训练集所有样本数据作为候选特征集合F的元素,使用互信息计算集合F中所有候选特征与各个样本所属的类别之间的互信息值,选择出互信息值最大的特征放入集合S中,将去除互信息值最大的特征的候选特征集合F作为候选特征子集F′;
步骤3、遍历候选特征子集F′中每一个候选特征,使用基于对称不确定性联合条件熵的特征选择算法计算每一个候选特征的条件对称不确定度,将对称不确定度最高的候选特征加入集合S中;
步骤4、使用集合S测试分类器分类的准确率,并将得到的准确率与前一次的分类准确率进行比较,若准确率得到提升,则保留该集合S内新添加的特征,作为候选特征子集F′的特征,否则剔除该候选特征;
步骤5、重复步骤3、步骤4,最终得到的集合S内的特征为基于对称不确定性联合条件熵的特征。
本发明的特点还在于:
步骤1连续型样本数据集为ASU特征选择库中的数据集合。
步骤2具体过程为:
步骤2.1、定义一个初始集合为空集的集合S,将特征空间的所有特征作为候选特征集合F的元素,根据公式(1)计算候选特征集合F中每个特征fi与所有类别之间的互信息值I(fi;C);
Figure BDA0003359725600000031
其中,
Figure BDA0003359725600000032
表示特征fi的特征值离散化的段数,NC是数据集中所有样本所属的类别总数;ck表示第k个类别,p(fij)表示第i个特征对应取第j段离散化后的特征值时所对应的样本数与数据集的所有样本总数的比值,p(ck)表示属于第k个类别的样本的数量占数据集所有样本的比率,p(fi,ck)表示第i个特征对应取第j段离散化后的特征值时且属于第k个类别的所有样本在数据集中所占的比例;
步骤2.2、根据互信息值对所有特征进行降序排序,选择互信息I(fi;C)值最大的候选特征fmax,并放入集合S中,此时得到候选特征子集F′=F-{fmax};
Figure BDA0003359725600000033
步骤3具体过程为:
步骤3.1、根据公式(3)计算集合S中已选特征fi已知的情况下候选特征子集F′中的候选特征ft和所有类别之间的条件互信息;
Figure BDA0003359725600000041
步骤3.2、根据公式(4)计算集合S中每一个特征fi与所有类别之间的条件熵大小H(fi|C);
Figure BDA0003359725600000042
其中,
Figure BDA0003359725600000043
表示特征fi的特征值离散化的段数,NC是样本的类别总数;
步骤3.3、根据公式(5)计算候选特征子集F′中每一个候选特征ft与所有类别之间的条件熵大小H(ft|C);
Figure BDA0003359725600000044
其中,
Figure BDA0003359725600000045
表示特征ft的特征值离散化的段数;
步骤3.4、根据公式(6)求出计算特征子集F′中每一个候选特征ft的条件对称不确定度的大小COSU(ft);
Figure BDA0003359725600000046
步骤3.5、根据公式(7)求出平均条件对称不确定度
Figure BDA0003359725600000047
最大的候选特征ft,并将候选特征ft放入集合S中;
Figure BDA0003359725600000048
其中,M表示集合S中元素的个数。
步骤4所使用的分类器为SVM分类器和KNN分类器。
步骤4具体过程为:去掉训练集和测试集中所有未在集合S中出现的特征,保留集合S中出现的特征,利用训练集分别使用SVM分类器和KNN分类器完成训练,并对测试集的所有样本进行分类,得到两种分类器的平均分类准确率,并将此轮循环中得到的平均准确率与前一轮的平均结果进行比较,若平均准确率得到提升,则保留该集合S内新添加的特征,作为候选特征子集F′中的特征,否则剔除该候选特征。
本发明的有益效果是:
本发明一种基于对称不确定性联合条件熵的特征选择算法,通过计算已选特征和候选特征以及分类之间的互信息来选取最优特征,基于对称不确定性联合条件熵的算法不仅考虑了特征和类别之间的相关性,还考虑了特征和特征之间的冗余性。本发明能够快速地定位到与类别相关性强并且与已选特征之间冗余较小的特征,极大的提高了分类的准确性和效率。
附图说明
图1是本发明基于对称不确定性联合条件熵的特征选择方法的流程图;
图2是本发明与四种对比算法在9种数据集上分别使用KNN分类器实验结果;
图3是本发明与四种对比算法在9种数据集上分别使用SVM分类器实验结果;
图4是本发明与四种对比算法分别使用KNN分类器和SVM分类器的平均实验结果。
具体实施方式
下面结合附图及具体实施方式对本发明进行详细说明。
本发明基于对称不确定性联合条件熵的特征选择方法,如图1所示,具体按照以下步骤实施:
步骤1、从ASU特征选择库中选取连续型样本数据集,对连续型样本数据集的特征值进行离散化处理,得到特征值离散化后的样本数据,并将样本数据按照9:1的比例随机划分出训练集和测试集;样本数据集分别为人脸数据集,生物数据集和文本数据集。其中warpAR10P、orlraws10P、warpPIE10P、TOX_171、SMK_CAN_187、GLI_85为连续数据集。
步骤2、将训练集所有样本数据作为候选特征集合F的元素,使用互信息计算集合F中所有候选特征与各个样本所属的类别之间的互信息值,选择出互信息值最大的特征放入集合S中,将去除互信息值最大的特征的候选特征集合F作为候选特征子集F′;
步骤2具体过程为:
步骤2.1、定义一个初始集合为空集的集合S,将特征空间的所有特征作为候选特征集合F的元素,根据公式(1)计算候选特征集合F中每个特征fi与所有类别之间的互信息值I(fi;C);
Figure BDA0003359725600000061
其中,
Figure BDA0003359725600000062
表示特征fi的特征值离散化的段数,NC是数据集中所有样本所属的类别总数;ck表示第k个类别,p(fij)表示第i个特征对应取第j段离散化后的特征值时所对应的样本数与数据集的所有样本总数的比值,p(ck)表示属于第k个类别的样本的数量占数据集所有样本的比率,p(fi,ck)表示第i个特征对应取第j段离散化后的特征值时且属于第k个类别的所有样本在数据集中所占的比例;
步骤2.2、根据互信息值对所有特征进行降序排序,选择互信息I(fi;C)值最大的候选特征fmax,并放入集合S中,此时得到候选特征子集F′=F-{fmax};
Figure BDA0003359725600000063
步骤3、遍历候选特征子集F′中每一个候选特征,使用基于对称不确定性联合条件熵的特征选择算法计算每一个候选特征的条件对称不确定度,将对称不确定度最高的候选特征加入集合S中;
具体过程为:
步骤3.1、根据公式(3)计算集合S中已选特征fi已知的情况下候选特征子集F′中的候选特征ft和所有类别之间的条件互信息;
Figure BDA0003359725600000071
步骤3.2、根据公式(4)计算集合S中每一个特征fi与所有类别之间的条件熵大小H(fi|C);
Figure BDA0003359725600000072
其中,
Figure BDA0003359725600000073
表示特征fi的特征值离散化的段数,NC是样本的类别总数;
步骤3.3、根据公式(5)计算候选特征子集F′中每一个候选特征ft与所有类别之间的条件熵大小H(ft|C);
Figure BDA0003359725600000074
其中,
Figure BDA0003359725600000075
表示特征ft的特征值离散化的段数;
步骤3.4、根据公式(6)求出计算特征子集F′中每一个候选特征ft的条件对称不确定度的大小COSU(ft);
Figure BDA0003359725600000076
步骤3.5、根据公式(7)求出平均条件对称不确定度
Figure BDA0003359725600000077
最大的候选特征ft,并将候选特征ft放入集合S中;
Figure BDA0003359725600000078
其中,M表示集合S中元素的个数。
步骤4、去掉训练集和测试集中所有未在集合S中出现的特征,保留集合S中出现的特征,利用训练集分别使用SVM分类器和KNN分类器完成训练,并对测试集的所有样本进行分类,得到两种分类器的平均分类准确率,并将此轮循环中得到的平均准确率与前一轮的平均结果进行比较,若平均准确率得到提升,则保留该集合S内新添加(步骤3中添加)的特征,作为候选特征子集F′中的特征,否则剔除该候选特征。
步骤5、重复步骤3、步骤4,最终得到的集合S内的特征为基于对称不确定性联合条件熵的特征。
在对比实验中,选取数据集warpAR10P、orlraws10P、warpPIE10P、TOX_171、SMK_CAN_187、GLI_85、PCMAC、RELATHE以及BASEHOCK进行本发明的性能测试。以上数据集都是来自ASU特征选择库,分别为人脸数据集,生物数据集和文本数据集。
为了验证基于对称不确定性联合条件熵的特征选择算法的性能,将本发明与SFS,BIRS,BIRSR,IGIS四种算法进行对比。分类器选用的是常见的K最近邻分类器(KNN)和支持向量机分类器(SVM)。
从图2可以看出,当使用KNN分类器时,除了在warpAR10P数据集以及warpPIE10P数据集上本发明的性能不如对比算法,但在其他数据集上的分类准确率均高于对比算法。
从图3所示,可以看出,当使用SVM分类器进行实验时,本发明在SMK_CAN_187、PCMAC、RELATHE以及BASEHOCK数据集上取得了最优结果,而在其他数据集上的性能表现不如对比算法。
从图4可以看出,无论使用SVM分类器还是KNN分类器,本发明的平均分类性能都是最优的。多个数据集上的实验结果表明本发明可以很好地提高分类器的分类性能,是可靠的特征选择算法。
通过上述方式,本发明一种基于对称不确定性联合条件熵的特征选择算法,通过计算已选特征和候选特征以及分类之间的互信息来选取最优特征,基于对称不确定性联合条件熵的算法不仅考虑了特征和类别之间的相关性,还考虑了特征和特征之间的冗余性。本发明能够快速地定位到与类别相关性强并且与已选特征之间冗余较小的特征,极大的提高了分类的准确性和效率。

Claims (6)

1.基于对称不确定性联合条件熵的特征选择方法,其特征在于,具体按照以下步骤实施:
步骤1、对连续型样本数据集的特征值进行离散化处理,得到特征值离散化后的样本数据,并将样本数据按照9:1的比例随机划分出训练集和测试集;
步骤2、将训练集所有样本数据作为候选特征集合F的元素,使用互信息计算集合F中所有候选特征与各个样本所属的类别之间的互信息值,选择出互信息值最大的特征放入集合S中,将去除互信息值最大的特征的候选特征集合F作为候选特征子集F′;
步骤3、遍历候选特征子集F′中每一个候选特征,使用基于对称不确定性联合条件熵的特征选择算法计算每一个候选特征的条件对称不确定度,将对称不确定度最高的候选特征加入集合S中;
步骤4、使用集合S测试分类器分类的准确率,并将得到的准确率与前一次的分类准确率进行比较,若准确率得到提升,则保留该集合S内新添加的特征,作为候选特征子集F′的特征,否则剔除该候选特征;
步骤5、重复步骤3、步骤4,最终得到的集合S内的特征为基于对称不确定性联合条件熵的特征。
2.根据权利要求1所述基于对称不确定性联合条件熵的特征选择方法,其特征在于,步骤1所述连续型样本数据集为ASU特征选择库中的数据集合。
3.根据权利要求1所述基于对称不确定性联合条件熵的特征选择方法,其特征在于,步骤2具体过程为:
步骤2.1、定义一个初始集合为空集的集合S,将特征空间的所有特征作为候选特征集合F的元素,根据公式(1)计算候选特征集合F中每个特征fi与所有类别之间的互信息值I(fi;C);
Figure FDA0003359725590000021
其中,
Figure FDA0003359725590000024
表示特征fi的特征值离散化的段数,NC是数据集中所有样本所属的类别总数;ck表示第k个类别,p(fij)表示第i个特征对应取第j段离散化后的特征值时所对应的样本数与数据集的所有样本总数的比值,p(ck)表示属于第k个类别的样本的数量占数据集所有样本的比率,p(fi,ck)表示第i个特征对应取第j段离散化后的特征值时且属于第k个类别的所有样本在数据集中所占的比例;
步骤2.2、根据互信息值对所有特征进行降序排序,选择互信息I(fi;C)值最大的候选特征fmax,并放入集合S中,此时得到候选特征子集F′=F-{fmax};
fmax=arg max fi∈F[I(fi;C)] (2)。
4.根据权利要求1所述基于对称不确定性联合条件熵的特征选择方法,其特征在于,步骤3具体过程为:
步骤3.1、根据公式(3)计算集合S中已选特征fi已知的情况下候选特征子集F′中的候选特征ft和所有类别之间的条件互信息;
Figure FDA0003359725590000022
步骤3.2、根据公式(4)计算集合S中每一个特征fi与所有类别之间的条件熵大小H(fi|C);
Figure FDA0003359725590000023
其中,
Figure FDA0003359725590000025
表示特征fi的特征值离散化的段数,NC是样本的类别总数;
步骤3.3、根据公式(5)计算候选特征子集F′中每一个候选特征ft与所有类别之间的条件熵大小H(ft|C);
Figure FDA0003359725590000031
其中,
Figure FDA0003359725590000035
表示特征ft的特征值离散化的段数;
步骤3.4、根据公式(6)求出计算特征子集F′中每一个候选特征ft的条件对称不确定度的大小COSU(ft);
Figure FDA0003359725590000032
步骤3.5、根据公式(7)求出平均条件对称不确定度
Figure FDA0003359725590000033
最大的候选特征ft,并将候选特征ft放入集合S中;
Figure FDA0003359725590000034
其中,M表示集合S中元素的个数。
5.根据权利要求1所述基于对称不确定性联合条件熵的特征选择方法,其特征在于,步骤4所使用的分类器为SVM分类器和KNN分类器。
6.根据权利要求5所述基于对称不确定性联合条件熵的特征选择方法,其特征在于,步骤4具体过程为:去掉训练集和测试集中所有未在集合S中出现的特征,保留集合S中出现的特征,利用训练集分别使用SVM分类器和KNN分类器完成训练,并对测试集的所有样本进行分类,得到两种分类器的平均分类准确率,并将此轮循环中得到的平均准确率与前一轮的平均结果进行比较,若平均准确率得到提升,则保留该集合S内新添加的特征,作为候选特征子集F′中的特征,否则剔除该候选特征。
CN202111363477.2A 2021-11-17 2021-11-17 基于对称不确定性联合条件熵的特征选择方法 Pending CN114169406A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111363477.2A CN114169406A (zh) 2021-11-17 2021-11-17 基于对称不确定性联合条件熵的特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111363477.2A CN114169406A (zh) 2021-11-17 2021-11-17 基于对称不确定性联合条件熵的特征选择方法

Publications (1)

Publication Number Publication Date
CN114169406A true CN114169406A (zh) 2022-03-11

Family

ID=80479873

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111363477.2A Pending CN114169406A (zh) 2021-11-17 2021-11-17 基于对称不确定性联合条件熵的特征选择方法

Country Status (1)

Country Link
CN (1) CN114169406A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024103436A1 (zh) * 2022-11-18 2024-05-23 中国南方电网有限责任公司超高压输电公司检修试验中心 设备缺陷数据规则库构建方法及设备缺陷关联性分析方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024103436A1 (zh) * 2022-11-18 2024-05-23 中国南方电网有限责任公司超高压输电公司检修试验中心 设备缺陷数据规则库构建方法及设备缺陷关联性分析方法

Similar Documents

Publication Publication Date Title
CN111695626A (zh) 基于混合采样与特征选择的高维度不平衡数据分类方法
CN108363810A (zh) 一种文本分类方法及装置
CN110837884B (zh) 基于改进的二元磷虾群算法和信息增益算法的有效混合特征选择方法
Yuan et al. An improved ensemble learning for imbalanced data classification
CN109522544A (zh) 基于卡方检验的句向量计算方法、文本分类方法及系统
CN106548041A (zh) 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法
CN101604394A (zh) 一种有限存贮资源下的增量学习分类方法
CN112926640A (zh) 一种基于两阶段深度特征选择的癌症基因分类方法、设备及存储介质
Xue et al. An archive based particle swarm optimisation for feature selection in classification
CN114169406A (zh) 基于对称不确定性联合条件熵的特征选择方法
CN111797267A (zh) 一种医学图像检索方法及系统、电子设备、存储介质
CN1873661A (zh) 一种遥感影像的人工免疫非监督分类方法
CN108737429B (zh) 一种网络入侵检测方法
Zhu et al. Multiobjective evolutionary algorithm-based soft subspace clustering
Natarajan et al. A survey on gene feature selection using microarray data for cancer classification
CN110516741A (zh) 基于动态分类器选择的类别重叠不平衡数据分类方法
Oliveira et al. Improving cascading classifiers with particle swarm optimization
CN109344972A (zh) 一种基于特征可信度的高效特征选择方法
CN111984762B (zh) 一种对抗攻击敏感的文本分类方法
Limam et al. A new hybrid multiclass approach based on KNN and SVM
CN110533080B (zh) 一种基于模糊规则集的乳腺癌细胞图像分类方法
CN114169542A (zh) 用于不完整数据分类的集成学习树构建方法
CA2494799A1 (en) Method for clustering decision trees in data classifiers
Kashef et al. MLIFT: enhancing multi-label classifier with ensemble feature selection
Chen et al. An associative classification approach for enhancing prediction of imbalance data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination