CN117454154A - 一种面向偏标记数据的鲁棒特征选择方法 - Google Patents

一种面向偏标记数据的鲁棒特征选择方法 Download PDF

Info

Publication number
CN117454154A
CN117454154A CN202311776712.8A CN202311776712A CN117454154A CN 117454154 A CN117454154 A CN 117454154A CN 202311776712 A CN202311776712 A CN 202311776712A CN 117454154 A CN117454154 A CN 117454154A
Authority
CN
China
Prior art keywords
matrix
feature
features
marker
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311776712.8A
Other languages
English (en)
Inventor
钱文彬
舒文豪
刘佳乐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangxi Agricultural University
Original Assignee
Jiangxi Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangxi Agricultural University filed Critical Jiangxi Agricultural University
Priority to CN202311776712.8A priority Critical patent/CN117454154A/zh
Publication of CN117454154A publication Critical patent/CN117454154A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/11Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Abstract

本发明涉及一种面向偏标记数据的鲁棒特征选择方法,首先利用偏标记数据中样本的相关性计算标记置信度,并根据标记置信度对标记空间中伪标记进行平滑处理;在此基础上,采用加权互信息对特征的冗余性进行计算分析,构建得到基于稀疏回归模型的特征选择方法模型;利用模型对偏标记数据进行优化学习,两阶段循环迭代地利用模型学得的标记置信度指导各个变量间相关性的更新,并通过稀疏回归系数对偏标记数据进行特征选择,从而得到鲁棒性好的特征子集结果。本发明通过分析计算特征与标记的相关性、样本的相关性、特征的冗余性,构建了面向偏标记数据的特征选择目标函数,实现了对特征的重要性进行准确度量分析,显著提升了学习模型的分类性能。

Description

一种面向偏标记数据的鲁棒特征选择方法
技术领域
本发明涉及数据处理领域,具体涉及一种面向偏标记数据的鲁棒特征选择方法。
背景技术
随着大数据时代的到来,现实应用领域中数据往往具有复杂语义信息和高维特征等特点,这给当前的数据挖掘和机器学习模型的训练带来严峻挑战。一方面,高维数据的丰富语义提高了传统监督学习任务的数据标注成本,使得有些数据对象在标注过程往往还会包含不相关的噪声标记,这类带噪声标记的数据在机器学习领域中被称为偏标记数据;另一方面,高维偏标记数据在学习模型的训练过程中往往容易引起维度灾难问题,同时将会降低模型的泛化性能和可解释性。偏标记学习的数据对象与候选标记集合相关联,候选标记集合中只有一个正确标记其余为伪标记;利用特征选择方法可有效避免维度灾难问题,其通过挑选出关键特征集合可以有效降低学习过程的计算复杂度,提升学习模型的性能。在偏标记学习框架下,由于现有特征选择方法往往会受到伪标记的消极影响,无法准确对偏标记数据的特征重要性进行准则评价,同时,偏标记数据中存在的这些伪标记,使得监督信息不精确,容易造成所选的特征子集与伪标记之间相关性更强,导致对相关性的度量失去可信度,降低了特征子集的有效性。为此,设计针对偏标记数据的鲁棒特征选择方法可显著提高分类模型的准确性和稳定性。
发明内容
本发明的目的在于,提供一种面向偏标记数据的鲁棒特征选择方法,从特征与标记的相关性、样本的相关性和特征的冗余性这三个视角,构建了面向偏标记数据的特征选择目标函数,对特征的重要性进行准确度量分析,通过变量交替迭代的方式优化求解目标函数输出分类性能强和鲁棒性好的特征子集。
为实现上述目的,本发明采取的技术方案如下。
一种面向偏标记数据的鲁棒特征选择方法,包括以下步骤:
步骤S1,构建基于稀疏回归模型的特征选择方法模型,具体包括以下步骤:
步骤S11,基于稀疏回归模型构建一个面向偏标记数据的特征与标记空间的目标函数,用于度量偏标记数据集中特征与标记的相关性,拟合偏标记数据特征空间与标记空间的关系;
步骤S12,利用偏标记数据中样本的相关性计算标记置信度,并根据标记置信度对标记空间中伪标记进行平滑处理;
步骤S13,基于互信息方法衡量两个特征之间的关联程度,对特征的冗余性进行度量,并将特征与标记的相关性通过权重融入到特征的冗余性度量中;
然后通过综合考虑特征与标记的相关性、样本的相关性、特征的冗余性,构造得到特征选择的目标函数:
其中,表示样本特征矩阵,且表示稀疏系数矩阵,且表示标记置信度矩阵,且表示数据值均为实数域范围内,表示偏标记数 据集中样本个数,表示描述样本的特征个数,表示偏标记数据集中标记类型数量, 表示弗罗比尼乌斯范数的矩阵范数;表示矩阵的迹,即表示计算矩阵的主对角线元 素之和,为目标函数的平衡参数,为各个特征之间的互信息矩阵,且 是稀疏系数矩阵的转置矩阵;表示平衡参数,范数正则化项;
步骤S14,采用两阶段交替迭代求解的方式对上述步骤S13中的特征选择的目标函数进行优化,构建得到基于稀疏回归模型的特征选择方法模型:
其中,表示拉普拉斯矩阵,且
步骤S2,利用构建得到的基于稀疏回归模型的特征选择方法模型对偏标记数据集进行优化学习,两阶段循环迭代地利用模型学习优化得到的标记置信度指导各个变量间相关性的更新,获取并更新稀疏回归系数矩阵,并通过稀疏回归系数按特征的重要度输出特征排序结果,对偏标记数据集进行特征选择,从而得到鲁棒性好的特征子集结果,具体包括以下步骤:
步骤S21,将偏标记数据集和样本标记矩阵输入至上述步骤S1中构建的基于 稀疏回归模型的特征选择方法模型中,设置参数近邻数为,特征选择比例为
步骤S22,将拉普拉斯矩阵初始化为单位矩阵,
步骤S23,通过构建的基于稀疏回归模型的特征选择方法模型,利用欧氏距离度量 方法获取每个样本的近邻样本集合,并根据样本标记矩阵、近邻权重,计算偏标记 数据集中每个样本的每个类别标记的标记置信度,获得标记置信度矩阵表示迭代 次数;
步骤S24,通过构建的基于稀疏回归模型的特征选择方法模型,对特征与标记的相 关性、特征的冗余性进行度量计算,计算出每个样本的每个特征的重要度,并根据标记置信 度矩阵计算获得稀疏系数矩阵;稀疏系数矩阵中的值的大小表示特征的重要 度;
步骤S25,根据稀疏系数矩阵更新拉普拉斯矩阵,获得新的拉普拉斯矩阵
步骤S26,将稀疏系数矩阵中的值按降序进行排序,并选出前个值对应的特 征构成特征子集;根据特征子集生成低维度偏标记数据集
步骤S27,根据低维度偏标记数据集对标记置信度矩阵进行更新,获得新的 标记置信度矩阵
步骤S28,循环上述步骤S24~步骤S27,直到函数收敛或者迭代次数到达最大迭代 次数时,算法停止,根据特征的重要度输出特征排序结果,获得特征子集表示由个数据特征构成的特征集合,且满足 指特征子集含有特征的个数,也指低维数据集的特征空间维度。
进一步地,步骤S11中,基于稀疏回归模型构建一个面向偏标记数据的特征与标记空间的目标函数的具体方法为:
在稀疏回归模型中加入正则化项,防止模型过拟合,并通过模型估计偏标记数据中特征与标记的相关性,通过特征与标记间的相关性强弱来加大不同特征间的稀疏系数值差,选择系数更大的特征;建立的目标函数如下:
其中,表示样本标记矩阵,且
进一步地,步骤S12中,利用偏标记数据中样本的相关性计算标记置信度,并根据标记置信度对标记空间中伪标记进行平滑处理的具体方法为:
首先,根据样本特征矩阵中样本的特征向量,利用欧式距离度量方法选出样本的前个近邻样本,并按照距离的远近排序,构成样本近邻样本集合;利用 标记空间中对应的个近邻样本的候选标记集合对样本的候选标记集合中的类别标 记进行加权投票,近邻权重根据距离确定;个近邻样本分别对样本进行加权投票后, 每个类别标记获得个投票值,然后将个投票值求和后作为样本的候选标记集合中 对应类别标记的投票数,再将计算出来的投票数最大的类别标记标注为样本的候选标记
然后根据以下规则对候选标记集合中的类别标记进行标记置信度的更新,并获 得标记置信度矩阵
式中,表示样本的类别标记的置信度,表示候选标记集合中元素个数;
计算出所有样本的候选标记集合中每个类别标记对应的置信度后,组成标记置信 度矩阵,且,然后利用标记置信度矩阵替换标记空间的样本标记矩阵 获得新的目标函数:
进一步地,步骤S12中,投票数的计算公式如下:
式中,表示样本的类别标记的投票数,类别标记代表第个标记类型, 表示第个近邻样本,表示近邻样本的近邻权重,表 示样本标记矩阵中近邻样本的类别标记对应的相关性数值;其中,输出 判断结果的值,即,如果成立,则式中的值置为1,如果不成立,则 式中的值置为0。
进一步地,步骤S13中,基于互信息方法衡量两个特征之间的关联程度,对特征的冗余性进行度量,并将特征与标记的相关性通过权重融入到特征的冗余性度量中,得到;
其中,表示特征和特征之间的相关性,用于度量特征间的冗余程 度;特征和特征分别表示第个特征和第个特征,表示特征相对于类别标 记的重要性,表示特征相对于类别标记的重要性;
从而得到特征选择的目标函数:
将上述公式化简得到特征选择的目标函数如下:
进一步地,步骤S24中,根据标记置信度矩阵计算获得稀疏系数矩阵的具 体方法为:,式中,是表示样本特征矩阵的转置矩阵。
进一步地,步骤S25中,根据稀疏系数矩阵更新拉普拉斯矩阵,获得新的拉 普拉斯矩阵的具体方法为:
若稀疏系数矩阵中的值为表示特征的重要度,则拉普拉斯矩 阵的计算方法为:
其中,是指拉普拉斯矩阵中第行第列元素,表示稀疏系数矩阵中第个特征与个类别标记之间的映射系数;个映射系数数值绝对值 的平方和再开方,表示特征的重要度,即,且表示第个特征与类别标记之间的映射系数。
与现有技术相比,本发明的特征选择方法具有以下优点:
本发明针对偏标记数据通过分析计算特征与标记的相关性、样本的相关性、特征的冗余性,构建了面向偏标记数据的特征选择目标函数,实现了对特征的重要性进行准确度量分析,显著提升了学习模型的分类性能。可直接针对噪声数据进行特征选择,利用样本相关性降低标记噪声在特征选择过程中的影响,并且考虑到特征间的冗余性,尽可能减少所选特征的冗余,在降低特征维度的同时能够提高分类模型的准确性和稳定性,有利于提升模型对数据分类处理的效率和准确性。
附图说明
图1为本发明实施例中面向偏标记数据的鲁棒特征选择方法的流程图。
图2为本发明实施例中样本特征矩阵的示意图。
图3为本发明实施例中样本标记矩阵的示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明并不限于下面公开的具体实施例的限制。
首先,在偏标记学习中,表示由个数据特征构成的特征集 合,代表数据的维特征空间,每个特征代表一种特征描述,对应一种特征类型,其中特征代表第个特征类型。表示由个类别标记构成的标记集合,代表数 据的维标记空间,每个类别标记代表一个标记类型,其中类别标记代表第个标记类 型。
偏标记学习的研究对象是从特征空间和标记空间两部分进行描述。
表示样本特征矩阵,用于刻画偏标记数据中 个样本构成的维特征空间;其中,表示样本的特征向量,每个样本的特征向量由 个特征相应的描述度(简称特征值)构成,例如表示样本 的特征向量,表示样本关于特征的特征值(参见图2)。
每个样本对应有一个候选标记集合,候选标记集合是由多个类别标记组成的集 合,候选标记集合中包含一个正确类别标记和多个伪类别标记,正确类别标记和伪类别标 记都属于标记集合。例如,表示样本的候选标记集合,表示样本的候选标记集 合,则
表示样本标记矩阵,用于刻画偏标记数据中个 样本构成的维标记空间;其中,表示样本的标记向量,每个样本的标记向量由样本 与全部类别标记的相关性数值组成,即表示样本与 类别标记的相关性数值;样本标记矩阵中标记向量的初始值由样本的候选标记集合 决定,例如,若样本与类别标记有关,即,则,若样本与类别标记 无关,则(参见图3)。
偏标记数据集个样本的特征描述和标记描述构成的 有序组的集合,其中,代表样本的偏标记数据集,,表示偏标记 数据集由偏标记数据集中样本的特征向量和候选标记集合组成。
如图1所示的一种面向偏标记数据的鲁棒特征选择方法,包括以下步骤:
步骤S1,构建基于稀疏回归模型的特征选择方法模型,包括以下步骤:
步骤S11,基于稀疏回归模型构建一个面向偏标记数据的特征与标记空间的目标函数,用于度量偏标记数据集中特征与标记的相关性,拟合偏标记数据特征空间与标记空间的关系:
在稀疏回归模型中加入正则化项,防止模型过拟合,并通过模型估计偏标记数据中特征与标记的相关性,通过特征与标记间的相关性强弱来加大不同特征间的稀疏系数值差,选择系数更大的特征,这样可以减少数据维度,提高模型的泛化能力和可解释性,同时还可以降低模型的过拟合风险。建立的目标函数如下:
其中,表示样本特征矩阵,且表示样本标记矩阵,且表示稀疏系数矩阵,在本发明方法中稀疏系数矩阵表示模型对偏标记数据的特征 与标记间相关性的度量结果,且表示数据值均为实数域范围内,表示偏 标记数据集中样本个数,表示描述样本的特征个数,表示偏标记数据集中标记类型数 量,表示弗罗比尼乌斯范数的矩阵范数。表示平衡参数,范数正则化 项;在模型迭代过程中,范数能够加大关键特征的稀疏系数,降低冗余或无用特征的稀 疏系数至趋近于零,使得样本特征矩阵中不同特征的稀疏系数具有显著差异,因此可以 筛选出具有联合稀疏性的特征,保证解的稀疏性,从而降低模型的复杂度。
步骤S12,样本的相关性计算:
考虑到偏标记数据包含伪标记的特点,直接对包含噪声的标记空间学习会使得模型在学习特征的重要度时被伪标记误导,影响所选特征子集的有效性。因此本发明方法通过对样本的相关性加以利用,以减少偏标记数据的噪声在特征选择过程中的影响。
基于平滑性假设,在特征空间相近的样本,在标记空间表现相似。也就是说,近邻样本间应该有相似的标记关系。因此,针对样本的伪标记,本发明采用近邻样本的计算思想,通过计算样本的候选标记集合中类别标记对应的标记置信度,实现对伪标记的平滑处理。在这个处理过程中,样本在特征空间的相关性被迁移到标记空间,加强了样本与样本之间的相关性。
首先,根据样本特征矩阵中样本的特征向量,利用欧式距离度量方法选出样本的前个近邻样本,并按照距离的远近排序,构成样本近邻样本集合。利用 标记空间中对应的个近邻样本的候选标记集合对样本的候选标记集合中的类别标 记进行加权投票,近邻权重根据距离确定,例如,对于第个近邻样本,其近邻权重。在投票过程中需要注意,近邻样本的候选标记集合中的类别标 记会被引入到样本的候选标记集合之中,加入新的伪标记,因此,在加权投票前,需判 断进行投票的类别标记在候选标记集合中是否存在,即判断是否成立,再根据 判断结果计算每个类别标记的投票值;个近邻样本分别对样本进行加权投票后,每个类 别标记获得个投票值,然后将个投票值求和后作为样本的候选标记集合中对应类 别标记的投票数,再将计算出来的投票数最大的类别标记标注为样本的候选标记
投票数的计算公式如下:
式中,表示样本的类别标记的投票数,类别标记代表第个标记类型, 表示第个近邻样本,表示近邻样本的近邻权重,表示样本标记矩阵中近邻样 本的类别标记对应的相关性数值;其中,输出判断结果的值,即,如果 成立,则式中的值置为1,如果不成立,则式中的值置为0。
然后根据以下规则对候选标记集合中的类别标记进行标记置信度的更新,并获 得标记置信度矩阵
式中,表示样本的类别标记的置信度,表示候选标记集合中元素个数; 即将投票数最大的类别标记的置信度设置为0.5,其余类别标记的置信度进行相应计算,得 出小于0.5的相应值,保证最可能是正确类别标记的候选标记的置信度最大;
计算出所有样本的候选标记集合中每个类别标记对应的置信度后,组成标记置信 度矩阵,且,然后利用标记置信度矩阵替换标记空间的样本标记矩阵 获得新的目标函数;引入标记置信度后的目标函数可以使得偏标记数据集的监督信息变得 更加丰富可靠;获得的目标函数如下所示:
步骤S13,特征的冗余性计算:
考虑到高维数据往往存在着特征冗余的情况,过多无效特征不仅耗费计算资源,拖慢模型训练效率,还会影响模型的学习泛化能力。因此本发明方法通过对特征的冗余性加以利用,以进一步减少所选特征个数。
本发明基于互信息方法衡量两个特征之间的关联程度,即,当互信息等于0时,说明特征和特征之间不存在关联;当互信息大于0时, 说明特征和特征之间存在正向关联;当互信息小于0时,说明特征和特 征之间存在负向关联。
本发明方法利用互信息对特征的冗余性进行度量,并将特征与标记的相关性通过权重融入到特征的冗余性度量中,形式化定义为:
其中,特征和特征分别表示第个特征和第个特征,表示特征相 对于类别标记的重要性,表示特征相对于类别标记的重要性;其中表 示特征和特征之间的相关性,用于度量特征间的冗余程度。因此,本研究的目的是使尽可能小,使尽可能大,实现所选特征子集中冗余特征的减少且对标 记的重要程度增加。
其中,,通过计算特征和特 征的取值概率乘积和联合概率求得特征和特征的互信 息大小,其中分别表示样本关于特征和特征的特征值,表示对所有 样本的关于特征和特征的特征值进行求和。
通过综合考虑特征与标记的相关性、样本的相关性、特征的冗余性,构造得到特征选择的目标函数:
式中,为偏标记数据集中标记类型数量,为描述样本的特征个数,为目标函 数的平衡参数。
将上述公式化简得到最终的目标函数计算公式如下:
其中,为各个特征之间的互信息矩阵,且是稀疏系数矩阵 的转置矩阵,指的是转置矩阵的第行数据,是稀疏系数矩阵的第列 数据,表示矩阵的迹,即表示计算矩阵的主对角线元素之和。
步骤S14,特征选择方法的求解过程:
由于特征选择的目标函数中存在稀疏系数矩阵和标记置信度矩阵两个变 量,因此本发明方法选择两阶段交替迭代求解的方式进行优化,首先范数可用 矩阵的方式表示为:
其中,稀疏系数矩阵表示的是特征空间与标记空间之间的映射系数(即个特 征与个类别标记之间的映射系数),表示拉普拉斯矩阵,且
则,特征选择的目标函数计算公式可以表示为:
, 即构建得到基于稀疏回归模型的特征选择方法模型。
步骤S2,利用基于稀疏回归模型的特征选择方法模型对偏标记数据集进行特征选择,从而得到鲁棒性好的特征子集结果:
步骤S21,将偏标记数据集和样本标记矩阵输入至上述步骤S1中构建的基于 稀疏回归模型的特征选择方法模型中,设置参数近邻数为,特征选择比例为
步骤S22,将拉普拉斯矩阵初始化为单位矩阵,
步骤S23,通过构建的基于稀疏回归模型的特征选择方法模型,利用欧氏距离度量 方法获取每个样本的近邻样本集合,并根据样本标记矩阵、近邻权重,计算偏标记 数据集中每个样本的每个类别标记的标记置信度,获得标记置信度矩阵表示迭代 次数;
步骤S24,通过构建的基于稀疏回归模型的特征选择方法模型,对特征与标记的相 关性、特征的冗余性进行度量计算,计算出每个样本的每个特征的重要度,并根据标记置信 度矩阵计算获得稀疏系数矩阵
其中,根据标记置信度矩阵计算获得稀疏系数矩阵的方法为:
根据标记置信度矩阵对稀疏系数矩阵进行求导,并令求导后式子为0,可 得:
对上述公式合并同类项后,可表示为:
式中,是表示样本特征矩阵的转置矩阵;
稀疏系数矩阵中的值的大小表示特征的重要度,例如,=表 示特征的重要度;
步骤S25,根据稀疏系数矩阵更新拉普拉斯矩阵,获得新的拉普拉斯矩阵;拉普拉斯矩阵的计算方法为:
其中,是指拉普拉斯矩阵中第行第列元素,表示稀疏系数矩阵中第个特征与个类别标记之间的映射系数;个映射系数数值绝对值的 平方和再开方,表示特征的重要度,即,且表示第个 特征与类别标记之间的映射系数;
步骤S26,将稀疏系数矩阵中的值按降序进行排序,并选出前个值对 应的特征构成特征子集;根据特征子集生成低维度偏标记数据集,其中,
步骤S27,根据低维度偏标记数据集对标记置信度矩阵进行更新,获得新的 标记置信度矩阵
步骤S28,循环上述步骤S24~步骤S27,直到函数收敛(即当迭代中两次目标函数的 变化小于10-3)或者迭代次数到达最大迭代次数时,算法停止,根据特征的重要度输出特 征排序结果,获得特征子集,且满足指特征子集含有 特征的个数,也指低维数据集的特征空间维度。
实验对比与结果分析
(1)数据集
为了验证本发明所提出的鲁棒特征选择方法的有效性,在五个真实世界的偏标记数据集上进行实验对比和分析,所述五个偏标记数据集分别为BirdSong、MSRCv2、Lost、FG-NET、Mirflickr。这些真实数据集涉及到不同应用领域的分类,其中,BirdSong数据集属于鸟声分类应用领域、MSRCv2数据集属于对象分类应用领域、Lost数据集属于自动命名应用领域、FG-NET数据集属于年龄估计应用领域、Mirflickr数据集属于图片分类应用领域,真实数据集的详细信息如下表1所示。这些真实世界偏标记数据中对象关联的平均伪标记数量由2个到7个不等。对于图像样本的分类(对象分类、自动命名、图片分类),出现在图像中的对象被视为候选标签。对于面部标注应用(年龄估计),训练样本包括图像中识别的人形,以及从相关脚本中提取的相应候选标签。基于这些数据集,进行十折交叉验证收集实验数据,可以更好地验证特征选择方法在降低特征维度的同时是否能够提高分类模型的准确性和稳定性,验证特征选择方法在解决伪标记的噪声方面的效率/能力。
(2)实验参数设置
本小节主要介绍实验中的对比方法和参数设置。实验中,将本发明实施例所述的面向偏标记数据的鲁棒特征选择方法记作PFmRMR,将PFmRMR与五种不同的现有方法进行实验对比,对比方法及其详细的参数设置描述如下:
现有方法一:PL-KNN方法(Partial Label Learning based on K-NearestNeighbor),PL-KNN方法是一种基于平均消歧策略的偏标记学习方法,由传统的机器学习K近邻算法改进而来,对未见样本的k个近邻标记进行加权投票,将出现最多的标记确定为预测标记,其中设置k=5。
现有方法二:IPAL方法(Instance-based Partial Label Learning Approach), IPAL方法是一种基于实例的方法来解决部分标签学习问题。该方法使用基于实例的分类器 对样本进行分类,并将每个样本的标签转化为概率分布,其中概率值对应每个类别的分类 器置信度,其中控制从标签传播和初始标记矩阵中继承的相对信息量的参数=0.95。
现有方法三:Fisher方法(Feature Selection using the Fisher Score),Fisher方法是一种过滤式的特征选择方法,利用最小化类内间隔和最大化类间间隔实现对特征打分,按照评价计算的分数对特征进行排序,输出特征子集。
现有方法四:LPScore方法(Feature Selection using the Laplacian Score),LPScore方法是一种基于拉普拉斯图正则化的特征选择方法,通过构建拉普拉斯图正则化对特征打分,按照分数对特征进行排序,输出特征子集。
现有方法五:SAUTE方法(Submodular Feature Selection for Partial Label Learning),SAUTE方法是一种过滤式的特征选择方法,通过互信息方法度量特征与标记的 依赖度和特征冗余度,向特征子集中添加特征,其中近邻个数参数k=5,继承的相对信息量 的参数=0.6。
实验中我们在训练过程中根据原始特征维数按比例选取特征用于优化,测试阶段选取前40%作为所选特征子集,对偏标记数据按照所选特征子集降维后作为分类器的输入获得分类精度,并将原始偏标记数据也输入分类器获得特征选择前的分类精度。
为了验证PFmRMR方法的有效性,实验分为两部分:(1)使用原始数据集直接作为分类器的输入获得特征选择前分类精度。(2)使用特征选择方法对原始数据集合按照指定维数进行特征选择,构造低维数据集作为偏标记分类器的输入获得特征选择后分类精度。
(3)实验结果与分析
本发明将机器学习分类器{PL-KNN、IPAL}和特征选择方法{PFmRMR与Fisher、LPscore、SAUTE}进行了8种不同组合实验,表2展示了PFmRMR与各现有方法在真实数据集上分类精度的实验结果。此外,对于本发明所提方法与现有方法实验效果评估的赢/平/输(优于/持平/劣于)计数结果见表3,基于0.05显著度的两两进行t检验来确定两种特征选择方法的性能是否存在显著性差异。
从上述实验结果和对比分析中得出以下结论:PFmRMR方法可以在有噪声和高维特征空间下稳定显著提升分类器的分类性能。例如在具有超过2100个特征数的Mirflickr数据集上,PFmRMR方法可以仅选出40%的特征数实现比未特征选择前更好的效果。并且通过表3中的实验数据的统计分析可知,对比结果表明PFmRMR方法要显著优于对比的现有方法。
基于这些实验对比和分析可知,利用近邻样本更新标记的置信度有助于对标记空间中伪标记的平滑,有效降低伪标记在特征选择过程中的消极影响,这有利于后续对特征与标记的相关性和特征的冗余性进行准确度量分析,与现有的特征选择方法相比,本发明的PFmRMR方法具有更好的鲁棒性能。

Claims (8)

1.一种面向偏标记数据的鲁棒特征选择方法,包括以下步骤:
步骤S1,构建基于稀疏回归模型的特征选择方法模型,具体包括以下步骤:
步骤S11,基于稀疏回归模型构建一个面向偏标记数据的特征与标记空间的目标函数,用于度量偏标记数据集中特征与标记的相关性,拟合偏标记数据特征空间与标记空间的关系;
步骤S12,利用偏标记数据中样本的相关性计算标记置信度,并根据标记置信度对标记空间中伪标记进行平滑处理;
步骤S13,基于互信息方法衡量两个特征之间的关联程度,对特征的冗余性进行度量,并将特征与标记的相关性通过权重融入到特征的冗余性度量中;
然后通过综合考虑特征与标记的相关性、样本的相关性、特征的冗余性,构造得到特征选择的目标函数:
其中,表示样本特征矩阵,且/>,/>表示稀疏系数矩阵,且/>,/>表示标记置信度矩阵,且/>,/>表示数据值均为实数域范围内,/>表示偏标记数据集中样本个数,/>表示描述样本的特征个数,/>表示偏标记数据集中标记类型数量,/>表示弗罗比尼乌斯范数的矩阵范数;/>表示矩阵的迹,即表示计算矩阵的主对角线元素之和,/>为目标函数的平衡参数,/>为各个特征之间的互信息矩阵,且/>,/>是稀疏系数矩阵/>的转置矩阵;/>表示平衡参数,/>即/>范数正则化项;
步骤S14,采用两阶段交替迭代求解的方式对上述步骤S13中的特征选择的目标函数进行优化,构建得到基于稀疏回归模型的特征选择方法模型:
其中,表示拉普拉斯矩阵,且/>
步骤S2,利用构建得到的基于稀疏回归模型的特征选择方法模型对偏标记数据集进行优化学习,两阶段循环迭代地利用模型学习优化得到的标记置信度指导各个变量间相关性的更新,获取并更新稀疏回归系数矩阵,并通过稀疏回归系数按特征的重要度输出特征排序结果,对偏标记数据集进行特征选择,从而得到鲁棒性好的特征子集结果。
2.根据权利要求1所述的面向偏标记数据的鲁棒特征选择方法,其特征在于,步骤S11中,基于稀疏回归模型构建一个面向偏标记数据的特征与标记空间的目标函数的具体方法为:
在稀疏回归模型中加入正则化项,防止模型过拟合,并通过模型估计偏标记数据中特征与标记的相关性,通过特征与标记间的相关性强弱来加大不同特征间的稀疏系数值差,选择系数更大的特征;建立的目标函数如下:
其中,表示样本标记矩阵,且/>
3.根据权利要求2所述的面向偏标记数据的鲁棒特征选择方法,其特征在于,步骤S12中,利用偏标记数据中样本的相关性计算标记置信度,并根据标记置信度对标记空间中伪标记进行平滑处理的具体方法为:
首先,根据样本特征矩阵中样本的特征向量,利用欧式距离度量方法选出样本/>的前个近邻样本,并按照距离的远近排序,构成样本/>的/>近邻样本集合/>;利用标记空间中对应的/>个近邻样本的候选标记集合对样本/>的候选标记集合/>中的类别标记进行加权投票,近邻权重/>根据距离确定;/>个近邻样本分别对样本/>进行加权投票后,每个类别标记获得/>个投票值,然后将/>个投票值求和后作为样本/>的候选标记集合/>中对应类别标记的投票数,再将计算出来的投票数最大的类别标记标注为样本/>的候选标记/>
然后根据以下规则对候选标记集合中的类别标记进行标记置信度的更新,并获得标记置信度矩阵/>
式中,表示样本/>的类别标记/>的置信度,/>表示候选标记集合中元素个数;
计算出所有样本的候选标记集合中每个类别标记对应的置信度后,组成标记置信度矩阵,且/>,然后利用标记置信度矩阵/>替换标记空间的样本标记矩阵/>获得新的目标函数:
4.根据权利要求3所述的面向偏标记数据的鲁棒特征选择方法,其特征在于,步骤S12中,投票数的计算公式如下:
式中,表示样本/>的类别标记/>的投票数,类别标记/>代表第/>个标记类型,/>表示第/>个近邻样本,/>表示近邻样本/>的近邻权重,/>,/>;/>表示样本标记矩阵/>中近邻样本/>的类别标记/>对应的相关性数值;其中,/>输出判断结果的值,即,如果/>成立,则式中/>的值置为1,如果/>不成立,则式中的值置为0。
5.根据权利要求3所述的面向偏标记数据的鲁棒特征选择方法,其特征在于,步骤S13中,基于互信息方法衡量两个特征之间的关联程度,对特征的冗余性进行度量,并将特征与标记的相关性通过权重融入到特征的冗余性度量中,得到;
其中,表示特征/>和特征/>之间的相关性,用于度量特征间的冗余程度;特征/>和特征/>分别表示第/>个特征和第/>个特征,/>表示特征/>相对于类别标记/>的重要性,/>表示特征/>相对于类别标记/>的重要性;
从而得到特征选择的目标函数:
将上述公式化简得到特征选择的目标函数如下:
6.根据权利要求5所述的面向偏标记数据的鲁棒特征选择方法,其特征在于,步骤S2中,利用构建得到的基于稀疏回归模型的特征选择方法模型对偏标记数据集进行优化学习具体包括以下步骤:
步骤S21,将偏标记数据集和样本标记矩阵/>输入至上述步骤S1中构建的基于稀疏回归模型的特征选择方法模型中,设置参数近邻数为/>,特征选择比例为/>
步骤S22,将拉普拉斯矩阵初始化为单位矩阵,/>
步骤S23,通过构建的基于稀疏回归模型的特征选择方法模型,利用欧氏距离度量方法获取每个样本的近邻样本集合,并根据样本标记矩阵/>、近邻权重/>,计算偏标记数据集/>中每个样本的每个类别标记的标记置信度,获得标记置信度矩阵/>,/>表示迭代次数;
步骤S24,通过构建的基于稀疏回归模型的特征选择方法模型,对特征与标记的相关性、特征的冗余性进行度量计算,计算出每个样本的每个特征的重要度,并根据标记置信度矩阵计算获得稀疏系数矩阵/>;稀疏系数矩阵/>中的值的大小表示特征的重要度;
步骤S25,根据稀疏系数矩阵更新拉普拉斯矩阵/>,获得新的拉普拉斯矩阵/>
步骤S26,将稀疏系数矩阵中的值按降序进行排序,并选出前/>个值对应的特征构成特征子集/>;根据特征子集/>生成低维度偏标记数据集/>
步骤S27,根据低维度偏标记数据集对标记置信度矩阵/>进行更新,获得新的标记置信度矩阵/>
步骤S28,循环上述步骤S24~步骤S27,直到函数收敛或者迭代次数到达最大迭代次数时,算法停止,根据特征的重要度输出特征排序结果,获得特征子集/>,/>表示由/>个数据特征构成的特征集合,且满足/>,/>指特征子集/>含有特征的个数,也指低维数据集的特征空间维度。
7.根据权利要求6所述的面向偏标记数据的鲁棒特征选择方法,其特征在于,步骤S24中,根据标记置信度矩阵计算获得稀疏系数矩阵/>的具体方法为:,式中,/>是表示样本特征矩阵/>的转置矩阵。
8.根据权利要求6所述的面向偏标记数据的鲁棒特征选择方法,其特征在于,步骤S25中,根据稀疏系数矩阵更新拉普拉斯矩阵/>,获得新的拉普拉斯矩阵/>的具体方法为:
若稀疏系数矩阵中的值为/>,/>表示特征/>的重要度,则拉普拉斯矩阵的计算方法为:
其中,是指拉普拉斯矩阵/>中第/>行第/>列元素,/>表示稀疏系数矩阵/>中第/>个特征与/>个类别标记之间的映射系数;/>是/>个映射系数数值绝对值的平方和再开方,表示特征/>的重要度,即/>,且/>,/>表示第/>个特征与类别标记/>之间的映射系数。
CN202311776712.8A 2023-12-22 2023-12-22 一种面向偏标记数据的鲁棒特征选择方法 Pending CN117454154A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311776712.8A CN117454154A (zh) 2023-12-22 2023-12-22 一种面向偏标记数据的鲁棒特征选择方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311776712.8A CN117454154A (zh) 2023-12-22 2023-12-22 一种面向偏标记数据的鲁棒特征选择方法

Publications (1)

Publication Number Publication Date
CN117454154A true CN117454154A (zh) 2024-01-26

Family

ID=89580222

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311776712.8A Pending CN117454154A (zh) 2023-12-22 2023-12-22 一种面向偏标记数据的鲁棒特征选择方法

Country Status (1)

Country Link
CN (1) CN117454154A (zh)

Citations (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090083010A1 (en) * 2007-09-21 2009-03-26 Microsoft Corporation Correlative Multi-Label Image Annotation
KR20120095715A (ko) * 2011-02-21 2012-08-29 경희대학교 산학협력단 부분 감독 기반 신뢰성 있는 특징 선택 장치
US20130073489A1 (en) * 2011-09-19 2013-03-21 Siemens Corporation Hybrid interior-point alternating directions algorithm for support vector machines and feature selection
CN104376329A (zh) * 2014-11-17 2015-02-25 上海交通大学 基于空间自相关性和分水岭算法的聚类评估方法
CN105975978A (zh) * 2016-04-22 2016-09-28 南京师范大学 一种结合标记相关性的半监督多标记特征选择及分类方法
KR101752255B1 (ko) * 2016-01-14 2017-06-30 중앙대학교 산학협력단 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법 및 그 장치, 다중 카테고리 문서 분류 장치
US10162794B1 (en) * 2018-03-07 2018-12-25 Apprente, Inc. Hierarchical machine learning system for lifelong learning
CN109119133A (zh) * 2018-08-03 2019-01-01 厦门大学 基于多标记特征选择及分类的中医临床大数据存储方法
WO2019009420A1 (ja) * 2017-07-07 2019-01-10 国立大学法人大阪大学 トレンド分析を利用した痛みの判別、機械学習、経済的判別モデルおよびIoTを応用した医療装置、テイラーメイド機械学習、および新規疼痛判別用脳波特徴量
CN109740652A (zh) * 2018-12-24 2019-05-10 深圳大学 一种病理图像分类方法和计算机设备
US20190213445A1 (en) * 2016-04-28 2019-07-11 Nippon Telegraph And Telephone Corporation Creating device, creating program, and creating method
CN110263620A (zh) * 2019-05-06 2019-09-20 杭州电子科技大学 一种基于l2,1偏标记学习的年龄估计方法
CN110781295A (zh) * 2019-09-09 2020-02-11 河南师范大学 一种多标记数据的特征选择方法及装置
JP2020062369A (ja) * 2018-10-11 2020-04-23 株式会社国際電気通信基礎技術研究所 脳機能結合相関値の調整方法、脳機能結合相関値の調整システム、脳活動分類器のハーモナイズ方法、脳活動分類器のハーモナイズシステム、および脳活動バイオマーカシステム
CN111553127A (zh) * 2020-04-03 2020-08-18 河南师范大学 一种多标记的文本类数据特征选择方法及装置
CN111582506A (zh) * 2020-05-15 2020-08-25 北京交通大学 基于全局和局部标记关系的偏多标记学习方法
CN111581466A (zh) * 2020-05-15 2020-08-25 北京交通大学 特征信息存在噪声的偏多标记学习方法
EP3739356A1 (en) * 2019-05-12 2020-11-18 Origin Wireless, Inc. Method, apparatus, and system for wireless tracking, scanning and monitoring
US20210166822A1 (en) * 2019-12-02 2021-06-03 International Business Machines Corporation Method and apparatus for selecting radiology reports for image labeling by modality and anatomical region of interest
CN113378946A (zh) * 2021-06-20 2021-09-10 西南交通大学 一种考虑特征标签依赖度的鲁棒多标签特征选择方法
CN113420821A (zh) * 2021-06-30 2021-09-21 安徽工业大学 一种基于标记和特征局部相关性的多标记学习方法
CN113486945A (zh) * 2021-07-02 2021-10-08 安徽工业大学 一种基于图嵌入和特征降维的多标记学习方法
WO2022133466A1 (en) * 2020-12-17 2022-06-23 University Of Pittsburgh-Of The Commonwealth System Of Higher Education Multi-omics methods for precision medicine
CN115049629A (zh) * 2022-06-27 2022-09-13 太原理工大学 基于线图扩展的多模态脑超图注意力网络的分类方法
CN116017280A (zh) * 2022-12-30 2023-04-25 桂林电子科技大学 一种目标免携带设备的快速室内路径跟踪方法
US11762950B1 (en) * 2019-05-27 2023-09-19 ExSano, Inc. Automatic and blind segmentation of diverse data
CN116910503A (zh) * 2023-06-21 2023-10-20 河南师范大学 一种基于局部特征相关和高阶标签的稀疏特征选择方法
CN116910502A (zh) * 2023-06-21 2023-10-20 河南师范大学 一种基于局部标签相关和特征冗余的稀疏特征选择方法

Patent Citations (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090083010A1 (en) * 2007-09-21 2009-03-26 Microsoft Corporation Correlative Multi-Label Image Annotation
KR20120095715A (ko) * 2011-02-21 2012-08-29 경희대학교 산학협력단 부분 감독 기반 신뢰성 있는 특징 선택 장치
US20130073489A1 (en) * 2011-09-19 2013-03-21 Siemens Corporation Hybrid interior-point alternating directions algorithm for support vector machines and feature selection
CN104376329A (zh) * 2014-11-17 2015-02-25 上海交通大学 基于空间自相关性和分水岭算法的聚类评估方法
KR101752255B1 (ko) * 2016-01-14 2017-06-30 중앙대학교 산학협력단 다중 레이블 패턴 분류를 위한 최적 특징 선별 방법 및 그 장치, 다중 카테고리 문서 분류 장치
CN105975978A (zh) * 2016-04-22 2016-09-28 南京师范大学 一种结合标记相关性的半监督多标记特征选择及分类方法
US20190213445A1 (en) * 2016-04-28 2019-07-11 Nippon Telegraph And Telephone Corporation Creating device, creating program, and creating method
WO2019009420A1 (ja) * 2017-07-07 2019-01-10 国立大学法人大阪大学 トレンド分析を利用した痛みの判別、機械学習、経済的判別モデルおよびIoTを応用した医療装置、テイラーメイド機械学習、および新規疼痛判別用脳波特徴量
US10162794B1 (en) * 2018-03-07 2018-12-25 Apprente, Inc. Hierarchical machine learning system for lifelong learning
CN109119133A (zh) * 2018-08-03 2019-01-01 厦门大学 基于多标记特征选择及分类的中医临床大数据存储方法
JP2020062369A (ja) * 2018-10-11 2020-04-23 株式会社国際電気通信基礎技術研究所 脳機能結合相関値の調整方法、脳機能結合相関値の調整システム、脳活動分類器のハーモナイズ方法、脳活動分類器のハーモナイズシステム、および脳活動バイオマーカシステム
CN109740652A (zh) * 2018-12-24 2019-05-10 深圳大学 一种病理图像分类方法和计算机设备
CN110263620A (zh) * 2019-05-06 2019-09-20 杭州电子科技大学 一种基于l2,1偏标记学习的年龄估计方法
EP3739356A1 (en) * 2019-05-12 2020-11-18 Origin Wireless, Inc. Method, apparatus, and system for wireless tracking, scanning and monitoring
US11762950B1 (en) * 2019-05-27 2023-09-19 ExSano, Inc. Automatic and blind segmentation of diverse data
CN110781295A (zh) * 2019-09-09 2020-02-11 河南师范大学 一种多标记数据的特征选择方法及装置
US20210166822A1 (en) * 2019-12-02 2021-06-03 International Business Machines Corporation Method and apparatus for selecting radiology reports for image labeling by modality and anatomical region of interest
CN111553127A (zh) * 2020-04-03 2020-08-18 河南师范大学 一种多标记的文本类数据特征选择方法及装置
CN111581466A (zh) * 2020-05-15 2020-08-25 北京交通大学 特征信息存在噪声的偏多标记学习方法
CN111582506A (zh) * 2020-05-15 2020-08-25 北京交通大学 基于全局和局部标记关系的偏多标记学习方法
WO2022133466A1 (en) * 2020-12-17 2022-06-23 University Of Pittsburgh-Of The Commonwealth System Of Higher Education Multi-omics methods for precision medicine
CN113378946A (zh) * 2021-06-20 2021-09-10 西南交通大学 一种考虑特征标签依赖度的鲁棒多标签特征选择方法
CN113420821A (zh) * 2021-06-30 2021-09-21 安徽工业大学 一种基于标记和特征局部相关性的多标记学习方法
CN113486945A (zh) * 2021-07-02 2021-10-08 安徽工业大学 一种基于图嵌入和特征降维的多标记学习方法
CN115049629A (zh) * 2022-06-27 2022-09-13 太原理工大学 基于线图扩展的多模态脑超图注意力网络的分类方法
CN116017280A (zh) * 2022-12-30 2023-04-25 桂林电子科技大学 一种目标免携带设备的快速室内路径跟踪方法
CN116910503A (zh) * 2023-06-21 2023-10-20 河南师范大学 一种基于局部特征相关和高阶标签的稀疏特征选择方法
CN116910502A (zh) * 2023-06-21 2023-10-20 河南师范大学 一种基于局部标签相关和特征冗余的稀疏特征选择方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
JINTAO HUANG: "Cost-Sensitive Feature Selection Based on Label Significance and Positive Region", 《2019 INTERNATIONAL CONFERENCE ON MACHINE LEARNING AND CYBERNETICS (ICMLC)》, 6 January 2020 (2020-01-06) *
TINGTING YU: "Partial Multi-label Learning using Label Compression", 《 2020 IEEE INTERNATIONAL CONFERENCE ON DATA MINING (ICDM)》, 9 February 2021 (2021-02-09) *
杨文元;: "基于最大相关最小冗余的多标记特征选择", 数码设计, no. 02, 15 October 2016 (2016-10-15) *
程玉胜;陈飞;庞淑芳;: "标记倾向性的粗糙互信息k特征核选择", 南京大学学报(自然科学), no. 01, 30 January 2020 (2020-01-30) *
耿耀君;张军英;袁细国;: "一种基于稀疏表示系数的特征相关性测度", 模式识别与人工智能, no. 01, 15 January 2013 (2013-01-15) *
胡敏杰;杨红和;傅为;郑荔平;: "基于特征关联的多标记谱特征选择算法", 闽南师范大学学报(自然科学版), no. 02, 30 June 2017 (2017-06-30) *

Similar Documents

Publication Publication Date Title
CN109086658B (zh) 一种基于生成对抗网络的传感器数据生成方法与系统
CN113360701B (zh) 一种基于知识蒸馏的素描图处理方法及其系统
Sharmanska et al. Ambiguity helps: Classification with disagreements in crowdsourced annotations
Afzalan et al. An automated spectral clustering for multi-scale data
CN111126482A (zh) 一种基于多分类器级联模型的遥感影像自动分类方法
Wang et al. An unequal deep learning approach for 3-D point cloud segmentation
Laaksonen Subspace classifiers in recognition of handwritten digits
Zhang et al. Flexible auto-weighted local-coordinate concept factorization: A robust framework for unsupervised clustering
Majeed Improving time complexity and accuracy of the machine learning algorithms through selection of highly weighted top k features from complex datasets
CN114998602B (zh) 基于低置信度样本对比损失的域适应学习方法及系统
Zhao et al. Steel surface defect classification based on discriminant manifold regularized local descriptor
Nie et al. Implicit weight learning for multi-view clustering
Gu et al. Unsupervised and semi-supervised robust spherical space domain adaptation
WO2022166362A1 (zh) 一种基于隐空间学习和流行约束的无监督特征选择方法
Okokpujie et al. Predictive modeling of trait-aging invariant face recognition system using machine learning
Liping Feature selection algorithm based on conditional dynamic mutual information
Xue et al. Beyond global fusion: A group-aware fusion approach for multi-view image clustering
Dong et al. A supervised dictionary learning and discriminative weighting model for action recognition
CN117349494A (zh) 空间图卷积神经网络的图分类方法、系统、介质及设备
Kang et al. Self-paced principal component analysis
Artola et al. Glad: A global-to-local anomaly detector
CN110837853A (zh) 一种快速分类模型构建方法
CN106599801A (zh) 类内平均值最大相似性协作表示人脸识别方法
CN117454154A (zh) 一种面向偏标记数据的鲁棒特征选择方法
Jena et al. Elitist TLBO for identification and verification of plant diseases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination