CN113378514B

CN113378514B - 多标记数据特征选择处理方法及装置

Info

Publication number: CN113378514B
Application number: CN202110922259.1A
Authority: CN
Inventors: 张志强; 余鹰; 汤洪; 童志钢
Original assignee: East China Jiaotong University
Current assignee: East China Jiaotong University
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2021-11-05
Anticipated expiration: 2041-08-12
Also published as: CN113378514A

Abstract

本发明公开了多标记数据特征选择处理方法及装置，涉及数据特征选择处理技术领域，解决了现有技术中无法对特征向量进行深度筛选的技术问题，层递进对特征向量进行细分，并对细分后的特征向量进行标签设定，准确采集到数据处理主体的特征向量，提高了数据特征选择的准确性，同时也将各个特征向量准确进行标签设定，提高了数据处理的有效性，也对企业发展起到的加速效果；根据两个主特征向量的相关性差异，判定主特征向量对数据处理主体的状态特征的影响，对企业的管理起到促进作用，便于企业进行实时状态特征分析，也有助于企业改善的工作效率；在若干个次特征向量中选取密切特征向量，根据各个次特征向量的依赖度进行区分。

Description

多标记数据特征选择处理方法及装置

技术领域

本发明涉及数据特征选择处理技术领域，具体为多标记数据特征选择处理方法及装置。

背景技术

当前，在社会生活和科学研究等各个领域中数据呈现爆发式增长，特别是多标记高维数据的广泛存在，传统的单标记分类将一个样本只归为某一个标记，导致无法描述当一个样本同时属于多个标记的问题，需利用多标记分类来描述多标记的数据资源；随着物联网及信息技术的发展，数据及资源呈海量特征，在数据量不断增大的同时，数据标注结构的复杂度也在增加，传统的单标记学习已不能满足现实应用的需求，因此，多标记学习的重要性逐渐突显，在多标记学习中，每个样本在一个特征向量下，可能同时隶属于多个类别标记；

申请号为CN2020102612351的专利公开了一种多标记的文本类数据特征选择方法及装置，根据文本数据集中各样本对于标记的分类间隔确定每个样本的邻域粒度，得到多标记邻域决策系统，利用改进的邻域粗糙集的依赖度计算重要度，对得到的特征集合进行筛选，从而实现对多标记文本数据的特征选择，相较于原始的针对全体属性的邻域粗糙集特征选择方法，时间复杂度更低，最优特征子集更准确；

但是在该专利，虽然能够将特征集合进行筛选，但是筛选深度较浅，无法层层递进对特征向量进行细分，也不能够根据相关性合理判断出特征向量对数据处理主体的影响；此外，也未将完成多标记的特征向量，无法保证存在影响的特征向量全部被标记，导致数据处理主体的状态特征无法得到准确控制。

发明内容

本发明的目的就在于提出多标记数据特征选择处理方法及装置，本申请层递进对特征向量进行细分，并对细分后的特征向量进行标签设定，准确采集到数据处理主体的特征向量，提高了数据特征选择的准确性，同时也将各个特征向量准确进行标签设定，提高了数据处理的有效性，也对企业发展起到的加速效果；根据两个主特征向量的相关性差异，判定主特征向量对数据处理主体的状态特征的影响，对企业的管理起到促进作用，便于企业进行实时状态特征分析，也有助于企业改善的工作效率；在若干个次特征向量中选取密切特征向量，根据各个次特征向量的依赖度进行区分，明确次特征向量对企业状态特征影响，便于企业管理，减少次特征向量查询时间。

本发明的目的可以通过以下技术方案实现：

多标记数据特征选择处理装置，包括数据处理平台，数据处理平台内设置有服务器，服务器通讯连接有相关性分析单元、依赖分析单元、特征向量分析单元以及趋势分析单元；

数据处理平台用于对主体进行分析，采集到数据处理平台连接的局域网覆盖范围，并将根据局域网覆盖范围获取到数据处理主体；

通过相关性分析单元对数据处理主体所包括的特征向量进行分析，层层递进对特征向量进行细分，并对细分后的特征向量进行标签设定；

通过特征向量分析单元对设置二级标签的次特征向量进行相关性属性计算，并根据计算结果进行三级标签设置；

通过依赖分析单元对次特征向量进行依赖度分析，在若干个次特征向量中选取密切特征向量，根据各个次特征向量的依赖度进行区分。

作为本发明的进一步解决方案，相关性分析单元对主特征向量相关性分析具体过程如下：

特征向量分为主特征向量与次特征向量，主特征向量和次特征向量均为数据处理主体维度，且主特征向量包含对应次特征向量，即数据处理主体的主特征向量分为销量数值与成本额度，并将其分别标记为X和Y；销售数值主特征向量X的次特征向量为销售人数X1、生产效率X2以及订单增长X3，成本额度主特征向量Y的次特征向量为设备成本Y1、人员成本Y2以及材料成本Y3；采集到数据处理主体的状态特征，将数据处理主体的状态特征与主特征向量进行相关性分析，设置分析时间阈值，并将分析时间阈值划分为i个时间节点，i=1，2，…，n，n为大于1的自然数，获取到各个时间节点对应主特征向量中销量数值X和成本额度Y，采集到分析时间阈值内各个时间节点的平均销量数值

和平均成本额度

，通过分析获取到两个主特征向量之间的关系系数P；

将两个主特征向量之间的关系系数P进行数值分析，若两个主特征向量之间的关系系数P为0，则判定两个主特征向量相互独立；

若两个主特征向量之间的关系系数P为正，则判定两个主特征向量为正性相关，并根据两个主特征向量对应平均值进行一级标签设置，若平均销量数值

大于平均成本额度

，则将销售数值主特征向量X设置主一标签，将成本额度主特征向量Y设置次一标签；反之，若平均销量数值

小于平均成本额度

，则将成本额度主特征向量Y设置主一标签，将销售数值主特征向量X设置次一标签；若平均销量数值

等于平均成本额度

，则将销售数值主特征向量X与成本额度主特征向量Y均设置主一标签；一级标签包括主一标签和次一标签；

若两个主特征向量之间的关系系数P为负，则判定两个主特征向量为负性相关，若实时销售数值主特征向量Xi与

的差值为负，则将销售数值主特征向量X设置次一标签，将成本额度主特征向量Y设置主一标签；若实时成本额度主特征向量Yi与

的差值为负，则将成本额度主特征向量Y设置次一标签，将销售数值主特征向量X设置主一标签。

作为本发明的进一步解决方案，相关性分析单元对次特征向量相关性分析具体过程如下：

若销售数值主特征向量X为主一标签时，则进行次特征向量X1、X2以及X3相关性分析，通过分析获取到次特征向量X1、X2以及X3对应相关系数TXm，其中，m取值为1，2，3；即次特征向量X1、X2以及X3对应相关系数分别为TX1、TX2以及TX3，将TX1、TX2以及TX3根据数值大小进行排序，将排序第一的相关系数对应次特征向量设置主二标签；将排序第二的相关系数对应次特征向量设置中二标签；将排序第三的相关系数对应次特征向量设置次二标签；

若成本额度主特征向量Y为主一标签时，则进行次特征向量Y1、Y2以及Y3相关性分析，通过分析获取到次特征向量Y1、Y2以及Y3对应相关系数TYk，其中，k取值为1，2，3；即次特征向量Y1、Y2以及Y3对应相关系数分别为TY1、TY2以及TY3，将TY1、TY2以及TY3根据数值大小进行排序，将排序第一的相关系数对应次特征向量设置主二标签；将排序第二的相关系数对应次特征向量设置中二标签；将排序第三的相关系数对应次特征向量设置次二标签；二级标签包括主二标签、中二标签以及次二标签；二级标签数量不唯一，若销售数值主特征向量X与成本额度主特征向量Y均为主一标签，则对应二级标签数量不唯一。

作为本发明的进一步解决方案，特征向量分析单元具体分析过程如下：

若销售数值主特征向量X的次特征向量设置二级标签时，通过分析获取到次特征向量对应的属性计算系数ZXm，即次特征向量X1、X2以及X3对应属性计算系数分别为ZX1、ZX2以及ZX3，将ZX1、ZX2以及ZX3根据数值大小进行排序，将排序第一的属性计算系数对应的次特征向量设置主三标签；将排序第二的属性计算系数对应的次特征向量设置中三标签；将排序第三的属性计算系数对应的次特征向量设置次三标签；

若成本额度主特征向量Y的次特征向量设置二级标签时，通过分析获取到次特征向量对应的属性计算系数ZYk，即次特征向量Y1、Y2以及Y3对应属性计算系数分别为ZY1、ZY2以及ZY3，将ZY1、ZY2以及ZY3根据数值大小进行排序，将排序第一的属性计算系数对应的次特征向量设置主三标签；将排序第二的属性计算系数对应的次特征向量设置中三标签；将排序第三的属性计算系数对应的次特征向量设置次三标签。

作为本发明的进一步解决方案，依赖分析单元具体分析过程如下：

采集到次特征向量设置标签数量，并将标签数量标记为SL，采集到状态特征变化时次特征向量的变化次数，并将其标记为CS；状态特征变化表示为企业利润增长或者降低；通过分析获取到各个次特征向量的依赖度系数H，将各个次特征向量的依赖度系数H与依赖度系数阈值进行比较：若次特征向量的依赖度系数≥依赖度系数阈值，则将对应次特征向量标记为密切特征向量；若次特征向量的依赖度系数＜依赖度系数阈值，则将对应次特征向量标记为非密切特征向量；并将密切特征向量与非密切特征向量一同发送至服务器。

作为本发明的进一步解决方案，趋势分析单元具体分析判定过程如下：

采集到数据处理主体的状态特征，当数据处理主体的状态特征为盈利状态，则判定密切特征向量的趋势属性，若密切特征向量为上升趋势，则将对应密切特征向量为正趋势；若密切特征向量为下降趋势，则将对应密切特征向量为反趋势；若密切特征向量为持平趋势，则生成向量分析信号并将向量分析发送至服务器。

作为本发明的进一步解决方案，多标记数据特征选择处理方法，具体特征选择处理方法步骤如下：

步骤一、通过协方差矩阵对主特征向量进行相关性分析，并对主特征向量设置一级标签；

步骤二：通过相关系数计算对次特征向量进行相关性分析，并对次特征向量设置二级标签；

步骤三：对次特征向量进行相关性属性计算，并对次特征向量设置三级标签；

步骤四：依赖度分析，将数据处理主体的次特征向量进行依赖度分析，在若干个次特征向量中选取密切特征向量。

与现有技术相比，本发明的有益效果是：

本发明中，层层递进对特征向量进行细分，并对细分后的特征向量进行标签设定，准确采集到数据处理主体的特征向量，提高了数据特征选择的准确性，同时也将各个特征向量准确进行标签设定，提高了数据处理的有效性，也对企业发展起到的加速效果；根据两个主特征向量的相关性差异，判定主特征向量对数据处理主体的状态特征的影响，对企业的管理起到促进作用，便于企业进行实时状态特征分析，也有助于企业改善的工作效率；

在若干个次特征向量中选取密切特征向量，根据各个次特征向量的依赖度进行区分，明确次特征向量对企业状态特征影响，便于企业管理，减少次特征向量查询时间。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明多标记数据特征选择处理的原理框图；

图2为本发明多标记数据特征选择处理的方法流程框图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，多标记数据特征选择处理装置，包括数据处理平台，数据处理平台内设置有服务器，服务器通讯连接有相关性分析单元、依赖分析单元、特征向量分析单元以及趋势分析单元，其中，相关性分析单元、依赖分析单元、特征向量分析单元以及趋势分析单元与服务器均为双向通讯连接；

数据处理平台用于对主体进行分析，采集到数据处理平台连接的局域网覆盖范围，并将根据局域网覆盖范围获取到数据处理主体，数据处理主体表示为局域网覆盖范围内的企业，并将数据处理主体发送至服务器；本申请中数据处理主体为企业，但不局限于此；

服务器接收到数据处理主体后，对数据处理主体进行分析，生成相关性分析信号并将相关性分析信号发送至相关性分析单元；

相关性分析单元用于对数据处理主体所包括的特征向量进行分析，层层递进对特征向量进行细分，并对细分后的特征向量进行标签设定，准确采集到数据处理主体的特征向量，提高了数据特征选择的准确性，同时也将各个特征向量准确进行标签设定，提高了数据处理的有效性，也对企业发展起到的加速效果；

特征向量分为主特征向量与次特征向量，主特征向量和次特征向量均为数据处理主体维度，且主特征向量包含对应次特征向量，即数据处理主体的主特征向量分为销量数值与成本额度，并将其分别标记为X和Y；销售数值主特征向量X的次特征向量为销售人数X1、生产效率X2以及订单增长X3，成本额度主特征向量Y的次特征向量为设备成本Y1、人员成本Y2以及材料成本Y3；本申请中销售数值主特征向量X和成本额度主特征向量Y的对应次特征向量均为部分选取，但不局限于此；

采集到数据处理主体的状态特征，本申请中数据处理主体的状态特征为企业的利润，将数据处理主体的状态特征与主特征向量进行相关性分析，设置分析时间阈值，并将分析时间阈值划分为i个时间节点，i=1，2，…，n，n为大于1的自然数，获取到各个时间节点对应主特征向量中销量数值X和成本额度Y，采集到分析时间阈值内各个时间节点的平均销量数值

和平均成本额度

，通过公式

获取到两个主特征向量之间的关系系数P，其中，α为误差修正因子，取值为1.23；主特征向量的关系系数是将主特征向量对应的参数进行归一化处理得到一个用于两个主特征向量相关几率的数值；

大于平均成本额度

小于平均成本额度

等于平均成本额度

的差值为负，则将成本额度主特征向量Y设置次一标签，将销售数值主特征向量X设置主一标签；根据两个主特征向量的相关性差异，判定主特征向量对数据处理主体的状态特征的影响，对企业的管理起到促进作用，便于企业进行实时状态特征分析，也有助于企业改善的工作效率；

将数据处理主体的状态特征与次特征向量进行相关性分析，若销售数值主特征向量X为主一标签时，则进行次特征向量X1、X2以及X3相关性分析，通过公式

获取到次特征向量X1、X2以及X3对应相关系数TXm，其中，m取值为1，2，3；即次特征向量X1、X2以及X3对应相关系数分别为TX1、TX2以及TX3，将TX1、TX2以及TX3根据数值大小进行排序，将排序第一的相关系数对应次特征向量设置主二标签；将排序第二的相关系数对应次特征向量设置中二标签；将排序第三的相关系数对应次特征向量设置次二标签；

若成本额度主特征向量Y为主一标签时，则进行次特征向量Y1、Y2以及Y3相关性分析，通过公式

获取到次特征向量Y1、Y2以及Y3对应相关系数TYk，其中，k取值为1，2，3；即次特征向量Y1、Y2以及Y3对应相关系数分别为TY1、TY2以及TY3，将TY1、TY2以及TY3根据数值大小进行排序，将排序第一的相关系数对应次特征向量设置主二标签；将排序第二的相关系数对应次特征向量设置中二标签；将排序第三的相关系数对应次特征向量设置次二标签；二级标签包括主二标签、中二标签以及次二标签；二级标签数量不唯一，若销售数值主特征向量X与成本额度主特征向量Y均为主一标签，则对应二级标签数量不唯一；

特征向量分析单元用于对设置二级标签的次特征向量进行相关性属性计算，并根据计算结果进行三级标签设置；

若销售数值主特征向量X的次特征向量设置二级标签时，通过公式

获取到次特征向量对应的属性计算系数ZXm，其中，β为误差修正因子，取值为1.36，即次特征向量X1、X2以及X3对应属性计算系数分别为ZX1、ZX2以及ZX3，将ZX1、ZX2以及ZX3根据数值大小进行排序，将排序第一的属性计算系数对应的次特征向量设置主三标签；将排序第二的属性计算系数对应的次特征向量设置中三标签；将排序第三的属性计算系数对应的次特征向量设置次三标签；

若成本额度主特征向量Y的次特征向量设置二级标签时，通过公式

获取到次特征向量对应的属性计算系数ZYk，即次特征向量Y1、Y2以及Y3对应属性计算系数分别为ZY1、ZY2以及ZY3，将ZY1、ZY2以及ZY3根据数值大小进行排序，将排序第一的属性计算系数对应的次特征向量设置主三标签；将排序第二的属性计算系数对应的次特征向量设置中三标签；将排序第三的属性计算系数对应的次特征向量设置次三标签；

依赖分析单元用于对次特征向量进行依赖度分析，在若干个次特征向量中选取密切特征向量，根据各个次特征向量的依赖度进行区分，明确次特征向量对企业状态特征影响，便于企业管理，减少次特征向量查询时间，具体分析过程如下：

采集到次特征向量设置标签数量，并将标签数量标记为SL，采集到状态特征变化时次特征向量的变化次数，并将其标记为CS；状态特征变化表示为企业利润增长或者降低；

通过公式

获取到各个次特征向量的依赖度系数H，其中，a1和a2均为预设比例系数，且a1＞a2＞0；依赖度系数是将次特征向量的参数进行归一化处理得到一个用于评定次特征向量影响状态特征的几率数值；通过公式可得设置标签数量和变化次数越多，依赖度系数越大，表示对应次特征向量影响企业状态特征的几率越大；

将各个次特征向量的依赖度系数H与依赖度系数阈值进行比较：若次特征向量的依赖度系数≥依赖度系数阈值，则将对应次特征向量标记为密切特征向量；若次特征向量的依赖度系数＜依赖度系数阈值，则将对应次特征向量标记为非密切特征向量；并将密切特征向量与非密切特征向量一同发送至服务器；

趋势分析单元用于对密切特征向量进行分析，从而判定密切特征向量的趋势属性，趋势属性包括正趋势和反趋势，有效判断密切特征向量的影响，防止出现次特征向量以外的影响向量，导致企业管理效果降低，具体分析判定过程如下：

采集到数据处理主体的状态特征，当数据处理主体的状态特征为盈利状态，则判定密切特征向量的趋势属性，若密切特征向量为上升趋势，则将对应密切特征向量为正趋势；若密切特征向量为下降趋势，则将对应密切特征向量为反趋势；若密切特征向量为持平趋势，则生成向量分析信号并将向量分析发送至服务器；准确判断密切特征向量对数据处理主体的状态特征的影响，有利于企业通过调整密切特征向量从而到达改变企业的状态特征，便于管理人员对企业进行管控。

如图2所示，多标记数据特征选择处理方法，具体特征选择处理方法步骤如下：

本发明工作原理：多标记数据特征选择处理方法及装置，通过数据处理平台对主体进行分析，采集到数据处理平台连接的局域网覆盖范围，并将根据局域网覆盖范围获取到数据处理主体；通过相关性分析单元对数据处理主体所包括的特征向量进行分析，层层递进对特征向量进行细分，并对细分后的特征向量进行标签设定；通过特征向量分析单元对设置二级标签的次特征向量进行相关性属性计算，并根据计算结果进行三级标签设置；通过依赖分析单元对次特征向量进行依赖度分析，在若干个次特征向量中选取密切特征向量，根据各个次特征向量的依赖度进行区分。

上述公式均是去量纲取其数值计算，公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式，公式中的预设参数由本领域的技术人员根据实际情况进行设置。

以上内容仅仅是对本发明结构所作的举例和说明，所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，只要不偏离发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

1.多标记数据特征选择处理装置，其特征在于，包括数据处理平台，数据处理平台内设置有服务器，服务器通讯连接有相关性分析单元、依赖分析单元、特征向量分析单元以及趋势分析单元；

主特征向量相关性分析具体过程如下：特征向量分为主特征向量与次特征向量，主特征向量和次特征向量均为数据处理主体维度，且主特征向量包含对应次特征向量，即数据处理主体的主特征向量分为销量数值与成本额度，并将其分别标记为X和Y；销售数值主特征向量X的次特征向量为销售人数X1、生产效率X2以及订单增长X3，成本额度主特征向量Y的次特征向量为设备成本Y1、人员成本Y2以及材料成本Y3；采集到数据处理主体的状态特征，将数据处理主体的状态特征与主特征向量进行相关性分析，设置分析时间阈值，并将分析时间阈值划分为i个时间节点，i=1，2，…，n，n为大于1的自然数，获取到各个时间节点对应主特征向量中销量数值X和成本额度Y，采集到分析时间阈值内各个时间节点的平均销量数值

和平均成本额度

，通过分析获取到两个主特征向量之间的关系系数P；

大于平均成本额度

小于平均成本额度

等于平均成本额度

的差值为负，则将成本额度主特征向量Y设置次一标签，将销售数值主特征向量X设置主一标签；

次特征向量相关性分析具体过程如下：

若成本额度主特征向量Y为主一标签时，则进行次特征向量Y1、Y2以及Y3相关性分析，通过分析获取到次特征向量Y1、Y2以及Y3对应相关系数TYk，其中，k取值为1，2，3；即次特征向量Y1、Y2以及Y3对应相关系数分别为TY1、TY2以及TY3，将TY1、TY2以及TY3根据数值大小进行排序，将排序第一的相关系数对应次特征向量设置主二标签；将排序第二的相关系数对应次特征向量设置中二标签；将排序第三的相关系数对应次特征向量设置次二标签；二级标签包括主二标签、中二标签以及次二标签；二级标签数量不唯一，若销售数值主特征向量X与成本额度主特征向量Y均为主一标签，则对应二级标签数量不唯一；

通过依赖分析单元对次特征向量进行依赖度分析，在若干个次特征向量中选取密切特征向量，根据各个次特征向量的依赖度进行区分；

趋势分析单元用于对密切特征向量进行分析，从而判定密切特征向量的趋势属性。

2.根据权利要求1所述的多标记数据特征选择处理装置，其特征在于，特征向量分析单元具体分析过程如下：

3.根据权利要求1所述的多标记数据特征选择处理装置，其特征在于，依赖分析单元具体分析过程如下：

4.根据权利要求1所述的多标记数据特征选择处理装置，其特征在于，趋势分析单元具体分析判定过程如下：

5.多标记数据特征选择处理方法，其特征在于，具体特征选择处理方法步骤如下：