CN113378514B - 多标记数据特征选择处理方法及装置 - Google Patents

多标记数据特征选择处理方法及装置 Download PDF

Info

Publication number
CN113378514B
CN113378514B CN202110922259.1A CN202110922259A CN113378514B CN 113378514 B CN113378514 B CN 113378514B CN 202110922259 A CN202110922259 A CN 202110922259A CN 113378514 B CN113378514 B CN 113378514B
Authority
CN
China
Prior art keywords
label
main
feature vector
vectors
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110922259.1A
Other languages
English (en)
Other versions
CN113378514A (zh
Inventor
张志强
余鹰
汤洪
童志钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Jiaotong University
Original Assignee
East China Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Jiaotong University filed Critical East China Jiaotong University
Priority to CN202110922259.1A priority Critical patent/CN113378514B/zh
Publication of CN113378514A publication Critical patent/CN113378514A/zh
Application granted granted Critical
Publication of CN113378514B publication Critical patent/CN113378514B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了多标记数据特征选择处理方法及装置,涉及数据特征选择处理技术领域,解决了现有技术中无法对特征向量进行深度筛选的技术问题,层递进对特征向量进行细分,并对细分后的特征向量进行标签设定,准确采集到数据处理主体的特征向量,提高了数据特征选择的准确性,同时也将各个特征向量准确进行标签设定,提高了数据处理的有效性,也对企业发展起到的加速效果;根据两个主特征向量的相关性差异,判定主特征向量对数据处理主体的状态特征的影响,对企业的管理起到促进作用,便于企业进行实时状态特征分析,也有助于企业改善的工作效率;在若干个次特征向量中选取密切特征向量,根据各个次特征向量的依赖度进行区分。

Description

多标记数据特征选择处理方法及装置
技术领域
本发明涉及数据特征选择处理技术领域,具体为多标记数据特征选择处理方法及装置。
背景技术
当前,在社会生活和科学研究等各个领域中数据呈现爆发式增长,特别是多标记高维数据的广泛存在,传统的单标记分类将一个样本只归为某一个标记,导致无法描述当一个样本同时属于多个标记的问题,需利用多标记分类来描述多标记的数据资源;随着物联网及信息技术的发展,数据及资源呈海量特征,在数据量不断增大的同时,数据标注结构的复杂度也在增加,传统的单标记学习已不能满足现实应用的需求,因此,多标记学习的重要性逐渐突显,在多标记学习中,每个样本在一个特征向量下,可能同时隶属于多个类别标记;
申请号为CN2020102612351的专利公开了一种多标记的文本类数据特征选择方法及装置,根据文本数据集中各样本对于标记的分类间隔确定每个样本的邻域粒度,得到多标记邻域决策系统,利用改进的邻域粗糙集的依赖度计算重要度,对得到的特征集合进行筛选,从而实现对多标记文本数据的特征选择,相较于原始的针对全体属性的邻域粗糙集特征选择方法,时间复杂度更低,最优特征子集更准确;
但是在该专利,虽然能够将特征集合进行筛选,但是筛选深度较浅,无法层层递进对特征向量进行细分,也不能够根据相关性合理判断出特征向量对数据处理主体的影响;此外,也未将完成多标记的特征向量,无法保证存在影响的特征向量全部被标记,导致数据处理主体的状态特征无法得到准确控制。
发明内容
本发明的目的就在于提出多标记数据特征选择处理方法及装置,本申请层递进对特征向量进行细分,并对细分后的特征向量进行标签设定,准确采集到数据处理主体的特征向量,提高了数据特征选择的准确性,同时也将各个特征向量准确进行标签设定,提高了数据处理的有效性,也对企业发展起到的加速效果;根据两个主特征向量的相关性差异,判定主特征向量对数据处理主体的状态特征的影响,对企业的管理起到促进作用,便于企业进行实时状态特征分析,也有助于企业改善的工作效率;在若干个次特征向量中选取密切特征向量,根据各个次特征向量的依赖度进行区分,明确次特征向量对企业状态特征影响,便于企业管理,减少次特征向量查询时间。
本发明的目的可以通过以下技术方案实现:
多标记数据特征选择处理装置,包括数据处理平台,数据处理平台内设置有服务器,服务器通讯连接有相关性分析单元、依赖分析单元、特征向量分析单元以及趋势分析单元;
数据处理平台用于对主体进行分析,采集到数据处理平台连接的局域网覆盖范围,并将根据局域网覆盖范围获取到数据处理主体;
通过相关性分析单元对数据处理主体所包括的特征向量进行分析,层层递进对特征向量进行细分,并对细分后的特征向量进行标签设定;
通过特征向量分析单元对设置二级标签的次特征向量进行相关性属性计算,并根据计算结果进行三级标签设置;
通过依赖分析单元对次特征向量进行依赖度分析,在若干个次特征向量中选取密切特征向量,根据各个次特征向量的依赖度进行区分。
作为本发明的进一步解决方案,相关性分析单元对主特征向量相关性分析具体过程如下:
特征向量分为主特征向量与次特征向量,主特征向量和次特征向量均为数据处理主体维度,且主特征向量包含对应次特征向量,即数据处理主体的主特征向量分为销量数值与成本额度,并将其分别标记为X和Y;销售数值主特征向量X的次特征向量为销售人数X1、生产效率X2以及订单增长X3,成本额度主特征向量Y的次特征向量为设备成本Y1、人员成本Y2以及材料成本Y3;采集到数据处理主体的状态特征,将数据处理主体的状态特征与主特征向量进行相关性分析,设置分析时间阈值,并将分析时间阈值划分为i个时间节点,i=1,2,…,n,n为大于1的自然数,获取到各个时间节点对应主特征向量中销量数值X和成本额度Y,采集到分析时间阈值内各个时间节点的平均销量数值
Figure 805203DEST_PATH_IMAGE002
和平均成本额度
Figure 535392DEST_PATH_IMAGE004
,通过分析获取到两个主特征向量之间的关系系数P;
将两个主特征向量之间的关系系数P进行数值分析,若两个主特征向量之间的关系系数P为0,则判定两个主特征向量相互独立;
若两个主特征向量之间的关系系数P为正,则判定两个主特征向量为正性相关,并根据两个主特征向量对应平均值进行一级标签设置,若平均销量数值
Figure 377446DEST_PATH_IMAGE002
大于平均成本额度
Figure 87170DEST_PATH_IMAGE004
,则将销售数值主特征向量X设置主一标签,将成本额度主特征向量Y设置次一标签;反之,若平均销量数值
Figure 963859DEST_PATH_IMAGE002
小于平均成本额度
Figure 599371DEST_PATH_IMAGE004
,则将成本额度主特征向量Y设置主一标签,将销售数值主特征向量X设置次一标签;若平均销量数值
Figure 240305DEST_PATH_IMAGE002
等于平均成本额度
Figure 439206DEST_PATH_IMAGE004
,则将销售数值主特征向量X与成本额度主特征向量Y均设置主一标签;一级标签包括主一标签和次一标签;
若两个主特征向量之间的关系系数P为负,则判定两个主特征向量为负性相关,若实时销售数值主特征向量Xi与
Figure 170401DEST_PATH_IMAGE002
的差值为负,则将销售数值主特征向量X设置次一标签,将成本额度主特征向量Y设置主一标签;若实时成本额度主特征向量Yi与
Figure 976814DEST_PATH_IMAGE004
的差值为负,则将成本额度主特征向量Y设置次一标签,将销售数值主特征向量X设置主一标签。
作为本发明的进一步解决方案,相关性分析单元对次特征向量相关性分析具体过程如下:
若销售数值主特征向量X为主一标签时,则进行次特征向量X1、X2以及X3相关性分析,通过分析获取到次特征向量X1、X2以及X3对应相关系数TXm,其中,m取值为1,2,3;即次特征向量X1、X2以及X3对应相关系数分别为TX1、TX2以及TX3,将TX1、TX2以及TX3根据数值大小进行排序,将排序第一的相关系数对应次特征向量设置主二标签;将排序第二的相关系数对应次特征向量设置中二标签;将排序第三的相关系数对应次特征向量设置次二标签;
若成本额度主特征向量Y为主一标签时,则进行次特征向量Y1、Y2以及Y3相关性分析,通过分析获取到次特征向量Y1、Y2以及Y3对应相关系数TYk,其中,k取值为1,2,3;即次特征向量Y1、Y2以及Y3对应相关系数分别为TY1、TY2以及TY3,将TY1、TY2以及TY3根据数值大小进行排序,将排序第一的相关系数对应次特征向量设置主二标签;将排序第二的相关系数对应次特征向量设置中二标签;将排序第三的相关系数对应次特征向量设置次二标签;二级标签包括主二标签、中二标签以及次二标签;二级标签数量不唯一,若销售数值主特征向量X与成本额度主特征向量Y均为主一标签,则对应二级标签数量不唯一。
作为本发明的进一步解决方案,特征向量分析单元具体分析过程如下:
若销售数值主特征向量X的次特征向量设置二级标签时,通过分析获取到次特征向量对应的属性计算系数ZXm,即次特征向量X1、X2以及X3对应属性计算系数分别为ZX1、ZX2以及ZX3,将ZX1、ZX2以及ZX3根据数值大小进行排序,将排序第一的属性计算系数对应的次特征向量设置主三标签;将排序第二的属性计算系数对应的次特征向量设置中三标签;将排序第三的属性计算系数对应的次特征向量设置次三标签;
若成本额度主特征向量Y的次特征向量设置二级标签时,通过分析获取到次特征向量对应的属性计算系数ZYk,即次特征向量Y1、Y2以及Y3对应属性计算系数分别为ZY1、ZY2以及ZY3,将ZY1、ZY2以及ZY3根据数值大小进行排序,将排序第一的属性计算系数对应的次特征向量设置主三标签;将排序第二的属性计算系数对应的次特征向量设置中三标签;将排序第三的属性计算系数对应的次特征向量设置次三标签。
作为本发明的进一步解决方案,依赖分析单元具体分析过程如下:
采集到次特征向量设置标签数量,并将标签数量标记为SL,采集到状态特征变化时次特征向量的变化次数,并将其标记为CS;状态特征变化表示为企业利润增长或者降低;通过分析获取到各个次特征向量的依赖度系数H,将各个次特征向量的依赖度系数H与依赖度系数阈值进行比较:若次特征向量的依赖度系数≥依赖度系数阈值,则将对应次特征向量标记为密切特征向量;若次特征向量的依赖度系数<依赖度系数阈值,则将对应次特征向量标记为非密切特征向量;并将密切特征向量与非密切特征向量一同发送至服务器。
作为本发明的进一步解决方案,趋势分析单元具体分析判定过程如下:
采集到数据处理主体的状态特征,当数据处理主体的状态特征为盈利状态,则判定密切特征向量的趋势属性,若密切特征向量为上升趋势,则将对应密切特征向量为正趋势;若密切特征向量为下降趋势,则将对应密切特征向量为反趋势;若密切特征向量为持平趋势,则生成向量分析信号并将向量分析发送至服务器。
作为本发明的进一步解决方案,多标记数据特征选择处理方法,具体特征选择处理方法步骤如下:
步骤一、通过协方差矩阵对主特征向量进行相关性分析,并对主特征向量设置一级标签;
步骤二:通过相关系数计算对次特征向量进行相关性分析,并对次特征向量设置二级标签;
步骤三:对次特征向量进行相关性属性计算,并对次特征向量设置三级标签;
步骤四:依赖度分析,将数据处理主体的次特征向量进行依赖度分析,在若干个次特征向量中选取密切特征向量。
与现有技术相比,本发明的有益效果是:
本发明中,层层递进对特征向量进行细分,并对细分后的特征向量进行标签设定,准确采集到数据处理主体的特征向量,提高了数据特征选择的准确性,同时也将各个特征向量准确进行标签设定,提高了数据处理的有效性,也对企业发展起到的加速效果;根据两个主特征向量的相关性差异,判定主特征向量对数据处理主体的状态特征的影响,对企业的管理起到促进作用,便于企业进行实时状态特征分析,也有助于企业改善的工作效率;
在若干个次特征向量中选取密切特征向量,根据各个次特征向量的依赖度进行区分,明确次特征向量对企业状态特征影响,便于企业管理,减少次特征向量查询时间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明多标记数据特征选择处理的原理框图;
图2为本发明多标记数据特征选择处理的方法流程框图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,多标记数据特征选择处理装置,包括数据处理平台,数据处理平台内设置有服务器,服务器通讯连接有相关性分析单元、依赖分析单元、特征向量分析单元以及趋势分析单元,其中,相关性分析单元、依赖分析单元、特征向量分析单元以及趋势分析单元与服务器均为双向通讯连接;
数据处理平台用于对主体进行分析,采集到数据处理平台连接的局域网覆盖范围,并将根据局域网覆盖范围获取到数据处理主体,数据处理主体表示为局域网覆盖范围内的企业,并将数据处理主体发送至服务器;本申请中数据处理主体为企业,但不局限于此;
服务器接收到数据处理主体后,对数据处理主体进行分析,生成相关性分析信号并将相关性分析信号发送至相关性分析单元;
相关性分析单元用于对数据处理主体所包括的特征向量进行分析,层层递进对特征向量进行细分,并对细分后的特征向量进行标签设定,准确采集到数据处理主体的特征向量,提高了数据特征选择的准确性,同时也将各个特征向量准确进行标签设定,提高了数据处理的有效性,也对企业发展起到的加速效果;
特征向量分为主特征向量与次特征向量,主特征向量和次特征向量均为数据处理主体维度,且主特征向量包含对应次特征向量,即数据处理主体的主特征向量分为销量数值与成本额度,并将其分别标记为X和Y;销售数值主特征向量X的次特征向量为销售人数X1、生产效率X2以及订单增长X3,成本额度主特征向量Y的次特征向量为设备成本Y1、人员成本Y2以及材料成本Y3;本申请中销售数值主特征向量X和成本额度主特征向量Y的对应次特征向量均为部分选取,但不局限于此;
采集到数据处理主体的状态特征,本申请中数据处理主体的状态特征为企业的利润,将数据处理主体的状态特征与主特征向量进行相关性分析,设置分析时间阈值,并将分析时间阈值划分为i个时间节点,i=1,2,…,n,n为大于1的自然数,获取到各个时间节点对应主特征向量中销量数值X和成本额度Y,采集到分析时间阈值内各个时间节点的平均销量数值
Figure 484806DEST_PATH_IMAGE002
和平均成本额度
Figure 284135DEST_PATH_IMAGE004
,通过公式
Figure 119104DEST_PATH_IMAGE006
获取到两个主特征向量之间的关系系数P,其中,α为误差修正因子,取值为1.23;主特征向量的关系系数是将主特征向量对应的参数进行归一化处理得到一个用于两个主特征向量相关几率的数值;
将两个主特征向量之间的关系系数P进行数值分析,若两个主特征向量之间的关系系数P为0,则判定两个主特征向量相互独立;
若两个主特征向量之间的关系系数P为正,则判定两个主特征向量为正性相关,并根据两个主特征向量对应平均值进行一级标签设置,若平均销量数值
Figure 611266DEST_PATH_IMAGE002
大于平均成本额度
Figure 31053DEST_PATH_IMAGE004
,则将销售数值主特征向量X设置主一标签,将成本额度主特征向量Y设置次一标签;反之,若平均销量数值
Figure 368493DEST_PATH_IMAGE002
小于平均成本额度
Figure 825013DEST_PATH_IMAGE004
,则将成本额度主特征向量Y设置主一标签,将销售数值主特征向量X设置次一标签;若平均销量数值
Figure 222497DEST_PATH_IMAGE002
等于平均成本额度
Figure 138369DEST_PATH_IMAGE004
,则将销售数值主特征向量X与成本额度主特征向量Y均设置主一标签;一级标签包括主一标签和次一标签;
若两个主特征向量之间的关系系数P为负,则判定两个主特征向量为负性相关,若实时销售数值主特征向量Xi与
Figure 531698DEST_PATH_IMAGE002
的差值为负,则将销售数值主特征向量X设置次一标签,将成本额度主特征向量Y设置主一标签;若实时成本额度主特征向量Yi与
Figure 29675DEST_PATH_IMAGE004
的差值为负,则将成本额度主特征向量Y设置次一标签,将销售数值主特征向量X设置主一标签;根据两个主特征向量的相关性差异,判定主特征向量对数据处理主体的状态特征的影响,对企业的管理起到促进作用,便于企业进行实时状态特征分析,也有助于企业改善的工作效率;
将数据处理主体的状态特征与次特征向量进行相关性分析,若销售数值主特征向量X为主一标签时,则进行次特征向量X1、X2以及X3相关性分析,通过公式
Figure 175223DEST_PATH_IMAGE008
获取到次特征向量X1、X2以及X3对应相关系数TXm,其中,m取值为1,2,3;即次特征向量X1、X2以及X3对应相关系数分别为TX1、TX2以及TX3,将TX1、TX2以及TX3根据数值大小进行排序,将排序第一的相关系数对应次特征向量设置主二标签;将排序第二的相关系数对应次特征向量设置中二标签;将排序第三的相关系数对应次特征向量设置次二标签;
若成本额度主特征向量Y为主一标签时,则进行次特征向量Y1、Y2以及Y3相关性分析,通过公式
Figure 378059DEST_PATH_IMAGE010
获取到次特征向量Y1、Y2以及Y3对应相关系数TYk,其中,k取值为1,2,3;即次特征向量Y1、Y2以及Y3对应相关系数分别为TY1、TY2以及TY3,将TY1、TY2以及TY3根据数值大小进行排序,将排序第一的相关系数对应次特征向量设置主二标签;将排序第二的相关系数对应次特征向量设置中二标签;将排序第三的相关系数对应次特征向量设置次二标签;二级标签包括主二标签、中二标签以及次二标签;二级标签数量不唯一,若销售数值主特征向量X与成本额度主特征向量Y均为主一标签,则对应二级标签数量不唯一;
特征向量分析单元用于对设置二级标签的次特征向量进行相关性属性计算,并根据计算结果进行三级标签设置;
若销售数值主特征向量X的次特征向量设置二级标签时,通过公式
Figure 73614DEST_PATH_IMAGE012
获取到次特征向量对应的属性计算系数ZXm,其中,β为误差修正因子,取值为1.36,即次特征向量X1、X2以及X3对应属性计算系数分别为ZX1、ZX2以及ZX3,将ZX1、ZX2以及ZX3根据数值大小进行排序,将排序第一的属性计算系数对应的次特征向量设置主三标签;将排序第二的属性计算系数对应的次特征向量设置中三标签;将排序第三的属性计算系数对应的次特征向量设置次三标签;
若成本额度主特征向量Y的次特征向量设置二级标签时,通过公式
Figure 488414DEST_PATH_IMAGE014
获取到次特征向量对应的属性计算系数ZYk,即次特征向量Y1、Y2以及Y3对应属性计算系数分别为ZY1、ZY2以及ZY3,将ZY1、ZY2以及ZY3根据数值大小进行排序,将排序第一的属性计算系数对应的次特征向量设置主三标签;将排序第二的属性计算系数对应的次特征向量设置中三标签;将排序第三的属性计算系数对应的次特征向量设置次三标签;
依赖分析单元用于对次特征向量进行依赖度分析,在若干个次特征向量中选取密切特征向量,根据各个次特征向量的依赖度进行区分,明确次特征向量对企业状态特征影响,便于企业管理,减少次特征向量查询时间,具体分析过程如下:
采集到次特征向量设置标签数量,并将标签数量标记为SL,采集到状态特征变化时次特征向量的变化次数,并将其标记为CS;状态特征变化表示为企业利润增长或者降低;
通过公式
Figure 742547DEST_PATH_IMAGE016
获取到各个次特征向量的依赖度系数H,其中,a1和a2均为预设比例系数,且a1>a2>0;依赖度系数是将次特征向量的参数进行归一化处理得到一个用于评定次特征向量影响状态特征的几率数值;通过公式可得设置标签数量和变化次数越多,依赖度系数越大,表示对应次特征向量影响企业状态特征的几率越大;
将各个次特征向量的依赖度系数H与依赖度系数阈值进行比较:若次特征向量的依赖度系数≥依赖度系数阈值,则将对应次特征向量标记为密切特征向量;若次特征向量的依赖度系数<依赖度系数阈值,则将对应次特征向量标记为非密切特征向量;并将密切特征向量与非密切特征向量一同发送至服务器;
趋势分析单元用于对密切特征向量进行分析,从而判定密切特征向量的趋势属性,趋势属性包括正趋势和反趋势,有效判断密切特征向量的影响,防止出现次特征向量以外的影响向量,导致企业管理效果降低,具体分析判定过程如下:
采集到数据处理主体的状态特征,当数据处理主体的状态特征为盈利状态,则判定密切特征向量的趋势属性,若密切特征向量为上升趋势,则将对应密切特征向量为正趋势;若密切特征向量为下降趋势,则将对应密切特征向量为反趋势;若密切特征向量为持平趋势,则生成向量分析信号并将向量分析发送至服务器;准确判断密切特征向量对数据处理主体的状态特征的影响,有利于企业通过调整密切特征向量从而到达改变企业的状态特征,便于管理人员对企业进行管控。
如图2所示,多标记数据特征选择处理方法,具体特征选择处理方法步骤如下:
步骤一、通过协方差矩阵对主特征向量进行相关性分析,并对主特征向量设置一级标签;
步骤二:通过相关系数计算对次特征向量进行相关性分析,并对次特征向量设置二级标签;
步骤三:对次特征向量进行相关性属性计算,并对次特征向量设置三级标签;
步骤四:依赖度分析,将数据处理主体的次特征向量进行依赖度分析,在若干个次特征向量中选取密切特征向量。
本发明工作原理:多标记数据特征选择处理方法及装置,通过数据处理平台对主体进行分析,采集到数据处理平台连接的局域网覆盖范围,并将根据局域网覆盖范围获取到数据处理主体;通过相关性分析单元对数据处理主体所包括的特征向量进行分析,层层递进对特征向量进行细分,并对细分后的特征向量进行标签设定;通过特征向量分析单元对设置二级标签的次特征向量进行相关性属性计算,并根据计算结果进行三级标签设置;通过依赖分析单元对次特征向量进行依赖度分析,在若干个次特征向量中选取密切特征向量,根据各个次特征向量的依赖度进行区分。
上述公式均是去量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数由本领域的技术人员根据实际情况进行设置。
以上内容仅仅是对本发明结构所作的举例和说明,所属本技术领域的技术人员对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,只要不偏离发明的结构或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。

Claims (5)

1.多标记数据特征选择处理装置,其特征在于,包括数据处理平台,数据处理平台内设置有服务器,服务器通讯连接有相关性分析单元、依赖分析单元、特征向量分析单元以及趋势分析单元;
数据处理平台用于对主体进行分析,采集到数据处理平台连接的局域网覆盖范围,并将根据局域网覆盖范围获取到数据处理主体;
通过相关性分析单元对数据处理主体所包括的特征向量进行分析,层层递进对特征向量进行细分,并对细分后的特征向量进行标签设定;
主特征向量相关性分析具体过程如下:特征向量分为主特征向量与次特征向量,主特征向量和次特征向量均为数据处理主体维度,且主特征向量包含对应次特征向量,即数据处理主体的主特征向量分为销量数值与成本额度,并将其分别标记为X和Y;销售数值主特征向量X的次特征向量为销售人数X1、生产效率X2以及订单增长X3,成本额度主特征向量Y的次特征向量为设备成本Y1、人员成本Y2以及材料成本Y3;采集到数据处理主体的状态特征,将数据处理主体的状态特征与主特征向量进行相关性分析,设置分析时间阈值,并将分析时间阈值划分为i个时间节点,i=1,2,…,n,n为大于1的自然数,获取到各个时间节点对应主特征向量中销量数值X和成本额度Y,采集到分析时间阈值内各个时间节点的平均销量数值
Figure 40940DEST_PATH_IMAGE001
和平均成本额度
Figure 692501DEST_PATH_IMAGE002
,通过分析获取到两个主特征向量之间的关系系数P;
将两个主特征向量之间的关系系数P进行数值分析,若两个主特征向量之间的关系系数P为0,则判定两个主特征向量相互独立;
若两个主特征向量之间的关系系数P为正,则判定两个主特征向量为正性相关,并根据两个主特征向量对应平均值进行一级标签设置,若平均销量数值
Figure 675500DEST_PATH_IMAGE001
大于平均成本额度
Figure 8393DEST_PATH_IMAGE002
,则将销售数值主特征向量X设置主一标签,将成本额度主特征向量Y设置次一标签;反之,若平均销量数值
Figure 494869DEST_PATH_IMAGE001
小于平均成本额度
Figure 582910DEST_PATH_IMAGE002
,则将成本额度主特征向量Y设置主一标签,将销售数值主特征向量X设置次一标签;若平均销量数值
Figure 787627DEST_PATH_IMAGE001
等于平均成本额度
Figure 924210DEST_PATH_IMAGE002
,则将销售数值主特征向量X与成本额度主特征向量Y均设置主一标签;一级标签包括主一标签和次一标签;
若两个主特征向量之间的关系系数P为负,则判定两个主特征向量为负性相关,若实时销售数值主特征向量Xi与
Figure 265193DEST_PATH_IMAGE001
的差值为负,则将销售数值主特征向量X设置次一标签,将成本额度主特征向量Y设置主一标签;若实时成本额度主特征向量Yi与
Figure 524136DEST_PATH_IMAGE002
的差值为负,则将成本额度主特征向量Y设置次一标签,将销售数值主特征向量X设置主一标签;
次特征向量相关性分析具体过程如下:
若销售数值主特征向量X为主一标签时,则进行次特征向量X1、X2以及X3相关性分析,通过分析获取到次特征向量X1、X2以及X3对应相关系数TXm,其中,m取值为1,2,3;即次特征向量X1、X2以及X3对应相关系数分别为TX1、TX2以及TX3,将TX1、TX2以及TX3根据数值大小进行排序,将排序第一的相关系数对应次特征向量设置主二标签;将排序第二的相关系数对应次特征向量设置中二标签;将排序第三的相关系数对应次特征向量设置次二标签;
若成本额度主特征向量Y为主一标签时,则进行次特征向量Y1、Y2以及Y3相关性分析,通过分析获取到次特征向量Y1、Y2以及Y3对应相关系数TYk,其中,k取值为1,2,3;即次特征向量Y1、Y2以及Y3对应相关系数分别为TY1、TY2以及TY3,将TY1、TY2以及TY3根据数值大小进行排序,将排序第一的相关系数对应次特征向量设置主二标签;将排序第二的相关系数对应次特征向量设置中二标签;将排序第三的相关系数对应次特征向量设置次二标签;二级标签包括主二标签、中二标签以及次二标签;二级标签数量不唯一,若销售数值主特征向量X与成本额度主特征向量Y均为主一标签,则对应二级标签数量不唯一;
通过特征向量分析单元对设置二级标签的次特征向量进行相关性属性计算,并根据计算结果进行三级标签设置;
通过依赖分析单元对次特征向量进行依赖度分析,在若干个次特征向量中选取密切特征向量,根据各个次特征向量的依赖度进行区分;
趋势分析单元用于对密切特征向量进行分析,从而判定密切特征向量的趋势属性。
2.根据权利要求1所述的多标记数据特征选择处理装置,其特征在于,特征向量分析单元具体分析过程如下:
若销售数值主特征向量X的次特征向量设置二级标签时,通过分析获取到次特征向量对应的属性计算系数ZXm,即次特征向量X1、X2以及X3对应属性计算系数分别为ZX1、ZX2以及ZX3,将ZX1、ZX2以及ZX3根据数值大小进行排序,将排序第一的属性计算系数对应的次特征向量设置主三标签;将排序第二的属性计算系数对应的次特征向量设置中三标签;将排序第三的属性计算系数对应的次特征向量设置次三标签;
若成本额度主特征向量Y的次特征向量设置二级标签时,通过分析获取到次特征向量对应的属性计算系数ZYk,即次特征向量Y1、Y2以及Y3对应属性计算系数分别为ZY1、ZY2以及ZY3,将ZY1、ZY2以及ZY3根据数值大小进行排序,将排序第一的属性计算系数对应的次特征向量设置主三标签;将排序第二的属性计算系数对应的次特征向量设置中三标签;将排序第三的属性计算系数对应的次特征向量设置次三标签。
3.根据权利要求1所述的多标记数据特征选择处理装置,其特征在于,依赖分析单元具体分析过程如下:
采集到次特征向量设置标签数量,并将标签数量标记为SL,采集到状态特征变化时次特征向量的变化次数,并将其标记为CS;状态特征变化表示为企业利润增长或者降低;通过分析获取到各个次特征向量的依赖度系数H,将各个次特征向量的依赖度系数H与依赖度系数阈值进行比较:若次特征向量的依赖度系数≥依赖度系数阈值,则将对应次特征向量标记为密切特征向量;若次特征向量的依赖度系数<依赖度系数阈值,则将对应次特征向量标记为非密切特征向量;并将密切特征向量与非密切特征向量一同发送至服务器。
4.根据权利要求1所述的多标记数据特征选择处理装置,其特征在于,趋势分析单元具体分析判定过程如下:
采集到数据处理主体的状态特征,当数据处理主体的状态特征为盈利状态,则判定密切特征向量的趋势属性,若密切特征向量为上升趋势,则将对应密切特征向量为正趋势;若密切特征向量为下降趋势,则将对应密切特征向量为反趋势;若密切特征向量为持平趋势,则生成向量分析信号并将向量分析发送至服务器。
5.多标记数据特征选择处理方法,其特征在于,具体特征选择处理方法步骤如下:
步骤一、通过协方差矩阵对主特征向量进行相关性分析,并对主特征向量设置一级标签;
步骤二:通过相关系数计算对次特征向量进行相关性分析,并对次特征向量设置二级标签;
主特征向量相关性分析具体过程如下:特征向量分为主特征向量与次特征向量,主特征向量和次特征向量均为数据处理主体维度,且主特征向量包含对应次特征向量,即数据处理主体的主特征向量分为销量数值与成本额度,并将其分别标记为X和Y;销售数值主特征向量X的次特征向量为销售人数X1、生产效率X2以及订单增长X3,成本额度主特征向量Y的次特征向量为设备成本Y1、人员成本Y2以及材料成本Y3;采集到数据处理主体的状态特征,将数据处理主体的状态特征与主特征向量进行相关性分析,设置分析时间阈值,并将分析时间阈值划分为i个时间节点,i=1,2,…,n,n为大于1的自然数,获取到各个时间节点对应主特征向量中销量数值X和成本额度Y,采集到分析时间阈值内各个时间节点的平均销量数值
Figure 216148DEST_PATH_IMAGE003
和平均成本额度
Figure 890843DEST_PATH_IMAGE004
,通过分析获取到两个主特征向量之间的关系系数P;
将两个主特征向量之间的关系系数P进行数值分析,若两个主特征向量之间的关系系数P为0,则判定两个主特征向量相互独立;
若两个主特征向量之间的关系系数P为正,则判定两个主特征向量为正性相关,并根据两个主特征向量对应平均值进行一级标签设置,若平均销量数值
Figure 351911DEST_PATH_IMAGE001
大于平均成本额度
Figure 719439DEST_PATH_IMAGE002
,则将销售数值主特征向量X设置主一标签,将成本额度主特征向量Y设置次一标签;反之,若平均销量数值
Figure 695485DEST_PATH_IMAGE001
小于平均成本额度
Figure 173871DEST_PATH_IMAGE002
,则将成本额度主特征向量Y设置主一标签,将销售数值主特征向量X设置次一标签;若平均销量数值
Figure 755025DEST_PATH_IMAGE001
等于平均成本额度
Figure 27875DEST_PATH_IMAGE002
,则将销售数值主特征向量X与成本额度主特征向量Y均设置主一标签;一级标签包括主一标签和次一标签;
若两个主特征向量之间的关系系数P为负,则判定两个主特征向量为负性相关,若实时销售数值主特征向量Xi与
Figure 694479DEST_PATH_IMAGE001
的差值为负,则将销售数值主特征向量X设置次一标签,将成本额度主特征向量Y设置主一标签;若实时成本额度主特征向量Yi与
Figure 773294DEST_PATH_IMAGE002
的差值为负,则将成本额度主特征向量Y设置次一标签,将销售数值主特征向量X设置主一标签;
次特征向量相关性分析具体过程如下:
若销售数值主特征向量X为主一标签时,则进行次特征向量X1、X2以及X3相关性分析,通过分析获取到次特征向量X1、X2以及X3对应相关系数TXm,其中,m取值为1,2,3;即次特征向量X1、X2以及X3对应相关系数分别为TX1、TX2以及TX3,将TX1、TX2以及TX3根据数值大小进行排序,将排序第一的相关系数对应次特征向量设置主二标签;将排序第二的相关系数对应次特征向量设置中二标签;将排序第三的相关系数对应次特征向量设置次二标签;
若成本额度主特征向量Y为主一标签时,则进行次特征向量Y1、Y2以及Y3相关性分析,通过分析获取到次特征向量Y1、Y2以及Y3对应相关系数TYk,其中,k取值为1,2,3;即次特征向量Y1、Y2以及Y3对应相关系数分别为TY1、TY2以及TY3,将TY1、TY2以及TY3根据数值大小进行排序,将排序第一的相关系数对应次特征向量设置主二标签;将排序第二的相关系数对应次特征向量设置中二标签;将排序第三的相关系数对应次特征向量设置次二标签;二级标签包括主二标签、中二标签以及次二标签;二级标签数量不唯一,若销售数值主特征向量X与成本额度主特征向量Y均为主一标签,则对应二级标签数量不唯一;
步骤三:对次特征向量进行相关性属性计算,并对次特征向量设置三级标签;
步骤四:依赖度分析,将数据处理主体的次特征向量进行依赖度分析,在若干个次特征向量中选取密切特征向量。
CN202110922259.1A 2021-08-12 2021-08-12 多标记数据特征选择处理方法及装置 Active CN113378514B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110922259.1A CN113378514B (zh) 2021-08-12 2021-08-12 多标记数据特征选择处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110922259.1A CN113378514B (zh) 2021-08-12 2021-08-12 多标记数据特征选择处理方法及装置

Publications (2)

Publication Number Publication Date
CN113378514A CN113378514A (zh) 2021-09-10
CN113378514B true CN113378514B (zh) 2021-11-05

Family

ID=77576974

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110922259.1A Active CN113378514B (zh) 2021-08-12 2021-08-12 多标记数据特征选择处理方法及装置

Country Status (1)

Country Link
CN (1) CN113378514B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8805845B1 (en) * 2013-07-31 2014-08-12 LinedIn Corporation Framework for large-scale multi-label classification
CN107256411A (zh) * 2017-05-27 2017-10-17 南京师范大学 特征选择和标记相关性联合学习的多标记数据分类方法
CN109119133A (zh) * 2018-08-03 2019-01-01 厦门大学 基于多标记特征选择及分类的中医临床大数据存储方法
CN111553127A (zh) * 2020-04-03 2020-08-18 河南师范大学 一种多标记的文本类数据特征选择方法及装置
CN111986180A (zh) * 2020-08-21 2020-11-24 中国科学技术大学 基于多相关帧注意力机制的人脸伪造视频检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112035669B (zh) * 2020-09-09 2021-05-14 中国科学技术大学 基于传播异质图建模的社交媒体多模态谣言检测方法
CN112650848A (zh) * 2020-12-30 2021-04-13 交控科技股份有限公司 基于文本语义相关乘客评价的城铁舆情信息分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8805845B1 (en) * 2013-07-31 2014-08-12 LinedIn Corporation Framework for large-scale multi-label classification
CN107256411A (zh) * 2017-05-27 2017-10-17 南京师范大学 特征选择和标记相关性联合学习的多标记数据分类方法
CN109119133A (zh) * 2018-08-03 2019-01-01 厦门大学 基于多标记特征选择及分类的中医临床大数据存储方法
CN111553127A (zh) * 2020-04-03 2020-08-18 河南师范大学 一种多标记的文本类数据特征选择方法及装置
CN111986180A (zh) * 2020-08-21 2020-11-24 中国科学技术大学 基于多相关帧注意力机制的人脸伪造视频检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"Multi-label active learning with label correlation for image classification";Chen Ye;Jian Wu;Victor S. Sheng;Pengpeng Zhao;Zhiming Cui;《2015 IEEE International Conference on Image Processing (ICIP)》;20151210;全文 *
"基于标签组合的多标签特征选择算法";孟威;周忠眉;《模糊系统与数学》;20210215;第35卷(第1期);全文 *
"基于标记相关性的多标记三支分类算法";余鹰;吴新念;王乐为;张应龙;《山东大学学报(理学版)》;20200227;第55卷(第3期);全文 *
"多标记学习研究综述";余鹰;《计算机工程与应用》;20150901;全文 *

Also Published As

Publication number Publication date
CN113378514A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN110245874B (zh) 一种基于机器学习和知识推理的决策融合方法
CN106845717B (zh) 一种基于多模型融合策略的能源效率评价方法
CN108470022B (zh) 一种基于运维管理的智能工单质检方法
CN103294817A (zh) 一种基于类别分布概率的文本特征抽取方法
CN106991446A (zh) 一种互信息的组策略嵌入式动态特征选择方法
CN112529638B (zh) 基于用户分类和深度学习的服务需求动态预测方法及系统
CN110225001A (zh) 一种基于主题模型的动态自更新网络流量分类方法
CN115811440B (zh) 一种基于网络态势感知的实时流量检测方法
Wang et al. Design of the Sports Training Decision Support System Based on the Improved Association Rule, the Apriori Algorithm.
CN113343077A (zh) 一种融合用户兴趣时序波动的个性化推荐方法及系统
CN112184484A (zh) 一种电力用户差异化服务方法及系统
CN116633601A (zh) 一种基于网络流量态势感知的检测方法
Xie et al. An anomaly detection method based on fuzzy c-means clustering algorithm
CN112785156B (zh) 一种基于聚类与综合评价的产业领袖识别方法
CN114463072A (zh) 基于业务需求ai预测的电商服务优化方法及大数据系统
CN114328913A (zh) 一种文本分类方法、装置、计算机设备和存储介质
CN113378514B (zh) 多标记数据特征选择处理方法及装置
CN111949852A (zh) 一种基于互联网大数据的宏观经济分析方法及系统
CN111950652A (zh) 一种基于相似度的半监督学习数据分类算法
Liu et al. Application of master data classification model in enterprises
CN116070458A (zh) 基于rac-gan的新建风电场场景生成方法
CN115391151A (zh) 一种基于对象关系进行智能发现告警标签的方法
Wang et al. A model of telecommunication network performance anomaly detection based on service features clustering
CN109635008A (zh) 一种基于机器学习的设备故障检测方法
CN115392351A (zh) 风险用户识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant