CN112488312B - 一种基于张量的网络交换数据的自动编码机的构建方法 - Google Patents
一种基于张量的网络交换数据的自动编码机的构建方法 Download PDFInfo
- Publication number
- CN112488312B CN112488312B CN202011416869.6A CN202011416869A CN112488312B CN 112488312 B CN112488312 B CN 112488312B CN 202011416869 A CN202011416869 A CN 202011416869A CN 112488312 B CN112488312 B CN 112488312B
- Authority
- CN
- China
- Prior art keywords
- tensor
- data
- data set
- heterogeneous
- complete
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000010276 construction Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 25
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 abstract description 10
- 238000007781 pre-processing Methods 0.000 abstract description 3
- 238000003062 neural network model Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000010219 correlation analysis Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000007786 learning performance Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于张量的自动编码机的构建方法,属于机器技术领域。本发明提出了一种基于张量的自动编码机的构建方法,对异构不完整数据集进行训练填充,从而构建完整的数据集,提高数据的利用效率,并对完整的异构数据集进行Tucker分解,构建自动编码机对分解后得到的核张量进行编码,提高了网络模型学习数据的效率。本发明优化了机器学习模型中数据的预处理方法,通过提取不完全数据缺失的属性,并对完整数据集中相应的属性值进行训练,从而对不完整数据集缺失的属性进行填充,提高了数据的学习精度;且通过对张量表示的完整异构数据进行Tucker分解,并构建自动编码机对分解后得到的核张量进行编码,提高了机器学习的准确率。
Description
技术领域
本发明涉及一种基于张量的自动编码机的构建方法,属于机器技术领域。
背景技术
机器学习是一种实现人工智能的方式,是近些年主要研究的领域。通常情况下,机器学习模型的训练和预测均是基于大量的数据,其中非监督学习模型应用更为广泛。在非监督学习模型中,自动编码机的使用使得在训练过程中不需要对训练样本进行标记,极大的提高了学习的效率,从而引起了研究者的广泛关注。在非监督学习模型中采用向量描述数据,这种方式更适合描述单一类型的数据,然而随着无线设备(如智能手机和笔记本电脑) 的普及,移动用户对在线应用程序(例如,视频服务、网页浏览和社交网络等)的需求日益增长,这一现象导致了网络交换数据呈指数级增长的同时存在着的大量异构数据,向量的描述方式不能很好的捕获数据之间的关系。此外,部分数据与运行时间相关,需要构造一种在时间维度上有效的方法。为了解决异构数据和时间维度的问题,将深度学习模型从向量空间扩展导张量空间的方法便被提出了。与此同时,由于网络交换数据增长造成了数据中存在部分属性丢失的问题。为了解决现有模型不能很好的对不完整数据进行学习的短板,研究基于张量的自动编码机的构建具有重要意义。
本发明提出一种基于张量的自动编码机的构建方法,即针对数据的异构和缺失问题,将原始数据通过张量进行统一表示,进而通过构建的自动编码机对预处理后的数据进行处理,为后续机器学习做准备。针对经过初步处理后得到的异构型完整数据,进行核张量分解以及降维编码能显著的提高神经网络的学习性能。
目前的研究工作主要存在以下问题:
(1)大多数的神经网络模型只考虑了如何有效的学习异构数据的特征,并未考虑数据属性缺失对模型的学习性能带来的影响。
(2)大多数的神经网络模型只考虑了对原始的完整异构数据进行编码,并未考虑完整异构数据通过核张量分解对编码技术带来的影响。
因此,本发明研究了一种基于张量的自动编码机的构建方法。本发明考虑了以下两个方面的问题:(1)如何将不完整异构数据填充为完整异构数据,以此提高可利用数据量; (2)如何对异构数据成功分解后的核张量进行编码,以此提高学习的有效性。
发明内容
本发明的目的是提出一种基于张量的自动编码机的构建方法,针对数据的异构型和不完整性,分别提出基于张量的数据表示法和不完整数据最近距离领域法,来处理不完整数据和异构数据处理难的问题,并通过对初步处理后的数据进行Tucker分解,对分解后的核张量进行二维编码,从而构建出高阶自动编码机的方法。改进机器学习领域中对异构不完全数据的处理问题,提高了机器学习的有效性。
一种基于张量的自动编码机的构建方法,所述构建方法包括以下步骤:
步骤一、通过张量对异构数据和时间维度进行统一表示,从而根据是否存在属性的缺失将数据划分为两个不相交的子集,分别为完整数据集和不完整数据集;
步骤二、从完整数据集中选取若干个随机对象,对每个不完整数据集中缺失的属性值进行训练,从而构建训练集;然后利用训练集对不完整数据集中缺失的属性值进行填充,进而完成对异构不完整数据的处理;
步骤三、对得到的通过张量表示的完整异构数据进行Tucker分解,对分解后得到的核张量依次进行对数、平均值和切片操作,从而对得到相同维度的矩阵进行二维自动编码,进而构建高阶自动编码机。
进一步的,在步骤一中,具体包括以下步骤:
步骤一一、建N阶张量模型:
步骤一二、异构数据添加至张量空间:
根据异构数据的不同属性转化为对应阶数的张量,然后添加至张量空间X中;
步骤一三、实现张量的扩展:
将不同的异构数据表示为低阶张量,利用扩展运算将低阶形式扩展成高阶形式,实现大数据的统一表示;
步骤一四、将统一表示的数据划分为完整数据集和不完整数据集:
判断统一表示的异构大数据根据是否存在属性的缺失,划分为两个不相交的数据子集,分别为完整数据集En和不完整数据集Em,其中完整数据集En中不存在属性的缺失,不完整数据集Em中每个对象都存在一个或多个属性的缺失。
进一步的,步骤一三中运用到张量扩展运算,其定义为:
其中C为高阶张量,In为张量第n阶上的维度。
进一步的,具体包括以下步骤:
步骤二一、对不完整数据缺失属性的提取:
想较于完整数据集En(e1,e2,…ek,…en),不完整数据集Em(e1,e2,…ek-1,ek+1,…en)中的缺失属性为ek,利用现有卷积神经网络的特征提取层,可以将不完整数据集Em中缺失的属性ek提取出来;
步骤二二、对完整数据集中的ek属性值进行训练:
步骤二三、对不完整数据集缺失属性进行填充:
先根据欧式距离或现有相关分析方法来确定距离具有缺失数据样本最近的k个样本,将这k个值带入训练模型Y,来估计该样本的缺失数据,其中欧式距离n维空间公式如下:
进一步的,具体包括以下步骤:
步骤三一、对异构完整数据进行Tucker分解:
对于一个三阶张量而言,经过Tucker分解可以得到一个核张量和三个扩展矩阵,具体分解公式如下:
对于原始张量的每一个元素,Tucker分解法写作:
步骤三二、对分解后的核张量进行编码:
步骤三二一、把得到的核张量G进行对数(log)运算和平均(mean)值运算;
步骤三二二、通过切片操作,把核张量分解为维度相同的矩阵M;
步骤三二三、对降维后得到的矩阵M按照现有的二维自动编码器进行数据训练。
本发明的主要优点是:
本专利提出一种基于张量的自动编码机的构建方法具有如下优点:
(1)本发明优化了机器学习模型中数据的预处理方法,通过提取不完全数据缺失的属性,并对完整数据集中相应的属性值进行训练,从而对不完整数据集缺失的属性进行填充,提高了数据的学习精度。
(2)本发明通过对张量表示的完整异构数据进行Tucker分解,并构建自动编码机对分解后得到的核张量进行编码,提高了机器学习的准确率。
附图说明
图1是本发明的一种基于张量的自动编码机的构建方法的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提出了一种基于张量的自动编码机的构建方法,对异构不完整数据集进行训练填充,从而构建完整的数据集,提高数据的利用效率,并对完整的异构数据集进行Tucker 分解,构建自动编码机对分解后得到的核张量进行编码,提高了网络模型学习数据的效率。下面结合附图进行详细说明。
如图1所示,体现了基于张量的自动编码机构建的整体流程,通过该流程,从而增强了数据的学习效果,提高了机器学习的准确率。
一种基于张量的自动编码机的构建方法,所述构建方法包括以下步骤:
步骤一、通过张量对异构数据和时间维度进行统一表示,从而根据是否存在属性的缺失将数据划分为两个不相交的子集,分别为完整数据集和不完整数据集;
步骤二、从完整数据集中选取若干个随机对象,对每个不完整数据集中缺失的属性值进行训练,从而构建训练集;然后利用训练集对不完整数据集中缺失的属性值进行填充,进而完成对异构不完整数据的处理;
步骤三、为了进一步的提高数据学习效率,对得到的通过张量表示的完整异构数据进行Tucker分解,对分解后得到的核张量依次进行对数、平均值和切片操作,从而对得到相同维度的矩阵进行二维自动编码,进而构建高阶自动编码机,提高了对数据的良好学习效果。
在步骤一中,具体包括以下步骤:
步骤一一、建N阶张量模型:
步骤一二、异构数据添加至张量空间:
根据异构数据的不同属性转化为对应阶数的张量,然后添加至张量空间X中;例如一个任务x用一个三元组表示<W,D,K>来表示,其中W表示任务大小,D表示任务执行截至期限,K表示任务需要计算量,其转化为对应的三阶张量X。
步骤一三、实现张量的扩展:
将不同的异构数据表示为低阶张量,利用扩展运算将低阶形式扩展成高阶形式,实现大数据的统一表示;
步骤一四、将统一表示的数据划分为完整数据集和不完整数据集:
判断统一表示的异构大数据根据是否存在属性的缺失,划分为两个不相交的数据子集,分别为完整数据集En和不完整数据集Em,其中完整数据集En中不存在属性的缺失,不完整数据集Em中每个对象都存在一个或多个属性的缺失。
步骤一三中运用到张量扩展运算,其定义为:
其中C为高阶张量,In为张量第n阶上的维度。
具体包括以下步骤:
步骤二一、对不完整数据缺失属性的提取:
想较于完整数据集En(e1,e2,…ek,…en),不完整数据集Em(e1,e2,…ek-1,ek+1,…en)中的缺失属性为ek,利用现有卷积神经网络的特征提取层,可以将不完整数据集Em中缺失的属性ek提取出来;
步骤二二、对完整数据集中的ek属性值进行训练:
步骤二三、对不完整数据集缺失属性进行填充:
先根据欧式距离或现有相关分析方法来确定距离具有缺失数据样本最近的k个样本,将这k个值带入训练模型Y,来估计该样本的缺失数据,其中欧式距离n维空间公式如下:
具体包括以下步骤:
步骤三一、对异构完整数据进行Tucker分解:
对于一个三阶张量而言,经过Tucker分解可以得到一个核张量和三个扩展矩阵,具体分解公式如下:
对于原始张量的每一个元素,Tucker分解法写作:
步骤三二、对分解后的核张量进行编码:
步骤三二一、把得到的核张量G进行对数(log)运算和平均(mean)值运算;
步骤三二二、通过切片操作,把核张量分解为维度相同的矩阵M;
步骤三二三、对降维后得到的矩阵M按照现有的二维自动编码器进行数据训练。
本发明的主要参数表如表1所示:
表1
本发明优化了神经网络模型中数据的预处理方法,通过提取不完全数据缺失的属性,并对完整数据集中相应的属性值进行训练,从而对不完整数据集缺失的属性进行填充,提高了数据的利用效率。
且本发明证明通过对张量表示的完整异构数据进行Tucker分解,并构建自动编码机对分解后得到的核张量进行编码,从而增强了数据的学习效果,提高了神经网络模型的学习效率。
Claims (4)
1.一种基于张量的网络交换数据的自动编码机的构建方法,其特征在于,所述构建方法包括以下步骤:
步骤一、通过张量对网络交换数据中异构数据和时间维度进行统一表示,从而根据是否存在属性的缺失将网络交换数据划分为两个不相交的子集,分别为完整数据集和不完整数据集;
步骤二、从完整数据集中选取若干个随机对象,对每个不完整数据集中缺失的属性值进行训练,从而构建训练集;然后利用训练集对不完整数据集中缺失的属性值进行填充,进而完成对网络交换数据的异构不完整数据的处理;
步骤三、对得到的通过张量表示的网络交换数据的完整异构数据进行Tucker分解,对分解后得到的核张量依次进行对数、平均值和切片操作,从而对得到相同维度的矩阵进行二维自动编码,进而构建网络交换数据的高阶自动编码机,
在步骤三中,具体包括以下步骤:
步骤三一、对异构完整数据进行Tucker分解:
对于一个三阶张量而言,经过Tucker分解可以得到一个核张量和三个扩展矩阵,具体分解公式如下:
其中,A,B,C是扩展矩阵,被作为Tucker分解模型下的主成分,而G∈P×Q×R就是核心张量,P,Q,R为对应因子矩阵里列的个数,a,b,c为扩展矩阵元素,
对于原始张量的每一个元素,Tucker分解法写作:
步骤三二、对分解后的核张量进行编码:
步骤三二一、把得到的核张量G进行对数(log)运算和平均(mean)值运算;
步骤三二二、通过切片操作,把核张量分解为维度相同的矩阵M;
步骤三二三、对降维后得到的矩阵M按照现有的二维自动编码器进行数据训练。
2.根据权利要求1所述的一种基于张量的网络交换数据的自动编码机的构建方法,其特征在于,在步骤一中,具体包括以下步骤:
步骤一一、构建N阶张量模型:
步骤一二、异构数据添加至张量空间:
根据异构数据的不同属性转化为对应阶数的张量,然后添加至张量空间X中;
步骤一三、实现张量的扩展:
将不同的异构数据表示为低阶张量,利用扩展运算将低阶形式扩展成高阶形式,实现大数据的统一表示;
步骤一四、将统一表示的数据划分为完整数据集和不完整数据集:
判断统一表示的异构大数据根据是否存在属性的缺失,划分为两个不相交的数据子集,分别为完整数据集En和不完整数据集Em,其中完整数据集En中不存在属性的缺失,不完整数据集Em中每个对象都存在一个或多个属性的缺失。
4.根据权利要求1所述的一种基于张量的网络交换数据的自动编码机的构建方法,其特征在于,在步骤二中,具体包括以下步骤:
步骤二一、对不完整数据缺失属性的提取:
相较于完整数据集En(e1,e2,…ek,…en),不完整数据集Em(e1,e2,…ek-1,ek+1,…en)中的缺失属性为ek,利用现有卷积神经网络的特征提取层,可以将不完整数据集Em中缺失的属性ek提取出来;
步骤二二、对完整数据集中的ek属性值进行训练:
步骤二三、对不完整数据集缺失属性进行填充:
先根据欧式距离来确定距离具有缺失数据样本最近的k个样本,将这k个值带入训练模型Y,来估计该样本的缺失数据,其中欧式距离n维空间公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011416869.6A CN112488312B (zh) | 2020-12-07 | 2020-12-07 | 一种基于张量的网络交换数据的自动编码机的构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011416869.6A CN112488312B (zh) | 2020-12-07 | 2020-12-07 | 一种基于张量的网络交换数据的自动编码机的构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112488312A CN112488312A (zh) | 2021-03-12 |
CN112488312B true CN112488312B (zh) | 2022-02-18 |
Family
ID=74939912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011416869.6A Expired - Fee Related CN112488312B (zh) | 2020-12-07 | 2020-12-07 | 一种基于张量的网络交换数据的自动编码机的构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112488312B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114707011B (zh) * | 2022-03-04 | 2024-10-22 | 中国科学院上海微系统与信息技术研究所 | 一种基于张量分解的多源异构数据特征融合方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992536A (zh) * | 2017-11-23 | 2018-05-04 | 中山大学 | 基于张量分解的城市交通缺失数据填补方法 |
CN111209974A (zh) * | 2020-01-14 | 2020-05-29 | 华中科技大学鄂州工业技术研究院 | 基于张量分解的异构大数据核心特征提取的方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10268646B2 (en) * | 2017-06-06 | 2019-04-23 | Facebook, Inc. | Tensor-based deep relevance model for search on online social networks |
CN107516129B (zh) * | 2017-08-01 | 2020-06-02 | 北京大学 | 基于维度自适应的Tucker分解的深度网络压缩方法 |
CN110457979A (zh) * | 2018-05-08 | 2019-11-15 | 西北农林科技大学 | 基于张量Tucker分解模糊控制的柴油机故障诊断方法 |
JP7151500B2 (ja) * | 2019-01-18 | 2022-10-12 | 富士通株式会社 | 学習方法、学習プログラムおよび学習装置 |
-
2020
- 2020-12-07 CN CN202011416869.6A patent/CN112488312B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107992536A (zh) * | 2017-11-23 | 2018-05-04 | 中山大学 | 基于张量分解的城市交通缺失数据填补方法 |
CN111209974A (zh) * | 2020-01-14 | 2020-05-29 | 华中科技大学鄂州工业技术研究院 | 基于张量分解的异构大数据核心特征提取的方法及系统 |
Non-Patent Citations (2)
Title |
---|
"Stacked Denoising Tensor Auto-Encoder for Action Recognition With Spatiotemporal Corruptions";Chengcheng Jia等;《IEEE Transactions on image Processing》;20180430;第27卷(第4期);第1878-1887页 * |
"一种应用于高阶数据修复的非负稀疏Tucker分解算法";张志伟等;《光电子·激光》;20170731;第28卷(第7期);第773-749页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112488312A (zh) | 2021-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134946B (zh) | 一种针对复杂数据的机器阅读理解方法 | |
CN112380319B (zh) | 一种模型训练的方法及相关装置 | |
CN104317902A (zh) | 基于局部保持迭代量化哈希的图像检索方法 | |
EP4390725A1 (en) | Video retrieval method and apparatus, device, and storage medium | |
CN113111889B (zh) | 用于边缘计算端的目标检测网络处理方法 | |
CN111612319A (zh) | 基于一维卷积自编码器的负荷曲线深度嵌入聚类方法 | |
CN111626404A (zh) | 基于生成对抗神经网络的深度网络模型压缩训练方法 | |
CN114861746A (zh) | 基于大数据的反欺诈识别方法、装置及相关设备 | |
CN114492978A (zh) | 一种基于多层注意力机制的时空序列预测方法及设备 | |
CN112488312B (zh) | 一种基于张量的网络交换数据的自动编码机的构建方法 | |
CN112052940B (zh) | 基于向量压缩与重构的社交网络特征动态提取方法 | |
CN114332500A (zh) | 图像处理模型训练方法、装置、计算机设备和存储介质 | |
CN117272195A (zh) | 基于图卷积注意力网络的区块链异常节点检测方法及系统 | |
CN114254108B (zh) | 一种中文文本对抗样本生成的方法、系统及介质 | |
CN117893807A (zh) | 基于知识蒸馏的联邦自监督对比学习图像分类系统及方法 | |
CN114297323B (zh) | 一种一机多号识别方法、装置及其存储介质 | |
CN116628524A (zh) | 一种基于自适应图注意力编码器的社区发现方法 | |
CN112508170B (zh) | 一种基于生成对抗网络的多相关时间序列预测系统及方法 | |
Zhang et al. | Compressing knowledge graph embedding with relational graph auto-encoder | |
CN112000389A (zh) | 一种配置推荐方法、系统、装置及计算机存储介质 | |
CN115329118B (zh) | 一种面向垃圾图像的图像相似性检索方法及系统 | |
CN115361307B (zh) | 一种数据中心异常检测的方法、装置及相关产品 | |
CN112015922B (zh) | 多媒体文件的检索方法、装置、设备及存储介质 | |
CN117217362A (zh) | 业务流程预测方法、装置、设备及可读存储介质 | |
CN113434543A (zh) | 一种使用累计梯度信息的高维流数据稀疏在线分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20220218 |