CN111600735B

CN111600735B - 一种样本数据的处理方法、系统及装置

Info

Publication number: CN111600735B
Application number: CN201910128534.5A
Authority: CN
Inventors: 匡立伟
Original assignee: Fiberhome Telecommunication Technologies Co Ltd
Current assignee: Wuhan Changjiang Computing Technology Co ltd; Fiberhome Telecommunication Technologies Co Ltd
Priority date: 2019-02-21
Filing date: 2019-02-21
Publication date: 2021-08-03
Anticipated expiration: 2039-02-21
Also published as: PH12021551184A1; WO2020168675A1; CN111600735A

Abstract

本发明公开了一种样本数据的处理方法、系统及装置，涉及通信技术领域。样本数据的处理方法包括：从数据库中获取至少一个目标网络在多个时间点的告警数据、故障数据和配置数据，并分别转换为相应的向量；为至少一个目标网络构建一个多层高维空间，包括每个目标网络的告警数据层、故障数据层和配置数据层；其中，每一层均为具有相同维度的二维矩阵，用于根据时间点的先后顺序按行存储所述转换得到的向量。本发明将面向运维专家的光网络的配置数据、告警数据和故障数据转换为面向机器学习的样本数据，并提高样本数据的存储效率，实现异厂商的跨域样本数据的互通和共享。

Description

一种样本数据的处理方法、系统及装置

技术领域

本发明涉及通信技术领域，具体是涉及一种样本数据的处理方法、系统及装置。

背景技术

光网络设备的当前性能指标越限或者一些潜在性能正在劣化时，会产生一系列的告警数据并上报给网管平台。当光网络设备出现故障时，则会同时产生告警数据和故障数据并上报。目前，运维专家通过分析告警数据和故障数据，定位故障发生位置，制定故障修复策略，然后通过管理平台和控制平台下发相应的配置数据到故障发生位置进行修复，必要时触发保护倒换以保证光网络的正常运行。

随着光网络规模日益增大，光网络设备不断增多，光网络产生的告警数据和故障数据数量越来越多，网络故障的定位和修复日趋复杂和费力，传统的故障处理模式面监巨大挑战，难以满足实际需要。特别是随着通信业务的飞速发展，通信技术的不断演进和变革，传统紧耦合、刚性网络架构转型为松耦合、灵活的云化网络架构是大势所趋。云化网络底层由光网络设备实现数据转发，中上层通过控制平台、管理平台、编排平台实现资源和业务的管理控制，系统运营和维护过程更加复杂，需要实现网络数据融合表示，高效提取数据操作和运算，以解决云化网络出现故障后难以及时恢复的问题。

采用人工智能技术对网络故障进行分析和修复是应对这些挑战的有效方案。但是，一方面，现有的面向运维专家的告警数据、故障数据和配置数据均包括各种类型的字段，例如告警开始时间、网元类型和中央处理器(Central Processing Unit，CPU)的内核数量等。这些异构数据不能直接用作面向机器学习的样本数据；另一方面，由于网络数据数量巨大以及各种类型网络具有差异等因素，导致无法根据机器学习的需求灵活地提取所需的样本数据。因此，迫切需要灵活、有效的样本数据处理方法，以满足机器学习模型测试和分析的需要。

发明内容

本发明实施例的目的在于提供一种样本数据的处理方法、系统及装置，将面向运维专家的光网络的配置数据、告警数据和故障数据转换为面向机器学习的样本数据，并提高样本数据的存储效率，实现异厂商的跨域样本数据的互通和共享。

第一方面，本发明实施例提供一种样本数据的处理方法，其包括：

从数据库中获取至少一个目标网络在多个时间点的告警数据、故障数据和配置数据，并分别转换为相应的向量；

为至少一个目标网络构建一个多层高维空间，包括每个目标网络的告警数据层、故障数据层和配置数据层；其中，每一层均为具有相同维度的二维矩阵，用于根据所述时间点的先后顺序按行存储所述转换得到的向量。

结合第一方面，在第一种可选的实现方式中，所述方法还包括：从所述告警数据层和故障数据层提取机器学习模型的输入向量，从所述配置数据层提取机器学习模型的输出向量。

在第一方面的第一种可选的实现方式中，对所述告警数据层和故障数据层依次进行模展开和按行向量展开，得到所述输入向量；对所述配置数据层依次进行模展开和按行向量展开，得到所述输出向量。

在第一方面的第二种可选的实现方式中，从所述多层高维空间中提取包括目标数据的子空间，子空间包括所述告警数据层、故障数据层和配置数据层中的至少一个子矩阵；

对所述子空间依次进行模展开和按行向量展开，得到所述输入向量和/或输出向量。

其中，一种可选的实现方式中，通过子空间切分算子对所述多层高维空间进行切分后得到所述子空间；

通过第一模展开操作算子对所述模展开矩阵按行向量展开得到所述输入向量；和/或，通过第二模展开操作算子对所述模展开矩阵按行向量展开得到所述输出向量。

结合第一方面第三种可选的实现方式，根据所述时间点的先后顺序，在二维的空矩阵中按行存储所述转换得到的向量，以分别得到每个所述目标网络的告警矩阵、故障矩阵和配置矩阵；

将所述告警矩阵、故障矩阵和配置矩阵分别存储在所述多层高维空间的告警数据层、故障数据层和配置数据层，每一层中没有存储数值的矩阵元素填充零值。

结合第一方面第四种可选的实现方式，所述转换得到的向量为基础向量与量纲扩展向量的hadamard积，其中，基础向量的每个元素为一个所述时间点的告警数据、故障数据或者配置数据中一个字段的数值，量纲扩展向量的元素为所述基础向量的相应元素的扩大或者缩小倍数。

第二方面，本发明实施例提供一种样本数据的处理系统，其包括：

转换模块，其用于从数据库中获取至少一个目标网络在多个时间点的告警数据、故障数据和配置数据，并分别转换为相应的向量；

空间构建模块，其用于为至少一个目标网络构建一个多层高维空间，包括每个目标网络的告警数据层、故障数据层和配置数据层；其中，每一层均为具有相同维度的二维矩阵，用于根据所述时间点的先后顺序按行存储所述转换得到的向量。

结合第二方面，在第一种可选的实现方式中，所述系统还包括：

提取模块，其用于从所述告警数据层和故障数据层提取机器学习模型的输入向量，从所述配置数据层提取机器学习模型的输出向量。

在第二方面的第一种可选的实现方式中，所述提取模块包括：

子矩阵处理单元，其用于从所述多层高维空间中提取出包括目标数据的子空间，子空间包括所述告警数据层、故障数据层和配置数据层的至少一个子矩阵；

矩阵运算单元，其用于对所述告警数据层和故障数据层依次进行模展开和按行向量展开，得到所述输入向量；对所述配置数据层依次进行模展开和按行向量展开，得到所述输出向量；以及对所述子空间依次进行模展开和按行向量展开，得到所述输入向量和/或输出向量。

结合第二方面，在第二种可选的实现方式中，所述构建模块包括：

矩阵预处理单元，其用于根据所述时间点的先后顺序，在二维的空矩阵中按行存储数据来源相同的所述转换得到的向量，以分别得到每个所述目标网络的告警矩阵、故障矩阵和配置矩阵；

矩阵构建单元，其用于将所述告警矩阵、故障矩阵和配置矩阵分别存储在所述多层高维空间的告警数据层、故障数据层和配置数据层，每一层中没有存储数值的矩阵元素填充零值。

第三方面，本发明实施例提供一种基于机器学习模型的网络故障处理装置，所述装置包括故障诊断系统以及第二方面所述的样本数据的处理系统；

所述故障诊断系统包括模型构建模块和输入输出控制模块，所述模型构建模块用于从所述处理系统获取输入向量和输出向量，以构建所述机器学习模型，其中，输入向量是从所述告警数据层和故障数据层提取的，输出向量是从所述配置数据层提取的；

所述输入输出控制模块用于获取目标网络的告警数据和故障数据，并分别转换为相应的向量后输入所述模型构建模块，将所述模型构建模块的输出向量下发给目标网络。

相对于现有技术，本发明实施例通过从数据库中获取至少一个目标网络在多个时间点的告警数据、故障数据和配置数据，并分别转换为相应的向量，为至少一个目标网络构建一个多层高维空间，为用于光网络故障处理的机器学习模型提供样本数据，将面向运维专家的光网络的配置数据、告警数据和故障数据转换为面向机器学习的样本数据，并提高样本数据的存储效率，实现异厂商的跨域样本数据的互通和共享。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一种云化网络架构示意图；

图2是本发明实施例样本数据的处理方法流程图；

图3是从数据库获取数据并进行向量化和矩阵化的示意图；

图4本发明另一实施例样本数据的处理方法流程图；

图5是多层高维空间的一个示例；

图6是本发明再一实施例样本数据的处理方法中，对多层高维空间进行模展开和按行向量展开的示意图；

图7是本发明再一实施例样本数据的处理方法中，对多层高维空间的子空间进行模展开和按行向量展开的流程图；

图8是对多层高维空间进行子空间切分的实施方式示意图；

图9是对多层高维空间进行子空间切分的另一实施方式示意图；

图10是子空间进行模展开和按行向量展开的示意图；

图11是多层高维空间的模展开和子空间切分流程图；

图12是本发明实施例样本数据的处理系统示意图；

图13是本发明实施例网络故障处理装置示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种样本数据的处理方法，为用于光网络故障处理的机器学习模型提供样本数据，将面向运维专家的光网络配置数据、告警数据和故障数据转换为面向机器学习的样本数据，并提高样本数据的存储效率，方便对样本数据的提取和比较等操作，有利于高效地构造机器学习模型。

本发明实施例涉及的光网络既可以是(Optical Transport Network，OTN)、分组传送网(Packet Transport Network，PTN)和分组光传送网络(Packet Optical TransportNetwork，POTN)等传统的光传送网，还可以是云化网络。

作为一个示例，图1是一种云化网络架构示意图，图1左下部分是云化网络基站，包括有源天线单元(Active Antenna Unit，AAU)、集中单元(Centralized Unit，CU)和分布式单元(Distributed Unit，DU)，其中，CU支持非实时无线高层协议以及部分核心网下沉功能和边缘应用功能，DU支持物理层功能和实时功能。图1下部是云化网络接入环、汇聚环和核心环，这些环形网络中的网络设备的告警数据、故障数据和配置数据通过网络管理平台或者控制器平台分别上报至图1上部的边缘数据中心、区域数据中心和核心数据中心，基站和边缘应用的告警数据、故障数据和配置数据通过本地网上报至边缘数据中心。5G核心网络的核心网功能分为用户面(User Plane，UP)功能与控制面(Control Plane，CP)功能。这些数据中心一方面承担着云化网络的管理、编排和控制等功能，另一方面部署云化网络的智能化平台，基于海量网络数据和强大的计算能力，构建云化网络运维管理知识库，担任云化网络的大脑。

在本发明实施例中，每个目标网络可以是图1中的接入环、汇聚环或者核心环，但并不局限于此。在其他的实施例中，每个目标网络还可以是传统光网络(OTN、PTN和POTN)中的接入网、汇聚网或者核心网。

在本发明实施例中，光网络设备将告警数据和相关的故障数据上报网络管理平台，由网络管理平台提交至数据中心。光网络设备产生的告警包括根源告警和衍生告警，根源告警和衍生告警之间相关联。光网络设备出现故障时，同时产生告警数据和故障数据并上报，并需要通过下发的配置数据对故障进行修复。

因为海量的光网络告警数据、故障数据和配置数据中包含大量重复冗余、不完备和不一致的数据，数据中心首先对数据进行清洗，去除重复冗余、低质量数据，得到高质量的告警数据集、故障数据集和配置数据集，并分别保存在数据库中。

图2所示为本发明实施例样本数据的处理方法流程图，样本数据的处理方法包括：

S110从数据库中获取一个目标网络在多个时间点的告警数据、故障数据和配置数据，并转换为相应的向量。

S120为该目标网络构建一个多层高维空间，其中，每一层均为具有相同维度的二维矩阵，用于根据时间点的先后顺序按行存储转换得到的向量，以分别得到每个目标网络的告警数据层、故障数据层和配置数据层。

在步骤S110中，基于告警数据、故障数据和配置数据在产生的时间上具有相关性，可以从数据库中获取设定的时间段内目标网络的所有告警数据、故障数据和配置数据，也可以按天、周或者月等周期性地从数据库中获取目标网络的所有告警数据、故障数据和配置数据。设定的时间段或者周期内包括多个时间点的告警数据，多个时间点的故障数据以及多个时间点的配置数据。

告警数据、故障数据和配置数据不仅是异构数据，而且这些数据包括各种类型的字段，而且不同的字段有不同的量纲。对不同量纲的异构数据的向量化表示方法包括：

首先，每条告警数据、故障数据或者配置数据都被转换为一个基础向量V_b，基础向量V_b的每个元素为每条告警数据、故障数据或者配置数据中一个字段的数值。

例如，获取的所有告警数据所构成的样本集有M_a条告警数据，其中，在一个时间点上产生的告警数据可以是一条或者多条，每条告警数据有N_a个字段。

作为一个示例，图3中所示的一条告警数据包括八个字段，分别是：告警数据的序列号Seq.No.、地址Addr.、线路号Line、告警类型AlarmType、告警开始时间BeginTime、告警结束时间EndTime、板类型BoardType和网元类型NetType，其中，告警开始时间BeginTime和告警结束时间EndTime精确到秒，地址Addr.和告警类型AlarmType为字符号，网元类型NetType为整型值。

将图3所示告警数据的所有字段的值转换为实数，从而表示为向量的元素。在告警数据的向量化过程中，这些字段的整型值作为元素值表示在向量中。可以将所有告警开始时间BeginTime和告警结束时间EndTime中的最小值对应为数值1，其他时间与最小时间相差的秒数加到数值1上，分别得到告警开始时间BeginTime和告警结束时间EndTime的对应值。例如，告警开始时间BeginTime比最小时间多10秒，则告警开始时间BeginTime对应数值11，将这两个字段按字典序进行排列，然后从1进行编号，将字符串转换为数值后作为向量的元素。

其次，对基础向量V_b进行量纲转换，转换得到的向量V为基础向量V_b与量纲扩展向量V_s的hadamard积，即V＝V_bοV_s，量纲扩展向量V_s的元素为基础向量V_b的相应元素的扩大或者缩小倍数，例如将带宽单位兆M扩大为千兆G，则量纲扩展向量V_s的元素为1024。

根据机器学习模型训练的要求，可以将基础向量与量纲扩展向量的对应元素相乘，生成适合训练要求的样本数据。同理，图3左下部分的配置数据和故障数据也转换为相应的向量，配置数据包括Num_CPUs：4，即CPU的内核数量，作为示例，图3下部的向量组显示了两个向量，分别由告警数据和配置数据转换得到。

对于光网络中保存在半结构化XML文档中的故障数据和配置数据，同样可以利用上述方法构建数据基础向量和量纲扩展向量，XML中键值对(Key/Value)的个数对应向量的维度，向量元素的值对应XML文档中的Value值。

在步骤S110中，为一个目标网络构建三对向量组，分别为告警数据基础向量组与量纲扩展向量组、故障数据基础向量组与量纲扩展向量组、以及配置数据基础向量组与量纲扩展向量组，得到的告警数据向量组包括由M_a条告警数据转换得到的M_a个告警数据向量，每个告警数据向量具有N_a个元素；故障数据向量组包括由M_f条故障数据转换得到的M_f个故障数据向量，每个故障数据向量具有N_f个元素；配置数据向量组包括由M_c条配置数据转换得到的M_c个配置数据向量，每个配置数据向量具有N_c个元素。

对不同量纲的异构数据的向量化表示后，步骤S120进行矩阵化表示，多层高维空间的二维矩阵的行数为告警数据向量组、故障数据向量组和配置数据向量组的向量总数的最大值，即M_a、M_f和M_c中的最大值，多层高维空间的二维矩阵的列数为告警数据向量组、故障数据向量组和配置数据向量组的向量元素总数的最大值，即N_a、N_f和N_c中的最大值。

根据M_a个告警数据向量的时间点的先后顺序，将告警数据向量组按行存储在多层高维空间的一层中，得到告警数据层。同样地，可以得到故障数据层和配置数据层。

多层高维空间表示为D＝R(I₁，I₂，I₃)，R表示多层高维空间在实数域上取值，I₁表示层数，I₂表示该层矩阵的行数，I₃表示该层矩阵的列数。例如，R(I₁，:，:)表示第I₁层矩阵元素，R(I₁，I₂，:)表示第I₁层第I₂行向量所有元素。R(2，:，:)表示第2层矩阵元素，R(2，3，:)表示第2层第3行向量的所有元素。

在本发明实施例中，多维高层空间的层数、行数和列数是确定的，也就是说，D＝R(I₁，I₂，I₃)中I₁，I₂和I₃的值，以及矩阵、向量和元素的位置都是确定的。在后续机器学习模型的构建和分析过程中，便于计算告警数据、故障数据和配置数据的交集和差集，以及进行关联分析处理等操作。

上述样本数据的处理方法中，步骤S110的另一种实施方式是步骤S110′。

在步骤S110′中，还可以根据时间点的先后顺序，在二维的空矩阵中按行存储转换得到的向量，以分别得到每个目标网络的告警矩阵、故障矩阵和配置矩阵。采用矩阵存储转换得到的向量，可以借助经典的稀疏矩阵存储方式节省存储空间。例如，可以基于压缩行存储(Compressed Row Storage)保存矩阵中的数据，以节省存储空间。

具体的，以前述步骤S110中同样的方式转换得到所有告警数据的向量，以行向量的方式存入一个二维的空矩阵中，形成告警矩阵，例如图3右下部分的二维矩阵，假如有M_a＝7000条告警数据，则形成7000行8列的告警矩阵。同样的，可以构建出故障矩阵和配置矩阵。

步骤S120的另一种实施方式是步骤S120′，其中，求取告警矩阵、故障矩阵和配置矩阵的最大行数和最大列数，将最大行数和最大列数作为多层高维模型每层矩阵的行数和列数。

然后将告警矩阵、故障矩阵和配置矩阵分别存储在多层高维空间的告警数据层、故障数据层和配置数据层，每一层中没有存储数值的矩阵元素填充零值。

得到多层高维空间后，可以借助经典的稀疏矩阵存储方式节省存储空间。例如，可以基于压缩行存储(Compressed Row Storage)保存多层高维空间。

采用多层高维空间统一表示告警数据、故障数据和配置数据，便于后续构建深度学习神经网络模型的输入和输出变量。深度学习神经网络模型的输入和输出采用向量表示形式，基于本发明实施例构建的多层高维空间可以方便、准确地将告警数据层和故障数据层转换为输入向量，将配置数据层转换为输出向量，从而对深度学习神经网络进行训练，挖掘告警数据、故障数据和配置数据之间的关联规律。

通常情况下，光网络的告警数据、故障数据和配置数据的时间点不同，在其他实施方式中，告警数据层、故障数据层和配置数据层中还可以均包括相同的时间点，对于每一层，如果在某个时间点存在向量组，则存入该层的相应行向量，如果在某个时间点没有数据，则在该层的相应行向量填充零值。

如前所述，光网络包括多个目标网络，例如图1中的接入环、汇聚环和核心环，分别以源领域和目标领域表示接入网、汇聚网、核心网和数据中心网络。例如，可以将接入网定义为源领域，将汇聚网定义为目标领域，或者将核心网定义为源领域，将数据中心网络定义为目标领域，不作限定。

在另一实施例中，为源领域和目标领域构建一个多层高维空间，参见图4所示，样本数据的处理方法包括：

S200数据采集与预处理。其具体包括：

S201光网络的告警数据、故障数据和配置数据由网络管理平台或者控制器平台上传至三类数据中心。

S202因为海量的光网络的告警数据、故障数据和配置数据中包含大量重复冗余、不完备、不一致的数据，三类数据中心会首先对数据进行清洗，去除重复冗余低质量数据，求得高质量的告警、故障、配置数据集，并分别保存在源领域数据库和目标领域数据库中。

S210依次采用不同量纲异构数据的向量化和矩阵化表示方法，将源领域和目标领域的告警数据、故障数据和配置数据分别转换为一维向量，然后分别表示成对应的二维矩阵。其具体包括：

S211一维向量的构建过程。

S212二维矩阵的构建过程。

具体的，根据源领域的告警数据、故障数据和配置数据分别构建二维的告警矩阵、故障矩阵和配置矩阵，根据目标领域的告警数据、故障数据和配置数据分别构建二维的告警矩阵、故障矩阵和配置矩阵，一维向量和二维矩阵的构建方法与前述实施例相似，此处不再赘述。

S220构建多层高维空间，实现源领域和目标领域的告警数据、故障数据和配置数据的统一表示。步骤S212中得到的矩阵的行数和列数可能不同，作为一个示例，假如源领域和目标领域的告警数据、故障数据和配置数据在矩阵化表示后得到的二维矩阵的行数和列数如下表1：

表1源领域和目标领域的二维矩阵的行数和列数示例

矩阵类型	告警矩阵的行列数	故障矩阵的行列数	配置矩阵的行列数
				源领域	5000×12	7000×18	3000×32
目标领域	3000×8	5000×12	2000×35

求取所有告警矩阵、故障矩阵和配置矩阵的最大行数和最大列数，将最大行数和最大列数作为多层高维空间的每层二维矩阵的行数和列数。以表一为例，则多层高维空间的每层二维矩阵的行数和列数分别为7000和35。其中，行数7000是指六个矩阵中最大的行数是源领域故障矩阵的行数，列数35是指六个矩阵中最大的列数是目标领域配置矩阵的列数。

求得最大行数7000和最大列数35后，基于上述表一中的六个矩阵构建一个6层的高维空间表示模型，生成6个7000行和35列的空矩阵，并将这6个矩阵中的数据复制至新生成的空矩阵中，没有存储数据的矩阵元素用零元素填充。

具体的，为源领域和目标领域构建的多层高维空间如图5所示，六层的多层高维空间D＝R(K₁，K₂，K₃)，第一层至第三层为源领域的告警数据层、故障数据层和配置数据层，分别对应源领域的告警矩阵、故障矩阵和配置矩阵，第四层至第六层为目标领域的告警数据层、故障数据层和配置数据层，分别对应目标领域的告警矩阵、故障矩阵和配置矩阵。其中，源领域的三层高维空间还可以表示为D_s＝R(I₁，I₂，I₃)，目标领域的三层高维空间还可以表示为D_t＝R(J₁，J₂，J₃)。

采用以上实施例中的方法，还可以为多个目标网络构建一个多层高维空间，例如接入网、汇聚网、核心网和数据中心网络，不作限定。

通过本发明实施例，对不同量纲的异构数据的向量化和矩阵化表示方法，能够将不同量纲的结构化、半结构化的光网络数据转换为向量和矩阵，因为有大量零元素填充，多层高维空间是稀疏矩阵，在保存过程中，可以采用经典的稀疏矩阵存储方法进行数据保存，以便节省存储空间。同时，构建多层高维空间不但实现源领域和目的领域的样本数据的统一表示，而且能够实现异厂商的跨域样本数据的互通和共享，为后续机器学习扫除信息孤岛障碍。

在前述实施例的基础上，在再一实施例中，样本数据的处理方法还包括：从告警数据层和故障数据层提取机器学习模型的输入向量，从配置数据层提取机器学习模型的输出向量。

在一种实施方式中，对告警数据层和故障数据层依次进行模展开和按行向量展开得到输入向量；对配置数据层依次进行模展开和按行向量展开得到输出向量。

参见图6所示，样本数据的处理方法包括：

S310对多层高维空间进行模展开得到模展开矩阵。

S320对模展开矩阵按行向量展开得到输入向量和输出向量。

对于前述实施例中的多层高维空间(可以是一个目标网络或者多个目标网络)，例如，图5所示的多层高维空间D＝R(K₁，K₂，K₃)，使用模展开操作算子从上到下对D＝R(K₁，K₂，K₃)的每一层依次展开，多层高维空间最上面的第H层放在最左边，最下面的第一层放在最右边，形成图6中的模展开矩阵，然后对模展开矩阵按行向量展开，得到图6右部的输入向量/输出向量，其中，第H层矩阵的第一个行向量排在第一位，然后是第H层矩阵的第二个行向量，最后是第一层的最后一个行向量。

作为一个示例，对于源领域的多层高维空间D_s＝R(I₁，I₂，I₃)，使用第一模展开操作算子f_si:D_s→V_ysi，将源领域的多层高维空间D_s＝R(I₁，I₂，I₃)中的告警数据层和故障数据层的转换为输入向量V_ysi。使用第二模展开操作算子f_so:Ds→V_yso将多层高维空间D_s＝R(I₁，I₂，I₃)中的配置数据层转化为向量V_yso。

在另一种实施方式中，从多层高维空间的子空间中提取输入向量和/或输出向量，参见图7所示，样本数据的处理方法包括：

S410从多层高维空间中提取包括目标数据的子空间，子空间包括告警数据层、故障数据层和配置数据层中的至少一个子矩阵。

子矩阵可以是多层高维空间的一层中的一个子矩阵；子矩阵也可以是多层高维空间的二层或以上，其中，子矩阵的每层为多层高维空间的一层的一个子矩阵。

S420对子空间进行模展开得到模展开矩阵，并对模展开矩阵按行向量展开得到输入向量和/或输出向量。

图8所示从多层高维空间得到子空间的实施方式示意图，其中，图8左部是前述实施例所构建的H层多层高维空间(如图5所示)。

第一种实施方式可以如图8中点划线所示，在多层高维空间的第一层和第H层分别提取一个子矩阵，同样地，从第二层提取一个子矩阵(为了清楚起见，从第二层提取子矩阵的点划线未在图8中示出)，得到图8右部点划线框内的子空间，该子空间包括3个子矩阵，这些子矩阵中的至少一个包括目标数据。

第二种实施方式可以如图8中虚线所示，首先从多层高维空间提取第一层和第二层，从第一层和第二层各提取一个子矩阵，得到图8右部虚线框内的子空间，该子空间包括2个子矩阵，这些子矩阵中的至少一个包括目标数据。同样地，还可以从第H层提取一个子矩阵，得到另一个子空间。

以上两种实施方式可以从多层高维空间的每一层的任意位置提取子矩阵，并且这两种实施方式可以任意组合，以得到包括目标数据的子空间。

第三种实施方式可以如图9所示，从多层高维空间的指定层的相同位置提取子矩阵后，得到子空间，该指定层可以是一层，也可以是二层以上，不作限定。

子空间切分操作算子操作定义为g:D→D′，提取多层高维空间中的数据，构建子空间D′。

还是以图5所示的多层高维空间为例，源领域的多层高维空间D_s＝R(I₁，I₂，I₃)，子空间切分操作算子定义为g_s:D_s→D_s′，提取源领域的多层高维空间中的数据，构建子空间D_s′＝R(I₁′，I₂′，I₃′)。目标领域的多层高维空间D_t＝R(J₁，J₂，J₃)，子空间切分操作算子操作定义为g_t:D_t→D_t′，提取目标领域多层高维空间中的数据，构建子空间D_t′＝R(J₁′，J₂′，J₃′)。

得到模展开矩阵后，通过第一模展开操作算子对模展开矩阵按行向量展开得到输入向量；和/或，通过第二模展开操作算子对模展开矩阵按行向量展开得到输出向量。

作为一个示例，参见图10所示的子空间模展开和按行向量展开的示意图，图10左部为从源领域的多层高维空间得到的子空间，该子空间可以表示为D_s′＝R(I₁′＝2，I₂′＝3，I₃′＝3)，这是一个二层三行三列的表示模型，其中R(1，:，:)表示源领域的告警数据层的一个子矩阵，R(2，:，:)表示源领域的故障数据层的一个子矩阵，R(1，1，:)表示告警数据层的一个子矩阵的第一个行向量，R(1，1，:)＝(6，5，13)。同理，R(2，:，3)表示故障数据层的一个子矩阵的第三个列向量，R(2，:，3)＝(12，7B，6)。在图10中，通过指定每层、每行和每列的坐标，可以准确定位子空间中的每一个元素，例如R(1，1，3)表示第一层第一行第三列元素的值为13，R(2，3，2)表示第二层第3行第2列元素的值为21。

对子空间进行模展开，将上边的故障数据层的子矩阵放在左边，将下边的告警数据层的子矩阵放在右边，得到图10右上部的模展开矩阵。

通过第一模展开操作算子对模展开矩阵按行向量展开得到输入向量，即图10右下部的包含18个元素的一维向量，其中，图10上部左边矩阵的第一个行向量位于输入向量的最左边，然后是图10上部右边矩阵的第一个行向量，最后是上部右边矩阵的第三个行向量。

图6显示了通过模展开操作算子对多层高维空间进行模展开得到模展开矩阵，并对模展开矩阵按行向量展开得到输入向量和输出向量。图10显示了通过模展开操作算子对多层高维空间的子空间进行模展开得到模展开矩阵，并对模展开矩阵按行向量展开得到输入向量和输出向量。

采用迁移学习等新技术，实现网络告警智能关联分析以及网络故障自动定位和自动愈合，已经成为当前运营商和厂商的研究重点。光网络故障自愈迁移学习的一个关键操作是对源领域的数据和目标领域的数据进行形式化描述，将面向人类运维专家表示的光网络配置、告警、故障数据转换为面向机器学习的样本数据，并需要灵活操作样本数据，包括求取源领域、目的领域的样本数据的交集和差集，准确提取部分样本数据进行测试和分析，本发明实施例样本数据的处理方法能够构建更有效的样本数据模型，方便对样本数据的提取和比较等操作，有利于高效地构造迁移学习模型。

作为一个示例，图11给出了一种用于迁移学习的多层高维空间的子空间切分、模展开和行向量展开流程图。

图11左边是源领域的多层高维空间D_s。通过第一模展开操作算子f_si和第二模展开操作算子f_so分别构建源领域的输入向量和输出向量，通过第一子空间切分算子g_s构建源领域的子空间D _s′。

图11右边是目标领域的多层高维空间。通过第三模展开操作算子f_ti和第四模展开操作算子f_to分别构建目标领域迁移学习输入和输出向量，通过第二子空间切分算子g_t构建目标领域的子空间D_t′。

图11上部的源领域输入向量V_ysi与目标领域输入向量V_yti共同组成光网故障智能自愈的迁移学习输入向量。源领域输出向量V_yso与目标领域输出向量V_yto共同组成光网故障智能自愈的迁移学习输出向量。

在样本数据的处理过程中，还可以根据具体实际应用场景，先从多层高维模型中提取包含作为目标数据的最关键属性数据的子空间，然后基于子空间构建输入向量和输出向量。采用复合函数f_siog_si:D_s→V_ysi构建源领域的输入向量，其中，运算符o表示先执行g_si操作，然后执行f_si操作。采用复合函数f_soog_so:Ds→V_yso构建源领域的输出向量。对于光网故障目标领域数据，本发明实施例采用复合函数f_tiog_ti:D_t→V_yti构建目标领域的输入向量，采用复合函数f_toog_to:D_y→V_yto构建目标领域的输出向量。

参见图12所示，本发明实施例还提供一种样本数据的处理系统，用于实现上述各实施例的方法，样本数据的处理系统包括转换模块101和空间构建模块102。

转换模块101用于从数据库中获取至少一个目标网络在多个时间点的告警数据、故障数据和配置数据，并分别转换为相应的向量。

空间构建模块102用于为至少一个目标网络构建一个多层高维空间，包括每个目标网络的告警数据层、故障数据层和配置数据层；其中，每一层均为具有相同维度的二维矩阵，用于根据时间点的先后顺序按行存储转换得到的向量。

在其他实施例中，样本数据的处理系统还包括提取模块103，其用于从告警数据层和故障数据层提取机器学习模型的输入向量，从配置数据层提取机器学习模型的输出向量。

具体的，提取模块103包括子矩阵处理单元1031和矩阵运算单元1032。

子矩阵处理单元1031用于从多层高维空间中提取出包括目标数据的子空间，子空间包括告警数据层、故障数据层和配置数据层的至少一个子矩阵。

矩阵运算单元1032用于对告警数据层和故障数据层依次进行模展开和按行向量展开，得到输入向量；对配置数据层依次进行模展开和按行向量展开，得到输出向量；以及对子空间依次进行模展开和按行向量展开，得到输入向量和/或输出向量。

具体的，空间构建模块102包括矩阵预处理单元1021和矩阵构建单元1022。

矩阵预处理单元1021用于根据时间点的先后顺序，在二维的空矩阵中按行存储数据来源相同的转换得到的向量，以分别得到每个目标网络的告警矩阵、故障矩阵和配置矩阵。

矩阵构建单元1022用于将告警矩阵、故障矩阵和配置矩阵分别存储在多层高维空间的告警数据层、故障数据层和配置数据层，每一层中没有存储数值的矩阵元素填充零值。

参见图13所示，本发明实施例还提供一种基于机器学习模型的网络故障处理装置，网络故障处理装置包括故障诊断系统200以及前述实施例样本数据的处理系统100。

故障诊断系统200包括模型构建模块201和输入输出控制模块202，模型构建模块201用于从样本数据的处理系统100获取输入向量和输出向量，以构建机器学习模型，其中，输入向量是从告警数据层和故障数据层提取的，输出向量是从配置数据层提取的。

输入输出控制模块202用于获取目标网络的告警数据和故障数据，并分别转换为相应的向量后输入模型构建模块201，将模型构建模块201的输出向量下发给目标网络。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DigitalSubscriber Line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够读取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(Digital Video Disc，DVD))或者半导体介质(例如，固态硬盘(Solid State Disk，SSD))等。

本发明不局限于上述实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

1.一种样本数据的处理方法，其特征在于，其包括：

为至少一个目标网络构建一个多层高维空间，包括每个目标网络的告警数据层、故障数据层和配置数据层；其中，每一层均为具有相同维度的二维矩阵，用于根据所述时间点的先后顺序按行存储所述转换得到的向量；

所述转换为相应的向量的方法包括：

将每条告警数据、故障数据或者配置数据转换为一个基础向量V_b，所述基础向量V_b的每个元素为每条告警数据、故障数据或者配置数据中一个字段的数值；

对基础向量V_b进行量纲转换，转换得到的向量V为基础向量V_b与量纲扩展向量V_s的hadamard积，其中，基础向量的每个元素为一个所述时间点的告警数据、故障数据或者配置数据中一个字段的数值，量纲扩展向量V_s的元素为所述基础向量V_b的相应元素的扩大或者缩小倍数；

其中，为一个目标网络构建三对向量组，分别为告警数据基础向量组与量纲扩展向量组、故障数据基础向量组与量纲扩展向量组、以及配置数据基础向量组与量纲扩展向量组，得到的告警数据基础向量组包括由M_a条告警数据转换得到的M_a个告警数据向量，每个告警数据向量具有N_a个元素；故障数据基础向量组包括由M_f条故障数据转换得到的M_f个故障数据向量，每个故障数据向量具有N_f个元素；配置数据基础向量组包括由M_c条配置数据转换得到的M_c个配置数据向量，每个配置数据向量具有N_c个元素；

所述方法还包括：从所述告警数据层和故障数据层提取机器学习模型的输入向量，从所述配置数据层提取机器学习模型的输出向量。

2.如权利要求1所述的样本数据的处理方法，其特征在于：

对所述告警数据层和故障数据层依次进行模展开和按行向量展开，得到所述输入向量；对所述配置数据层依次进行模展开和按行向量展开，得到所述输出向量。

3.如权利要求1所述的样本数据的处理方法，其特征在于：

从所述多层高维空间中提取包括目标数据的子空间，子空间包括所述告警数据层、故障数据层和配置数据层中的至少一个子矩阵；

4.如权利要求3所述的样本数据的处理方法，其特征在于：

通过子空间切分算子对所述多层高维空间进行切分后得到所述子空间；

5.如权利要求1所述的样本数据的处理方法，其特征在于：

根据所述时间点的先后顺序，在二维的空矩阵中按行存储所述转换得到的向量，以分别得到每个所述目标网络的告警矩阵、故障矩阵和配置矩阵；

6.一种样本数据的处理系统，其特征在于，其包括：

空间构建模块，其用于为至少一个目标网络构建一个多层高维空间，包括每个目标网络的告警数据层、故障数据层和配置数据层；其中，每一层均为具有相同维度的二维矩阵，用于根据所述时间点的先后顺序按行存储所述转换得到的向量；

所述转换为相应的向量的方法包括：

将每条告警数据、故障数据或者配置数据转换为一个基础向量Vb，所述基础向量Vb的每个元素为每条告警数据、故障数据或者配置数据中一个字段的数值；

对基础向量Vb进行量纲转换，转换得到的向量V为基础向量Vb与量纲扩展向量Vs的hadamard积，其中，基础向量的每个元素为一个所述时间点的告警数据、故障数据或者配置数据中一个字段的数值，量纲扩展向量Vs的元素为所述基础向量Vb的相应元素的扩大或者缩小倍数；

其中，为一个目标网络构建三对向量组，分别为告警数据基础向量组与量纲扩展向量组、故障数据基础向量组与量纲扩展向量组、以及配置数据基础向量组与量纲扩展向量组，得到的告警数据基础向量组包括由Ma条告警数据转换得到的Ma个告警数据向量，每个告警数据向量具有Na个元素；故障数据基础向量组包括由Mf条故障数据转换得到的Mf个故障数据向量，每个故障数据向量具有Nf个元素；配置数据基础向量组包括由Mc条配置数据转换得到的Mc个配置数据向量，每个配置数据向量具有Nc个元素；

所述系统还包括：

7.如权利要求6所述的样本数据的处理系统，其特征在于，所述提取模块包括：

8.如权利要求6所述的样本数据的处理系统，其特征在于，所述构建模块包括：

9.一种基于机器学习模型的网络故障处理装置，其特征在于：所述装置包括故障诊断系统以及如权利要求6至8任一所述的样本数据的处理系统；