CN113239272B

CN113239272B - 一种网络管控系统的意图预测方法和意图预测装置

Info

Publication number: CN113239272B
Application number: CN202110515792.6A
Authority: CN
Inventors: 易晶晶
Original assignee: Fiberhome Telecommunication Technologies Co Ltd
Current assignee: Fiberhome Telecommunication Technologies Co Ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2022-11-29
Anticipated expiration: 2041-05-12
Also published as: CN113239272A

Abstract

本发明公开了一种网络管控系统的意图预测方法和意图预测装置，方法包括将所述训练数据输入至神经网络模型进行训练得到第一预测模型，并通过所述第一预测模型得到所述测试数据对应的时间单元的预测数据；如果所述预测数据与所述测试数据之间存在突变区域，则通过知识图谱查询所述突变区域所对应的下一时间单元的用户操作，基于下一时间单元的用户操作生成矫正数据；通过所述测试数据和所述矫正数据对所述第一预测模型进行优化，得到第二预测模型，采用所述第二预测模型预测用户在所述目标时间单元的意图。本发明从用户数据包内容出发，利用深度包检测技术识别用户业务相关的关键特征用来表征用户意图，提高了理解意图的基础。

Description

一种网络管控系统的意图预测方法和意图预测装置

技术领域

本发明属于通信网络领域，更具体地，涉及一种网络管控系统的意图预测方法和意图预测装置。

背景技术

5G时代对网络运维带来巨大的挑战，网络复杂度陡然增大，网络流量爆炸式增长，网络成本高居不下。意图是一种表征用户目的和操作意愿的对象，通过翻译，意图可以表示为具体的服务或者网络的配置，具体包含一个或多个具备关联性的处理流程。当前通信网络的运维管控系统对用户的意图进行的处理多为被动识别和转译，对用户使用习惯关注较少，缺乏分析和主动运维的意识，用户体验感有限。

目前，现有技术对用户的意图预测研究多采用简单的时序神经网络等算法对用户意图本身进行序列化建模，基于人工智能模型的预测功能一般面向的是单目标数据类的预测，如网络故障预测、流量预测等。通过多层次上的演算得出预测模型，预测类型有限。且基于关联度较低的数据预测效果较差，无法预测基于操作序列理解的意图。另一方面，用户的未来意图与历史意图之间的关系在不同的场景下表现出随机性、连续性或关联性等不同特征，单对意图本身建模较为片面，这种预测方式会造成算法过拟合导致预测错误，进而降低意图预测的准确度。

而且，人工运维参与度高，配置流程繁琐，配置周期长，效率低、出错率高，运维成本和压力大增；网络故障和问题的响应方式比较被动，网络感知性差，欠缺主动运维能力，致使客户体验感差。

发明内容

针对现有技术的以上缺陷或改进需求，本发明提供了一种网络管控系统的意图预测方法和意图预测装置，将该意图预测方法应用于通信行业的网络管控系统的智能运维领域，覆盖了规律稳定型和短期序列型意图的预测，可较为精准地预测用户未来的意图，对用户未来意图进行预配置推荐保障了意图理解的合理性和准确性，提高了网络运维的智能性和高效性。

第一方面，本发明提供了一种网络管控系统的意图预测方法，所述意图预测方法包括：

获取目标时间单元之前的预设时长内的历史数据，对所述历史数据进行解析得到能够表征用户意图的特征矩阵，将所述特征矩阵划分为训练数据和测试数据；

将所述训练数据输入至神经网络模型进行训练得到第一预测模型，并通过所述第一预测模型得到所述测试数据对应的时间单元的预测数据；

如果所述预测数据与所述测试数据之间存在突变区域，则通过知识图谱查询所述突变区域所对应的下一时间单元的用户操作，基于下一时间单元的用户操作生成矫正数据；

通过所述测试数据和所述矫正数据对所述第一预测模型进行优化，得到第二预测模型，采用所述第二预测模型预测用户在所述目标时间单元的意图。

优选的，所述意图预测方法还包括：

按照预设的步长对所述预测数据与所述测试数据进行协方差运算，如果所述协方差均为正值，则不存在突变区域，则按照所述第一预测模型预测用户在目标时间单元的意图；

如果部分步长范围内的协方差为负值，则存在突变区域，需要对所述第一预测模型进行优化。

优选的，如果所述预测数据与所述测试数据之间存在突变区域，则通过知识图谱查询所述突变区域所对应的下一时间单元的用户操作，基于下一时间单元的用户操作生成矫正数据包括：

如果所述预测数据与所述测试数据之间存在突变区域，则获取多个突变时间，依次根据所述突变时间查询所述测试数据得到所述突变时间对应的第一用户操作；

将所述第一用户操作输入至所述知识图谱中，获取概率最高的图谱路径，将该图谱路径的末端值作为下一时间单元的第二用户操作；

将所述突变时间对应的除第一用户操作之外的其他特征值与所述第二用户操作组成下一时间单元的矫正数据。

优选的，通过所述测试数据和所述矫正数据对所述第一预测模型进行优化，得到第二预测模型，采用所述第二预测模型预测用户在所述目标时间单元的意图包括：

将所述测试数据作为所述第一预测模型的输入数据，将所述矫正数据作为第一预测模型的输出数据，对所述第一预测模型的参数进行优化，直至消除所有的突变区域，得到第二预测模型，采用所述第二预测模型预测用户在所述目标时间单元的意图。

优选的，所述获取目标时间单元之前的预设时长内的历史数据，对所述历史数据进行解析得到能够表征用户意图的特征矩阵，将所述特征矩阵划分为训练数据和测试数据包括：

获取目标时间单元之前的预设时长内的历史数据，标注所述历史数据的五元组信息；

对所述历史数据进行清洗得到有效数据，将所述五元组信息和所述有效数据生成有效数据序列，对所述有效数据序列进行向量归一化处理得到向量序列；

将所述向量序列根据业务场景和时间顺序分别通过循环神经网络算法进行特征提取，得到每个业务场景下能够表征意图的特征向量；

按照时间顺序将所述特征向量融合成同时刻的特征矩阵；

按照时间顺序将所述特征矩阵划分为训练数据和测试数据。

优选的，所述五元组信息包括时间、ip、业务场景、应用协议和用户操作。

优选的，所述特征矩阵的维度为业务场景的场景数M×最长的特征向量的维度数N，对于维度数小于N的特征向量，在该特征向量的末尾补充指定值。

优选的，按照时间顺序将所述特征矩阵划分为训练数据和测试数据包括：

按时间顺序以8:2比例将所述特征矩阵分为训练数据和测试数据。

优选的，所述意图预测方法包括：

采用深度包检测技术获取目标时间单元之前的预设时长内的历史数据。

第二方面，本发明还提供了一种意图预测装置，包括至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被程序设置为执行如第一方面所述的意图预测方法。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，具有如下有益效果：

本发明从用户数据包内容出发，利用深度包检测技术识别用户业务相关的关键特征用来表征用户意图，提高了理解意图的基础。越过识别当前意图，以预测用户在未来某时间点的意图为目标，通过多个神经网络组合提取特征、融合特征训练与知识图谱相结合的意图预测方法得到具备关联度的预测模型的待训练数据。将该意图预测方法应用于通信行业的网络管控系统的智能运维领域，覆盖了规律稳定型和短期序列型意图的预测，可较为精准地预测用户未来的意图。基于此预测模型对用户未来意图进行预配置推荐保障了意图理解的合理性和准确性，提高了网络运维的智能性和高效性。

附图说明

图1是本发明实施例提供的一种网络管控系统的意图预测方法的流程示意图；

图2是本发明实施例提供的一种建立和验证第一预测模型的过程示意图；

图3是本发明实施例提供的一种突变区域的示意图；

图4是本发明实施例提供的一种基于知识图谱进行二次增强训练的流程示意图；

图5是本发明实施例提供的通过知识图谱查询到的图谱路径示意图；

图6是本发明实施例提供的一种意图预测装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

实施例1：

参阅图1，在本实施例中，提供一种网络管控系统的意图预测方法，所述意图预测方法包括：

步骤101：获取目标时间单元之前的预设时长内的历史数据，对所述历史数据进行解析得到能够表征用户意图的特征矩阵，将所述特征矩阵划分为训练数据和测试数据。

在本实施例中，利用深度包检测技术目标时间单元m之前的预设时长n内的历史数据。其中，m和n可由用户指定和设置，例如，设置m＝20分钟，n＝720分钟，时间单元m起点为2020年12月8日0时。

然后，标注所述历史数据的五元组信息，其中，所述五元组信息包括时间、ip、业务场景、应用协议和用户操作。

并对所述历史数据进行清洗得到有效数据，将所述五元组信息和所述有效数据生成有效数据序列，对所述有效数据序列进行向量归一化处理得到向量序列，其中，向量序列的结构为(时间、ip、业务场景、应用协议、用户操作、数据1、数据2……数据x)，其中，数据1～数据x为前述经过清洗得到的有效数据。

其中，向量化方法举例如下：

时间特征：时间特征表示将时间经过变换生成的数值，表示步骤包括将时间改写为年月日时分的字符串ymdhm，将该字符串经过函数变换为整数即a*；

ip特征：ip表示为ip值经过整数变换生成的数值。表示步骤包括将ip地址的每段拆分为一个十进制数，通过二进制转化并拼接组合，然后把拼接后的二进制数转化为整数即b*；

业务场景特征：业务场景表示为实际业务场景c*；

应用协议特征：应用协议表示为以应用协议预定义的枚举值，如HTTP协议对应枚举值1，SNMP协议对应枚举值2，FTP协议对应枚举值3，表示为d*；

用户操作特征：用户操作表示为操作定义的枚举值，如调整带宽对应枚举值1、查询业务对应枚举值2、分析故障根因对应枚举值3。表示为e*。

归一化处理举例：将经过上述变换的(a*,b*,c*,d*,e*……)逐一进行归一化处理后得到向量序列(a1,b1,c1,d1,e1……)、(a2,b2,c2,d2,e2……)……(ay,by,cy,dy,ey……)，并标记用户操作为主特征。

在此，以m＝20分钟，n＝720分钟，时间单元m起点为2020年12月8日0时为例进行举例说明，n-10时刻(2020年12月8日0时前的第710分钟)的故障管理场景下，查看故障操作得到的信息为告警类型、告警ID、受影响的业务、推荐的解决操作及其他数据。2020年12月8日0时前的第710分钟至2020年12月8日0时期间，存在多组数据，将数据分组构成诸如(202012071150,10.25.124.1，故障管理，http，查看故障告警，单盘告警，alarm10974，biz28471，……)的向量序列。

在本实施例中，将所述向量序列根据业务场景和时间顺序分别通过循环神经网络算法进行特征提取，得到每个业务场景下能够表征意图的特征向量，其中，在进行特征提取时，业务场景与循环神经网络算法是一一对应的关系，通过循环神经网络倒数第二层获取特征，所提取到的特征保证五元组信息，还包括从数据1～数据x中提取到的特征；按照时间顺序将所述特征向量融合成同时刻的特征矩阵；按照时间顺序将所述特征矩阵划分为训练数据和测试数据。例如，可以将特征矩阵按8:2比例分为训练数据和测试数据。

在本实施例中，将向量序列根据业务场景和时间顺序分别通过多个循环神经网络算法进行特征提取，根据循环神经网络算法的逐层关联循环学习的特点，将神经网络的倒数第二层作为提取的特征，每个算法提取的特征结果为对应业务场景下能表征意图的特征序列，将特征序列构成特征向量，特征向量的表示为(时间、ip、业务场景、应用协议特征、用户操作、特征1、特征2、特征3……特征y)，其中y<＝x。

例如，通过特征提取获得故障管理场景下表征意图的特征向量为(时间，ip，故障管理，应用协议，用户操作，告警类型，告警ID，影响的业务，解决操作)，此时y＝4；流量管理场景下表征意图的特征向量为(时间，ip，流量管理，应用协议，用户操作，原流量值，调整的流量值，调整的资源)，此时y＝3；诸此场景特征向量提取结果。

其中，所述特征矩阵的维度为业务场景的场景数M×最长的特征向量的维度数N，对于维度数小于N的特征向量，在该特征向量的末尾补充指定值。其中，指定值可以为“-1”，同一时刻无特征数据向量的填充全-1向量处理。

步骤102：将所述训练数据输入至神经网络模型进行训练得到第一预测模型，并通过所述第一预测模型得到所述测试数据对应的时间单元的预测数据。

其中，所述神经网络模型可以为循环神经网络模型。

在本实施例中，将训练数据集输入循环神经网络模型进行训练，得到具备一般特征的第一预测模型，并通过测试数据对所述第一预测模型进行验证。

在本实施例中，通过第一预测模型可以预测到所述测试数据对应的时间单元的预测数据，将该预测数据与测试数据进行比较可以确定预测结果是否准确。

在实际应用场景下，通过协方差及步长来逐步衡量泛化误差、判断过拟合的程度，以验证预测结果准确性。其中，步长可由用户指定。在本实施例中，按照预设的步长对所述预测数据与所述测试数据的指定特征值进行协方差运算，其中，指定特征值为用户操作，如果所述协方差均为正值，则预测数据与测试数据同方向变化，预测结果较为准确，可视该用户在预设时长内的行为习惯为规律稳定型，不存在突变区域，则按照所述第一预测模型预测用户在目标时间单元的意图；

如果部分步长范围内的协方差为负值，则说明第一预测模型的拟合曲线中预测数据与测试数据差别较大，可认为这些区域拟合曲线不太准确，为突变区域，上述突变区域内数据规律特征有别于其它区域，此种情况将视为曲线过拟合，需要按照如下步骤103～104对所述第一预测模型进行优化。

步骤103：如果所述预测数据与所述测试数据之间存在突变区域，则通过知识图谱查询所述突变区域所对应的下一时间单元的用户操作，基于下一时间单元的用户操作生成矫正数据。

具体地，如果所述预测数据与所述测试数据之间存在突变区域，则将测试数据作为已知历史数据，通过知识图谱查询所述突变区域对应的测试数据的下一时间单元的用户操作，基于下一时间单元的用户操作生成矫正数据。

步骤104：通过所述测试数据和所述矫正数据对所述第一预测模型进行优化，得到第二预测模型，采用所述第二预测模型预测用户在所述目标时间单元的意图。

因通信行业中用户操作一般具备一定相关性，对于预测结果不准确的第一预测模型，此处结合以网络运维操作知识构成的知识图谱对第一预测模型进行矫正和增强，得到第二预测模型，采用所述第二预测模型预测用户在所述目标时间单元的意图。

具体地，如果所述预测数据与所述测试数据之间存在突变区域，则获取多个突变时间，依次根据所述突变时间查询所述测试数据得到所述突变时间对应的第一用户操作；将所述第一用户操作输入至所述知识图谱中，获取概率最高的图谱路径，将该图谱路径的末端值作为下一时间单元的第二用户操作；将所述突变时间对应的除第一用户操作之外的其他特征值与所述第二用户操作组成下一时间单元的矫正数据。将所述测试数据作为所述第一预测模型的输入数据，将所述矫正数据作为第一预测模型的输出数据，对所述第一预测模型的参数进行优化，直至消除所有的突变区域，得到第二预测模型，采用所述第二预测模型预测用户在所述目标时间单元的意图。

下面进行举例说明，结合图3，“。”代表测试数据中用户操作的实际值，“*”代表通过第一预测模型得到的预测数据中用户操作的预测值，存在突变区域[t，y]。结合图4，根据突变时间从测试数据中提取用户操作的特征值，按照时间顺序对用户操作特征值进行排序，再按照步骤102中向量、归一化方法特征值处理的逆过程还原“用户操作”为实际值(第一用户操作)，将其组成数据集合1(et1’,et+11’，…，ey1’)、(et2’,et+12’,…,ey2’)…(ett’,et+1t’,…,eyt’)，并记录每个特征值对应时刻的协议类型、业务场景类型。将数据集合1中的每一个用户操作输入至知识图谱中进行查询，确定用户的下一步操作。

其中，知识图谱为根据专家经验提取基于多个业务场景和协议的网络运维操作知识，构成以场景、操作、协议为实体，关系和属性为关联的知识图谱，具备行业特征和业务逻辑特征。通过图谱若未查询到图谱路径序列，则可视为该操作为单次无关联操作，该类操作不作为预测对象。反之，通过图谱若查询到图谱路径序列，根据图谱路径序列可以找到符合关联性操作序列的下一步操作。结合图4，在图谱路径序列中，下一步操作对应的向量集合按结果概率由高到低依次排序，其中r11，r12，r1n等代表概率排序对应的用户操作结果(末端值)，在本实施例中，获取概率最高的图谱路径，将该图谱路径的末端值作为下一时间单元的第二用户操作。根据该时刻的操作属性，补充用户ip值、业务场景等特征值组成下一时刻特征向量数据，依次处理图谱路径数据集，并重复特征矩阵生成步骤，生成矫正数据。将所述测试数据作为所述第一预测模型的输入数据，将所述矫正数据作为第一预测模型的输出数据，对所述第一预测模型的参数进行优化，直至消除所有的突变区域，得到第二预测模型，采用所述第二预测模型预测用户在所述目标时间单元的意图。

在实际应用场景下，诸如故障场景拟合突变由上述过程提取的数据集合1文字表征为(查看故障告警，分析故障根因，故障资源规划，资源倒换，重路由，查看解决方案)、(分析故障根因，可用资源查询，故障资源规划，资源倒换)…(查看故障告警，分类查看单盘告警，影响资源查看，重路由)，通过预知识图谱可查询到的操作路径经过概率排序后得到数据集的文字表示如图5所示，其中，向量末端数值即为操作路径查得的下一操作结果，取概率值最高的结果“重路由”、“查看解决方案”、……“资源倒换”作为矫正值。补充用户ip值、故障管理场景、告警类型、告警ID，影响的业务和解决操作等特征值组成下一时刻数据。依次处理图谱路径数据集，并重复特征矩阵生成步骤，生成矫正数据。

在实际应用场景下，意图识别的难度和准确程度依赖于输入语料的详细粒度，越具体越准确，越接近自然语言、越抽象越难以识别。现有的意图识别对象多为意图语料的直接输入，比如语音、文字等，识别方式通常为基于神经网络的直接映射，而构建在理解层面的意图识别要求较高，涉及到语义理解和关联性操作理解，仅依靠直接映射识别意图的准确率不高。

深度包检测技术获取的数据较ip数据包获取的流量数据粒度更细，深入用户业务数据包进行检测的数据更能直接反应用户的业务和操作类型。作为模型训练数据的基础数据具有更优越的直观性和学习到用户使用习惯的可能性。

通过多循环神经网络特征提取-融合特征-循环神经网络训练-知识图谱矫正的分步预训练方式，兼顾学习到用户在预设的历史时间段内的稳定型和序列型的操作习惯，增强了对用户历史操作和未来操作可能的内部关联性的理解，提高了意图预测的准确程度。

此外，本发明强调在识别端进行预测，约束与意图有直接关系的业务及环境特征作为模型训练来源，通过上述能反映用户意图的特征来理解用户意图操作的真正需求，提高意图理解和预测模型训练的准确程度，为系统的预配置推荐奠定合理依据。

掌握用户未来意图的可能性，提前分析未来意图对应的可用资源及配置，主动为用户提供预配置推荐，简化用户运维复杂度，提高网络运维智能性。

实施例2：

请参阅图6，图6是本发明实施例提供的一种意图预测装置的结构示意图。本实施例的意图预测装置包括一个或多个处理器41以及存储器42。其中，图6中以一个处理器41为例。

处理器41和存储器42可以通过总线或者其他方式连接，图6中以通过总线连接为例。

存储器42作为一种基于意图预测方法的非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块，上述实施例的方法以及对应的程序指令。处理器41通过运行存储在存储器42中的非易失性软件程序、指令以及模块，从而执行各种功能应用以及数据处理，实现前述实施例的方法。

其中，存储器42可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中，存储器42可选包括相对于处理器41远程设置的存储器，这些远程存储器可以通过网络连接至处理器41。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

值得说明的是，上述装置和系统内的模块、单元之间的信息交互、执行过程等内容，由于与本发明的处理方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

本领域普通技术人员可以理解实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(Read Only Memory，简写为ROM)、随机存取存储器(Random AccessMemory，简写为RAM)、磁盘或光盘等。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网络管控系统的意图预测方法，其特征在于，所述意图预测方法包括：

将所述训练数据输入至神经网络模型进行训练得到第一预测模型，并通过所述第一预测模型得到所述测试数据对应的时间单元的预测数据；按照预设的步长对所述预测数据与所述测试数据进行协方差运算，如果所述协方差均为正值，则不存在突变区域；如果部分步长范围内的协方差为负值，则存在突变区域；

如果所述预测数据与所述测试数据之间存在突变区域，则获取多个突变时间，依次根据所述突变时间查询所述测试数据得到所述突变时间对应的第一用户操作；将所述第一用户操作输入至知识图谱中，获取概率最高的图谱路径，将该图谱路径的末端值作为下一时间单元的第二用户操作；将所述突变时间对应的除第一用户操作之外的其他特征值与所述第二用户操作组成下一时间单元的矫正数据；

2.根据权利要求1所述的意图预测方法，其特征在于，所述意图预测方法还包括：

如果不存在突变区域，则按照所述第一预测模型预测用户在目标时间单元的意图；

如果存在突变区域，需要对所述第一预测模型进行优化。

3.根据权利要求1所述的意图预测方法，其特征在于，通过所述测试数据和所述矫正数据对所述第一预测模型进行优化，得到第二预测模型，采用所述第二预测模型预测用户在所述目标时间单元的意图包括：

4.根据权利要求1所述的意图预测方法，其特征在于，所述获取目标时间单元之前的预设时长内的历史数据，对所述历史数据进行解析得到能够表征用户意图的特征矩阵，将所述特征矩阵划分为训练数据和测试数据包括：

按照时间顺序将所述特征向量融合成同时刻的特征矩阵；

按照时间顺序将所述特征矩阵划分为训练数据和测试数据。

5.根据权利要求4所述的意图预测方法，其特征在于，所述五元组信息包括时间、ip、业务场景、应用协议和用户操作。

6.根据权利要求4所述的意图预测方法，其特征在于，所述特征矩阵的维度为业务场景的场景数M×最长的特征向量的维度数N，对于维度数小于N的特征向量，在该特征向量的末尾补充指定值。

7.根据权利要求4所述的意图预测方法，其特征在于，按照时间顺序将所述特征矩阵划分为训练数据和测试数据包括：

8.根据权利要求1所述的意图预测方法，其特征在于，所述意图预测方法包括：

9.一种意图预测装置，其特征在于，包括至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被程序设置为执行如权利要求1~8任一项所述的意图预测方法。