CN111104564A

CN111104564A - 基于深度增强学习的图信号节点采样方法

Info

Publication number: CN111104564A
Application number: CN201911280879.9A
Authority: CN
Inventors: 吴梦浩; 高延滨; 张强; 张帆; 刘哲均; 刘鸿宇; 王鹏飞; 荣寒潇
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-05-05

Abstract

本发明公开了基于深度增强学习的图信号节点采样方法，属于机器学习领域。该方法基于经典分立空间增强学习算法Deep Q Learning方法，把图中所有的信号节点作为增强学习中的动作空间，增强学习智体通过学习采取合适的节点来最大化地保留原图所包含的信息。我们独创性地设计了智体所运行的环境，在这个环境中智体通过采取动作来获得回报，不断的训练与提升其采样策略。该方法不需要大量的有标签数据，使用神经网络来处理大量的图数据，使用增强学习算法来自动化这一流程。实现对部分节点的精准筛选。训练好的智体可以在环境中自动根据图的特征选取合适的节点进行筛选，只要实际应用问题可以抽象为信号图，而且全程自动化采样，没有任何附加成本和人力参与。

Description

基于深度增强学习的图信号节点采样方法

技术领域

本发明属于机器学习领域，具体涉及基于深度增强学习的图信号节点采样方法。

背景技术

图信号处理领域中，图是一种数据结构模型，在其中包含节点与边，分别代表着对象与他们之间的关系。数据图通常包括很多节点和他的标签信息。尤其当下信息时代，每天都生产出大量的数据，其中如社交网络身份信息、网络支付信息、传感器网络信息、智能交通数据信息、生物网络信息等。大数据时代造成了存储介质资源的高需求，造成了处理大数据的繁重任务。对现实应用中的大数据进行完全地观察和处理是非常艰难的。在这些情况下，如果能够根据数据特征，对大数据集合中的一部分最优价值的节点进行选取，形成一个典型的采样集。在之后的应用数据的时通过采样集来还原完整的数结构将会减少上述数据处理压力。这也是图信号处理的一个基本问题。

随着机器学习领域技术的迭代发展以及计算机资源的发展，使用深度学习与神经网络来解决大数据问题已经成为一种趋势。神经网络相较于传统的智能算法，往往具有更高的模型拟合能力，具有高效的数据处理分析能力。我们把增强学习方法与深度学习方法结合，来解决图信号采样这一问题，让该方法能够快速地根据图特征选取最有价值的节点。更可靠地保留原图所包含的信息。

对图信号关键节点进行采样具有很大的实用意义，在此前，许多研究者提出的方法如随机游走方法，均匀采样方法等智能算法。这些方法的优点在于不受图具体细微特征的影响，可以快速地运行进行采样。然而缺点是采样集合不够精准，往往需要对大量的节点采样后才能保证还原原图信息。这也使得近些年一些研究者们使用其他方法来取代这两种被广泛应用的方法。比如最近乌克兰学者提出的基于多臂老虎机算法来进行图信号采样，该方法是传统增强学习中的一种智能方法，该方法进一步的提升了采样精准度。还有一些学者通过把图转换为向量，从而运用处理向量的理论和方法进行节点采样，但这种方法需要构建完备的图与向量的转换模型，前期工作仍较为繁重。还有学者提出了图神经网络，用来解决图特征处理方面的问题。对图信号采样工作的研究仍需要更多的创新与发展，来一步步完善这个问题。

本发明针对图理论中的图信号采样问题，采用了基于深度增强学习方法的采样方法。根据增强学习可以自动学习的特性，设计了智体运行环境，让智体在环境中自动训练并学习采样方法，从而完成节点的采样。因此该方法的使用中不需要大量的人力工作。

目前在核心期刊与专利查询中均未发现与此发明类似的方法介绍。

发明内容

本发明的目的在于提供操作方便，成本低的基于深度增强学习的图信号节点采样方法。

本发明的目的通过以下技术方案来实现：

基于深度增强学习的图信号节点采样方法，包含以下步骤：

步骤1：初始化图采样环境，获取图的关联矩阵、标签矩阵，其中标签矩阵可选，进入步骤2；

步骤2：初始化采样算法的超参数，包括总体回合数，每回合的总体步数，初始化记忆容量并设定为空集，随机初始化Q神经网络和目标Q神经网络，初始化总体采样集为空集，进入步骤3；

步骤3：初始化回合采样集等于总体采样集，智体接收环境的状态值，按照贪婪算法贪婪指数递增策略进行动作选择，并把选择的动作加到回合采样集中，进入步骤4；

步骤4：训练模拟环境基于标签传播算法进行图重建，用重建的图标签信息与原图标签信息进行比对并得到重建图标签预测错误的数目，定义奖励＝-错误节点数目/总体节点数目，进入步骤5；

步骤5：环境输出状态与奖励，智体记忆重载区对这回合的信息进行保存，并同时给出下一步的动作，进入步骤6；

步骤6：从记忆体重提取一组迷你数据，使用Deep Q Learning算法更新目标Q网络的目标值，其中Q值计算为奖励的折扣累积值，使用梯度下降方法对目标Q网络参数进行更新，每隔固定步数，目标Q网络中的参数值传递给Q网络，完成智体策略执行网络的更新；

步骤7：如果此时运行步数小于总体步骤数，则回到步骤3，否则进入步骤8；

步骤8：将动作节点加入到总体采样集合中，进入步骤9；

步骤9：如果此时运行回合数小于总体回合数，则回到步骤3，否则进入步骤10；

步骤10：得到采样节点子集，完成图关键节点采样任务，结束程序。

在智体训练过程中每个回合提供新的信号图，并同时提供给智体该图的关联矩阵，此关联矩阵作为智体所接收的状态量。步骤4所述的训练模拟环境，依照图的关联矩阵维度构建动作空间，智体在该动作空间中选择动作。步骤4所述的训练模拟环境，按照标签传播算法进行图重建，并使用重建精度作为智体所接收的奖励值。步骤6所述的Deep QLearning方法，使用神经网络读取状态信息，神经网络输出作为智体动作信息，并对采样过的结果进行存储成为智体的记忆力。每个回合末尾实际选择一个动作作为该回合的动作，所采样的节点总数与回合的数目一致。

本发明的有益效果在于：

本发明中基于增强学习算法的图信号采样方法与图信号处理模拟环境可在任何PC机进行运行与使用，不依赖与任何外部传感器。从硬件角度没有任何附加成本。对于不同应用领域的数据，只要实际应用问题可以抽象为信号图，都可使用本方法进行关键节点筛选。对于采样集合，可应用标签传播方法进行图还原。在使用方法时，面对不同的应用情景只需要替换超参数即可运行。其中回合设定为采样集的大小，动作空间设定为图中节点总数的大小。运行环境中的图改为需要采样的图即可。不需要对方法本身进行额外修改。全程自动化采样，没有任何附加成本和人力参与。

附图说明

图1为深度增强学习环境下智体训练系统图；

图2为基于深度增强学习算法的图信号采样方法运行流程图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

基于深度增强学习的图信号节点采样方法由基于增强学习的图信号采样与图重建智体训练模拟环境，基于Deep Q Learning算法的图信号采样方法，与对增强学习训练过程中回合与步骤的重新定义规划三部分组成。此外，在核心深度增强学习算法中，还使用到了批处理，记忆重载，贪婪算法等技术提升算法效率。其中训练模拟环境基于增强学习训练智体的逻辑构建而成，其对智体采取动作进行奖励反馈，并且在每回合后会生成新的环境状态训练智体。该环境可自动化的让智体运行与学习。采样方法基于经典深度学习算法Deep Q Learning，该方法可智能的探索动作空间，并根据环境给的奖励进行动作优化与调节。方法采用双神经网络设计，一个为Q神经网络，用于输出动作值Q，另一个为目标Q网络，用于从记忆重载中读取经历进行Q值学习。其中目标Q网络为策略学习网络，Q神经网络为动作执行网络。二者结合，并在一定的迭代周期后更新二者网络参数。在训练过程中，我们对状态，动作，奖励等信号进行批量的处理学习。为使得智体能在动作空间中探索各种动作的后果，我们使用贪婪算法来合理的规划选择网络输出的动作和随机产生的动作。在训练初始阶段完全随机产生动作，在训练到一定程度后，完全由神经网络产生动作，来保证输出动作的可靠性。

采样方法中，我们定义采样节点数目与增强学习训练的回合数是一致的，这样保证每部采取一个节点。在每个单独的回合内部，我们设计了100步骤，这100步骤中，初期智体开始于环境进行交互探索，并记录一些历史数据在记忆中，并不断从记忆中重载来训练神经网络。在步骤后期，网络趋于成熟，可以依据经验与网络参数合理化的选取一个最优的动作节点。在所有步骤中，贪婪算法也是由弱变强，初期的选择动作更多的是随机选择，有一定经验积淀后，贪婪算法强度增强，让非理性的选择逐渐趋于网络输出的结果，保持采样节点的准确与稳定性。在记忆重载阶段，方法中每部读取64组数据作为批训练，提升算法的运行效率。由这些方法的辅助，增强学习算法在这个环境中可以运行的更加稳定。

图1所示，系统整体运行结构图。图信号采样与重建处理环境A，增强学习智体B两大封闭部分组成。此外，在方法使用过程中，会产生过程变量如当前步骤中的状态1，当前步骤中的奖励2，当前步骤与下一步骤的分界线3，下一步骤中的状态与奖励4，当前状态下智体选择的动作5。其中环境A在图重建过程中基于智体动作，使用标签传播算法进行图重建。重建图与原图信息进行比对得到奖励值。其中新状态与旧状态都为图的关联矩阵，是一致的。这个设定与典型的增强学习环境不同。我们设计的环境中，每一单独的回合内状态为静态，并且这一设定不影响方法的正常使用与筛选策略的学习。其中智体B为该方法内学习采样策略的主题，其由神经网络构成，输入量为状态和奖励值，输出量为动作(节点)。智体拥有短时记忆，保存一定数目内处理过的量。从而具它能够从经验中进行学习。

图2所示，基于深度增强学习算法的图信号采样方法运行流程图。在图1的系统运行环境下，基于图2的步骤运行采样方法。方法最终得到采样子集合。整个系统的具体运行流程如下：

步骤1，初始化图采样环境，获取图的关联矩阵，标签矩阵(可选)。进入步骤2；

步骤2，初始化采样算法的超参数，包括总体回合数(要采样的样本集节点数)，每回合的总体步数，初始化记忆容量并设定为空集，随机初始化Q神经网络和目标Q神经网络，初始化总体采样集为空集。进入步骤3；

步骤3，初始化回合采样集等于总体采样集；智体接收环境的状态值，按照贪婪算法贪婪指数递增策略进行动作选择。并把选择的动作加到回合采样集中。进入步骤4；

步骤4，训练环境基于标签传播算法进行图重建，用重建的图标签信息与原图标签信息进行比对并得到重建图标签预测错误的数目。定义奖励＝-错误节点数目/总体节点数目。进入步骤5；

步骤5，环境输出状态与奖励，智体记忆重载区对这回合的信息进行保存，并同时给出下一步的动作。进入步骤6；

步骤6，从记忆体重提取一组迷你数据，使用Deep Q Learning算法更新目标Q网络的目标值。其中Q值计算为奖励的折扣累积值(此环节为增强学习典型算法)。使用梯度下降方法对目标Q网络参数进行更新。每隔固定步数，目标Q网络中的参数值传递给Q网络，完成智体策略执行网络的更新。进入步骤7；

步骤7，如果此时运行步数小于总体步骤数，则回到步骤3；否则进入步骤8；

步骤8，将动作节点加入到总体采样集合中；进入步骤9；

步骤9，如果此时运行回合数小于总体回合数，则回到步骤3；否则进入步骤10；

步骤10，得到采样节点子集，完成图关键节点采样任务，结束程序。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于深度增强学习的图信号节点采样方法，其特征在于，包含以下步骤：

步骤8：将动作节点加入到总体采样集合中，进入步骤9；

2.根据权利要求1所述的基于深度增强学习的图信号节点采样方法，其特征在于，在智体训练过程中每个回合提供新的信号图，并同时提供给智体该图的关联矩阵，此关联矩阵作为智体所接收的状态量。

3.根据权利要求1所述的基于深度增强学习的图信号节点采样方法，其特征在于，步骤4所述的训练模拟环境，依照图的关联矩阵维度构建动作空间，智体在该动作空间中选择动作。

4.根据权利要求1所述的基于深度增强学习的图信号节点采样方法，其特征在于，步骤4所述的训练模拟环境，按照标签传播算法进行图重建，并使用重建精度作为智体所接收的奖励值。

5.根据权利要求1所述的基于深度增强学习的图信号节点采样方法，其特征在于，步骤6所述的Deep Q Learning方法，使用神经网络读取状态信息，神经网络输出作为智体动作信息，并对采样过的结果进行存储成为智体的记忆力。

6.根据权利要求1所述的基于深度增强学习的图信号节点采样方法，其特征在于，每个回合末尾实际选择一个动作作为该回合的动作，所采样的节点总数与回合的数目一致。