CN115169498A

CN115169498A - 资产数据识别方法、装置、电子设备和计算机存储介质

Info

Publication number: CN115169498A
Application number: CN202210925901.6A
Authority: CN
Inventors: 徐桂忠; 方赴洋; 张峰; 司睿
Original assignee: CETC Information Science Research Institute
Current assignee: CETC Information Science Research Institute
Priority date: 2022-08-03
Filing date: 2022-08-03
Publication date: 2022-10-11

Abstract

本公开涉及互联网技术领域，提供一种资产数据识别方法、装置、电子设备和计算机存储介质，包括：对资产数据进行预处理；基于训练好的资源识别模型，对预处理后的资产数据进行资源分类，以得到资产数据对应的资源类别；其中，训练好的资源识别模型是预先根据预处理后的资产数据对预设的基于DQN的强化学习方法进行训练得到。本公开通过对资产数据进行预处理，并基于预先根据预处理后的资产数据对预设的基于DQN的强化学习方法进行训练得到的资源识别模型，对预处理后的资产数据进行资源分类，以得到资产数据对应的资源类别，使得资源识别模型在封闭内网环境中的识别准确率能够持续增强。

Description

资产数据识别方法、装置、电子设备和计算机存储介质

技术领域

本公开涉及互联网技术领域，特别涉及一种资产数据识别方法、装置、电子设备和计算机存储介质。

背景技术

现有技术中，对资源识别模型进行训练使用的训练数据集的数据通常是从外网收集的，然而，实际内网环境中的数据与上述训练数据集的数据在数据特征方面存在一定的差异，导致在利用上述资源识别模型对实际内网环境中的数据进行资源识别时，会出现资源识别模型识别准确率降低的问题。

为了提高资源识别模型对实际内网环境中的数据进行识别的准确率，现有技术常常采用基于神经拟合Q迭代算法(Neural Fitted Q Iteration，NFQ)和Q-learning强化学习算法来增强资源识别模型的识别准确率。对于NFQ这种强化学习方法，其优化方程定义的目标函数采用RPROP(resilient backpropagation，弹性反向传播)算法更新Q网络的参数，并使用了批量梯度下降法进行更新迭代，使得单次迭代的计算量过大。并且，NFQ这种强化学习方法需要反复对神经网络进行从头开始的上百次迭代，导致其效率低下。Q-learning强化学习算法需要使用Q表格，然而，在状态很多的情况下，Q表格会非常庞大，对其进行查找和存储均需要消耗大量的时间和空间，并且，Q-learning强化学习算法还存在过高估计的问题。

发明内容

本公开旨在至少解决现有技术中存在的问题之一，提供一种资产数据识别方法、装置、电子设备和计算机存储介质。

本公开的一个方面，提供了一种资产数据识别方法，包括：

对资产数据进行预处理；

基于训练好的资源识别模型，对预处理后的资产数据进行资源分类，以得到资产数据对应的资源类别；其中，训练好的资源识别模型是预先根据预处理后的资产数据对预设的基于DQN的强化学习方法进行训练得到。

可选的，训练好的资源识别模型根据以下步骤训练得到：

为预处理后的资产数据添加真实标签，得到训练数据，其中，真实标签用于指示资产数据对应的资源类别；

构建资源识别模型，其中，资源识别模型包括当前值网络、目标值网络和回放记忆单元；

将训练数据输入资源识别模型，利用预设的基于DQN的强化学习方法进行训练，以使资源识别模型的损失函数最小化，得到训练好的资源识别模型。

可选的，将训练数据输入资源识别模型，利用预设的基于DQN的强化学习方法进行训练，以使资源识别模型的损失函数最小化，得到训练好的资源识别模型，包括：

根据当前值网络的Q值和目标值网络的Q值之间的均方误差，构建资源识别模型的损失函数；

根据训练数据，基于ε贪婪算法进行经验积累，得到转移样本，并将转移样本存入回放记忆单元；

从回放记忆单元中随机抽取转移样本，并利用随机梯度下降算法更新当前值网络的参数，且每经过N次更新，将当前值网络的参数复制给目标值网络，直至损失函数最小，得到训练好的资源识别模型。

可选的，资源识别模型的损失函数表示为下式(1)：

L(θ_i)＝E_{s，a，r，s′}[(Y_i-Q(s，a|θ_i))²] (1)

其中，θ_i表示当前值网络的参数，E表示数学期望，s表示动作a对应的状态，r表示状态s对应的奖励值，s′表示状态s的下一个状态，Q(s，a|θ_i)表示当前值网络的Q值，Y_i表示目标Q值，且

表示目标值网络的Q值，a′表示状态s′对应的动作，

表示目标值网络的参数，γ表示损失系数，i表示更新次数。

可选的，利用随机梯度下降算法更新当前值网络的参数，包括：

对损失函数中的θ_i求偏导，得到下式(2)，其中，

表示关于θ_i的梯度：

基于关于θ_i的梯度，利用随机梯度下降算法更新当前值网络的参数。

可选的，当前值网络为卷积神经网络。

本公开的另一个方面，提供了一种资产数据识别装置，包括：

预处理模块，用于对资产数据进行预处理；

分类模块，用于基于训练好的资源识别模型，对预处理后的资产数据进行资源分类，以得到资产数据对应的资源类别；其中，训练好的资源识别模型是预先根据预处理后的资产数据对预设的基于DQN的强化学习方法进行训练得到。

本公开的另一个方面，提供了一种电子设备，包括：

至少一个处理器；以及，

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行前文记载的所述的方法。

本公开的另一个方面，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现前文记载的所述的方法。

本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现前文记载的所述的方法。

本公开相对于现有技术而言，对资产数据进行预处理，并基于预先根据预处理后的资产数据对预设的基于DQN的强化学习方法进行训练得到的资源识别模型，对预处理后的资产数据进行资源分类，以得到资产数据对应的资源类别，从而使得资源识别模型在封闭内网环境中的识别准确率能够持续增强。

附图说明

一个或多个实施方式通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施方式的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1为本公开一实施方式提供的一种资产数据识别方法的流程图；

图2为本公开另一实施方式提供的资源识别模型的训练流程图；

图3为本公开另一实施方式提供的利用预设的基于DQN的强化学习方法进行训练的流程图；

图4为本公开另一实施方式提供的一种资产数据识别装置的结构示意图；

图5为本公开另一实施方式提供的电子设备的结构示意图。

具体实施方式

为使本公开实施方式的目的、技术方案和优点更加清楚，下面将结合附图对本公开的各实施方式进行详细的阐述。然而，本领域的普通技术人员可以理解，在本公开各实施方式中，为了使读者更好地理解本公开而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本公开所要求保护的技术方案。以下各个实施方式的划分是为了描述方便，不应对本公开的具体实现方式构成任何限定，各个实施方式在不矛盾的前提下可以相互结合相互引用。

本公开的一个实施方式涉及一种资产数据识别方法，其流程如图1所示，包括：

步骤101，对资产数据进行预处理。

具体的，本步骤中的预处理包括但不限于特征提取、缺失值填补、归一化处理等。

步骤102，基于训练好的资源识别模型，对预处理后的资产数据进行资源分类，以得到资产数据对应的资源类别；其中，训练好的资源识别模型是预先根据预处理后的资产数据对预设的基于DQN的强化学习方法进行训练得到。

具体的，资源类别可以用来指示资产数据的类别特征。例如，当资产数据为带有情感色彩的主观性信息时，其对应的资源类别可以是表示其情感倾向性的类别，比如，可以是喜、怒、哀、乐等，也可以是批评、赞扬等。再例如，当资产数据为不带有情感色彩的客观性信息时，其对应的资源类别可以是表示其数据特征的类别，比如，可以是用户信息、设备信息等。

本公开实施方式相对于现有技术而言，对资产数据进行预处理，并基于预先根据预处理后的资产数据对预设的基于DQN的强化学习方法进行训练得到的资源识别模型，对预处理后的资产数据进行资源分类，以得到资产数据对应的资源类别，从而使得资源识别模型在封闭内网环境中的识别准确率能够持续增强。

示例性的，如图2所示，训练好的资源识别模型根据以下步骤训练得到：

步骤201，为预处理后的资产数据添加真实标签，得到训练数据，其中，真实标签用于指示资产数据对应的资源类别。

步骤202，构建资源识别模型，其中，资源识别模型包括当前值网络、目标值网络和回放记忆单元。

步骤203，将训练数据输入资源识别模型，利用预设的基于DQN的强化学习方法进行训练，以使资源识别模型的损失函数最小化，得到训练好的资源识别模型。

Q-Leaming强化学习算法是强化学习算法中基于价值的算法，Q即为Q(s，a)，是指在某一时刻的s状态下，采取动作a能够获得收益的期望，环境会根据代理的动作反馈相应的回报r，因此，Q-Learning强化学习算法的主要思想就是将状态s与动作a构建成一张Q表格来存储Q值，然后根据Q值选取能够获得最大收益的动作。然而，传统的Q表格形式的Q-Leaming强化学习算法有一个瓶颈，即，当问题越来越复杂时，使用表格来存储每一个状态s和动作a所拥有的Q值，所需要的存储空间会越来越大，并且，每次在如此庞大的表格中搜索对应的状态也是一件很耗时的事，这在一定程度上限制了Q-learning强化学习算法的应用。

DQN将Q-Learning强化学习算法中的Q表格变成了Q网络，但是在普通的Q-learning中，当状态空间和动作空间均离散且维数不高时，可使用Q表格储存每个状态动作对的Q值，而当状态空间和动作空间是高维连续时，使用Q表格较为困难，所以此时可以把Q表格更新转化为一函数拟合问题，通过拟合一个函数来代替Q表格产生Q值，使得相近的状态得到相近的输出动作。

DQN算法的基本结构是“环境一代理”框架，其方法的核心在于一个深度价值网络Q，深度价值网络Q按照相应的算法迭代更新，目标是估计每个状态s下选择动作a作用于环境，然后环境的状态s发生改变并返回相应的奖励值r(s，a)，这个奖励值r代表了当前状态s下选择动作a能够带来的未来奖励之和，而其目标即是最大化未来能够获得的所有奖励之和，由此调整动作并构成一个循环过程。

DQN算法中一般包含两个不同的神经网络模型，一个可以被称为当前值网络，另一个被称为目标值网络。当前值网络为每次被训练的模型，而目标值网络则相对来讲变化较小，可以被看作是当前值网络的历史版本，仅在多次训练后由当前值网络传值来进行更新。

DQN中也延用了Q-Learning强化学习算法的离线策略(Off-policy)的特点。然而，Q-Learning强化学习算法中用来计算目标值和预测值的Q是同一个Q，也就是说，Q-Leaming强化学习算法计算目标值和预测值使用了相同的神经网络，这样带来的一个问题就是，每次神经网络更新时，目标值也会更新，这会导致参数不收敛。而在有监督学习中，标签都是固定的，不会随着参数的更新而改变。因此，DQN在原来的Q网络即当前值网络的基础上又引入了一个计算目标值的Q网络即目标值网络。它和当前值网络结构相同，初始的权重也相同，只是当前值网络每次迭代都会更新，而目标值网络是每隔一段时间才会更新。

通过利用上述步骤预先根据预处理后的资产数据对基于DQN的强化学习方法进行训练，得到训练好的资源识别模型，使得该资源识别模型在对预处理后的资产数据进行资源分类时，能够持续增强识别准确率。

示例性的，如图3所示，步骤203包括：

步骤2031，根据当前值网络的Q值和目标值网络的Q值之间的均方误差，构建资源识别模型的损失函数。

步骤2032，根据训练数据，基于ε贪婪算法进行经验积累，得到转移样本，并将转移样本存入回放记忆单元。

步骤2033，从回放记忆单元中随机抽取转移样本，并利用随机梯度下降算法更新当前值网络的参数，且每经过N次更新，将当前值网络的参数复制给目标值网络，直至损失函数最小，得到训练好的资源识别模型。

DQN在训练过程中使用经验回放机制，在线处理得到的转移样本。在每个时间步t，将代理与环境交互得到的转移样本存储到回放记忆单元中。在训练时，每次从回放记忆单元中随机抽取小批量的转移样本，并使用随机梯度下降算法更新当前值网络的参数。由于在训练深度网络时，通常要求样本之间是相互独立的，因此，DQN这种随机采样的方式大大降低了样本之间的关联性，从而提升了算法的稳定性。

在选择动作a时，DQN使用ε贪婪算法选择，也就是在ε的概率下进行探索，随机选择动作a；在1-ε的概率下使用当前值网络决策获得下一步的动作a。ε贪婪算法可以鼓励代理进行探索，防止程序陷入局部最优值。

通过上述方法训练得到的资源识别模型，能够进一步提高资产数据类型识别的效率和准确率。

示例性的，当前值网络为卷积神经网络，从而使DQN能够使用卷积神经网络来逼近行为值函数。

DQN在Q-Learning强化学习算法的基础上作了一些改进，一是使用了卷积神经网络作为当前值网络来逼近行为值函数，二是使用了目标值网络来更新目标Q值，三是使用了经验回放机制，即利用回放记忆单元来存储经历过的数据，每次更新参数时，从回放记忆单元中抽取一部分数据用于更新，以此来打破数据间的关联。

DQN除了使用深度卷积神经网络近似表示当前的值函数之外，还单独使用了一个目标值网络来产生目标Q值。DQN利用当前值网络的输出来评估当前状态动作对的值函数，利用目标值网络的输出来近似表示值函数的优化目标，即目标Q值。当前值网络的参数是实时更新的，每经过N次更新，将当前值网络的参数复制给目标值网络，通过最小化当前值网络的Q值和目标Q值之间的均方误差来更新网络参数。

引入目标值网络后，目标Q值在一段时间内是保持不变的，从而在一定程度上降低了当前Q值和目标Q值之间的相关性，进而提升了算法的稳定性。

示例性的，资源识别模型的损失函数表示为下式(1)：

表示目标值网络的Q值，a′表示状态s′对应的动作，

表示目标值网络的参数，γ表示损失系数，i表示更新次数。

示例性的，利用随机梯度下降算法更新当前值网络的参数，包括：

对损失函数中的θ_i求偏导，得到下式(2)，其中，

表示关于θ_i的梯度：

DQN将奖励值和误差项缩小到有限的区间内，从而保证了Q值和梯度值均处于合理的范围内，进而提高了算法的稳定性。实验表明，DQN在解决诸如Atari2600游戏等类真实环境的复杂问题时，表现出与人类玩家相媲美的竞技水平，甚至在一些难度较低的非战略性游戏中，DQN的表现超过了有经验的人类玩家。在解决各类基于视觉感知的深度强化学习任务时，DQN使用了同一套网络模型、参数设置和训练算法，这充分说明了DQN具有很强的适应性和通用性。

本公开的另一个实施方式涉及一种资产数据识别装置，如图4所示，包括：

预处理模块401，用于对资产数据进行预处理；

分类模块402，用于基于训练好的资源识别模型，对预处理后的资产数据进行资源分类，以得到资产数据对应的资源类别；其中，训练好的资源识别模型是预先根据预处理后的资产数据对预设的基于DQN的强化学习方法进行训练得到。

本公开实施方式提供的资产数据识别装置的具体实现方法，可以参见本公开实施方式提供的资产数据识别方法所述，此处不再赘述。

本公开实施方式相对于现有技术而言，通过预处理模块对资产数据进行预处理，并通过分类模块基于预先根据预处理后的资产数据对预设的基于DQN的强化学习方法进行训练得到的资源识别模型，对预处理后的资产数据进行资源分类，以得到资产数据对应的资源类别，从而使得资源识别模型在封闭内网环境中的识别准确率能够持续增强。

本公开的另一个实施方式涉及一种电子设备，如图5所示，包括：

至少一个处理器501；以及，

与至少一个处理器501通信连接的存储器502；其中，

存储器502存储有可被至少一个处理器执行的指令，指令被至少一个处理器501执行，以使至少一个处理器501能够执行上述实施方式所述的方法。

其中，存储器和处理器采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器。

处理器负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。

本公开的另一个实施方式涉及一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述实施方式所述的方法。

即，本领域技术人员可以理解，实现上述实施方式所述方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本公开各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM(Read-OnlyMemory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、磁碟或者光盘等各种可以存储程序代码的介质。

本公开的另一个实施方式涉及一种计算机程序产品，包括计算机程序，计算机程序被处理器执行时实现上述实施方式所述的方法。

本领域的普通技术人员可以理解，上述各实施方式是实现本公开的具体实施方式，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本公开的精神和范围。

Claims

1.一种资产数据识别方法，其特征在于，所述方法包括：

对资产数据进行预处理；

基于训练好的资源识别模型，对预处理后的所述资产数据进行资源分类，以得到所述资产数据对应的资源类别；其中，所述训练好的资源识别模型是预先根据预处理后的所述资产数据对预设的基于DQN的强化学习方法进行训练得到。

2.根据权利要求1所述的方法，其特征在于，所述训练好的资源识别模型根据以下步骤训练得到：

为预处理后的所述资产数据添加真实标签，得到训练数据，其中，所述真实标签用于指示所述资产数据对应的资源类别；

构建所述资源识别模型，其中，所述资源识别模型包括当前值网络、目标值网络和回放记忆单元；

将所述训练数据输入所述资源识别模型，利用所述预设的基于DQN的强化学习方法进行训练，以使所述资源识别模型的损失函数最小化，得到所述训练好的资源识别模型。

3.根据权利要求2所述的方法，其特征在于，所述将所述训练数据输入所述资源识别模型，利用所述预设的基于DQN的强化学习方法进行训练，以使所述资源识别模型的损失函数最小化，得到所述训练好的资源识别模型，包括：

根据所述当前值网络的Q值和所述目标值网络的Q值之间的均方误差，构建所述资源识别模型的损失函数；

根据所述训练数据，基于ε贪婪算法进行经验积累，得到转移样本，并将所述转移样本存入所述回放记忆单元；

从所述回放记忆单元中随机抽取所述转移样本，并利用随机梯度下降算法更新所述当前值网络的参数，且每经过N次更新，将所述当前值网络的参数复制给所述目标值网络，直至所述损失函数最小，得到所述训练好的资源识别模型。

4.根据权利要求3所述的方法，其特征在于，所述资源识别模型的损失函数表示为下式(1)：

L(θ_i)＝E_s,a,r,s′[(Y_i-Q(s,a|θ_i))²] (1)

其中，θ_i表示所述当前值网络的参数，E表示数学期望，s表示动作a对应的状态，r表示状态s对应的奖励值，s′表示状态s的下一个状态，Q(s,a|θ_i)表示所述当前值网络的Q值，Y_i表示目标Q值，且

表示所述目标值网络的Q值，a′表示状态s′对应的动作，

表示所述目标值网络的参数，γ表示损失系数，i表示更新次数。

5.根据权利要求4所述的方法，其特征在于，所述利用随机梯度下降算法更新所述当前值网络的参数，包括：

对所述损失函数中的θ_i求偏导，得到下式(2)，其中，

表示关于θ_i的梯度：

基于关于θ_i的梯度，利用所述随机梯度下降算法更新所述当前值网络的参数。

6.根据权利要求2至5任一项所述的方法，其特征在于，所述当前值网络为卷积神经网络。

7.一种资产数据识别装置，其特征在于，所述装置包括：

预处理模块，用于对资产数据进行预处理；

分类模块，用于基于训练好的资源识别模型，对预处理后的所述资产数据进行资源分类，以得到所述资产数据对应的资源类别；其中，所述训练好的资源识别模型是预先根据预处理后的所述资产数据对预设的基于DQN的强化学习方法进行训练得到。

8.一种电子设备，其特征在于，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至6中任一项所述的方法。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法。