CN113949582B

CN113949582B - 一种网络资产的识别方法、装置、电子设备及存储介质

Info

Publication number: CN113949582B
Application number: CN202111243157.3A
Authority: CN
Inventors: 张卓; 张迎苹; 古琳莹; 张楠; 田杰
Original assignee: Nsfocus Technologies Inc; Nsfocus Technologies Group Co Ltd
Current assignee: Nsfocus Technologies Inc; Nsfocus Technologies Group Co Ltd
Priority date: 2021-10-25
Filing date: 2021-10-25
Publication date: 2023-05-30
Anticipated expiration: 2041-10-25
Also published as: CN113949582A

Abstract

本申请公开一种网络资产的识别方法、装置、电子设备及存储介质，属于网络安全技术领域，该方法包括：获取待识别网络资产的响应报文，将响应报文输入到规则分析模型中进行规则分析，得到响应报文对应的规则特征，确定响应报文对应的规则特征与建立的各资产识别规则的规则特征之间的相似度，若存在与响应报文对应的规则特征之间的相似度高于预设值的第一资产识别规则，则从第一资产识别规则对应的网络资产中确定待识别网络资产的资产识别结果。其中，规则分析模型是对响应报文样本和响应报文样本对应的资产识别规则之间的匹配关系进行学习得到的，可以比较全面地捕捉到响应报文对应的规则特征，因此可提高对待识别网络资产的资产识别准确率。

Description

一种网络资产的识别方法、装置、电子设备及存储介质

技术领域

本申请涉及网络安全技术领域，尤其涉及一种网络资产的识别方法、装置、电子设备及存储介质。

背景技术

在信息安全领域中，与信息和网络有关的一切实体均可被称为网络资产。网络资产的探测与识别是进行网络安全监控、漏洞扫描上报、威胁态势感知等网络安全管理活动的重要前提。

相关技术中，利用资产识别规则对待识别网络资产的响应报文进行匹配，将匹配上的资产识别规则对应的网络资产作为待识别网络资产的资产识别结果。该方案的资产识别能力受限于资产识别规则的数量和质量，对资产识别规则本身存在强依赖关系。而在实际识别过程中，资产识别规则只能关注到响应报文的局部信息如响应报文中的字符信息，且对局部信息的扰动十分敏感，易受人为信息模糊和伪装的干扰，进而导致资产识别失效，乃至被引导进行资产识别误报。

发明内容

本申请实施例提供一种网络资产的识别方法、装置、电子设备及存储介质，用以解决相关技术中网络资产的资产识别准确率低的问题。

第一方面，本申请实施例提供一种网络资产的识别方法，包括：

获取待识别网络资产的响应报文；

将所述响应报文输入到规则分析模型中进行规则分析，得到所述响应报文对应的规则特征，所述规则分析模型是对响应报文样本和所述响应报文样本对应的资产识别规则之间的匹配关系进行学习得到的；

确定所述响应报文对应的规则特征与建立的各资产识别规则的规则特征之间的相似度；

若存在与所述响应报文对应的规则特征之间的相似度高于预设值的第一资产识别规则，则从所述第一资产识别规则对应的网络资产中确定所述待识别网络资产的资产识别结果。

在一些实施例中，所述规则分析模型包括依次连接的嵌入层、变换层、汇聚层和输出层，根据以下步骤训练所述规则分析模型：

获取多个响应报文样本；

通过所述嵌入层提取每个响应报文样本的文本特征和字符特征；

通过所述变换层对所述文本特征和所述字符特征进行变换处理；

通过所述汇聚层对变换处理后的文本特征和字符特征进行汇聚处理，得到所述响应报文样本对应的规则特征；

通过输出层识别所述响应报文样本对应的规则特征匹配的资产识别规则；

基于识别结果和所述响应报文样本实际对应的资产识别规则，调整所述嵌入层、所述变换层、所述汇聚层和所述输出层的参数，得到所述规则分析模型。

在一些实施例中，通过所述嵌入层提取每个响应报文样本的文本特征和字符特征，包括：

对所述响应报文样本的报文头进行特征提取，得到报文头特征向量；

对所述响应报文样本的报文体进行文本特征提取，得到报文体特征向量；

对所述响应报文样本中各词的预设词向量进行融合处理，得到第一特征向量；

基于所述响应报文样本中各字符的预设字符向量，生成所述响应报文样本中每个词的目标词向量，对各词的目标词向量进行融合处理，得到第二特征向量；

将所述报文头特征向量和所述报文体特征向量，作为所述响应报文样本的文本特征，将所述第一特征向量和所述第二特征向量，作为所述响应报文样本的字符特征。

在一些实施例中，所述变换层包括第一变换矩阵、第二变换矩阵和第三变换矩阵，通过所述变换层对所述文本特征和所述字符特征进行变换处理，包括：

通过所述第一变换矩阵对所述报文头特征向量进行转换处理，得到第一中间向量；

对所述第一特征向量和所述第二特征向量进行融合处理，通过所述第二变换矩阵对融合处理后的特征向量进行转换处理，得到第二中间向量；

通过所述第三变换矩阵对所述报文体特征向量进行转换处理，得到第三中间向量；

将所述第一中间向量和所述第三中间向量，作为变换处理后的文本特征，将所述第二中间向量，作为变换处理后的字符特征。

在一些实施例中，通过所述汇聚层对变换处理后的文本特征和字符特征进行汇聚处理，得到所述响应报文样本对应的规则特征，包括：

对所述第一中间向量、所述第二中间向量和所述第三中间向量中对应相同位置上的元素进行求和，得到所述响应报文样本对应的规则特征。

在一些实施例中，根据以下步骤建立每条资产识别规则的规则特征：

对与每条资产识别规则匹配的响应报文样本对应的规则特征进行组合，得到规则矩阵；

对所述规则矩阵进行奇异值分解处理，以得到右奇异矩阵；

将所述规则矩阵与所述右奇异矩阵中指定列的特征向量的左乘结果，确定为所述资产识别规则的规则特征。

在一些实施例中，还包括：

若确定不存在第一资产识别规则，则从各资产识别规则中选择与所述响应报文对应的规则特征之间的相似度最高的N条第二资产识别规则，将所述N条第二资产识别规则对应的网络资产作为第一资产集合，N为大于1的整数；

确定所述响应报文对应的规则特征与建立的各网络资产的规则特征之间的相似度，将与所述响应报文对应的规则特征之间相似度最高的M个网络资产作为第二资产集合，M为大于1的整数；

从所述第一资产集合和所述第二资产集合中确定所述待识别网络资产的资产识别结果。

在一些实施例中，根据以下步骤建立每种网络资产的规则特征：

确定每种网络资产对应的资产识别规则；

对各条资产识别规则的规则特征进行加权求和，得到所述网络资产的规则特征，每条资产识别规则的权重根据所述资产识别规则对应的响应报文样本数量在所述网络资产对应的响应报文样本中的数量占比确定。

在一些实施例中，从所述第一资产集合和所述第二资产集合中确定所述待识别网络资产的资产识别结果，包括：

针对所述第一资产集合和所述第二资产集合中的每种网络资产，若所述网络资产包含在所述第一资产集合中，则基于所述网络资产对应的每条资产识别规则的规则特征与所述响应报文对应的规则特征之间的相似度，对所述网络资产进行评分，得到第一得分；

若所述网络资产包含在所述第二资产集合中，则基于所述网络资产的规则特征与所述响应报文的规则特征之间的相似度对所述网络资产进行评分，得到第二得分；

基于所述第一得分和/或所述第二得分，确定所述网络资产的评分；

将评分最高的网络资产，确定为所述待识别网络资产的资产识别结果。

在一些实施例中，基于所述网络资产对应的每条资产识别规则的规则特征与所述响应报文对应的规则特征之间的相似度，对所述网络资产进行评分，得到第一得分，包括：

针对所述网络资产对应的每条资产识别规则，将所述资产识别规则对应的响应报文样本在所述网络资产对应的响应报文样本中的数量占比，确定为所述资产识别规则的权重；

将所述资产识别规则的权重与对应相似度的乘积，确定为所述资产识别规则的得分；

确定各资产识别规则的得分之和，为所述第一得分。

在一些实施例中，基于所述网络资产的规则特征与所述响应报文的规则特征之间的相似度对所述网络资产进行评分，得到第二得分，包括：

将所述网络资产对应的响应报文样本在所有响应报文样本中的数量占比，确定为所述网络资产的权重；

将所述网络资产的权重与对应相似度的乘积，确定为所述第二得分。

第二方面，本申请实施例提供一种网络资产的识别装置，包括：

获取模块，用于获取待识别网络资产的响应报文；

分析模块，用于将所述响应报文输入到规则分析模型中进行规则分析，得到所述响应报文对应的规则特征，所述规则分析模型是对响应报文样本和所述响应报文样本对应的资产识别规则之间的匹配关系进行学习得到的；

确定模块，用于确定所述响应报文对应的规则特征与建立的各资产识别规则的规则特征之间的相似度；

识别模块，用于若存在与所述响应报文对应的规则特征之间的相似度高于预设值的第一资产识别规则，则从所述第一资产识别规则对应的网络资产中确定所述待识别网络资产的资产识别结果。

在一些实施例中，还包括训练模块，所述规则分析模型包括依次连接的嵌入层、变换层、汇聚层和输出层，所述训练模块用于根据以下步骤训练所述规则分析模型：

获取多个响应报文样本；

在一些实施例中，所述训练模块具体用于：

在一些实施例中，所述变换层包括第一变换矩阵、第二变换矩阵和第三变换矩阵，所述训练模块具体用于：

在一些实施例中，所述训练模块具体用于：

在一些实施例中，还包括建立模块，用于根据以下步骤建立每条资产识别规则的规则特征：

对所述规则矩阵进行奇异值分解处理，以得到右奇异矩阵；

在一些实施例中，还包括：

第一选择模块，用于在确定不存在第一资产识别规则时，从各资产识别规则中选择与所述响应报文对应的规则特征之间的相似度最高的N条第二资产识别规则，将所述N条第二资产识别规则对应的网络资产作为第一资产集合，N为大于1的整数；

第二选择模块，用于确定所述响应报文对应的规则特征与建立的各网络资产的规则特征之间的相似度，将与所述响应报文对应的规则特征之间相似度最高的M个网络资产作为第二资产集合，M为大于1的整数；

所述识别模块，还用于从所述第一资产集合和所述第二资产集合中确定所述待识别网络资产的资产识别结果。

在一些实施例中，还包括建立模块，用于根据以下步骤建立每种网络资产的规则特征：

确定每种网络资产对应的资产识别规则；

在一些实施例中，所述识别模块具体用于：

确定各资产识别规则的得分之和，为所述第一得分。

在一些实施例中，所述识别模块具体用于：

第三方面，本申请实施例提供一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中：

存储器存储有可被至少一个处理器执行的指令，该指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述网络资产的识别方法。

第四方面，本申请实施例提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，所述电子设备能够执行上述网络资产的识别方法。

本申请实施例中，获取待识别网络资产的响应报文，将响应报文输入到规则分析模型中进行规则分析，得到响应报文对应的规则特征，确定响应报文对应的规则特征与建立的各资产识别规则的规则特征之间的相似度，若存在与响应报文对应的规则特征之间的相似度高于预设值的第一资产识别规则，则从第一资产识别规则对应的网络资产中确定待识别网络资产的资产识别结果，其中，规则分析模型是对响应报文样本和响应报文样本对应的资产识别规则之间的匹配关系进行学习得到的。这样，规则分析模型可以比较全面地捕捉到响应报文对应的规则特征，对局部信息的扰动有一定的鲁棒性，对人为信息模糊和伪装的干扰也有一定鉴别能力，所以可提高对待识别网络资产的资产识别准确率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例提供的一种网络资产的识别方法的流程图；

图2为本申请实施例提供的一种训练规则分析模型的方法流程图；

图3为本申请实施例提供的一种建立每条资产识别规则的规则特征的方法流程图；

图4为本申请实施例提供的一种从第一资产集合和第二资产集合中确定待识别网络资产的资产识别结果的方法流程图；

图5为本申请实施例提供的一种网络资产的识别过程示意图；

图6为本申请实施例提供的一种规则分析模型的训练过程示意图；

图7为本申请实施例提供的一种网络资产的评分过程示意图；

图8为本申请实施例提供的一种网络资产的识别装置的结构示意图；

图9为本申请实施例提供的一种用于实现网络资产的识别方法的电子设备的硬件结构示意图。

具体实施方式

为了解决相关技术中网络资产的资产识别准确率低的问题，本申请实施例提供了一种网络资产的识别方法、装置、电子设备及存储介质。

以下结合说明书附图对本申请的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本申请，并不用于限定本申请，并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

为了便于理解本申请，本申请涉及的技术术语中：

网络资产，可以指计算机(或通讯)网络中的各种设备(如主机、路由器等)的硬件信息如设备名称、设备型号等，也可以指计算机(或通讯)网络中各种设备的软件信息，如软件名称、使用的什么编程语言、提供的什么服务、使用的什么框架等。

响应报文，指网络资产对接收到的请求报文的应答报文。

资产识别规则，一般是正则表达式，用于匹配响应报文中的特定字符。

响应报文对应的规则特征、资产识别规则的规则特征、以及网络资产的规则特征一般表现为向量的形式，所以规则特征可表现为特征向量的形式。

图1为本申请实施例提供的一种网络资产的识别方法的流程图，包括以下步骤。

在步骤S101中，获取待识别网络资产的响应报文。

在步骤S102中，将响应报文输入到规则分析模型中进行规则分析，得到响应报文对应的规则特征，规则分析模型是对响应报文样本和响应报文样本对应的资产识别规则之间的匹配关系进行学习得到的。

具体实施时，规则分析模型可包括依次连接的嵌入层、变换层、汇聚层和输出层，并可根据图2所示的流程训练规则分析模型，该流程包括以下步骤：

在步骤S201a中，获取多个响应报文样本。

其中，多个响应报文样本对应的通信协议可以相同也可以不同。

在步骤S202a中，通过嵌入层提取每个响应报文样本的文本特征和字符特征。

比如，可对每个响应报文样本的报文头进行特征提取，得到报文头特征向量，对该响应报文样本的报文体进行文本特征提取，得到报文体特征向量，将报文头特征向量和报文体特征向量，作为该响应报文样本的文本特征。其中，报文头特征向量用于描述报文头信息如报文头中包含哪些字段、这些字段在报文头中的排列顺序等；报文体特征向量用于描述报文体信息如报文体包含几个数据部分、每个数据部分包含哪些关键字符等。

这样，分别对响应报文样本的报文头和报文体进行特征提取，可获取到响应报文样本的全局特征信息和隐藏的结构特征信息，利于提升最终得到的规则分析模型对获取到的响应报文的全局特征和隐藏的结构特征的表达准确度。

并且，可对每个响应报文样本中各词的预设词向量进行融合处理，得到第一特征向量，基于该响应报文样本中各字符的预设字符向量，生成该响应报文样本中每个词的目标词向量，对各词的目标词向量进行融合处理，得到第二特征向量，将第一特征向量和第二特征向量，作为该响应报文样本的字符特征。

这样，分别逐词逐字符地对响应报文样本进行字符特征提取，可获取到响应报文样本更多的局部特征信息，利于提升最终得到的规则分析模型对响应报文的局部特征的表达准确度。

一般地，响应报文样本和响应报文由英文字母和特殊字符组成，其中，英文字母如a～z、A～Z，特殊字符如@、*、～等。为了便于说明响应报文样本的字符特征提取过程，假设某个响应报文样本为hello word，其包括hello和word两个词，包括h、e、l、o、w、r、d七个字符。

针对响应报文样本hello word，可分别查找hello和word对应的预设词向量，然后，对hello和word各自对应的预设词向量进行融合处理，得到第一特征向量。考虑到各预设词向量的维度一般是相同的，可对hello和word各自对应的预设词向量中位于相同位置上的元素进行相加处理，从而得到第一特征向量。

并且，可分别查找h、e、l、o、w、r、d对应的预设字符向量，基于h、e、l、o各自对应的预设字符向量，生成hello的目标词向量。考虑到各预设字符向量的维度一般是相同的，可对h、e、l、l、o各自对应的预设字符向量中位于相同位置上的元素进行相加处理，从而得到hello的目标词向量。基于o、w、r、d各自对应的预设字符向量，生成word的目标词向量。类似地，可w、o、r、d各自对应的预设字符向量中位于相同位置上的元素进行相加处理，从而得到word的目标词向量。然后，对hello和word的目标词向量进行融合处理，得到第二特征向量。比如，对hello和word各自的目标词向量中位于相同位置上的元素进行相加处理，从而得到第二特征向量。

在步骤S203a中，通过变换层对每个响应报文样本的文本特征和字符特征进行变换处理。

以变换层包括第一变换矩阵、第二变换矩阵和第三变换矩阵为例，在通过变换层对每个响应报文样本的文本特征和字符特征进行变换处理时，可通过第一变换矩阵对该响应报文样本的报文头特征向量进行转换处理，得到第一中间向量，对该响应报文样本的第一特征向量和第二特征向量进行融合处理，比如对第一特征向量和第二特征向量中位于相同位置上的元素进行相加处理，通过第二变换矩阵对融合处理后的特征向量进行转换处理，得到第二中间向量，通过第三变换矩阵对该响应报文样本的报文体特征向量进行转换处理，得到第三中间向量，进而将第一中间向量和第三中间向量，作为该响应报文样本变换处理后的文本特征，将第二中间向量，作为该响应报文样本变换处理后的字符特征。

在步骤S204a中，通过汇聚层对每个响应报文样本变换处理后的文本特征和字符特征进行汇聚处理，得到该响应报文样本对应的规则特征。

比如，对每个响应报文样本对应的第一中间向量、第二中间向量和第三中间向量中对应相同位置上的元素进行求和，从而得到该响应报文样本对应的规则特征。

在步骤S205a中，通过输出层识别每个响应报文样本对应的规则特征匹配的资产识别规则。

比如，将每个响应报文样本对应的规则特征输入到输出层，得到该响应报文样本在各资产识别规则之间的匹配概率，将概率最高的资产识别规则确定为该响应报文样本匹配的资产识别规则。

在步骤S206a中，基于识别结果和每个响应报文样本实际对应的资产识别规则，调整嵌入层、变换层、汇聚层和输出层的参数，得到规则分析模型。

比如，可基于识别结果和每个响应报文样本实际对应的资产识别规则，调整嵌入层、变换层和汇聚层的参数，以提升规则分析模型的资产识别准确率，在确定资产识别准确率达到设定准确率时，将当前的规则分析模型作为最终的规则分析模型。

在步骤S103中，确定响应报文对应的规则特征与建立的各资产识别规则的规则特征之间的相似度。

具体实施时，可根据图3所示的流程建立每条资产识别规则的规则特征，该流程包括以下步骤：

在步骤S301a中，对与每条资产识别规则匹配的响应报文样本对应的规则特征进行组合，得到规则矩阵。

比如，将与每条资产识别规则匹配的响应报文样本对应的规则特征(表现为特征向量的形式)按列进行组合，得到规则矩阵。

在步骤S302a中，对规则矩阵进行奇异值分解处理，以得到右奇异矩阵。

一般地，对规则矩阵进行奇异值分解处理，可以得到一个左奇异矩阵和一个右奇异矩阵，左奇异矩阵和右奇异矩阵均为方阵，且左奇异矩阵的行数和列数均为规则矩阵的行数，右奇异矩阵的行数和列数均为规则矩阵的列数。

假设特征向量的维度为300维、与某条资产识别规则匹配的响应报文样本有100个，则规则矩阵的大小为300*100，对这个规则矩阵在进行奇异值分解处理后得到的左奇异矩阵的大小为300*300、右奇异矩阵的大小为100*100。

在步骤S303a中，将规则矩阵与右奇异矩阵中指定列的特征向量的左乘结果，确定为资产识别规则的规则特征。

考虑到右奇异矩阵中对角线上的特征值是按照从大到小排列的，所以可将将规则矩阵与右奇异矩阵中首列的特征向量的左乘结果，确定为资产识别规则的规则特征。

沿用上例，规则矩阵为300*100，右奇异矩阵中首列的特征向量为100*1，那么，规则矩阵与首列的特征向量的左乘结果为300*1，即资产识别规则的规则特征也是300维的。

后续，在确定响应报文对应的规则特征与建立的各资产识别规则的规则特征之间的相似度时，可计算响应报文对应的规则特征与建立的每条资产识别规则的规则特征之间的余弦相似度，将余弦相似度作为两者之间的相似度。

在步骤S104中，判断是否存在与响应报文对应的规则特征之间的相似度高于预设值的第一资产识别规则，若是，则进入S105；若否，则进入S106。

其中，预设值如98％。

具体实施时，当存在第一资产识别规则时，说明资产识别结果的可信度是比较高的，所以可直接从第一资产识别规则对应的网络资产中确定待识别网络资产的资产识别结果，而当不存在第一资产识别规则时，说明资产识别结果的可信度是比较低的，为了提升识别准确度，可进一步结合建立的各网络资产的规则特征进行资产识别。下面分别对这两种情况进行说明。

在步骤S105中，从第一资产识别规则对应的网络资产中确定待识别网络资产的资产识别结果。

比如，从第一资产识别规则中选择相似度最高的一条资产识别规则，将这条资产识别规则对应的网络资产，确定为待识别网络资产的资产识别结果。

在步骤S106中，从各资产识别规则中选择与响应报文对应的规则特征之间的相似度最高的N条第二资产识别规则，将N条第二资产识别规则对应的网络资产作为第一资产集合，N为大于1的整数。

需要说明的是，一种网络资产对应的资产识别规则可能有多条，所以N条第二资产识别规则对应的网络资产至多有N种。

在步骤S107中，确定响应报文对应的规则特征与建立的各网络资产的规则特征之间的相似度，将与响应报文对应的规则特征之间相似度最高的M个网络资产作为第二资产集合，M为大于1的整数。

具体实施时，可确定每种网络资产对应的资产识别规则，对各条资产识别规则的规则特征进行加权求和，得到该种网络资产的规则特征，其中，每条资产识别规则的权重根据该条资产识别规则对应的响应报文样本数量在该种网络资产对应的响应报文样本中的数量占比确定。

后续，在确定响应报文对应的规则特征与建立的各网络资产的规则特征之间的相似度时，可计算响应报文对应的规则特征与建立的每种网络资产的规则特征之间的余弦相似度，将余弦相似度作为两者之间的相似度。

在步骤S108中，从第一资产集合和第二资产集合中确定待识别网络资产的资产识别结果。

具体实施时，可按照图4所示的流程从第一资产集合和第二资产集合中确定待识别网络资产的资产识别结果，该流程包括以下步骤：

在步骤S401a中，针对第一资产集合和第二资产集合中的每种网络资产，若该网络资产包含在第一资产集合中，则基于该网络资产对应的每条资产识别规则的规则特征与响应报文对应的规则特征之间的相似度，对该网络资产进行评分，得到第一得分。

比如，针对该网络资产对应的每条资产识别规则，将该资产识别规则对应的响应报文样本在该网络资产对应的响应报文样本中的数量占比，确定为该资产识别规则的权重，然后，将该资产识别规则的权重与对应相似度(即该资产识别规则的规则特征与响应报文对应的规则特征之间的相似度)的乘积，确定为该资产识别规则的得分，进而将各资产识别规则的得分之和，确定为该网络资产的第一得分。

在步骤S402a中，若该网络资产包含在第二资产集合中，则基于该网络资产的规则特征与响应报文的规则特征之间的相似度对该网络资产进行评分，得到第二得分。

比如，将该网络资产对应的响应报文样本在所有响应报文样本中的数量占比，确定为该网络资产的权重，进而将该网络资产的权重与对应相似度(即该网络资产的规则特征与响应报文对应的规则特征之间的相似度)的乘积，确定为该网络资产的第二得分。

在步骤S403a中，基于第一得分和/或所述第二得分，确定该网络资产的评分。

具体实施时，若该网络资产只有第一得分，则可将第一得分确定为该网络资产的评分；若该网络资产只有第二得分，则可将第二得分确定为该网络资产的评分，若该网络资产同时有第一得分和第二得分，则可将第一得分和第二得分的和确定为该网络资产的评分。

在步骤S404a中，将评分最高的网络资产，确定为待识别网络资产的资产识别结果。

本申请实施例中，在模型训练阶段，可以提取响应报文样本的报文体特征、报文头特征、字符特征和词特征，基于这些特征学习响应报文样本与对应资产识别规则之间的匹配关系，这样，训练得到的规则分析模型对响应报文样本的局部特征、全局特征、以及隐藏的结构特征的表达都更准确，不易受响应报文局部信息的扰动，也不易受人为信息模糊和伪装的干扰，利于提高资产识别准确率。在资产识别阶段，若存在与响应报文的规则特征之间的相似度高于预设值的第一资产识别规则，则从第一资产识别规则对应的网络资产中确定待识别网络资产的资产识别结果，若不存在第一资产识别规则，则进一步结合网络资产的规则特征进行资产识别，且在识别过程中结合考虑各条资产识别规则的权重和各种网络资产的权重，以进一步提升资产识别的准确性。

本申请实施例可基于已有的规则知识库，利用深度学习技术与矩阵分解理论，完成对规则知识库中资产识别规则的向量化和对网络资产的向量化，并基于向量化后的资产识别规则和网络资产，实现对资产识别规则所不能识别的网络资产的识别。

下面结合具体实施例对本申请实施例的方案进行介绍。

将所有响应报文样本表示为：X＝(x⁽¹⁾,x⁽²⁾,x⁽³⁾,......,x^(m))，将规则知识库表示为：

并指定字符向量与词向量的维度为Dim₁，指定文本向量的维度为Dim₂。其中，m表示响应报文样本的总个数，pat_k表示第k条资产识别规则，asset_k表示第k条资产识别规则对应的网络资产，P_num表示资产识别规则的总条数，Asset表示网络资产集合，Anum表示网络资产的总种数。

网络资产的向量化表示(即网络资产的规则特征)为：

资产识别规则的向量化表示(即资产识别规则的规则特征)为/>

这两者需要预先确定。其中，Rule_a表示第a种网络资产的向量化表示，P_k表示第k条资产识别规则的向量化表示。

图5为本申请实施例提供的一种网络资产的识别过程示意图，大体包括模型训练阶段和资产识别阶段，模型训练阶段所使用的响应报文样本即实际网络中的应用层协议报文文本，规则知识库则来源于业务积累。下面对图5进行详细说明。

一、模型训练阶段

1、调用资产识别规则对所有响应报文样本进行匹配，依据匹配结果标注响应报文样本对应的资产识别规则。

对于响应报文样本

标注形成/>

其中，x⁽ⁱ⁾表示第i个响应报文样本，pat⁽ⁱ⁾表示第i个响应报文样本对应的资产识别规则，asset⁽ⁱ⁾表示第i个响应报文样本对应的网络资产。一般地，确定任一响应报文样本对应的资产识别规则，即可确定该响应报文样本对应的网络资产，所以也可以不对asset⁽ⁱ⁾进行标注。

2、对所有响应报文样本进行特征提取。

2.1、提取报文头信息。

针对每个响应报文样本，可原样保留大小写信息，获得规模为H的报头词表，抽取报头词表形成报文头的特征向量，则对于x⁽ⁱ⁾，有

表示报头词表中第t个报头字段在第i个响应报文样本x⁽ⁱ⁾中的位置信息，t＝1,2,...,H。

2.2、分别提取词Word级别和字符Char级别的字符特征。

以

表示所有响应报文样本包含的词所形成的词表的词向量，其中，vocab_size表示词表中词的总数量，/>

表示词表中第w个词的预设词向量，即词表中第w个词Word级别的词向量。

对于第i个响应报文x⁽ⁱ⁾而言，该响应报文Word级别的向量化表示(即Word级别的字符特征)

为：

上述公式表示对该响应报文中各词Word级别的词向量中对应相同位置上的元素进行相加处理，得到该响应报文Word级别的向量化表示。

以

表示所有响应报文样本包含的字符所形成的字符表的字符向量，其中，char_size表示字符表中字符的总数量，Char_c表示字符表中第c个字符的字符向量。

针对词表中的第w个词，可从

中查找组成该词的各字符的字符向量，对各字符的字符向量进行融合处理，得到第w个词的目标词向量/>

即第w个词Char级别的词向量。/>

对于第i个响应报文x⁽ⁱ⁾而言，该响应报文Char级别的向量化表示(即Char级别的字符特征)

为：

上述公式表示对该响应报文中各词Char级别的词向量中对应相同位置上的元素进行相加处理，得到该响应报文Char级别的向量化表示。

2.3、提取报文体特征向量。

基于Doc2Vec嵌入，获得所有响应报文样本的报文体特征向量

其中/>

表示第i个响应报文样本的报文体特征向量。

3、训练规则分析模型

以各响应报文样本的报头特征向量、报文体特征向量、Word级别的字符特征、以及Char级别的字符特征作为有监督模型训练的预训练嵌入，以拟合各响应报文样本实际对应的资产识别规则为训练目标，重新训练获得统一的文本向量

图6为本申请实施例提供的一种规则分析模型的训练过程示意图，模型包括嵌入层、变换层、汇聚层和输出层，其中，嵌入层的参数可预先设置并在后续训练过程中微调。

具体实施时，将x⁽ⁱ⁾输入到嵌入层后，嵌入层会输出

和/>

然后，变换层依据如下映射公式对/>

和/>

进行变换处理，得到：

第一中间向量：

第二中间向量：

第三中间向量：

汇聚层依据如下公式对第一中间向量、第二中间向量和第三中间向量进行汇聚处理，得到x⁽ⁱ⁾对应的规则特征Doc⁽ⁱ⁾：

之后，由输出层识别Doc⁽ⁱ⁾匹配的资产识别规则。

基于识别结果和x⁽ⁱ⁾实际对应的资产识别规则，调整嵌入层、变换层、汇聚层和输出层的参数，以得到规则分析模型。

在训练完规则分析模型后，可以利用规则分析模型获得每个响应报文样本的

4、对资产识别规则和网络资产分别进行向量化表示。

针对第k条资产识别规则，可以dim2为行、以该条资产识别规则对应的每个响应报文样本的Doc为一列，构成规则矩阵S，对S进行奇异值分解处理，再基于分解结果对S进行主维度变换，从而获得该条资产识别规则的规则特征P_k，k＝1，2，…P_num。

一般地，对S进行奇异值分解处理后可表示为：

S＝U∑V^T

其中，U为左奇异分解矩阵，V为右奇异分解矩阵。

取V的首列特征向量v₁∈R^M×1，则可以获得第k条资产识别规则的向量化表达为(即第k条资产识别规则的规则特征为)：

P_k＝S_kv₁。

然后，针对第a种网络资产，可依照公式加权计算该种网络资产的向量表达(即该种网络资产的规则特征为)：

其中，R_a为第a种网络资产对应的资产识别规则的条数，

为第a种网络资产对应的第r条资产识别规则的权重，/>

为第a种网络资产对应的第r条资产识别规则的规则特征，/>

为第a种网络资产对应的第r条资产识别规则所匹配的响应报文样本个数。

本申请实施例中，对响应报文样本进行向量化表示，能够很好地捕捉响应报文的全局信息和隐藏的结构信息。在此基础上，从样本维度对每条资产识别规则对应的规则矩阵进行矩阵分解，提取与这条资产识别规则对应的响应报文样本的共有信息，进而实现资产识别规则的向量化表示和网络资产的向量化表示，有利于解决缺少相应资产识别规则情况下的资产识别问题。

二、资产识别阶段

将获取的待识别网络资产的响应报文输入到训练好的规则分析模型中进行规则分析，得到响应报文的规则特征，对响应报文的规则特征与各条资产识别规则的规则特征进行相似度计算。

第一种情况：存在相似度高于预设值的第一资产识别规则。

其中，预设值如98％。

此时，可依据如下判据进行资产识别：

即，将相似度最高的资产识别规则对应的网络资产，作为待识别网络资产的资产识别结果。

第二种情况：不存在相似度高于预设值的第一资产识别规则。

此时，可从各资产识别规则中选择与响应报文对应的规则特征之间的相似度最高的N条第二资产识别规则，将这N条第二资产识别规则对应的网络资产作为第一资产集合，并确定响应报文对应的规则特征与建立的各网络资产的规则特征之间的相似度，将与响应报文对应的规则特征之间相似度最高的M个网络资产作为第二资产集合，然后，从第一资产集合和第二资产集合中，确定待识别网络资产的资产识别结果，N和M均为大于1的整数。

下面举例对第二种情况进行说明。

参见图7，假设从各资产识别规则中选择与响应报文对应的规则特征之间的相似度最高的3条第二资产识别规则为：rule₁、rule₂、rule₃，其中，rule₁的规则特征与响应文本对应的规则特征之间的相似度为95％，rule₂的规则特征与响应文本对应的规则特征之间的相似度为92％，rule₃的规则特征与响应文本对应的规则特征之间的相似度为90％，并且，rule₁和rule₂对应网络资产1、rule₃对应网络资产2，即第一资产集合＝{网络资产1，网络资产2}。并假设与响应报文对应的规则特征之间相似度最高的3个网络资产为：网络资产1、网络资产2和网络资产3，即第二资产集合＝{网络资产1，网络资产2，网络资产3}，且网络资产1的规则特征与响应文本对应的规则特征之间的相似度为93％，网络资产2的规则特征与响应文本对应的规则特征之间的相似度为92％，网络资产3的规则特征与响应文本对应的规则特征之间的相似度为90％。

进一步地，假设有100个响应报文样本，且与rule₁对应的响应报文样本有5个，与rule₂对应的响应报文样本有10个，与rule₃对应的响应报文样本有5个，与网络资产1对应的响应报文样有20个，与网络资产2对应的响应报文样有10个，与网络资产3对应的响应报文样有10个。

那么：

由于网络资产1的评分最高，所以待识别网络资产的识别结果为网络资产1。

本申请实施例，通过规则分析模型抽取响应报文的全局信息及隐藏结构信息，利于实现对更多场景的资产识别，提高了资产识别的弹性与抗干扰能力。另外，还实现了资产识别规则和网络资产的向量化，这样从新的维度对响应报文进行信息提取聚合，可有效排除噪声干扰，更好地进行规则特征和资产特征表征，提高资产识别规则的匹配弹性，扩大资产识别能力。

当本申请实施例中提供的方法以软件或硬件或软硬件结合实现的时候，电子设备中可以包括多个功能模块，每个功能模块可以包括软件、硬件或其结合。

基于相同的技术构思，本申请实施例还提供一种网络资产的识别装置，网络资产的识别装置解决问题的原理与上述网络资产的识别方法相似，因此网络资产的识别装置的实施可参见网络资产的识别方法的实施，重复之处不再赘述。图8为本申请实施例提供的一种网络资产的识别装置的结构示意图，包括获取模块801、分析模块802、确定模块803、识别模块804。

获取模块801，用于获取待识别网络资产的响应报文；

分析模块802，用于将所述响应报文输入到规则分析模型中进行规则分析，得到所述响应报文对应的规则特征，所述规则分析模型是对响应报文样本和所述响应报文样本对应的资产识别规则之间的匹配关系进行学习得到的；

确定模块803，用于确定所述响应报文对应的规则特征与建立的各资产识别规则的规则特征之间的相似度；

识别模块804，用于若存在与所述响应报文对应的规则特征之间的相似度高于预设值的第一资产识别规则，则从所述第一资产识别规则对应的网络资产中确定所述待识别网络资产的资产识别结果。

在一些实施例中，还包括训练模块805，所述规则分析模型包括依次连接的嵌入层、变换层、汇聚层和输出层，所述训练模块用于根据以下步骤训练所述规则分析模型：

获取多个响应报文样本；

在一些实施例中，所述训练模块805具体用于：

在一些实施例中，所述变换层包括第一变换矩阵、第二变换矩阵和第三变换矩阵，所述训练模块805具体用于：

在一些实施例中，所述训练模块805具体用于：

在一些实施例中，还包括建立模块806，用于根据以下步骤建立每条资产识别规则的规则特征：

对所述规则矩阵进行奇异值分解处理，以得到右奇异矩阵；

在一些实施例中，还包括：

第一选择模块807，用于在确定不存在第一资产识别规则时，从各资产识别规则中选择与所述响应报文对应的规则特征之间的相似度最高的N条第二资产识别规则，将所述N条第二资产识别规则对应的网络资产作为第一资产集合，N为大于1的整数；

第二选择模块808，用于确定所述响应报文对应的规则特征与建立的各网络资产的规则特征之间的相似度，将与所述响应报文对应的规则特征之间相似度最高的M个网络资产作为第二资产集合，M为大于1的整数；

所述识别模块804，还用于从所述第一资产集合和所述第二资产集合中确定所述待识别网络资产的资产识别结果。

在一些实施例中，还包括建立模块806，用于根据以下步骤建立每种网络资产的规则特征：

确定每种网络资产对应的资产识别规则；

在一些实施例中，所述识别模块804具体用于：

确定各资产识别规则的得分之和，为所述第一得分。

在一些实施例中，所述识别模块具体用于：

本申请实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，另外，本申请各实施例中的各功能模块可以集成在一个处理器中，也可以是单独物理存在，也可以两个或两个以上模块集成在一个模块中。各个模块相互之间的耦合可以是通过一些接口实现，这些接口通常是电性通信接口，但是也不排除可能是机械接口或其它的形式接口。因此，作为分离部件说明的模块可以是或者也可以不是物理上分开的，既可以位于一个地方，也可以分布到同一个或不同设备的不同位置上。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

在介绍了本申请示例性实施方式的对比学习方法和装置之后，接下来，介绍根据本申请的另一示例性实施方式的电子设备。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本申请的电子设备可以至少包括至少一个处理器、以及至少一个存储器。其中，存储器存储有程序代码，当程序代码被处理器执行时，使得处理器执行本说明书上述描述的根据本申请各种示例性实施方式的方法。例如，处理器可以执行如基于对比学习的神经网络模型训练方法中的步骤或提取图像特征的方法的步骤。

下面参照图9来描述根据本申请的这种实施方式的电子设备130。图9显示的电子设备130仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，电子设备130以通用电子设备的形式表现。电子设备130的组件可以包括但不限于：上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。

总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器132可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1321和/或高速缓存存储器1322，还可以进一步包括只读存储器(ROM)1323。

存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

电子设备130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与电子设备130交互的设备通信，和/或与使得该电子设备130能与一个或多个其它电子设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口135进行。并且，电子设备130还可以通过网络适配器136与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器136通过总线133与用于电子设备130的其它模块通信。应当理解，尽管图中未示出，可以结合电子设备130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器132，上述指令可由处理器131执行以完成上述对比学习方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器131执行时实现如本申请提供的示例性方法。

在示例性实施例中，本申请提供的一种基于对比学习的神经网络模型的训练方法和提取图像特征的方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在计算机设备上运行时，程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的方法中的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(Erasable Programmable Read-Only Memory，EPROM)、闪存、光纤、光盘只读存储器(Compact Disk Read Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请实施例中用于网络资产的识别的程序产品可以采用CD-ROM并包括程序代码，并可以在计算设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络如局域网(Local AreaNetwork，LAN)或广域网(Wide Area Network，WAN)连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本申请方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种网络资产的识别方法，其特征在于，包括：

获取待识别网络资产的响应报文；

2.如权利要求1所述的方法，其特征在于，所述规则分析模型包括依次连接的嵌入层、变换层、汇聚层和输出层，根据以下步骤训练所述规则分析模型：

获取多个响应报文样本；

3.如权利要求2所述的方法，其特征在于，通过所述嵌入层提取每个响应报文样本的文本特征和字符特征，包括：

4.如权利要求3所述的方法，其特征在于，所述变换层包括第一变换矩阵、第二变换矩阵和第三变换矩阵，通过所述变换层对所述文本特征和所述字符特征进行变换处理，包括：

5.如权利要求1-4任一所述的方法，其特征在于，根据以下步骤建立每条资产识别规则的规则特征：

对所述规则矩阵进行奇异值分解处理，以得到右奇异矩阵；

6.如权利要求1所述的方法，其特征在于，还包括：

7.如权利要求6所述的方法，其特征在于，根据以下步骤建立每种网络资产的规则特征：

确定每种网络资产对应的资产识别规则；

8.一种网络资产的识别装置，其特征在于，包括：

获取模块，用于获取待识别网络资产的响应报文；

9.一种电子设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中：

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1-7任一所述的方法。

10.一种存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，所述电子设备能够执行如权利要求1-7任一所述的方法。