CN115146191A

CN115146191A - 基于ai进行视频监控资产识别的方法、装置及电子设备

Info

Publication number: CN115146191A
Application number: CN202210872882.5A
Authority: CN
Inventors: 王强; 段伟恒; 张永元; 杜邦豪
Original assignee: Sky Sky Safety Technology Co ltd
Current assignee: Sky Sky Safety Technology Co ltd
Priority date: 2022-07-21
Filing date: 2022-07-21
Publication date: 2022-10-04

Abstract

本申请涉及一种基于AI进行视频监控资产识别的方法、装置及电子设备，该方法包括：获取目标资产的原始数据，所述原始数据包括web服务的html页面数据和HTTP响应头数据；基于预设的提取规则，根据所述html页面数据和HTTP响应头数据提取目标数据，所述目标数据包括多个关键词；基于预设的确定规则，对多个所述关键词进行数据转化并确定目标转化数据；基于预设的训练规则，根据所述目标转化数据训练得到识别模型；获取待识别数据，并按预设的处理规则对所述待识别数据进行预处理，将处理后的数据输入识别模型，得到识别结果。本申请具有便于对视频监控资产进行识别的效果。

Description

基于AI进行视频监控资产识别的方法、装置及电子设备

技术领域

本申请涉及物联网视频监控资产自动分类及自动识别的领域，尤其是涉及一种基于AI进行视频监控资产识别的方法、装置及电子设备。

背景技术

目前，随着物联网技术的发展，全球物联网设备数量呈现爆发式增长物联网技术的发展给设备制造商、网络服务提供商、开发者带来了机遇，但也同时带来了挑战。一方面，资产管理成为一个亟待解决的问题，网络管理员对入网设备数量、类型、品牌、操作系统等存在大量未知情况；另一方面，随之带来的是一些安全问题，如某些漏洞只是针对特定的设备类型和品牌上，只有知道设备类型和品牌才能对设备漏洞进行有效防范。

视频监控作为物联网技术发展的一种重要分支，已成为智慧城市建设中的重要组成部分，在已投入运营的视频监控网络中，存在大量的视频摄像头、硬盘录像机视频编解码设备、视频监控及运维服务器等，这些视频监控设备涉及的厂商、品牌及型号众多，随着网络规模的不断扩大，接入网络的视频资产也在不断增加或更替，有些行业的视频监控网络规模高达上千万台，因缺乏有效的技术手段，普遍存在资产摸底不清，导致监管存在盲区。

发明内容

为了便于对视频监控资产进行识别，本申请提供一种基于AI进行视频监控资产识别的方法、装置及电子设备。

第一方面，本申请提供一种基于AI进行视频监控资产识别的方法，采用如下的技术方案：

一种基于AI进行视频监控资产识别的方法，包括：

获取目标资产的原始数据，所述原始数据包括web服务的html页面数据和HTTP响应头数据；

基于预设的提取规则，根据所述html页面数据和HTTP响应头数据提取目标数据，所述目标数据包括多个关键词；

基于预设的确定规则，对多个所述关键词进行数据转化并确定目标转化数据；

基于预设的训练规则，根据所述目标转化数据训练得到识别模型；

获取待识别数据，并按预设的处理规则对所述待识别数据进行预处理，将处理后的数据输入识别模型，得到识别结果。

通过采用上述技术方案，获取目标资产的原始数据，并根据预设的提取规则从原始数据中提取目标数据，之后根据预设的确定规则目标数据进行转化，转化完成后确定目标转化数据，通过预设的训练规则根据目标转化数据训练得到识别模型，识别模型训练完成后，当需要进行识别时，获取待识别数据，之后对待识别数据进行预处理，将处理完成的数据输入至识别模型，即可得到识别结果，采用上述方案，可以根据待识别数据通过识别模型自动实现目标资产的识别，提高了识别效率。

可选的，所述获取目标资产的原始数据的方法具体包括：

通过网络扫描模拟HTTP请求对目标资产的WEB开放端口进行扫描，以获取web服务的html页面数据和HTTP响应头数据。

可选的，所述预设的提取规则为：

采用正则分析方法对所述html页面数据和HTTP响应头数据进行处理；

基于预设的分词规则，对处理后的数据进行分词处理，以确定多个关键词。

可选的，所述预设的确定规则为：

通过TF-IDF统计方法，计算每一关键词对应的TF-IDF值；

根据每一关键词对应的TF-IDF值对所有关键词，按TF-IDF值从大到小的顺序进行排序；

根据预设的选取规则选取目标转化数据。

可选的，所述基于预设的训练规则，根据所述目标转化数据训练得到识别模型的方法，具体包括：

采用主成分分析法对所述目标转化数据进行降维处理，确定聚类数据；

根据预设的kmeans算法对所述聚类数据进行聚类处理；

聚类完成后，获取访问同类别的url地址，确定原始数据对应的标签，并将所述标签与所述聚类后的数据进行关联；

通过预设的贝叶斯算法对所述标签和与所述标签关联的数据进行训练，得到识别模型。

可选的，预设的处理规则为：

采用正则分析方法对所述待识别数据进行处理；

基于预设的分词规则，对处理后的数据进行分词处理，以确定多个关键词；

通过TF-IDF统计方法，计算每一关键词的TF-IDF值；

根据预设的选取规则选取目标关键词，确定目标关键词对应的TF-IDF值。

第二方面，本申请提供一种基于AI进行视频监控资产识别的装置，采用如下的技术方案：

一种基于AI进行视频监控资产识别的装置，包括：

数据获取模块，用于获取目标资产的原始数据，所述原始数据包括web服务的html页面数据和HTTP响应头数据；

关键词提取模块，用于基于预设的提取规则，根据所述html页面数据和HTTP响应头数据提取目标数据，所述目标数据包括多个关键词；

处理模块，用于基于预设的确定规则，对多个所述关键词进行数据转化并确定目标转化数据；模型训练模块，用于基于预设的训练规则，根据所述目标转化数据训练得到识别模型；

识别模块，用于获取待识别数据，并按预设的处理规则对所述待识别数据进行预处理，将处理后的数据输入识别模型，得到识别结果。

第三方面，本申请提供一种电子设，采用如下的技术方案：

一种电子设备，包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行的基于AI进行视频监控资产识别的方法的计算机程序。

第四方面，本申请提供一种计算机可读存储介质，采用如下的技术方案：

一种计算机可读存储介质，存储有能够被处理器加载并执行的基于AI进行视频监控资产识别的方法的计算机程序。

综上所述，本申请包括以下有益技术效果：

通过获取目标资产的原始数据，并根据预设的提取规则从原始数据中提取目标数据，之后根据预设的确定规则目标数据进行转化，转化完成后确定目标转化数据，通过预设的训练规则根据目标转化数据训练得到识别模型，识别模型训练完成后，当需要进行识别时，获取待识别数据，之后对待识别数据进行预处理，将处理完成的数据输入至识别模型，即可得到识别结果，采用上述方案，可以根据待识别数据通过识别模型自动实现目标资产的识别，提高了识别效率。

附图说明

图1是本申请提供的基于AI进行视频监控资产识别的方法的流程图。

图2是本申请提供的基于AI进行视频监控资产识别的装置的系统结构图。

图3是本申请提供的电子设备的结构示意图。

附图标记说明：200、基于AI进行视频监控资产识别的装置；201、数据获取模块；202、关键词提取模块；203、处理模块；204、模型训练模块；205、识别模块；301、CPU；302、ROM；303、RAM；304、I/O接口；305、输入部分；306、输出部分；307、存储部分；308、通信部分；309、驱动器；310、可拆卸介质。

具体实施方式

以下结合附图1-3对本申请作进一步详细说明。

本申请实施例公开一种基于AI进行视频监控资产识别的方法。参照图1，基于AI进行视频监控资产识别的方法包括：

S101：获取目标资产的原始数据。

具体的，原始数据包括web服务的html页面数据和HTTP响应头数据，本实施例中，通过网络扫描模拟HTTP请求对目标资产的WEB开放端口进行扫描，从而获取目标资产的原始数据。

S102：基于预设的提取规则，根据html页面数据和HTTP响应头数据提取目标数据。

具体的，目标数据包括多个关键词，在进行目标数据提取时，通过正则分析法对html页面数据和HTTP响应头数据进行处理，去掉其中包含的目标资产的版本号、数字、特殊符号、换行符、注释的html信息以及除了词与词之间一个空格以外的空格，对原始数据进行初步处理后，基于预设的分词规则对处理后的数据进行分词处理，具体为：根据词与词之间的空格对处理后的原始数据进行分词处理，处理完成后得到多个关键词。

S103：基于预设的确定规则，对多个关键词进行数据转化并确定目标转化数据。

具体的，确定关键词后，通过TF-IDF统计方法，计算每一关键词对应的TF-IDF值，具体的，TF代表词频，IDF为逆文档频率，TF-IDF值等于词频乘以逆文档频率。

本实施例中，词频(TF)＝某一关键词在原始数据中出现的次数/原始数据的总次数；逆文档频率

其中分母+1，是为了防止出现分母为0的情况。

计算出词频以及逆文档频率后，TF-IDF＝TF×IDF。TF-IDF值越高则表明该关键词在该条数据中出现的频率高，同时在其他数据中出现的次数有很少，TF-IDF值越高则表明该关键词更适合分类。采用上述方式，实现了将文本数据转化为数字数据的过程。

确定每一关键词对应的TF-IDF值后，将每一关键词对应的TF-IDF按从大到小的顺序进行排序，排序完成后，根据预设的选取规则选取目标转化数据。

在一个示例中，预设的选取规则为根据为预先输入的选定值M，按照排序顺序，选取前M个数据作为目标转化数据。

在另一个示例中，预设的选取规则为，确定每一关键词的TF-IDF值后，计算所有关键词的TF-IDF值的平均值，去除小于平均值的TF-IDF值，之后按排序顺序依次计算相邻两个TF-IDF值的差值，当差值大于预设值后，去除排在当前数据之后的数据，从而确定目标转化数据。采用该方法，确定的目标数据相对更适合分类，且在一定程度上可以减小后续的计算量。

S104：基于预设的训练规则，根据目标转化数据训练得到识别模型。

具体的，确定目标转化数据后，计算目标转化数据的平均值，将目标转化数据减去平均值实现去中心化，得到目标样本，之后求出样本空间的所有目标样本的样本协方差矩阵，利用SVD奇异值分解对样本协方差矩阵进行特征向量，特征值的分解，分解完成后对特征值进行降序排列，选取最大的N个，并将这N个特征值进行对应的特征向量组合成空间转移矩阵P，将P左乘原特征空间中的目标样本数，得到新特征空间中的目标样本数，从而将目标数据降维成二维数组，实现降维的同时，每个目标样本的特征个数保持不变。

将处理完成的数据输入kmeans算法实现聚类，具体的：

对降维处理后的数据进行标准化、异常点过滤的预处理，处理之后随机选取K个中心，记为μ₁ ⁽⁰⁾，μ₂ ⁽⁰⁾，……，μ_k ⁽⁰⁾；之后定义损失函数，

损失函数可定义为各个样本距离所属簇中心点的误差平方和:

其中，X_i代表第个样本，C_i是X_i所属的簇，μ_ci代表簇对应的中心点，M是目标样本总数。

令t＝0,1,2,...为迭代步数，重复如下过程直到收敛；

具体的：对于每一个样本,将其分配到距离最近的中心：

对于每一个类中心K，重新计算该类的中心：

采用kmeans算法，先固定中心点，调整每个目标样本所属的类别来减少J，固定每个样本的类别，调整中心点继续减小，两个过程交替循环，单调递减直到最(极)小值，中心点和样本划分的类别同时收敛。

K值的确定可通过手肘法进行确定，确定的具体过程为：

人为给定一个K值的整数起始值和一个整数结束值；循环这个K区间，将降维处理后的数据输出至kmeans算法，并计算计算时的损失值，随着聚类数K的增大，样本划分会更加精细，每个簇的聚合程度会逐渐提高，那么误差平方和SSE自然会逐渐变小，

其中，C_i是第i个簇，p是C_i中的目标样本点，m_i是C_i的质心，即C_i中所有目标样本的均值。

当K小于真实聚类数时，由于K的增大会大幅增加每个簇的聚合程度，故SSE的下降幅度会很大，而当K到达真实聚类数时，再增加K所得到的聚合程度回报会迅速变小，所以SSE的下降幅度会骤减，然后随着K值的继续增大而趋于平缓，也就是说SSE和K的关系图是一个手肘的形状，而这个肘部对应的K值就是数据的真实聚类数。

聚类完成后，访问同类别视频资产的一个或多个url地址，确定原始数据对应的标签，并将标签与聚类后的数据进行关联，当前已知标签有：终端设备、网络设备、打印设备、应用服务设备、安全及运维设备，云服务器、IP电话系列、网络分路器等。

之后通过贝叶斯算法，根据标签和与标签关联的数据进行训练，得到识别模型，本实施例中，通过贝叶斯算法进行模型训练为本领域技术人员公知的技术手段在此不做过多赘述。

S105：获取待识别数据，并按预设的处理规则对所述待识别数据进行预处理，将处理后的数据输入识别模型，得到识别结果。

具体的，预设的处理规则为：采用正则分析方法对待识别数据进行处理；基于预设的分词规则，对处理后的数据进行分词处理，以确定多个关键词；通过TF-IDF统计方法，计算每一关键词的TF-IDF值；根据每一关键词对应的TF-IDF值对所有关键词，按TF-IDF值从大到小的顺序进行排序；根据预设的选取规则选取目标关键词，确定目标关键词对应的TF-IDF值。此处所述的预设的分词规则、预设的选取规则以及其他处理过程在上文中均有具体解释，在此不足重复赘述。

对待识别识别数据进行上述处理后，将处理后数据输出至识别模型即可确定待识别数据对应的标签，从而实现对待识别数据的识别，得到识别结果。

本申请实施例公开一种基于AI进行视频监控资产识别的装置，参照图2，基于AI进行视频监控资产识别的装置200包括：

数据获取模块201，用于获取目标资产的原始数据，原始数据包括web服务的html页面数据和HTTP响应头数据；

关键词提取模块202，用于基于预设的提取规则，根据html页面数据和HTTP响应头数据提取目标数据，目标数据包括多个关键词；

处理模块203，用于基于预设的确定规则，对多个关键词进行数据转化并确定目标转化数据；模型训练模块204，用于基于预设的训练规则，根据目标转化数据训练得到识别模型；

识别模块205，用于获取待识别数据，并按预设的处理规则对待识别数据进行预处理，将处理后的数据输入识别模型，得到识别结果。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请实施例公开一种电子设备。参照图3，电子设备包括，包括中央处理单元(CPU)301，其可以根据存储在只读存储器(ROM)302中的程序或者从存储部分307加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中，还存储有系统操作所需的各种程序和数据。CPU 301、ROM 302以及RAM 303通过总线彼此相连。输入/输出(I/O)接口304也连接至总线。

以下部件连接至I/O接口304：包括键盘、鼠标等的输入部分305；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分306；包括硬盘等的存储部分307；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分308。通信部分308经由诸如因特网的网络执行通信处理。驱动器309也根据需要连接至I/O接口304。可拆卸介质310，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器309上，以便于从其上读出的计算机程序根据需要被安装入存储部分307。

特别地，根据本申请的实施例，上文参考流程图图1描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在机器可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分308从网络上被下载和安装，和/或从可拆卸介质310被安装。在该计算机程序被中央处理单元(CPU)301执行时，执行本申请的装置中限定的上述功能。

需要说明的是，本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的申请范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离前述申请构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中申请的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种基于AI进行视频监控资产识别的方法，其特征在于：该方法包括：

2.根据权利要求1所述的基于AI进行视频监控资产识别的方法，其特征在于：所述获取目标资产的原始数据的方法具体包括：

3.根据权利要求1所述的基于AI进行视频监控资产识别的方法，其特征在于：所述预设的提取规则为：

4.根据权利要求1所述的基于AI进行视频监控资产识别的方法，其特征在于：所述预设的确定规则为：

通过TF-IDF统计方法，计算每一关键词对应的TF-IDF值；

根据预设的选取规则选取目标转化数据。

5.根据权利要求1所述的基于AI进行视频监控资产识别的方法，其特征在于：所述基于预设的训练规则，根据所述目标转化数据训练得到识别模型的方法，具体包括：

根据预设的kmeans算法对所述聚类数据进行聚类处理；

6.根据权利要求5所述的基于AI进行视频监控资产识别的方法，其特征在于：预设的处理规则为：

采用正则分析方法对所述待识别数据进行处理；

通过TF-IDF统计方法，计算每一关键词的TF-IDF值；

7.一种基于AI进行视频监控资产识别的装置，其特征在于：包括:

数据获取模块（201），用于获取目标资产的原始数据，所述原始数据包括web服务的html页面数据和HTTP响应头数据；

关键词提取模块（202），用于基于预设的提取规则，根据所述html页面数据和HTTP响应头数据提取目标数据，所述目标数据包括多个关键词；

处理模块（203），用于基于预设的确定规则，对多个所述关键词进行数据转化并确定目标转化数据；

模型训练模块（204），用于基于预设的训练规则，根据所述目标转化数据训练得到识别模型；

识别模块（205），用于获取待识别数据，并按预设的处理规则对所述待识别数据进行预处理，将处理后的数据输入识别模型，得到识别结果。

8.一种电子设备，其特征在于：包括存储器和处理器，所述存储器上存储有能够被处理器加载并执行的如权利要求1-6任一项所述的计算机程序。

9.一种计算机可读存储介质，其特征在于：存储有能够被处理器加载并执行的如权利要求1-6任一项所述的计算机程序。