CN112380328A

CN112380328A - 一种安全应急响应机器人交互方法及系统

Info

Publication number: CN112380328A
Application number: CN202011250989.3A
Authority: CN
Inventors: 朱应龙
Original assignee: Guangzhou Zhitu Technology Co ltd
Current assignee: Wuhu Manxiu Technology Co.,Ltd.
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2021-02-19
Anticipated expiration: 2040-11-11
Also published as: CN112380328B

Abstract

本发明公开了一种安全应急响应机器人交互方法及系统，所述交互方法为：获取自然语言描述命令；分词处理，获得自然语言描述命令的词序列；采用网络爬虫技术确定词序列中每个词的权重；利用预训练后的文本表示模型确定词序列中每个词的词向量；将词序列中每个词的词向量和权重的乘积组成自然语言描述命令的句子向量；将句子向量输入深度语义匹配模型进行意图识别，并对词序列进行槽位提取；根据自然语言描述命令的槽位和意图，生成机器人可执行命令。本发明通过对自然语言描述命令进行意图分析和槽位提取，生成自然语言描述命令对应的机器人可执行命令，实现了通过自然语言下发的命令与机器人进行交互。

Description

一种安全应急响应机器人交互方法及系统

技术领域

本发明涉及人机交互技术领域，特别涉及一种安全应急响应机器人交互方法及系统。

背景技术

随着企业组织面临越来越多的威胁，安全人员每天的工作变得越来越多的重复操作。为了能够进行快速、持续地响应，安全人员将自己的日常工具整理后，通过命令去触发机器人自动执行需要执行的操作。通过命令去触发机器人执行操作需工作人员熟知机器人的所有命令和各种复杂的参数。这种和机器人的交互方式虽然减少了一些手动操作，但是对安全人员的要求非常的高。

通过固定的命令触发机器人操作的人机协同系统还停留在规则层面。当安全事件发生时，相关人员需要按照预定的应急响应流程开展响应。例如，相关人员通常按照以下流程依次完成安全事件应急响应工作：安全事件发生、判定类型、启动响应流程、通知责任人、识别攻击影响、执行响应策略、封禁攻击IP、对被攻击对象作风险评估和漏洞修复、完成事件响应；每部分工作对应的执行操作机器人的命令：/search_event_latest-source＝vpn-query_date＝2019-09-09,/block_ip-src_ip＝1.1.1.1等。表面上看这种人机协同方式还可以接受，每个环节都有把控，能够应对突发的安全事件；但事实上，在真实的安全事件响应过程中，这种流程几乎很难执行，很容易执行错误。

真正安全事件响应时，工作氛围很紧张，人脑需要不断的从一个动作切换到另一个动作，如果中间有停留，可能会造成很大的损失。

以“封禁一个网络攻击者IP地址”操作为例，现有流程中不会包含禁封的设备和禁封的方式。即使有提到，需要工作人员将该操作转换成为对应的命令，包括ip对应的防火墙设备的命令及参数名、封禁ip的命令及参数名等。工作人员输入命令的方式，很难保证人机协同稳定，有序且快速的执行。因此，传统应急响应中的人机协同方式的顺利执行严重依赖于人员对命令的熟悉程度。

传统应急响应人机协同的顺利与否严重依赖人员对机器命令的熟悉程度。如若需要事件处理员去翻看文档，查看命令怎样执行，严重影响机器人执行速度。

如何实现通过自然语言下发的命令与机器人进行交互成为一个亟待解决的技术问题。

发明内容

本发明的目的是提供一种安全应急响应机器人交互方法及系统，以实现通过自然语言下发的命令与机器人进行交互。

为实现上述目的，本发明提供了如下方案：

一种安全应急响应机器人交互方法，所述交互方法包括如下步骤：

获取自然语言描述命令；

对所述自然语言描述命令进行分词处理，获得自然语言描述命令的词序列；

采用网络爬虫技术确定词序列中每个词的权重；

利用预训练后的文本表示模型确定所述词序列中每个词的词向量；

将词序列中每个词的词向量和权重的乘积组成自然语言描述命令的句子向量；

将所述句子向量输入深度语义匹配模型进行意图识别，确定自然语言描述命令的意图；

对所述词序列进行槽位提取，获取自然语言描述命令的槽位；

根据自然语言描述命令的槽位和意图，生成机器人可执行命令。

可选的，所述利用预训练后的文本表示模型确定所述词序列中每个词的词向量，之前还包括：

对所述词序列进行句法分析，建立所述词序列的语法树；

根据所述语法树和每个词的权重，删除所述词序列中权重小于权重阈值且不是语法树中主干的词，获得简化处理后的词序列。

可选的，所述深度语义匹配模型包括卷积层、池化层和匹配层；

卷积层和池化层用于对所述句子向量进行特征提取，获得所述句子向量的特征向量；

所述匹配层用于计算所述句子向量的特征向量与数据库中不同意图的特征向量的余弦相似度后，再计算余弦相似度的反余弦值，将1减去反余弦值与π的商的差值作为句子向量的特征向量与数据库中不同意图的特征向量的相似度。

可选的，所述对所述词序列进行槽位提取，获取自然语言描述命令的槽位，具体包括：

采用命名实体识别模型对所述词序列进行槽位提取，获取自然语言描述命令的槽位。

计算所述词序列中每个词与自然语言描述命令的意图的实体的相似度；

将词序列中相似度最高的词，作为自然语言描述命令的槽位。

采用查找实体列表的方式，对所述词序列进行槽位提取，获取自然语言描述命令的槽位。

一种安全应急响应机器人交互系统，所述交互系统包括：

自然语言描述命令获取模块，用于获取自然语言描述命令；

分词模块，用于对所述自然语言描述命令进行分词处理，获得自然语言描述命令的词序列；

权重确定模块，用于采用网络爬虫技术确定词序列中每个词的权重；

词向量确定模块，用于利用预训练后的文本表示模型确定所述词序列中每个词的词向量；

句子向量生成模块，用于将词序列中每个词的词向量和权重的乘积组成自然语言描述命令的句子向量；

意图识别模块，用于将所述句子向量输入深度语义匹配模型进行意图识别，确定自然语言描述命令的意图；

槽位提取模块，用于对所述词序列进行槽位提取，获取自然语言描述命令的槽位；

机器人可执行命令生成模块，用于根据自然语言描述命令的槽位和意图，生成机器人可执行命令。

可选的，所述交互系统还包括：

句法分析模块，用于对所述词序列进行句法分析，建立所述词序列的语法树；

简化处理模块，用于根据所述语法树和每个词的权重，删除所述词序列中权重小于权重阈值且不是语法树中主干的词，获得简化处理后的词序列。

可选的，所述槽位提取模块，具体包括：槽位提取子模块，用于采用命名实体识别模型对所述词序列进行槽位提取，获取自然语言描述命令的槽位。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明公开了一种安全应急响应机器人交互方法及系统，所述交互方法包括如下步骤：获取自然语言描述命令；对所述自然语言描述命令进行分词处理，获得自然语言描述命令的词序列；采用网络爬虫技术确定词序列中每个词的权重；利用预训练后的文本表示模型确定所述词序列中每个词的词向量；将词序列中每个词的词向量和权重的乘积组成自然语言描述命令的句子向量；将所述句子向量输入深度语义匹配模型进行意图识别，确定自然语言描述命令的意图；对所述词序列进行槽位提取，获取自然语言描述命令的槽位；根据自然语言描述命令的槽位和意图，生成机器人可执行命令。本发明通过对自然语言描述命令进行意图分析和槽位提取，生成自然语言描述命令对应的机器人可执行命令，实现了通过自然语言下发的命令与机器人进行交互。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种安全应急响应机器人交互方法的流程图；

图2为本发明提供的一种安全应急响应机器人交互方法的原理图；

图3为本发明提供的语法树示例图；

图4为本发明提供的分词处理的流程图；

图5为本发明提供的benepar_zh模型的结构示意图；

图6为本发明提供的文本表示模型的结构示意图；

图7为本发明提供的深度语义匹配模型的结构示意图；

图8为本发明提供的命名实体识别模型的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对发明作进一步详细的说明。

如图1和2所示，本发明提供一种安全应急响应机器人交互方法，所述交互方法包括如下步骤：

步骤101，获取自然语言描述命令。

根据系统后台传入的id去mysql数据库中捞取相应id的所有信息。包括发送时间，人机协同的对象，真正的下发命令内容等，获得自然语言描述命令。然后对查询到的自然语言描述命令进行预处理，将两边多余的空格删除，对攻击或者不经意的异常符号进行过滤删除。

步骤102，对所述自然语言描述命令进行分词处理，获得自然语言描述命令的词序列。

如图4所示，在完成了步骤101后，获取到了用户对机器人下发的自然语言描述命令。将获取到的用户对机器人下发的自然语言描述命令进行分词，去停顿词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。停顿词就是一些完全没有用或者没有意义的词，比如助词，语气词等。去停顿词就是将这样的词删除。本发明使用的是基于序列标注的分词算法对获取的用户下发的自然语言描述命令进行的分词。

步骤103，采用网络爬虫技术确定词序列中每个词的权重。

本发明计算权重的方法是，从网上通过爬虫的方式爬取大量的安全方面的技术文章。通过分词工具和加载建立的行业专有名词字典对这些安全技术文章进行分词，先初始化分词工具，将建立好的行业专有名词字典进行加载。加载完毕后使用多线程技术，对前面爬取的安全方面的技术文章进行分词，将每篇文章的分词结果都存储在一个文本中，每个词一列，每个文本名词使用数字id自增。分词后需要对这些安全技术文章分词结果进行统计计算。将每篇文章的分词结果文档进行加载，遍历统计每篇分词结果文档中每个词出现的次数，以及总共词的个数，总共词的个数统计方式不能进行去重。在完成对单独文档统计后，将所有文档的统计结果汇总，然后计算出最后每个词出现的频率，词的频率越高表示词越常见，则词的权重就越低。本发明中词的权重为词频的倒数。本发明通过多线程技术加快了整个词权重的计算速度。

步骤104，利用预训练后的文本表示模型确定所述词序列中每个词的词向量。

步骤105，将词序列中每个词的词向量和权重的乘积组成自然语言描述命令的句子向量。

步骤104，所述利用预训练后的文本表示模型确定所述词序列中每个词的词向量，之前还包括：

对所述词序列进行句法分析，建立所述词序列的语法树。

在完成了步骤102的对自然语言描述命令的相关预处理后，对词序列进行句法分析，建立语法树。依存句法分析是通过分析语言单位内成分之间的依存关系，解释其句法结构，主张句子中核心动词是支配其他成分的中心成分。而它本身却不受其他任何成分的支配，所有受支配成分都以某种关系从属于支配者。本发明使用基于深度学习的图解码依存分析方法，通过寻找句子的一颗最大依存树，来得到句子依存结构的全局最优解。也就是将最优依存结构的构建过程转化成寻找最大生成树的过程。在步骤102中本发明将获取到的自然语言描述命令进行了分词去停顿词操作后，自然语言描述命令就变成了有n个词组成的句子。根据步骤102处理后得到的结果，也就是词序列，生成所有节点的完全有向图，用最大似然估计计算每条边的概率。从所有的边中获取概率最大的边加入到有向图中。最后使用Prim最大生成树算法，计算出最大生成树，格式化输出。这样就完成了依存句法分析，建立了语法树。句法分析是自然语言处理中的关键技术之一，基本任务就是为了确定就的句法结构或者句子中词汇之间的依存关系。主要包括两方面的内容：一是确定语言的语法体系，也就是对语言中合法的句子的语法结构给予形式化的定义；二是句法分析技术，即根据给定的语法体系，自动推导出句子的句法结构，分析句子所包含的句法单位和这些句法单位之间的关系。句法分析需要遵循对应语种的语法体系，根据该体系的语法确定语法树的表示形式。

本发明利用的是伯克利大学使用基于自关注编码器的成分句法分析算法训练好的benepar_zh模型(如图5所示)。benepar_zh模型的作用是为了对用户自然语言的描述命令进行精简化，去除一些不重要的词成分和无关词成分。避免这些成分给整个机器人模型带来的干扰。模型的输入是用户的自然语言描述命令经步骤102处理后的结果，输出是nltk的树结构。举个例子：帮我查询这个异常ip8.8.8.8的归属地，经过步骤102处理后得到:["帮","我","查询","这个","异常","ip","8.8.8.8","的","归属地"]，输入到benepar_zh模型中输出得到的结果为：

Tree('IP',[Tree('VP',[Tree('VV',['帮']),Tree('NP',[Tree('PN',['我'])]),Tree('IP',[Tree('VP',[Tree('VV',['查询']),Tree('NP',[Tree('NP',[Tree('DP',[Tree('M',['这个'])]),Tree('NP',[Tree('ADJP',[Tree('JJ',['异常'])]),Tree('NP',[Tree('NN',['ip'])])])]),Tree('DNP',[Tree('QP',[Tree('CD',['8.8.8.8'])]),Tree('DEG',['的'])]),Tree('NP',[Tree('NN',['归属地'])])])])])])])，其结构图如图3所示。

本发明根据计算计算得到的词的权重和语法树结合，对权重较低的，且非主干的词去除。将剩下的词序列(例如：思科，交换机，发起，自动，巡检)，输入到前面提及的文本表示模型中，得到词序列中每个词对应的词向量例如([-4.75611389e-01,-7.29553550e-02,7.79840469e-01,1.25974607e+00,...,7.03990102e-01,-6.86500013e-01,-5.38527012e-01,-5.87234795e-01])，即步骤104，文本表示模型如图6所示。将得到的词向量与前面计算得到的相应词权重相乘，得到的句子向量，作为用户下发的自然语言描述命令整个句子的文本表示结果。整个过程总结就是将用户下发命令长短，句法分析等考虑进去，利用语法树和分词后的词向量，通过计算每个词的权重，将句子中词向量乘以相应的权重得到了句子文本表示结果，即步骤105。

步骤106，将所述句子向量输入深度语义匹配模型进行意图识别，确定自然语言描述命令的意图。所述深度语义匹配模型包括卷积层、池化层和匹配层；卷积层和池化层用于对所述句子向量进行特征提取，获得所述句子向量的特征向量；所述匹配层用于计算所述句子向量的特征向量与数据库中不同意图的特征向量的余弦相似度后，再计算余弦相似度的反余弦值，将1减去反余弦值与π的商的差值作为句子向量的特征向量与数据库中不同意图的特征向量的相似度。深度语义匹配模型的结构如图7所示。

意图识别就是从用户的下发命令中识别出用户真正想要执行的操作。本发明使用深度语义匹配模型实现模型的自学习能力，在用户自定义新增操作意图的情况下，本发明依然能够识别出新增意图。如图7所示，在深度语义匹配模型中，本发明直接将上一步得到的用户自然语言描述命令对应的句子向量作为模型输入。再经过卷积层和池化层(l₁、l₂、l₃)对句子向量x进行特征提取，获得句子向量的特征值y。到匹配层时，将对传统的语义相似性计算，即两个语义向量的余弦相似度计算进行了改进。本发明在计算完两个语义向量的余弦相似度后，再计算反余弦值。那两个语义的相似性就可以这样衡量了：单位1减去反余弦值与π的商(R(Q,D_i))。通过softmax函数将两个语义相似性转化为一个后验概率(P(Q,D_i))。在深度语义匹配模型训练过程中，通过极大似然估计，就可以计算出深度语义匹配模型的最小损失函数值。通过随机梯度下降算法使整个模型得到收敛，得到各个网络层参数。对于每个用户的下发的自然语言描述命令，通过步骤102-105处理后得到句子向量后，输入到刚才训练好的深度语义匹配模型中，就可以得到每个意图的概率，概率值最大的意图，就是识别出的用户下发的自然语言描述命令对应的意图。

步骤107，对所述词序列进行槽位提取，获取自然语言描述命令的槽位。

用户下发的自然语言描述命令在经过上述处理后成功识别出了用户的意图。但是用户下发命令大部分是带参数的，需要在自然语言描述命令中识别出用户执行命令所需要的参数。即，槽位提取，也就是命名实体识别(Named EntityRecognition，简称NER)。本发明对槽位提取的方式有三种，第一种是行业特殊专有实体，比如url，IP，md5等，这些特殊的专有实体，本发明维护了内部的行业专有实体列表，使用相应的正则进行提取。第二种，通过相似度计算，提取出当前意图的实体。对于同一意图的槽位提取，本发明学习到历史自然语言描述下发命令中同一参数数据，通过计算槽位实体的相似度，提取出当前意图的槽位实体。最后一种是使用序列标注模型做的槽位提取，就是使用的开源命名实体识别工具进行常见的人名，地名等槽位提取。

即，步骤107所述对所述词序列进行槽位提取，获取自然语言描述命令的槽位，具体包括：采用查找实体列表的方式，对所述词序列进行槽位提取，获取自然语言描述命令的槽位；或采用命名实体识别模型对所述词序列进行槽位提取，获取自然语言描述命令的槽位，所述命名实体模型如图8所示，B-PER中B表示begin(开始)，PER是指人名，B-LOC中的B也是表示begin，LOC表示location(位置)，即图8中的“巴黎”，举个例子:小明游览巴黎,分词后就是[小明,游览,巴黎]。其中，“掩码”是英文mask的翻译，意思就是盖住小明，后面的游览，巴黎都保留。或计算所述词序列中每个词与自然语言描述命令的意图的实体的相似度，将词序列中相似度最高的词，作为自然语言描述命令的槽位。

步骤108，根据自然语言描述命令的槽位和意图，生成机器人可执行命令。

本发明还提供一种安全应急响应机器人交互系统，所述交互系统包括：自然语言描述命令获取模块，用于获取自然语言描述命令；分词模块，用于对所述自然语言描述命令进行分词处理，获得自然语言描述命令的词序列；权重确定模块，用于采用网络爬虫技术确定词序列中每个词的权重；词向量确定模块，用于利用预训练后的文本表示模型确定所述词序列中每个词的词向量；句子向量生成模块，用于将词序列中每个词的词向量和权重的乘积组成自然语言描述命令的句子向量；意图识别模块，用于将所述句子向量输入深度语义匹配模型进行意图识别，确定自然语言描述命令的意图；槽位提取模块，用于对所述词序列进行槽位提取，获取自然语言描述命令的槽位；机器人可执行命令生成模块，用于根据自然语言描述命令的槽位和意图，生成机器人可执行命令。

所述交互系统还包括：句法分析模块，用于对所述词序列进行句法分析，建立所述词序列的语法树；简化处理模块，用于根据所述语法树和每个词的权重，删除所述词序列中权重小于权重阈值且不是语法树中主干的词，获得简化处理后的词序列。

所述深度语义匹配模型包括卷积层、池化层和匹配层；卷积层和池化层用于对所述句子向量进行特征提取，获得所述句子向量的特征向量；所述匹配层用于计算所述句子向量的特征向量与数据库中不同意图的特征向量的余弦相似度后，再计算余弦相似度的反余弦值，将1减去反余弦值与π的商的差值作为句子向量的特征向量与数据库中不同意图的特征向量的相似度。

所述槽位提取模块，具体包括：槽位提取子模块，用于采用命名实体识别模型对所述词序列进行槽位提取，获取自然语言描述命令的槽位。

本发明通过自然语言处理技术改进人机协同方式，加速安全事件的处置，提升人机协同的交互感。和机器人的交互，可以直接对话交互，不需要人工翻译或转换；很好的解决了人机协同痛点问题。摆脱了响应效果强度依赖操作人员对命令熟悉情况的问题。

首先，技术层面：将人工智能中的自然语言处理技术引入到安全应急响应的人机协同中，实现了利用自然语言和机器人沟通。

其次，应用层面：整个人机交互的过程中，无需用户特意去记住要操作的命令，以及命令背后复杂的参数，参数的意义。很好的解放了工作人员多余的人脑工作量投入，真正的做到了人机协同。在省去这部分可观工作量投入后，工作人员可以将精力放在真正需要投入人脑工作量的工作中去。由于模型具有自学习能力，工作人员可以根据自己的喜欢训练出自己的机器人，用自己特殊的方式和机器人交互，做到人机协同。

解决了传统人机协同交互的痛点，摆脱了响应效果强度依赖操作人员对命令熟悉情况的问题。

以下是本发明的技术效果：

帮助工作人员解放多余的大量的人脑投入去牢记人机协同操作中的命令，参数这种基于自然语言处理的人机协同方式，可以避免人的客观因素导致命令输入错误等问题。

因为机器可以稳定执行响应流程，不受人的因素影响，应急响应的效果和质量可以大幅提高全面解放企业生产力，改善安全工程师劳动强度，提升工作效率和质量。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

本文中应用了具体个例对发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

Claims

1.一种安全应急响应机器人交互方法，其特征在于，所述交互方法包括如下步骤：

获取自然语言描述命令；

采用网络爬虫技术确定词序列中每个词的权重；

2.根据权利要求1所述的安全应急响应机器人交互方法，其特征在于，所述利用预训练后的文本表示模型确定所述词序列中每个词的词向量，之前还包括：

对所述词序列进行句法分析，建立所述词序列的语法树；

3.根据权利要求1所述的安全应急响应机器人交互方法，其特征在于，所述深度语义匹配模型包括卷积层、池化层和匹配层；

所述卷积层和所述池化层用于对所述句子向量进行特征提取，获得所述句子向量的特征向量；

4.根据权利要求1所述的安全应急响应机器人交互方法，其特征在于，所述对所述词序列进行槽位提取，获取自然语言描述命令的槽位，具体包括：

5.根据权利要求1所述的安全应急响应机器人交互方法，其特征在于，所述对所述词序列进行槽位提取，获取自然语言描述命令的槽位，具体包括：

6.根据权利要求1所述的安全应急响应机器人交互方法，其特征在于，所述对所述词序列进行槽位提取，获取自然语言描述命令的槽位，具体包括：

7.一种安全应急响应机器人交互系统，其特征在于，所述交互系统包括：

自然语言描述命令获取模块，用于获取自然语言描述命令；

8.根据权利要求7所述的安全应急响应机器人交互系统，其特征在于，所述交互系统还包括：

9.根据权利要求7所述的安全应急响应机器人交互系统，其特征在于，所述深度语义匹配模型包括卷积层、池化层和匹配层；

10.根据权利要求7所述的安全应急响应机器人交互系统，其特征在于，所述槽位提取模块，具体包括：

槽位提取子模块，用于采用命名实体识别模型对所述词序列进行槽位提取，获取自然语言描述命令的槽位。