CN111259087A

CN111259087A - 基于领域知识库的计算机网络协议实体链接方法和系统

Info

Publication number: CN111259087A
Application number: CN202010025957.7A
Authority: CN
Inventors: 李守斌; 明旭冉; 刘雨江; 崔闻早; 胡军; 王青
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2020-01-10
Filing date: 2020-01-10
Publication date: 2020-06-09
Anticipated expiration: 2040-01-10
Also published as: CN111259087B

Abstract

本发明公开了一种基于领域知识库的计算机网络协议实体链接方法和系统。该方法包括：构建一个网络协议语义知识库，作为协议实体链接方法的指导；在网络协议实体文本中形成协议信息数据集；在数据集上进行预训练模型的微调，该微调模型将作为联合模型的一部分；设计并训练一个由线性层和非线性层两部分组成网络协议领域模型，该领域模型作为联合模型的另一部分；融合上述两个模型的输出，将融合结果输入分类层进行分类，得出最终的实体链接结果。本发明能够更好的挖掘网络协议描述文档中的深层语义信息，有助于网络协议方面的研究。

Description

基于领域知识库的计算机网络协议实体链接方法和系统

技术领域

本发明属于计算机技术领域，提出一种基于计算机网络领域知识库的网络协议实体链接方法和系统。该方法创新性设计并实现了一种联合模型，模型在保留了预训练模型优点的基础上，融合了自主设计的领域模型，提升了从计算机网络协议实体到领域知识库链接过程的效率和准确度，对计算机网络领域的研究有着重要的意义。

背景技术

计算机网络是由空间上分散的一群计算机或终端，通过通信设备和线路连接组成的复杂网络。计算机网络以信息传输为基础目的，具有包括数据通信、资源共享、集中管理、分布式处理等在内的多种功能。为对计算机网络进行规范和约束，需要计算机网络协议。计算机网络协议是一些为确保计算机网络中的数据正常交换而建立的规则、标准或约定的集合。由于计算机网络中存在大量计算机或终端，其连接情况多种多样，复杂网络情况产生了大量的计算机网络协议。并且由于其大多以自然语言的形式进行描述，文本又缺乏结构化，对计算机网络协议的研究存在不少困难。

信息化时代，人们对网络的依赖日益增强，通过网络获得和交流信息已成为现代信息社会的一个重要特征。这些网络系统都依靠计算机网络接收和处理信息，实现相互间的联系和对目标的管理、控制，计算机网络的重要性可见一斑。然而随着计算机网络重要性的提升，计算机网络安全问题也将日益凸显。加强计算机网络的深入研究，了解掌握计算机网络通信过程和协议规范，对维护计算机网络安全意义重大。

在人工智能的知识工程领域，知识库是指专家系统设计所应用的规则集合，具有很强的领域特征的结构化信息。建立知识库的过程中，大量隐含知识被编码和数字化处理，信息和知识从原来的混乱状态变得有序，在此基础上，有助于加快知识的流动，有利于知识的交流和深入研究。所谓实体链接，即将存在于计算机网络协议中的文本信息进行抽取、分类，并与知识库中的知识建立联系的过程，计算机网络领域知识库的建立将为我们模型中的实体链接提供专业依据。

相对于结构化的信息，由于计算机网络协议大多以自然语言形式进行描述，对计算机来说比较难以理解和分析，目前关于计算机网络协议实体链接还没有良好的解决方案。

发明内容

为了解决上述问题，本发明利用人工智能领域的自然语言处理对计算机网络协议文本进行分析和处理，实现实体链接过程，提升实体链接过程中的准确度。

本发明采用的技术方案如下：

一种基于领域知识库的计算机网络协议实体链接模型构建方法，其特征在于，包括以下步骤：

根据专家知识构建计算机网络协议知识库；

以所述计算机网络协议知识库为学习的先验知识，从计算机网络协议文本中提取待进行实体链接的实体，所述实体包含字段和描述信息，由字段和描述信息构成网络协议信息数据集；

将自然语言预训练模型在所述网络协议信息数据集上进行微调，得到微调后的自然语言预训练模型；

利用所述网络协议信息数据集，训练基于神经网络的网络协议领域模型；

将所述微调后的自然语言预训练模型和所述网络协议领域模型进行融合，得到计算机网络协议实体链接模型。

进一步地，所述计算机网络协议知识库，在语义层面对网络协议文本中存在的多种情况进行分类总结，形成五个大类和十个小类，每一类别包含中英文信息和数字编码；所述五个大类包括指示类、函数类、标度类、数据类和保留类；所述十个小类包括：属于指示类的序列号、布尔值、版本号、标识符，属于函数类的检验码、填充码、密数据，属于标度类的长度、偏移量、时间戳。

进一步地，将所述网络协议信息数据集中的描述信息通过词嵌入处理，按词切分后作为预训练模型的输入，对预训练模型的参数产生影响，从而生成适应于网络协议文本的微调后的预训练模型，生成的输出数据表示用于描述的上下文信息。

进一步地，将所述网络协议信息数据集中的字段信息通过词嵌入处理，按词切分后输入网络协议领域模型中进行训练，利用神经网络生成对协议文本敏感的网络协议领域模型；所述网络协议领域模型包括线性聚合层和非线性层；通过非线性层保证字段信息的描述性语义信息被单独检查，从而保留字段信息的有价值信息；通过线性聚合层将所有隐藏状态即来自非线性层的中间结果连接起来，以充分地利用网络的推断结果。

一种基于领域知识库的计算机网络协议实体链接方法，包括以下步骤：

将待进行实体链接的计算机网络协议输入本发明方法构建的计算机网络协议实体链接模型；

将计算机网络协议实体链接模型中微调后的自然语言预训练模型的结果和网络协议领域模型的结果进行融合；

将融合后的结果输入分类层进行分类，得到实体链接结果。

进一步地，利用逻辑加法运算单元将计算机网络协议实体链接模型中微调后的自然语言预训练模型的结果和网络协议领域模型的结果进行融合操作，逻辑加法运算单元使用激活函数来转换词法信息。

进一步地，所述分类层为SoftMax层，利用SoftMax层进行结果概率的计算，并采用平均交叉熵作为损失函数，最终得到实体链接结果。

一种基于领域知识库的计算机网络协议实体链接系统，其包括：

模型模块，包含本发明方法构建的计算机网络协议实体链接模型，该模型接收待进行实体链接的计算机网络协议作为输入；

融合模块，用于将计算机网络协议实体链接模型中微调后的自然语言预训练模型的结果和网络协议领域模型的结果进行融合；

分类模块，用于将融合后的结果输入分类层进行分类，得到实体链接结果。

本发明的有益效果如下：

本发明创新性的设计并实现了一种联合模型，该模型以加强模型专业领域信息敏感度为原理，具体以实现领域神经网络模型的方式，实现提升实体链接准确度的目的。该模型有助于在未来实现计算机网络协议的结构化处理，为计算机网络方面的研究提供帮助。

附图说明

图1为计算机网络协议知识库的思维导图。

图2为基于领域知识库的计算机网络协议实体链接联合模型的框架图。

具体实施方式

下面通过具体实施例和附图，对本发明做进一步详细说明。

本发明的主要内容包括：

1.网络协议知识库

依据专家知识整理、归纳、总结形成的具有极强专业领域性质的网络协议语义信息知识库，由原来的弱结构化信息，转化为结构化的知识库信息，有助于未来计算机网络协议的识别和分析。网络协议知识库主要包含五大类，如图1和表1所示，分别为：指示类、函数类、标度类、数据类和保留类，主要对计算机网络协议的语义信息进行分类，基本囊括了自然语言文本中关于协议本体描述的内容。每一类别有明确定义的中英文信息和数字编码，具体的网络协议知识库包括<序列号-Serial Number-200>,<布尔值-Boolean-210>,<版本号-Version-220>，<标识符-Identifier-230>，<检验码-Checksum-301>，<填充码-PaddingCode-302>，<密数据-Encryption Data-303>，<长度-Length-100>，<偏移量-Offset-110>，<时间戳-Timestrap-120>，<数据类-Data-400>，<保留类-Reserved-500>。

表1.计算机网络协议知识库

其中，指示类是指存在于网络协议中具有表征性的文本信息；函数类是指存在于网路协议文本中需要进行计算的文本信息；标度类是指存在于网络协议中能够对网络协议本身进行度量的文本信息，例如协议的长度，协议生成时间(时间戳)等；数据类是指表明协议承载协议内容的文本信息；保留类为指示网络协议为保持扩展性而需要的预留项的文本信息。

2.基于迁移学习的协议实体提取方法

将网络协议知识库作为学习的先验知识，在其指导下，从网络协议文本之中进行实体的提取，以生成模型训练的数据集。首先对用自然语言进行描述的计算机网络协议文本进行分析，从中提取将要进行实体链接的实体。抽取出来的实体，由协议文本中具有很强领域性特征的字段和描述信息两大部分组成。从计算机网络协议文本中提取字段和描述信息两部分内容组成网络协议信息数据集。生成的数据集如下面表2所示：

表2.网络协议信息数据集

3.微调自然语言处理的预训练模型

针对已经存在的预训练模型，需要对其进行领域微调，以提高对领域文本的识别度。将第2步中生成的实体信息作为模型的网络协议数据集，对数据集进行合理的训练集和测试集划分之后，输入预训练模型之中进行训练，得到的预训练模型将与领域模型联合使用，作为联合实体链接模型的重要组成部分，来处理普通语义信息。

4.基于自然语言处理的网络协议领域模型

为提高模型对网络协议文本的处理的准确率，以及对计算机网络协议的敏感度，模型中创新性的设计了基于自然语言处理的网络协议领域模型，本领域模型由计算机神经网络中线性层和非线性层两层串联组成，将第2步中生成的实体字段信息作为领域模型的数据集，利用领域模型进行学习，最终得到对领域知识更为敏感的网络协议领域模型。该领域模型将作为联合模型的另一部分，来处理抽象语义信息。

5.联合模型的融合构建方法

基于上面两个模型，本发明还创新性的提出了一种模型融合方法，将微调后的预训练模型与领域模型结合起来，达到提升网络协议实体链接模型准确度的目的。具体的融合方法为，将预训练模型的输出结果与领域模型的输出结果综合考虑，进行逻辑加之后，将融合后的结果输入到最后一层分类层(如SoftMax层)进行实体链接。

实施例：

步骤一：计算机网络协议文本的获取

为获取网络协议文本，首先使用python语言开发了RFC网络协议数据爬虫工具，从国际互联网工程任务组(The Internet Engineering Task Force)官网上抓取了8646篇描述网络协议的文档(RFC文档)，并进行了相应的数据预处理工作。这些从网络上获取所有的公开网络协议文本信息，用于后续的实体提取和链接。

步骤二：网络协议知识库的建立

为了实现模型实体链接过程，帮助未来研究者在网络协议实体方面的研究，建立了一个专业的网络协议语义知识库(如图1所示)。该知识库在网络协议专家的指导下完成，基本包含了所有定义网络协议格式的文本信息，对于每一类别，定义了唯一的数字编码，如表1所示，方便协议实体链接过程。

步骤三：数据集的建立，网络协议文本中实体的提取

使用传统的全监督方法来解决实体的抽取问题需要为每一组特定的协议符号建立一个单独的分类器(T->E)，这将导致无法自动化地完成文本实体的抽取工作。其中T全称为Token，在计算机的自然语言处理领域中为词法标记的意思；E全称为Entity，即从网络协议文本之中提取出的字段实体。

为了解决这个问题，本方法设计了基于迁移学习的实体和描述信息抽取方法，从而获取本方法的数据集。迁移学习具体以学习出字段信息和描述文本的相似度函数实现。通过该相似度函数，应用于其他的未标注文本之中，从中匹配提取出实体和描述信息。通过上述方法生成的数据集，由字段信息和描述信息两大部分组成，它们将分别用于预训练模型和领域模型的学习。该相似度函数具体以余弦相似度计算方法进行计算，该过程可以形式化为一下公式：

其中，公式中的Sim代表两个词法标记T₁和T₂的相似度，θ是两个词向量的夹角，cos(θ)是该夹角的余弦值，在本方法中代表两个词法标记的相似度。

步骤四：预训练模型的微调

预训练模型如BERT(基于维基百科数据训练，得到的通用自然语言处理模型)在计算机领域的自然语言处理相关任务中得到了广泛的应用，在大多数情况下，因为时间成本和设备成本等问题，普通模型并不能像预训练模型那样训练大量的样本，从而达不到较好的自然语言处理效果。因此，在大多数实验中，都采用了微调预训练模型的方法，通过将预训练模型在本发明的网络协议实体数据集上进行参数微调之后，预训练模型对于本领域的实体识别的准确度将提升。具体的参数微调的过程为，以预训练模型的参数为基础，通过在本方法的科技文献数据集上进行学习，使得参数更加适应本方法的领域数据。

图2最下方的[CLS]与SEP为本方法中，为了方便实验而在数据中插入的起始符和终止符，T₁,T₂,...,T_i表示由数据集中描述信息部分生成一系列的描述性词法信息，T_SEP表示由SEP终止符对应生成的词法标记，T_f1,T_f2,...,T_fj表示由数据集中字段信息部分生成的一系列字段性词法信息。

如图2右左下侧所示将从网络协议文本之中提取出来的描述性语义文本信息(网络协议信息数据集中的描述信息)通过词嵌入处理，按词切分，表示为E_[CLS],E₁,E₂,...,E_i,E_SEP作为输入进入预训练模型(表示为PreTrainedModel)之中。对应的输出格式为T_[CLS],T₁,T₂,...,T_n,T_SEP,表示用于描述的上下文信息。

让info_words、info_code和HS_E分别作为描述、它们的嵌入和它们的隐藏状态，上述过程可以形式化为以下公式：

info_words＝encoder(info_code)；

HS_E＝PreTrainedModel(info_code)；

其中，描述是指网络协议信息数据集中的描述信息，嵌入是指词嵌入得到的词向量，隐藏状态是指词法信息经过隐藏层处理后的更加抽象的状态，encoder为编码器，即将输入的词汇信息进行编码，将输入序列转化成一个固定长度的向量。

将本方法中为方便实验而自定义的特殊的词法标记CLS的隐藏状态(表示为T_[CLS])视为预训练模型输出中的聚合序列表示，此结果将作为后续模型融合参数的组成部分。T_[CLS]的计算公式如下：

T_[CLS]＝HS_E[0]

步骤五：基于自然语言处理的网络协议领域模型的设计与实现

由于大多数自然语言领域的预训练模型是基于高质量、大范围、更普遍的文本数据集训练得到，它们对于一些具有很强领域特点的词汇并不敏感。例如，在标号为5191的网络协议文档之中，存在有一个实体字段IHL，在该网络协议中解释为Internet HeaderLength，是指示网络协议中报头长度的名词，然后在日常生活之中，IHL还有着国际曲棍球联合会简写的含义，这种理解的歧义正是自然语言描述多样的体现之一。然而，这种复杂多样性在计算机技术应用中产生了不少的麻烦，通过训练本发明的网络协议领域模型，即针对所研究的特定领域——计算机网络协议设计实现一个神经网络，这个神经网络通过提取的数据集的训练，对于网络协议领域的名词将比普用的预训练模型有着更高的敏感度。

如图2右侧所示，展示了网络协议领域模型的结构。模型主要由线性层和非线形层两部分组成。通过非线性层，保证了字段信息的描述性语义信息被单独检查，从而保留了字段信息的有价值信息。将网络协议数据集中的字段信息通过词嵌入处理，按词切分生成E_f1,E_f2,...,E_fj作为非线性层的输入，非线性层的输出格式表示为T_F1、T_F2、…、T_Fj。让field_words、field_code和HS_F分别作为网络协议信息数据集中的字段信息、它们的嵌入和它们的隐藏状态，这个过程可以形式化为以下公式：

field_words＝encoder(field_code)；

HS_F＝NonLinearModel(field_code)；

为了进一步融合字段信息，本发明设计了一个线性聚合层(表示为Linebarger)，将所有隐藏状态(来自非线性层的中间结果)连接起来，更加充分的利用网络的推断结果。线性聚合层为下面的加法运算单元提供输入。让T_A作为字段的最终表示。这个过程可以形式化为以下公式：

T_A＝Linebarger(HS_F)

步骤六：融合模型

融合阶段由逻辑加运算单元完成。运算单元使用激活函数σ来转换词法信息。其目的在于将两个模型输出的结果通过向量转化等方式，把所有结果在维度上进行统一，方便结果的计算，最终的融合结果为融合层的输出，输入到下一步的分类层。融合的过程其实为一个领域信息敏感度增强的过程。具体的激活函数和融合公式如下所示：

O_A＝σ(W×T_A+b)+T_[CLS]

其中，σ表示激活函数，W与b表示通过机器学习估计得到的，适用于网络协议文本的一系列参数，O_A表示融合层的输出结果。

步骤七：结果的生成

融合层的输出O_A由分类层(如SoftMax层)处理，获取当前输入的预测分类结果(表示为pred)，该预测分类结果对应于之前建立的网络协议知识库中的分类，从而实现了计算机网络协议实体链接。用平均交叉熵作为损失函数。这个过程可以形式化为以下公式：

其中，O_j表示每一个预测分类的概率值，L(O_A)表示平均交叉熵作为损失函数。

分析：本发明发明中提出了一种预训练模型和领域模型相结合的联合模型的方法来解决网络协议领域的实体链接问题，通过实验，验证了本发明的方法的准确度(如表3所示)明显高于单纯的微调之后的预训练模型，证明本发明的方法切实可行。

表3.实验结果

模型名称	准确度	召回率	学习率
				微调预训练模型	69.8％	72.2％	2e<sup>-5</sup>
联合模型	72.90％	74.90％	2e<sup>-5</sup>

基于同一发明构思，本发明的另一个实施例提供一种基于领域知识库的计算机网络协议实体链接系统，其包括：

模型模块，包含采用本发明方法构建的计算机网络协议实体链接模型(上述融合后的模型)，该模型接收待进行实体链接的计算机网络协议作为输入；

其中各模块的具体实施过程参加前文对本发明方法的描述。

基于同一发明构思，本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

尽管为说明目的公开了本发明的具体内容、实施算法以及附图，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于领域知识库的计算机网络协议实体链接模型构建方法，其特征在于，包括以下步骤：

根据专家知识构建计算机网络协议知识库；

2.如权利要求1所述的方法，其特征在于，所述计算机网络协议知识库，在语义层面对网络协议文本中存在的多种情况进行分类总结，形成五个大类和十个小类，每一类别包含中英文信息和数字编码；所述五个大类包括指示类、函数类、标度类、数据类和保留类；所述十个小类包括：属于指示类的序列号、布尔值、版本号、标识符，属于函数类的检验码、填充码、密数据，属于标度类的长度、偏移量、时间戳。

3.如权利要求1所述的方法，其特征在于，将所述网络协议信息数据集中的描述信息通过词嵌入处理，按词切分后作为预训练模型的输入，对预训练模型的参数产生影响，从而生成适应于网络协议文本的微调后的预训练模型，生成的输出数据表示用于描述的上下文信息。

4.如权利要求1所述的方法，其特征在于，将所述网络协议信息数据集中的字段信息通过词嵌入处理，按词切分后输入网络协议领域模型中进行训练，利用神经网络生成对协议文本敏感的网络协议领域模型；所述网络协议领域模型包括线性聚合层和非线性层；通过非线性层保证字段信息的描述性语义信息被单独检查，从而保留字段信息的有价值信息；通过线性聚合层将所有隐藏状态即来自非线性层的中间结果连接起来，以充分地利用网络的推断结果。

5.一种基于领域知识库的计算机网络协议实体链接方法，其特征在于，包括以下步骤：

将待进行实体链接的计算机网络协议输入权利要求1～4中任一权利要求所述方法构建的计算机网络协议实体链接模型；

将融合后的结果输入分类层进行分类，得到实体链接结果。

6.如权利要求5所述的方法，其特征在于，利用逻辑加法运算单元将计算机网络协议实体链接模型中微调后的自然语言预训练模型的结果和网络协议领域模型的结果进行融合操作，逻辑加法运算单元使用激活函数来转换词法信息。

7.如权利要求5所述的方法，其特征在于，所述分类层为SoftMax层，利用SoftMax层进行结果概率的计算，并采用平均交叉熵作为损失函数，最终得到实体链接结果。

8.一种基于领域知识库的计算机网络协议实体链接系统，其特征在于，包括：

模型模块，包含权利要求1～4中任一权利要求所述方法构建的计算机网络协议实体链接模型，该模型接收待进行实体链接的计算机网络协议作为输入；

9.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～7中任一权利要求所述方法的指令。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～7中任一权利要求所述的方法。