CN113268740A

CN113268740A - 一种网站系统的输入约束完备性检测方法

Info

Publication number: CN113268740A
Application number: CN202110587069.9A
Authority: CN
Inventors: 林涛; 吴芝明; 黎鸣; 付迪洋
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-08-17
Anticipated expiration: 2041-05-27
Also published as: CN113268740B

Abstract

本申请提供了一种网站系统的输入约束完备性检测方法，将分布式网站系统中标注代码生成的嵌入向量和原始分类器中无标注代码的嵌入向量输入到半监督文本分类模型中进行模型训练，得到训练分类器，利用训练好的训练分类器从标注代码中筛选出符合约束条件的输入代码数据集，运用CodeBERT‑CRF组合模型，从输入代码数据集中确定代码嵌入词向量和含有上下文关系的词向量，识别输入代码数据集的语义特征，运用python脚本提取输入代码数据集的关键词特征和信息特征，响应用户登录，浏览器自动生成约束代码分类的可视化登录结果。本发明的有益效果主要在于：解决客户端输入验证功能的使用缺陷，客户端无效输入错误导致系统崩溃，以及客户端与服务器之间通信功能降低。

Description

一种网站系统的输入约束完备性检测方法

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种网站系统的输入约束完备性检测方法。

背景技术

在互联网时代，web是一种基于超文本和http的、全球性的、动态交互的、分布式图形信息系统，是建立在互联网上的一种网络服务，正在成为许多领域的核心业务并蕴含着大量的信息和经济价值，web应用程序中的交互通常强烈依赖于用户的交互式输入，而正是因为这个特性导致了web应用程序容易成为被攻击的对象，并且由于编程人员的经验不足或安全意识的缺失导致了输入约束漏洞，而这个漏洞常常导致应用程序被网络攻击，造成信息泄露和系统破坏等不可估量的损失，输入约束完备性无疑是web应用程序软件测试的一个重要关注点。

发明内容

本发明的目的在于提供一种网站系统的输入约束完备性检测方法，采用半监督文本分类模型获取符合约束条件的输入代码数据集，结合CodeBERT-CRF组合模型从输入代码数据集中精准的提取出语义特征，以及运用python编写脚本提取输入代码数据集的关键词特征和信息特征，解决了客户端输入验证功能的使用缺陷，及客户端无效输入错误导致系统崩溃、以及客户端与服务器之间通信功能降低等技术问题。

本发明是这样实现的：一种网站系统的输入约束完备性检测方法，包括：

将分布式网站系统中标注代码生成的嵌入向量和原始分类器中无标注代码的嵌入向量输入到半监督文本分类模型中进行模型训练，得到训练分类器，所述标注代码是客户端检测网站浏览器用户输入的登录信息；

利用训练好的训练分类器从标注代码中筛选出符合约束条件的输入代码数据集，所述约束条件包括：空值约束、长度约束、输入格式约束、区间范围约束和数据类型约束；

运用CodeBERT-CRF组合模型，从所述输入代码数据集中确定代码嵌入词向量和含有上下文关系的词向量；

根据所述嵌入词向量和所述含有上下文关系的词向量，识别所述输入代码数据集的语义特征，所述语义特征包括:函数名、变量、逻辑判断表达式和反馈信息；

运用python编写脚本提取所述输入代码数据集的关键词特征和信息特征，其中，所述关键词特征包括：代码空值、代码大小、代码长度、代码最大值和代码最小值，所述信息特征包括：代码注释说明、代码长度、代码文件夹路径和代码链接地址；

根据所述语义特征、所述关键词特征和所述信息特征、以及卡片分类法，对所述输入代码数据集进行约束代码分类，得到所述约束代码分类结果；

响应用户登录，浏览器自动生成所述约束代码分类的可视化登录结果。

在一些实施例中，将分布式网站系统中标注代码生成的嵌入向量和原始分类器中无标注代码的嵌入向量输入到半监督文本分类模型中进行模型训练，得到训练分类器，包括：

随机挑选多个所述标注代码，通过令牌序列解析器去掉所述标注代码中的序列标签，得到未标注代码；

对每个未标注代码进行增强训练，得到每个所述未标注代码的嵌入向量，增强代码的混合嵌入向量均值、以及相对熵的分类预测结果；

根据每个所述标注代码生成的嵌入向量、相对熵的分类预测结果、以及所述混合嵌入向量均值，构建置信输入代码数据集；

将所述输入代码数据集输入到半监督文本分类模型中进行模型训练，得到所述训练分类器。

在一些实施例中，利用训练好的训练分类器从标注代码的训练结果中筛选出符合约束条件的输入代码数据集，包括：

将每个所述输入代码数据集中的输入代码数据输入到所述训练分类器中，进行所述约束条件判断；

若该输入代码数据集符合所述约束条件，则训练分类器输出输入代码数据集对应标注的分类结果，即确定为所述符合约束条件的输入代码数据集。

在一些实施例中，运用CodeBERT-CRF组合模型，从所述输入代码数据集中确定代码嵌入词向量和含有上下文关系的词向量，包括：

通过指定函数加载CodeBERT-CRF组合模型的分词工具，并根据分词工具将输入代码数转换为令牌序列。

运用CodeBERT-CRF组合模型，将每个令牌序列转化为嵌入词向量和含有上下文关系词向量。

在一些实施例中，根据所述嵌入词向量和含有上下文关系的词向量，识别所述输入代码数据集的语义特征，包括：

运用遮蔽语言模型，对不符合语义特征的嵌入词向量和含有上下文关系的词向量进行遮蔽；

运用替换令牌检测，对遮蔽的嵌入词向量和含有上下文关系的词向量进行替换，得到符合语义特征的输入代码数据集。

在一些实施例中，运用python编写脚本提取所述输入代码数据集的关键词特征和信息特征，包括：

根据所述输入代码数据集，提取至少一组待选关键词特征，所述待选关键词特征包括代码空值、代码大小、代码长度、代码最大值和代码最小值；

针对每组待选关键词特征，判断该待选关键词特征是否满足约束条件；

若该待选关键词特征满足所述约束条件，则将该待选关键词特征确定为所述输入代码数据集的关键词特征；

所述python编写脚本通过所述令牌序列的编号，提取至少一组待选信息特征，所述待选信息特征包括：代码注释说明、代码长度、代码文件夹路径和代码链接地址；

针对每组待选信息特征，判断该待选信息特征是否满足约束条件；

若该待选信息特征满足所述约束条件，则将该待选信息特征确定为所述输入代码数据集的信息特征。

在一些实施例中，根据所述语义特征、所述关键词特征和所述信息特征、以及卡片分类法，对所述输入代码数据集进行约束代码分类，得到所述约束代码分类结果，包括：

运用文本分类工具对所述语义特征、所述关键词特征及所述信息特征进行分类标签标注，得到对应的分类标签；

根据所述约束条件将所述输入代码数据集输入到所述分类标签中，得到所述输入代码数据集的分类标签；

运用层次聚类分析算法，对每组所述输入代码数据集的分类标签进行层次聚类分析，得到约束代码分类结果。

在一些实施例中，响应用户登录，浏览器自动生成所述约束代码分类的可视化登录结果，包括：

在浏览器中安装油猴脚本，将所述约束代码分类的结果嵌入到油猴脚本中；

响应用户登录，所述油猴脚本通过浏览器自动生成可视化登录结果。

在一些实施例中，一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如所述网站系统的输入约束完备性检测方法的步骤。

在一些实施例中，一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如所述网站系统的输入约束完备性检测方法的步骤。

本发明的有益效果主要在于：本申请将网站系统中标注代码转换为嵌入向量训练出原始分类器，再通过原始分类器对无标注代码进行预测迭代训练，训练后得到训练分类器，以及能够根据有标注代码和未标注代码的隐式空间嵌入向量，挖掘代码之间的隐式关系，并在原始分类器训练有标注代码的同时训练出利用训练分类器输出的符合约束条件的输入代码数据集，并根据训练分类器的训练结果精准的识别出客户端用户输入内容登录信息，然后，运用CodeBERT-CRF组合模型，根据提取输入代码数据集的代码转换为嵌入向量和代码上下文词的相似度表征准确的提取出输入代码数据集的语义特征，并将语义特征拆分为函数名、变量、逻辑判断表达式、反馈信息并进行分类标签标注，提高了CodeBERT-CRF组合模型提取输入约束代码的语义特征的准确率，考虑到输入代码数据集中代码的语义表达重要因素，设计了运用编写代码提取关键词特征和信息特征，进一步从语义的角度多维度的精确提取；最后，通过卡片分类法对上述三种特征进行约束代码分类，将约束代码分类的结果通过浏览器脚本工具嵌入到网页中进行可视化显示。

本申请中涉及英文引用的名词解释如下：

CodeBERT+CRF：BidirectionalEncoder Representations from Transformer面向编程语言和自然语言的预训练模型与Conditional Random Model条件随机场的组合。

MixText：半监督文本分类模型。

MLM：masked language model,MLM遮蔽语言模型。

RTD：Replaced Token Detection,RTD替换令牌检测，其中，令牌为词表的最小单元。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明实施例所提供的一种网站系统的输入约束完备性检测方法的流程示意图。

图2为本发明实施例所提供的一种网站系统的输入约束完备性检测方法得到训练分类器的流程示意图。

图3为本发明实施例所提供的一种网站系统的输入约束完备性检测方法的CodeBERT-CRF组合模型提取语义特征的流程示意图。

图4为本发明实施例所提供的一种网站系统的输入约束完备性检测方法的提取关键词特征和信息特征的示意图。

图5为本发明实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计，因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现阶段web应用程序通常要求通过输入验证，拒绝不满足所需业务规则所规定的输入来执行网络系统约束，以此来保障网络系统的安全性和可靠性，客户端输入验证功能的重要性体现在以下三个方面，安全性：客户端输入验证功能的漏洞可能导致网络系统遭受攻击；可靠性：客户端输入验证功能的缺陷可能导致用户无效的输入引起网络系统的崩溃；性能：客户端输入验证功能的错误可能导致允许无效输入请求服务器的方式来降低客户端与服务器之间不必要的通信性能，因此，在任何与用户有密集交互的网络系统软件中，输入验证是必不可少，同时也是一个重要而具有挑战性的问题。以web应用程序的客户端输入约束检测为研究对象，探索从基于CodeBERT+CRF预训练模型的方式将输入代码转化为相对应的约束描述来实现网站系统输入约束完备性的检测，帮助开发人员理解自己所写的约束验证代码，及时发现输入约束验证中的漏洞，有效提升web应用程序的安全性和可靠性。现阶段段将MixUp应用于文本分类，基于标注样本和可信任新样本构建置信样本集并进行扩充，最后利用扩充后的样本集对文本分类模型进行训练，从而缓解了标注样本缺乏问题，提升了文本分类模型的性能。此外，通过校验各所述新样本的标签估计结果是否可信，可以避免不可信新样本对模型的影响，能够进一步提高文本分类模型的准确性。

本申请采用TMix数据增强的MixText半监督模型，根据隐藏空间中两个嵌入向量的插值进行混合处理，获取新的输入代码数据集，在此基础上结合了CodeBERT-CRF组合模型，提高提取输入约束代码的语义特征的准确率，以及运用编写代码提取关键词特征和信息特征进一步从语义的角度多维度的精确提取，上述方法应用于浏览器/服务器架构的交互，能够解决因编程人员的经验不足或安全意识的缺失导致了输入约束漏洞，而这个漏洞常常导致应用程序被网络攻击，造成信息泄露和系统破坏的问题。具体来讲，本申请通过python编写代码构建代码数据集，运用半监督文本分类模型训练出置信度较高的新样本的输入代码数据集，根据输入代码数据集定义的语义特征对输入代码数据集进行语义特征标注，运用CodeBERT-CRF组合模型，根据输入代码数据集的代码确定的嵌入向量和代码上下文词的相似度表征准确的识别出输入代码数据集的语义特征，该CodeBERT-CRF组合模型提高了提取输入约束代码的语义特征的准确率，考虑到输入代码数据集中代码的语义表达重要因素，设计了运用编写代码提取关键词特征和信息特征，进一步从语义的角度多维度的精确提取，通过卡片分类法对上述三种特征进行约束代码分类，将约束代码分类的结果通过浏览器脚本工具嵌入到网页中进行可视化显示。

下面结合附图，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

本发明实施例所提供了一种网站系统的输入约束完备性检测方法，如图1所示，所述方法中输入约束完备性具体包括以下步骤：

步骤S10，将分布式网站系统中标注代码生成的嵌入向量和原始分类器中无标注代码的嵌入向量输入到半监督文本分类模型中进行模型训练，得到训练分类器，标注代码是客户端检测网站浏览器用户输入的登录信息。

步骤S20，利用训练好的训练分类器从标注代码中筛选出符合约束条件的输入代码数据集，约束条件包括：空值约束、长度约束、输入格式约束、区间范围约束和数据类型约束。

步骤S30，运用CodeBERT-CRF组合模型，从输入代码数据集中确定代码词嵌入向量和含有上下文关系的词向量。

步骤S40，根据嵌入词向量和上下文关系的词向量，识别输入代码数据集的语义特征，语义特征包括：函数名、变量、逻辑判断表达式和反馈信息。

步骤S50，运用python编写脚本提取输入代码数据集的关键词特征和信息特征，其中，关键词特征包括：代码空值、代码大小、代码长度、代码最大值和代码最小值，信息特征包括：代码注释说明、代码长度、代码文件夹路径和代码链接地址。

步骤S60，根据语义特征、关键词特征和信息特征、以及卡片分类法，对输入代码数据集进行约束代码分类，得到约束代码分类结果。

步骤S70，响应用户登录，浏览器自动生成约束代码分类的可视化登录结果。

步骤S10在具体实施时，将分布式网站系统中标注代码(yi,yj)和无标注代码(xi,xj)中文本标签的ID，通过线性插入的方法输入到半监督文本分类模型的m层，假设半监督文本分类模型的层数为L层，得到m∈[0,L]；第l层的变量表示为；

其中，l表示在[1,m]层间，gl表示第1层的计算公式，θ表示参数，

表示标签对；然后，分别计算标注代码和无标注代码的嵌入向量，将该嵌入向量在第m层进行混合，混合后的嵌入向量继续向上，这种方式称为Tmix，m层表达式为：

对于上述表达式中混合参数λ，从贝塔分布采样的表达式为：

λ～Beta(α，α) (5)

λ＝max(λ，1-λ) (6)

其中，α表示超参数，是Beta贝塔分布的参数，采用Beta作为句子的原始分类器，对未标注代码预测一个置信度之间相对熵分类预测结果，表达式为：

LTMix＝KL(min(yi,yj)||p(TMix(xi,xj)；φ) (7)

其中,p(TMix(xi，xj)；φ)表示顶层原始分类器，TMix(xi,xj)表示未标注代码输出嵌入向量，KL(min(yi,yj))表示未标注代码返回的预测概率，LTMix表示为训练分类器。

步骤S20在具体实施时，将标注代码中获取到的未标注代码xi输入到半监督文本分类模型中，根据约束条件，通过加权平均算法对未标注代码xj进行预测训练，半监督文本分类模型预测训练的具体表达式为：

其中，

表示概率向量，xi表示未标注代码，k表示增强数目，根据未标注代码得到的预测平均值作为标签；防止权重平均过于统一，使用Sharpen锐化函数去预测标签，使得标签熵更低，表达式为：

其中，分母表示l1范式，T表示温度超参数，当T趋向于0的时候，生成的标签相当于提取符合约束条件分类结果的输入代码数据集。

步骤S30在具体实施时，利用CodeBERT-CRF组合模型的分词工具将输入代码数据集转化为令牌序列，并在输入代码数据集的令牌序列的起始位置加入标记，通过CodeBERT-CRF组合模型的概念处理方式，将每个令牌序列转化该组合模型识别的词向量和上下文关系的词向量。

步骤S40在具体实施时，运用遮蔽语言模型MLM中的代码生成器，预测词向量和上下文关系的词向量不符合语义特征的令牌序列进行遮蔽处理，通过替换令牌检测RTD中的代码判别器采样得到可信令牌序列，替换不符合语义特征的词向量和上下文关系的词向量的令牌序列，并在调参阶段输出通用，过程表达式为：

其中，

表示替换后的词向量，P^GC表示代码生成器，C^masked表示被遮蔽词向量，

表示替换任务，C^corrupt表示分类训练任务。

当不符合语义特征的令牌序列被替换后，通过替换令牌检测RTD中的代码判别器判断是否为原始令牌序列，若不是则生成正确的判断结果，其中，替换过程表达式为：

其中，LRTD(θ)表示替换令牌检测θ参数化的损失函数，δ(i)是指示函数，表示第i个词是原始单词的概率，P^D2表示代码判别器，1表示替换令牌序列与原始令牌序列相同，0表示不同。

步骤S50在具体实施时，技术人员运用python编写提取关键词特征和信息特征的程序脚本，运用程序脚本判断输入代码数据集的关键词特征是否符合约束条件，若符合约束条件，则提取输入代码数据集的关键词特征并执行下一步；运用程序脚本判断输入代码数据集的信息特征是否符合约束条件，若符合约束条件，则提取输入代码数据集的信息特征。

步骤S60在具体实施时，创建卡片项目，将卡片分成对应语义特征、关键词特征和信息特征的卡片组，运用文本分类工具分别对卡片组进行分类标签标注，得到对应语义特征、关键词特征和信息特征的分类标签，将输入代码数据集输入到分类标签中，根据约束条件，运用层次聚类分析算法对分类标签进行层次聚类运算，得到约束代码分类结果。

步骤S70在具体实施时，在服务端浏览器中安装脚本，将输入代码数据集的约束代码分类结果嵌入到脚本中，开发人员访问脚本，脚本通过浏览器自动呈现可视化登录结果。

在一个可行的实现方案中，图2为本发明实施例所提供的网站系统的输入约束完备性检测方法，如图2所示，得到训练分类器包括以下步骤：

在一个可行的实现方案中，上述步骤S10中，将分布式网站系统中标注代码生成的嵌入向量和原始分类器中无标注代码的嵌入向量输入到半监督文本分类模型中进行模型训练，得到训练分类器，如图2所示，包括：

步骤S101，随机挑选多个标注代码，通过令牌序列解析器去掉标注代码中的序列标签，得到未标注代码。

步骤S102，对每个未标注代码进行增强训练，得到每个未标注代码的嵌入向量，增强代码的混合嵌入向量均值、以及相对熵的分类预测结果。

步骤S103，根据每个标注代码生成的嵌入向量、相对熵的分类预测结果、以及混合嵌入向量均值，构建置信输入代码数据集。

步骤S104，将输入代码数据集输入到半监督文本分类模型中进行模型训练，得到训练分类器。

步骤S101在具体实施时，根据编写Python代码读写文件，对分布式网站系统中有文档注释代码和无文档注释代码进行代码注释规范处理，得到代码集，通过令牌序列解析器对代码集进行标注，得到标注代码并以逗号分隔形式保存，标注代码由序列标签和文本标签组成，随机挑选多个标注代码，通过令牌序列解析器去掉标注代码中的序列标签，得到未标注代码，将每个未标注代码输入到半监督文本分类模型的隐藏空间中进行增强训练，得到对应的增强代码。

步骤S102在具体实施时，将每个未标注代码和增强代码输入到混合空间的原始分类器中进行训练，得到每个未标注代码的嵌入向量、增强代码的混合嵌入向量均值、以及原始分类器置信度之间相对熵分类预测结果。

步骤S103在具体实施时，根据每个标注代码生成的嵌入向量、相对熵的分类预测结果、以及混合嵌入向量均值，构建置信代码集，并对置信代码集进行编码扩充处理，得到输入代码数据集。

步骤S104在具体实施时，将输入代码数据集输入到原始训练器中进行相对熵最小值预测，将预测结果更新到半监督文本分类模型中，得到训练分类器。

在一个可行的实现方案中，上述步骤S20中，利用训练好的训练分类器从标注代码中筛选出符合约束条件的输入代码数据集，包括：

步骤201，将每个输入代码数据集中的输入代码数据输入到分类训练器中，进行约束条件判断。

步骤202，若该输入代码数据集符合约束条件，则训练分类器输出输入代码数据集对应标注的结果，即确定为符合约束条件的输入代码数据集。

步骤201在具体实施时，将每个输入代码数据集中的输入代码数据输入到训练分类器中，训练分类器对每个输入代码数据进行标注，训练分类器根据标注分别对输入代码数据进行空值约束、长度约束、输入格式约束、区间范围约束和数据类型约束预测判断。

步骤202在具体实施时，若输入代码数据集符合上述所有约束条件，训练分类器对输入代码数据集自动生成标注，将该标注记录为1并执行下一步，若不符合约束条件，则训练分类器对输入代码数据集生成标注，该标注记录为0并停止执行。

在一个可行的实现方案中，图3为本发明实施例所提供的网站系统的输入约束完备性检测方法的提取语义特征流程示意图；如图3所示，具体CodeBERT-CRF组合模型提取语义特征包括以下步骤：

在一个可行的实现方案中，上述步骤S30中，运用CodeBERT-CRF组合模型，从输入代码数据集中确定代码嵌入词向量和含有上下文关系的词向量，如图3所示，包括：

步骤S301，通过指定函数加载CodeBERT-CRF组合模型的分词工具，并根据分词工具将输入代码数据集转换为令牌序列。

步骤S302，运用CodeBERT-CRF组合模型，将每个令牌序列转化为嵌入词向量和含有上下文关系词向量。

步骤S301在具体实施时，通过两个指定函数加载分词工具和模型架构，分词工具目标字符串函数将输入代码数据集转化为令牌序列，以令牌序列的起始和结尾位置加入。

步骤S302在具体实施时，根据拼接好的令牌序列，生成CodeBERT-CRF组合模型词表中对应令牌序列的位置编号，通过模型架构将每个令牌序列转换为CodeBERT-CRF组合模型能够识别的嵌入词向量和含有上下文关系词向量。

在一个可行的实现方案中，上述步骤S40中，根据嵌入词向量和上下文关系的词向量，识别输入代码数据集的语义特征，语义特征包括：函数名、变量、逻辑判断表达式和反馈信息，如图3所示，包括：

步骤S401，运用遮蔽语言模型，对不符合语义特征的嵌入词向量和含有上下文关系的词向量进行遮蔽。

步骤S402，运用替换令牌检测，对遮蔽的嵌入词向量和含有上下文关系的词向量进行替换，得到符合语义特征的输入代码数据集。

步骤S401在具体实施时，采用文本标注工具对嵌入词向量和含有上下文关系的词向量的每个令牌序列进行标签标注，运用CodeBERT-CRF组合模型中的遮蔽语言模型，根据语义特征对输入代码数据集进行遮蔽语言模型训练，获取输入代码数据集含有上下文关系的词向量，将不符合语义特征的词向量和含有上下文关系的词向量进行遮蔽处理，其中，遮蔽语言模型训练包括以下两种方式：

例如：通过CodeBERT-CRF组合模型中的遮蔽语音模型，运用令牌序列对输入代码数据集的语义特征进行标注，随机获取15％具有语义特征的令牌序列进行遮蔽，这种方式为静态遮蔽。

遮蔽语音模型在训练过程中，随机选择15％输入代码数据集的嵌入词向量和含有上下文关系的词向量，通过CodeBERT-CRF组合模型进行替换，对每个嵌入词向量和含有上下文关系的词向量被遮蔽的令牌序列均不同，这种方式为动态遮蔽。

步骤S402在具体实施时，运用替换令牌检测中的代码生成器，根据嵌入词向量和含有上下文关系的词向量的语义特征随机生成预测的令牌序列，将上一步骤中被遮蔽的令牌序列进行替换，替换后运用代码判别器，检测被替换的令牌序列是否为原始令牌序列，若识别为已替换，则上传给CodeBERT-CRF组合模型，提取输入代码数据集的语义特征，获取每个语义特征对应令牌序列的含有上下关系的词向量，再对每个令牌序列的含有上下关系的词向量接入激活函数，得到每个令牌序列对应的语义特征标签。

在一个可行的实现方案中，图4为本发明实施例所提供的网站系统的输入约束完备性检测方法的提取关键词特征和信息特征示意图；如图4所示，提取关键词特征和信息特征包括以下步骤：

在一个可行的实现方案中，上述步骤S50中，运用python编写脚本提取输入代码数据集的关键词特征和信息特征，包括：

步骤501，根据输入代码数据集，提取至少一组待选关键词特征，待选关键词特征包括代码空值、代码大小、代码长度、代码最大值和代码最小值。

步骤502，针对每组待选关键词特征，判断该待选关键词特征是否满足约束条件。

步骤503，若该待选关键词特征满足约束条件，则将该待选关键词特征确定为输入代码数据集的关键词特征。

步骤504，python编写脚本通过令牌序列的编号，提取至少一组待选信息特征，待选信息特征包括：代码注释说明、代码长度、代码文件夹路径和代码链接地址。

步骤505，针对每组待选信息特征，判断该待选信息特征是否满足约束条件。

步骤506，若该待选信息特征满足约束条件，则将该待选信息特征确定为输入代码数据集的信息特征。

步骤501、502、503在具体实施时，采用python编写脚本，提取关键词特征，判断输入代码数据集中代码是否为空，若不为空则符合约束条件，依次判断输入代码数据集中代码长度与python脚本中的预设长度是否相等，若相等则符合约束条件，再分别判断输入代码数据集中代码最大值和最小值是否在python脚本预设的阈值范围内，满足以上约束条件，python脚本提取出输入代码数据集。

步骤504、505、506在具体实施时，python编写脚本通过令牌序列的编号，提取出输入代码数据中代码的注释说明、代码文件夹路径和代码链接地址，依次根据python脚本的计算公式计算输入代码数据集中代码长度是否与python脚本的预设规范长度相等，若满足上述约束条件，提取出输入代码数据集。

在一个可行的实现方案中，上述步骤S60中，根据语义特征、关键词特征和信息特征、以及卡片分类法，对输入代码数据集进行约束代码分类，得到约束代码分类结果，包括：

步骤601，运用文本分类工具对语义特征、关键词特征及信息特征进行分类标签标注，得到对应的分类标签。

步骤602，根据约束条件将输入代码数据集输入到分类标签中，得到输入代码数据集的分类标签。

步骤603，运用层次聚类分析算法，对每组输入代码数据集的分类标签进行层次聚类分析，得到约束代码分类结果。

步骤601在具体实施时，运用在线的文本分类工具，创建卡片项目，并通过拖拽方式将语义特征、关键词特征和信息特征分成对应卡片组，并对卡片组进行分类，得到原始代码列表和可视化图表。

步骤602在具体实施时，通过开放式卡片分类方式，根据约束条件的类别将语义特征、关键词特征和信息特征对应的卡片组进行分类标签标注，并将输入代码数据集输入到分类标签中，得到符合约束条件的分类标签。

步骤603在具体实施时，运用层次聚类分析算法，计算卡片组分类标签的初始距离，将最接近的两个卡片组合并为一组，采用欧几里得距离进行整组距离计算，再通过层次聚类分析，得到相同组别的约束代码分类结果。

在一个可行的实现方案中，上述步骤70中，响应用户登录，浏览器自动生成约束代码分类的可视化登录结果，包括：

步骤701，在浏览器中安装油猴脚本，将约束代码分类的结果嵌入到油猴脚本中。

步骤702，响应用户登录，油猴脚本通过浏览器自动生成可视化登录结果。

步骤701、702在具体实施时，在服务端的浏览器中安装油猴脚本，将上一步骤中获取到的约束代码分类结果嵌入到油猴脚本中，开发人员访问油猴脚本的网站系统，油猴脚本通过浏览器自动生成可视化登录结果。

在本申请实施例中，所述存储介质还可以执行其它机器可读指令，以执行本申请中其它所述的方法，关于具体执行的方法步骤和原理参见上述的说明，在此不再详细赘述。

图5为本申请一实施例提供的一种电子设备80的结构示意图，包括：处理器801、存储介质802和总线803，存储介质802存储有处理器801可执行的机器可读指令，当电子设备运行上述的信息处理的方法时，处理器801与存储介质802之间通过总线803通信，处理器801执行机器可读指令，以执行以下步骤：

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行以下步骤：

在本申请实施例中，该计算机程序被处理器运行时还可以执行其它机器可读指令，以执行本申请中其它所述的方法，关于具体执行的方法步骤和原理参见上述的说明，在此不再详细赘述。

以上所述仅为本发明的优先实时例而已，并不用于限制本发明对于本领域的技术人员来说，本发明可以有各种更改和变化，凡在本发明的精神和原则之内，所作的任意修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种网站系统的输入约束完备性检测方法，其特征在于，包括：

2.根据权利要求1所述的网站系统的输入约束完备性检测方法，其特征在于，将分布式网站系统中标注代码生成的嵌入向量和原始分类器中无标注代码的嵌入向量输入到半监督文本分类模型中进行模型训练，得到训练分类器，包括：

3.根据权利要求1所述的网站系统的输入约束完备性检测方法，其特征在于，利用训练好的训练分类器从标注代码的训练结果中筛选出符合约束条件的输入代码数据集，包括：

4.根据权利要求1所述的网站系统的输入约束完备性检测方法，其特征在于，运用CodeBERT-CRF组合模型，从所述输入代码数据集中确定代码嵌入词向量和含有上下文关系的词向量，包括：

通过指定函数加载CodeBERT-CRF组合模型的分词工具，并根据分词工具将输入代码数转换为令牌序列；

5.根据权利要求1所述的网站系统的输入约束完备性检测方法，其特征在于，根据所述嵌入词向量和含有上下文关系的词向量，识别所述输入代码数据集的语义特征，包括：

6.根据权利要求1所述的网站系统的输入约束完备性检测方法，其特征在于，运用python编写脚本提取所述输入代码数据集的关键词特征和信息特征，包括：

所述python编写脚本通过令牌序列的编号，提取至少一组待选信息特征，所述待选信息特征包括：代码注释说明、代码长度、代码文件夹路径和代码链接地址；

7.根据权利要求1所述的网站系统的输入约束完备性检测方法，其特征在于，根据所述语义特征、所述关键词特征和所述信息特征、以及卡片分类法，对所述输入代码数据集进行约束代码分类，得到所述约束代码分类结果，包括：

根据所述约束条件将所述输入代码数据集输入到分类标签中，得到所述输入代码数据集的分类标签；

8.根据权利要求1所述的网站系统的输入约束完备性检测方法，其特征在于，响应用户登录，浏览器自动生成所述约束代码分类的可视化登录结果，包括：

9.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如权利要求1至8任一所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至8任一所述方法的步骤。