CN109522454B - 自动生成web样本数据的方法 - Google Patents

自动生成web样本数据的方法 Download PDF

Info

Publication number
CN109522454B
CN109522454B CN201811386566.7A CN201811386566A CN109522454B CN 109522454 B CN109522454 B CN 109522454B CN 201811386566 A CN201811386566 A CN 201811386566A CN 109522454 B CN109522454 B CN 109522454B
Authority
CN
China
Prior art keywords
sample
web
character
layer
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811386566.7A
Other languages
English (en)
Other versions
CN109522454A (zh
Inventor
普雪飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201811386566.7A priority Critical patent/CN109522454B/zh
Publication of CN109522454A publication Critical patent/CN109522454A/zh
Application granted granted Critical
Publication of CN109522454B publication Critical patent/CN109522454B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及安全领域,针对现有的web样本数据无法自动生成的问题,提出一种自动生成web样本数据的方法,包括:构建web训练样本的样本训练集,对样本训练集内的web训练样本进行特征处理得到对应的编码字符串,构建神经网络模型;将样本训练集对应的编码字符串输入至神经网络模型,计算损失函数值,通过最小化损失函数值来优化神经网络模型得到最优模型;构建web输入样本的样本输入集,对样本输入集内的web输入样本进行特征处理得到对应的编码字符串,将样本输入集对应的编码字符串输入到最优模型生成数字字符序列;将数字字符序列转换为对应的词表字符序列。本发明适用于生成安全测试中的web样本数据。

Description

自动生成web样本数据的方法
技术领域
本发明涉及安全领域,特别涉及一种自动生成web样本数据的方法。
背景技术
随着信息化时代的发展,国家发展进入了网络安全时代,国家出台了网络安全法,公司内部也已经在开发自身的网络安全产品,web攻击输入中,一些文本类型的流量数据获取有时比较麻烦,当系统要进行输入时,要手动造web样本数据,如此需要较高的人工成本。
发明内容
本发明所要解决的技术问题是:克服现有的web样本数据无法自动生成的问题,提出一种自动生成web样本数据的方法。
本发明解决上述技术问题,采用的技术方案是:
自动生成web样本数据的方法,包括:
构建web训练样本的样本训练集,对样本训练集内的web训练样本进行特征处理得到对应的编码字符串,构建神经网络模型;
将样本训练集对应的编码字符串输入至神经网络模型,计算损失函数值,通过最小化损失函数值来优化神经网络模型得到最优模型;
构建web输入样本的样本输入集,对样本输入集内的web输入样本进行特征处理得到对应的编码字符串,将样本输入集对应的编码字符串输入到最优模型生成数字字符序列;
将数字字符序列转换为对应的词表字符序列。
优选的,所述构建web训练样本的样本训练集包括:
收集多个同类型的web训练样本,web训练样本的类型包括白流量数据或黑流量数据或rfi数据;
对收集到的web训练样本进行预处理,得到对应web训练样本的样本训练集;
所述构建web输入样本的样本输入集,包括:
通过指定URL地址的协议并按URL的格式指定长度随机生成字符串构成web输入样本。
优选的,所述预处理包括剔除乱码和编码转换。
优选的,所述对样本训练集内的web训练样本进行特征处理得到对应的编码字符串包括:
对样本训练集内的样本以字符级别进行分词处理;
根据分词处理得到的字符构建词表;
统计词表中出现过的字符,并给每个字符赋予唯一的编号;
根据字符对应的编号对样本训练集内的web训练样本进行编码得到编码字符串;
所述对样本输入集内的web输入样本进行特征处理得到对应的编码字符串包括:
根据字符对应的编号对样本输入集内的web输入样本进行编码得到编码字符串。
优选的,所述神经网络模型包括输入层、嵌入层、第一LSTM循环层、第二LSTM循环层、Concatenate层、Attention层和输出层;
输入层,用于将样本训练集对应的编码字符串输入神经网络模型;
嵌入层,用于将编码字符串中每个字符转换为预定维度的字符嵌入向量;
第一LSTM循环层,用于学习编码字符串中时序关系,接收字符嵌入向量,经过LSTM运算后得到对应各时刻隐藏层的输出,记为第一隐藏层输出;
第二LSTM循环层,用于接收第一LSTM循环层的输出,经过LSTM运算后得到对应的各时刻隐藏层的输出;
Concatenate层,用于对字符嵌入向量、第一LSTM循环层的输出和第二LSTM循环层的输出进行拼接得到时序特征;
Attention层,用于对各时序特征赋予权重;
输出层,用于将Attention层的输出映射成输入的样本训练集对应的编码字符串的下一个数字字符取值的概率。
优选的,所述计算损失函数值包括:
采用交叉熵计算损失函数值,交叉熵方法采用的评估数据集为样本训练集。
优选的,所述将样本输入集对应的编码字符串输入到最优模型生成web样本数据之前还包括:
保存最优模型;
加载最优模型。
优选的,所述将样本输入集对应的编码字符串输入到最优模型生成web样本数据,包括:
将样本输入集对应的编码字符串作为给定序列输入至最优模型生成一个数字字符,将生成的数字字符添加到给定序列的末尾并删除给定序列的第一个字符形成新的给定序列,将新的给定序列输入至最优模型生成下一数字字符,以此类推。
本发明的有益效果是:
通过对神经网络模型的训练得到最优模型,将web输入样本编码后输入至最优模型生成数字字符序列,将数字字符序列转换为对应的词表字符序列,该词表字符序列即为web样本数据,本发明能自动生成web样本数据,降低了人工成本,且能根据训练的web训练样本的不同而生成相对应类型的web样本数据。
附图说明
图1为本发明实施例的流程图;
图2为本发明实施例的神经网络模型流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步详细说明。
自动生成web样本数据的方法,包括:
构建web训练样本的样本训练集,对样本训练集内的web训练样本进行特征处理得到对应的编码字符串,构建神经网络模型;
将样本训练集对应的编码字符串输入至神经网络模型,计算损失函数值,通过最小化损失函数值来优化神经网络模型得到最优模型;
构建web输入样本的样本输入集,对样本输入集内的web输入样本进行特征处理得到对应的编码字符串,将样本输入集对应的编码字符串输入到最优模型生成数字字符序列;
将数字字符序列转换为对应的词表字符序列。
其中,神经网络模型可基于keras和tensorflow框架来实现。
为保证web训练样本的多样性及有效性,作为上述方案的优选,上述构建web训练样本的样本训练集可包括:收集多个同类型的web训练样本,web训练样本的类型包括白流量数据或黑流量数据或rfi(remote file inclusion,远程文件包含漏洞)数据,其中,白流量数据代表的正常的web访问请求,黑流量数据代表非正常的web访问请求,web访问请求包括URL地址和请求参数,训练数据中只能包含一类数据,目的是生成白流量数据的话,训练时只使用白流量数据训练,以此类推。
为了构建的方便性,web输入样本的长度以及web输入样本的取值可以编写简单的程序随机来指定,所述构建web输入样本的样本输入集,包括:通过指定URL地址的协议并按URL的格式指定长度随机生成字符串构成web输入样本。其中,输入样本的个数可以进行指定,例如指定m个,则按照上述方法生成m个web输入样本,URL地址的协议可采用http协议。
对收集到的web训练样本进行预处理,得到对应web训练样本的样本训练集,同样的,对收集到的web输入样本进行预处理,得到对应web输入样本的样本输入集。上述预处理可包括剔除乱码和编码转换,其中,编码转换可为利用开源的URL解析工具或者python语言开源的的urllib库完成对提出乱码后的web训练样本中的html编码进行解码,如此html编码的字符可还原成原始字符。
鉴于LSTM算法只能处理数值数据,需要对非数值数据进行编码。上述对样本训练集中的样本进行特征处理得到编码字符串可包括:
对样本训练集中的样本以字符级别进行分词处理;
根据分词处理得到的字符构建词表;
统计词表中出现过的字符,并给每个字符赋予唯一的编号;
根据字符对应的编号对样本训练集内的web训练样本进行编码得到编码字符串;
其中,可利用利用正则表达式对样本进行分词,以字符级为单位,例如:“http:”,分词后变为“h,t,t,p,:”,分词后构建词表,统计所有出现过的字符,并给每个字符赋予一个唯一的编号,编号从零开始,以1为单位依次递增。构建好词表后根据词表中字符对应的编号对训练集中的样本进行编码,将字符串转换为数字类型的编码字符串。
鉴于样本训练集中的样本的多样性,后续web输入样本的编码可直接采用上述词表中字符赋予的编码来进行,即根据字符对应的编号对样本输入集内的web输入样本进行编码得到编码字符串。
上述将数字字符序列转换为对应的词表字符序列可按照上述编号对应的词表中字符进行相应的转换得到词表字符序列。
上述神经网络模型可包括输入层、嵌入层、第一LSTM(Long Short-Term Memory,长短期记忆网络)循环层、第二LSTM循环层、Concatenate层、Attention层和输出层;
输入层,用于将样本训练集对应的编码字符串输入神经网络模型;
嵌入层,用于将编码字符串中每个字符转换为预定维度的字符嵌入向量;
第一LSTM循环层,用于学习编码字符串中时序关系,接收字符嵌入向量,经过LSTM运算后得到对应各时刻隐藏层的输出,记为第一隐藏层输出;
第二LSTM循环层,用于接收第一LSTM循环层的输出,经过LSTM运算后得到对应的各时刻隐藏层的输出;
Concatenate(连接)层,用于对字符嵌入向量、第一LSTM循环层的输出和第二LSTM循环层的输出进行拼接得到时序特征;
Attention(注意力)层,用于对各时序特征赋予权重;
输出层,用于将Attention层的输出映射成输入的样本训练集对应的编码字符串的下一个数字字符取值的概率。
其中,输出层采用的映射函数可为softmax,将输出映射成输入字符的下一个数字字符各取值的概率,下一数字字符可包括大写字母、小写字母、标点符号和表情等对应的编码,字符对应的概率越大表示输入的下一个字符的取该值的可能性越大。
为使得模型出来的结果尽可能的拟合样本训练集本身,上述计算损失函数值可包括:采用交叉熵计算损失函数值,交叉熵方法采用的评估数据集为样本训练集。
为保证根据不同种类样本训练集来训练不同的模型,等需要使用的时候再调用相应的模型,所述将样本输入集对应的编码字符串输入到最优模型生成web样本数据之前还包括:
保存最优模型;
加载最优模型。
其中,可根据不同种类样本训练集来训练不同的模型,将训练好的模型保存成二进制的文件,需要用到时可加载进来使用;当需要生成白流量数据时,加载已经训练好的对应白流量的最优模型,调用数据生成方法即可自动生成白流量数据;
为了生成数据的方便性,所述将样本输入集对应的编码字符串输入到最优模型生成web样本数据,包括:
将样本输入集对应的编码字符串作为给定序列输入至最优模型生成一个数字字符,将生成的数字字符添加到给定序列的末尾并删除给定序列的第一个字符形成新的给定序列,将新的给定序列输入至最优模型生成下一数字字符,以此类推。
实施例
如图1所示,以生成白流量url数据为例,对应的,web训练样本为白流量url数据,具体实施步骤如下:
1、搭建环境:基础运行环境为python,构建神经网络模型所需的库为tensorflow和keras,搭建神经网络的用户交互主要依靠keras,底层运行tensorflow,同时开源工具textgenrnn封装了基于tensorflow和keras的文本生成网络,可以直接使用。
2、构建样本训练集和样本输入集:收集白流量web访问请求数据样本,剔除有乱码的白流量web访问请求数据样本,对剩余的白流量web访问请求数据样本进行html编码转换,将编码后的字符还原成原始字符,将预处理后的70%的web访问请求数据样本用于构建样本输入集,30%的样本用于构建样本训练集,web访问请求包括URL地址和请求参数。
3、特征处理:利用正则表达式对步骤2输出的样本输入集和样本训练集中的web访问请求进行分词,以字符级为单位,例如:“http:”,分词后变为“h,t,t,p,:”,分词后构建词表,统计所有出现过的字符,并给每个字符赋予一个唯一的编号,编号从零开始,以1为单位依次递增。构建好词表后根据词表中字符对应的编号对web访问请求的字符串进行编码,将字符串转换为数字类型的编码字符串。
4、模型构建:利用keras库搭建神经网络模型,神经网络架构采用LSTM+Attention的方式来实现。神经网络模型包含输入层、embedding层、lstm层、注意力层、输出层,输出层通过softmax进行映射,损失函数为交叉熵,将输出映射成输入字符的下一个字符取该值的概率,概率越大表示输入的下一个取该字符的可能性越大,神经网络模型的输入编码字符串,学习的输出是这段编码字符串的下一个字符的取值。
上述步骤1-4均为准备工作,步骤4也可在步骤1之后便执行。
5、模型训练:将特征处理输出的样本训练集对应的编码字符串输入到上述神经网络模型进行训练,通过反复多轮迭代,将交叉熵损失降到最小,评估的数据集可以使用样本训练集本身,以使得模型尽可能的拟合训练集。
具体的,如图2所示,模型的流程为:
1)embedding层它将每个输入的编码字符转换为100维的字符嵌入向量,其中,图中的(**,40,100)表示**个web训练样本,每个样本的编码字符串为40个数字,如果不足40个,则可在编码字符串的末尾填充0使得长度为40,每个字符可作为一个时序特征,100代表每个时序特征的维数为128维度,其它的,以此类推。
2)100维的字符嵌入向量输入到一个包含128个神经元的第一LSTM循环层中。
3)步骤2)的输出被传输至包含128个神经元的第二LSTM循环层中。
4)以上所有三层的输出在Concatenate层进行连接得到最终的时序特征;
5)将步骤4)的输出输入到Attention层中,用来给最重要的时序特征赋权。
6)输出层用于将输出映射到不同数字字符的概率分布上,这些数字字符是序列中的下一个字符,包括大写字母、小写字母、标点符号和表情等对应的编码。
6、数据生成:使用LSTM模型做出预测的最简单方法是将样本输入集对应的编码字符串作为给定序列输入至最优模型生成一个数字字符,将生成的数字字符添加到给定序列的末尾并删除给定序列的第一个字符形成新的给定序列,将新的给定序列输入至最优模型生成下一数字字符,以此类推。在这里重复上述过程n次,就可以生成一个n个数字的数字字符序列,将数字字符序列按照上述编号对应的词表中字符进行相应的转换得到对应的词表字符序列,该词表字符序列即为最终的web样本数据。

Claims (8)

1.自动生成web样本数据的方法,其特征在于,包括:
构建web训练样本的样本训练集,对样本训练集内的web训练样本进行特征处理得到对应的编码字符串,构建神经网络模型;
将样本训练集对应的编码字符串输入至神经网络模型,计算损失函数值,通过最小化损失函数值来优化神经网络模型得到最优模型;
构建web输入样本的样本输入集,对样本输入集内的web输入样本进行特征处理得到对应的编码字符串,将样本输入集对应的编码字符串输入到最优模型生成数字字符序列;
将数字字符序列转换为对应的词表字符序列。
2.如权利要求1所述的方法,其特征在于,所述构建web训练样本的样本训练集,包括:
收集多个同类型的web训练样本,web训练样本的类型包括白流量数据或黑流量数据或rfi数据;
对收集到的web训练样本进行预处理,得到对应web训练样本的样本训练集;
所述构建web输入样本的样本输入集,包括:
通过指定URL地址的协议并按URL的格式指定长度随机生成字符串构成web输入样本。
3.如权利要求2所述的方法,其特征在于,所述预处理包括剔除乱码和编码转换。
4.如权利要求1所述的方法,其特征在于,所述对样本训练集内的web训练样本进行特征处理得到对应的编码字符串包括:
对样本训练集内的样本以字符级别进行分词处理;
根据分词处理得到的字符构建词表;
统计词表中出现过的字符,并给每个字符赋予唯一的编号;
根据字符对应的编号对样本训练集内的web训练样本进行编码得到编码字符串;
所述对样本输入集内的web输入样本进行特征处理得到对应的编码字符串包括:
根据字符对应的编号对样本输入集内的web输入样本进行编码得到编码字符串。
5.如权利要求1所述的方法,其特征在于,所述神经网络模型包括输入层、嵌入层、第一LSTM循环层、第二LSTM循环层、Concatenate层、Attention层和输出层;
输入层,用于将样本训练集对应的编码字符串输入神经网络模型;
嵌入层,用于将编码字符串中每个字符转换为预定维度的字符嵌入向量;
第一LSTM循环层,用于学习编码字符串中时序关系,接收字符嵌入向量,经过LSTM运算后得到对应各时刻隐藏层的输出,记为第一隐藏层输出;
第二LSTM循环层,用于接收第一LSTM循环层的输出,经过LSTM运算后得到对应的各时刻隐藏层的输出;
Concatenate层,用于对字符嵌入向量、第一LSTM循环层的输出和第二LSTM循环层的输出进行拼接得到时序特征;
Attention层,用于对各时序特征赋予权重;
输出层,用于将Attention层的输出映射成输入的样本训练集对应的编码字符串的下一个数字字符取值的概率。
6.如权利要求1所述的方法,其特征在于,所述计算损失函数值包括:
采用交叉熵计算损失函数值,交叉熵方法采用的评估数据集为样本训练集。
7.如权利要求1所述的方法,其特征在于,所述将样本输入集对应的编码字符串输入到最优模型生成web样本数据之前还包括:
保存最优模型;
加载最优模型。
8.如权利要求1所述的方法,其特征在于,所述将样本输入集对应的编码字符串输入到最优模型生成web样本数据,包括:
将样本输入集对应的编码字符串作为给定序列输入至最优模型生成一个数字字符,将生成的数字字符添加到给定序列的末尾并删除给定序列的第一个字符形成新的给定序列,将新的给定序列输入至最优模型生成下一数字字符,以此类推。
CN201811386566.7A 2018-11-20 2018-11-20 自动生成web样本数据的方法 Active CN109522454B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811386566.7A CN109522454B (zh) 2018-11-20 2018-11-20 自动生成web样本数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811386566.7A CN109522454B (zh) 2018-11-20 2018-11-20 自动生成web样本数据的方法

Publications (2)

Publication Number Publication Date
CN109522454A CN109522454A (zh) 2019-03-26
CN109522454B true CN109522454B (zh) 2022-06-03

Family

ID=65776750

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811386566.7A Active CN109522454B (zh) 2018-11-20 2018-11-20 自动生成web样本数据的方法

Country Status (1)

Country Link
CN (1) CN109522454B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245231B (zh) * 2019-05-16 2023-01-20 创新先进技术有限公司 一种针对乱码的训练样本特征提取方法、装置及设备
CN110135566A (zh) * 2019-05-21 2019-08-16 四川长虹电器股份有限公司 基于lstm二分类神经网络模型的注册用户名检测方法
CN110532452B (zh) * 2019-07-12 2022-04-22 西安交通大学 一种基于gru神经网络的新闻网站通用爬虫设计方法
CN110675199A (zh) * 2019-10-08 2020-01-10 四川长虹电器股份有限公司 一种基于hash算法生成不重复优惠码的方法
CN110933105B (zh) * 2019-12-13 2021-10-22 中国电子科技网络信息安全有限公司 一种Web攻击检测方法、系统、介质和设备
CN114943228B (zh) * 2022-06-06 2023-11-24 北京百度网讯科技有限公司 端到端敏感文本召回模型的训练方法、敏感文本召回方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778730A (zh) * 2016-12-29 2017-05-31 深圳爱拼信息科技有限公司 一种用于快速生成ocr训练样本的自适应方法及系统
CN107145483A (zh) * 2017-04-24 2017-09-08 北京邮电大学 一种基于嵌入式表示的自适应中文分词方法
CN107463879A (zh) * 2017-07-05 2017-12-12 成都数联铭品科技有限公司 基于深度学习的人体行为识别方法
CN107957872A (zh) * 2017-10-11 2018-04-24 中国互联网络信息中心 一种完整网站源码获取方法及非法网站检测方法、系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7844567B2 (en) * 2007-08-13 2010-11-30 Yahoo! Inc. System and method for selecting a training sample from a sample test based on data sample proximity
US8060456B2 (en) * 2008-10-01 2011-11-15 Microsoft Corporation Training a search result ranker with automatically-generated samples
ES2393501B1 (es) * 2010-09-03 2013-11-11 Telefónica, S.A. Método y sistema para clasificación de tráfico.
CN105591972B (zh) * 2015-12-22 2018-09-11 桂林电子科技大学 一种基于本体的网络流量分类方法
US10043261B2 (en) * 2016-01-11 2018-08-07 Kla-Tencor Corp. Generating simulated output for a specimen
CN106776540A (zh) * 2016-11-23 2017-05-31 清华大学 一种自由化文本生成方法
US10348745B2 (en) * 2017-01-05 2019-07-09 Cisco Technology, Inc. Associating a user identifier detected from web traffic with a client address
CN107346388B (zh) * 2017-07-03 2020-06-02 四川无声信息技术有限公司 Web攻击检测方法及装置
CN107992469A (zh) * 2017-10-13 2018-05-04 中国科学院信息工程研究所 一种基于词序列的钓鱼url检测方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778730A (zh) * 2016-12-29 2017-05-31 深圳爱拼信息科技有限公司 一种用于快速生成ocr训练样本的自适应方法及系统
CN107145483A (zh) * 2017-04-24 2017-09-08 北京邮电大学 一种基于嵌入式表示的自适应中文分词方法
CN107463879A (zh) * 2017-07-05 2017-12-12 成都数联铭品科技有限公司 基于深度学习的人体行为识别方法
CN107957872A (zh) * 2017-10-11 2018-04-24 中国互联网络信息中心 一种完整网站源码获取方法及非法网站检测方法、系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Daniela XHEMALI1等.Naive Bayes vs. Decision Trees vs. Neural Networks in the Classification of Training Web Pages.《IJCSI International Journal of Computer Science Issues》.2009, *
yining.神经网络学习指南.《https://www.atyun.com/3841.html》.2018, *
陈蕾.基于机器学习方法的可信Web服务发现关键技术研究.《中国博士学位论文全文数据库 信息科技辑》.2016, *

Also Published As

Publication number Publication date
CN109522454A (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN109522454B (zh) 自动生成web样本数据的方法
CN109299273B (zh) 基于改进seq2seq模型的多源多标签文本分类方法及其系统
CN109697232B (zh) 一种基于深度学习的中文文本情感分析方法
CN112560456B (zh) 一种基于改进神经网络的生成式摘要生成方法和系统
CN107451106A (zh) 文本纠正方法及装置、电子设备
CN110162972B (zh) 一种基于语句联合编码深度神经网络的uaf漏洞检测方法
CN112560486A (zh) 基于多层神经网络的电力实体识别方法、存储介质和设备
CN112214993B (zh) 基于图神经网络的文档处理方法、装置和存储介质
CN111562915A (zh) 前端代码生成模型的生成方法和装置
CN113504906A (zh) 代码生成方法、装置、电子设备及可读存储介质
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN114064117A (zh) 一种基于字节码和神经网络的代码克隆检测方法及系统
CN115168311A (zh) 一种告警事件处理方法、系统、存储介质和终端
CN113591093A (zh) 基于自注意力机制的工业软件漏洞检测方法
CN115906815A (zh) 一种用于修改一种或多种类型错误句子的纠错方法及装置
CN115935372A (zh) 一种基于图嵌入和双向门控图神经网络的漏洞检测方法
CN112699288A (zh) 一种基于条件-生成式对抗网络的食谱生成方法及系统
CN113343235B (zh) 基于Transformer的应用层恶意有效负载检测方法、系统、设备及介质
CN112818688B (zh) 文本处理方法、装置、设备及存储介质
CN114662109A (zh) 一种Webshell检测方法及装置
CN113868414A (zh) 一种可解释的法律争议焦点归纳方法与系统
CN112256838B (zh) 相似域名查找方法、装置及电子设备
CN117811843B (zh) 基于大数据分析和自主学习的网络入侵检测方法及系统
CN114492661B (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN115718696B (zh) 源码密码学误用检测方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant