CN117807603B - 软件供应链审计方法、系统及计算机可读存储介质 - Google Patents

软件供应链审计方法、系统及计算机可读存储介质 Download PDF

Info

Publication number
CN117807603B
CN117807603B CN202410227591.XA CN202410227591A CN117807603B CN 117807603 B CN117807603 B CN 117807603B CN 202410227591 A CN202410227591 A CN 202410227591A CN 117807603 B CN117807603 B CN 117807603B
Authority
CN
China
Prior art keywords
token
supply chain
software supply
data
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410227591.XA
Other languages
English (en)
Other versions
CN117807603A (zh
Inventor
陈晓莉
林建洪
蓝康波
国毓芯
赵祥廷
朱崇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Ponshine Information Technology Co ltd
Original Assignee
Zhejiang Ponshine Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Ponshine Information Technology Co ltd filed Critical Zhejiang Ponshine Information Technology Co ltd
Priority to CN202410227591.XA priority Critical patent/CN117807603B/zh
Publication of CN117807603A publication Critical patent/CN117807603A/zh
Application granted granted Critical
Publication of CN117807603B publication Critical patent/CN117807603B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及软件供应链审计方法、系统及计算机可读存储介质,审计方法包括:采集软件供应链审计数据;对采集的软件供应链审计数据进行数据分词,以转换得到Token序列;之后进行Embedding编码,得到待处理数据矩阵;对待处理数据矩阵进行归一化处理,之后进行位置编码,得到位置编码矩阵;将位置编码矩阵输入多头注意力机制网络结构进行计算,其计算结果通过多次Gibbs采样结合自回归的方式逐个生成输出序列中的每个Token,得到Token输出序列;将Token输出序列通过输出层计算,以输出审计结果;其中,输出层包括依次连接的归一化逆转换和前馈神经网络。本发明有效提高网络模型的精确性、灵活性、可解释性。

Description

软件供应链审计方法、系统及计算机可读存储介质
技术领域
本发明属于软件供应链技术领域,具体涉及一种软件供应链审计方法、系统及计算机可读存储介质。
背景技术
软件供应链安全是指在软件开发和交付过程中,保障软件系统各个环节的安全性,以防止恶意攻击、漏洞利用和恶意代码的注入。软件供应链包括从软件开发、测试、打包、分发到部署等各个环节,涉及多个参与方、组织和网络。在当前数字化时代,软件供应链攸关企业的业务运作和信息安全,因此需要给予足够的重视。
近年来,人工智能领域大语言模型技术深入到各个行业及领域中,为解决优化软件供应链技术审计阶段可能存在的问题,考虑结合开源的大语言模型并结合创新的技术要点适应性的开发应用在软件供应链技术审计模块中,由此设计软件供应链审计方案,其中包含软件供应链审计中代码审查、组件分析、安全测试等不同阶段的实现。
发明内容
基于现有技术中存在的上述不足,本发明的目的是提供一种软件供应链审计方法、系统及计算机可读存储介质。
为了达到上述发明目的,本发明采用以下技术方案:
一种软件供应链审计方法,包括以下步骤:
S1、采集软件供应链审计数据;
S2、基于Tokenization对采集的软件供应链审计数据进行数据分词,以转换得到Token序列;
S3、对Token序列进行Embedding编码,将Token序列的每个Token映射为一个实数向量,得到待处理数据矩阵;
S4、对待处理数据矩阵进行归一化处理,之后进行位置编码,得到位置编码矩阵;
S5、将位置编码矩阵输入多头注意力机制网络结构进行计算,其计算结果通过多次Gibbs采样结合自回归的方式逐个生成输出序列中的每个Token,得到Token输出序列;
S6、将Token输出序列通过输出层计算,以输出审计结果;其中,输出层包括依次连接的归一化逆转换和前馈神经网络。
作为优选方案,所述步骤S1中,软件供应链审计数据的类型包括代码审查、组件分析和安全测试。
作为优选方案,所述代码审查对应的软件供应链审计数据为代码片段或代码文件;
所述组件分析对应的软件供应链审计数据为组件知识图谱;
所述安全测试对应的软件供应链审计数据为软件供应链相关知识问题或相似度检测代码片段。
作为优选方案,所述步骤S4中,归一化处理采用均方根标准化。
作为优选方案,所述步骤S4中,位置编码采用旋转位置编码。
作为优选方案,所述步骤S5中,位置编码矩阵输入多头注意力机制网络结构进行计算的过程包括以下步骤:
S51、位置编码矩阵通过Embedding层,通过三组矩阵运算得到query值、key值和value值;
S52、对key值和query值分别进行位置编码,并计算相似度得分;
S53、对相似度得分进行Softmax的掩蔽操作后,与value值相结合得到计算结果。
作为优选方案,所述步骤S5中,每次生成一个Token时,使用上一次已生成的Token来预测下一个Token。
作为优选方案,所述步骤S5中,前馈神经网络中选择SwiGLU激活函数。
本发明还提供一种软件供应链审计系统,应用如上任一项方案所述的审计方法,所述审计系统包括:
采集模块,用于采集软件供应链审计数据;
分词模块,用于基于Tokenization对采集的软件供应链审计数据进行数据分词,以转换得到Token序列;
编码模块,用于对Token序列进行Embedding编码,将Token序列的每个Token映射为一个实数向量,得到待处理数据矩阵;
归一化模块,用于对待处理数据矩阵进行归一化处理;
位置编码模块,用于对归一化处理之后的待处理数据矩阵进行位置编码,得到位置编码矩阵;
计算模块,用于将位置编码矩阵输入多头注意力机制网络结构进行计算;
生成模块,用于将多头注意力机制网络结构的计算结果通过多次Gibbs采样结合自回归的方式逐个生成输出序列中的每个Token,得到Token输出序列;
输出模块,用于将Token输出序列通过输出层计算,以输出审计结果;其中,输出层包括依次连接的归一化逆转换和前馈神经网络。
本发明还提供一种计算机可读存储介质,可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行如上任一项方案所述的审计方法。
本发明与现有技术相比,有益效果是:
本发明基于软件供应链审计阶段开发设计包含代码审查、组件分析、安全测试等功能,在开源的大语言模型Llama内部网络结构的基础上,结合各功能领域的适应性要求,调整其内部Transformer中多头注意力机制及自回归生成中输出编码采样的要求,选择MCMC马尔可夫链蒙特卡洛采样的一种特殊形式,即Gibbs采样进行迭代优化设计,以此来提高模型网络的精确性、灵活性和可解释性。
附图说明
图1是本发明实施例1的软件供应链审计方法的流程图;
图2是本发明实施例1的基于多头注意力机制结合Gibbs采样的网络结构示意图;
图3是本发明实施例1的软件供应链审计系统的各组织模块分解图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
实施例1:
如图1所示,本实施例的基于Llama结合Gibbs采样的软件供应链审计方法,包括以下步骤:
(1)采集软件供应链审计数据;
具体地,本实施例根据审计功能进行分类,若采集的软件供应链审计数据为代码审查问题,即数据类型为代码片段或代码文件,支持C、C++、Java、Python、sql、go等多种编程语言,旨在通过该审计系统代码审查模型对代码内容、格式、语句等方面进行审查,最终输出审计结果,包括问题定位等;
若采集的软件供应链审计数据为组件分析问题,即数据类型为组件知识图谱,最终输出审计后的各组件问题核验点或审计分析结果;
若采集的软件供应链审计数据为安全测试问题,即数据类型为软件供应链相关知识文本问题、相似度代码检测片段等,最终输出审计结果为回答结果或检测结果。
(2)经预训练的软件供应链审计知识问答网络进行问答预测。
不同功能文本问题输入后统一进行数据分词处理、Embedding编码、预归一化、位置编码、网络计算、结果输出。其中,数据分词根据输入数据差异分别做格式化转换,英文文本数据选择nltk方式进行分词,中文分词选择N-gram做分词处理。另外,网络计算过程中的网络模型为预训练网络结构,其预训练过程详述如下:
(a)数据收集及整理。基于开源Llama预训练模型,新增训练数据集,新增数据集通过爬虫、知识库积累等方式,输入数据集内容包括根据关键字检索相关“软件供应链”、“软件供应链安全”、“漏洞”、“开源组件”、“源码”等进行数据收集,数据形式包括网页数据WARC、元数据WAT、文本提取WET等;源码及相关编程语言代码脚本的收集整理、SBOM组件、开源组件库、安全知识库等知识图谱的收集。
(b)格式化软件供应链审计数据输入。格式化数据文本,如基于相应功能的软件供应链相关知识领域问题输入;非格式化数据,如待审计源码文件等。
(c)数据分词。基于Tokenization将输入的软件供应链审计数据转换成Token序列,即将输入的软件供应链审计数据映射成模型可理解的形式。
(d)Embedding编码。在Token序列的基础上做Embedding编码,将Token序列的每个Token映射为一个实数向量,得到待处理数据矩阵。
(e)归一化。基于均方根标准化RMSNorm对待处理数据矩阵做数据标准化处理,减少大语言模型中内部协变量偏移的影响。内部协变量偏移是指神经网络中每一层的输入分布随着前面层的参数更新而发生变化的现象。这种变化可能导致参数梯度的不稳定性,从而延缓了模型的收敛速度。传统的解决方法归一化的计算代价较高,且对于小批次的训练数据效果不佳。
(f)位置编码Positional Encoding。选择旋转位置编码RoPE进行位置编码,基于每个Token对应的位置顺序进行位置编码,为模型提供上下文关系的信息,输出得到位置编码矩阵。
(g)将位置编码矩阵输入多头注意力机制网络结构进行计算,其计算结果通过多次Gibbs采样结合自回归的方式逐个生成输出序列中的每个Token,得到Token输出序列;其中,在解码过程中,每次生成一个Token时,使用前面已生成的内容作为上下文,来帮助预测下一个Token。
本实施例的位置编码矩阵输入多头注意力机制中,通过Embedding层,经过三组矩阵运算得到query、key、value,在此基础上key和query分别再次进行位置编码并通过计算得到相似度得分,之后再经过Softmax的掩蔽操作后,与value相结合得到计算结果,即多个Z矩阵。其中,query与key是用来比较衡量目标词与上下文之间的相似度关联,value是用来提取词的本质特征。
由多头注意力机制计算得到的多个Z矩阵通过多次Gibbs采样结合自回归的方式逐个生成输出序列中的每个Token,得到Token输出序列。Gibbs采样是MCMC采样的一种,是一种基于马尔可夫链蒙特卡洛采样的更优化的形式,是一种随机模拟的近似采样;引入马尔可夫链的概念,通过依靠状态转移矩阵来处理高维难以直接采样时从某一多变量概率分布中近似抽取样本序列;其状态转移概率矩阵考虑了文本上下文的链接关系,且相对传统的MCMC采样计算速度更快更省时。另外,多次采样考虑提高采样的准确性。
(h)输出处理。Token输出序列通过输出层Layer,即依次接入归一化逆转换以及接入前馈神经网络FNN,在FFN中选择SwiGLU激活函数,以增加网络的表达能力,最终进行审计结果Answer的输出。循环迭代上述网络,输出拟合效果最好的模型作为最终训练好的网络模型。
(3)在步骤(1)中采集的软件供应链审计数据输入预训练网络模型预测输出后,得到检索问题回答结果,即审计结果。
具体地,若代码审查问题对应的软件供应链审计数据输入预训练网络模型后输出代码审查结果,包括正误判断反馈(0/1);若返回结果为0,即输入的代码审查文本准确;若返回结果为1,即输入的代码审查文本存在问题,并同步检索用户可能需要的规范代码示例。
若组件分析问题对应的软件供应链审计数据输入预训练网络模型后输出组件分析结果,包括审计结果反馈(0/1);若返回结果为0,代表输入审计的知识图谱组件分析审计通过;若返回结果为1,代表输入的审计的知识图谱组件分析审计存在问题,同时将输出问题节点,即该节点可能存在问题的概率。
若安全测试问题对应的软件供应链审计数据输入预训练网络模型后输出安全测试结果,根据输入检索的问题内容,模型网络通过样本检索及上下文关联等多种网络计算组合,输出检索问题答案,其同一问题可多次进行检索,由于网络计算的适应性,其返回答案可能存在差异,每次返回的结果根据该检索问题匹配概率值高低进行逐个返回,且每次仅返回一个。
以下通过安全测试问题的审计为例对上述审计方法进行详细说明,具体的审计过程包括:
1、安全测试问题数据输入。即输入数据类型为文本类型,自动识别为安全测试审计;
2、文本数据处理即文本数据分词。基于Tokenization将输入的数据转换成Token序列,选择N-gram做分词处理;
3、Embedding编码。在数据分词基础上做Embedding编码,将每个Token映射为一个实数向量t,将输入数据映射成模型可理解的形式即数据矩阵格式m为Token的数量,t i 为第i个Token映射的实数向量,i∈[1,m]。
4、归一化。保留原Llama原结构中归一化方式选择RMSNorm(均方根标准化)做数据标准化处理,归一化处理后得到一组新的数据矩阵
5、位置编码。选择RoPE进行位置编码,基于数据矩阵t i 对应的位置顺序关系进行位置编码,为模型提供上下文关系的信息,输出得到位置编码矩阵,位置编码矩阵的矩阵大小为n*nWj为数据矩阵经过位置编码得到各个向量,j∈[1,n]。
6、基于Muti-Head Attention多头注意力机制结合Gibbs采样进行迭代,运用自回归的方式逐个生成输出序列中的每个Token;即在解码过程中,位置编码矩阵中每个Wj按顺序依次生成一个Zj,在多次Gibbs采样中每次自回归迭代将使用前面已生成的内容作为上下文,来帮助预测下一个Zj,最终迭代结果得到Token输出序列,即数据矩阵
如图2所示,位置编码矩阵输入多头注意力机制中,通过Embedding层,经过三组矩阵运算得到query、key、value,即W1对应/>W2对应/>,以此类推,Wn对应/>;在此基础上对keyj和queryj分别再次进行Rope位置编码通过计算得到相似度得分Scorej再经Softmax的掩蔽操作后,与valuej相结合得到矩阵Zj
由多头注意力机制得到的多个矩阵Zj通过多次Gibbs采样结合自回归的方式逐个生成输出序列中的每个Token,得到Token输出序列,即矩阵Zn*n,即数据矩阵
7、输出解码处理。生成的数据矩阵经过输出层,依次接入归一化逆转换,之后接入前馈神经网络FNN,最终得到Answer的输出即输入检索问题的答案。
8、模型网络通过样本检索及上下文关联等多种网络计算组合,输出检索问题答案,其同一问题可多次通过该系统进行检索,由于网络计算的适应性其返回答案可能存在差异,每次返回的结果根据该检索问题匹配概率值高低进行逐个返回,且每次仅返回一个。
基于上述审计方法,如图3所示,本实施例的软件供应链审计系统包括以下功能模块:采集模块、分词模块、编码模块、归一化模块、位置编码模块、计算模块、生成模块和输出模块。
具体地,采集模块用于采集软件供应链审计数据;
分词模块用于基于Tokenization对采集的软件供应链审计数据进行数据分词,以转换得到Token序列;
编码模块用于对Token序列进行Embedding编码,将Token序列的每个Token映射为一个实数向量,得到待处理数据矩阵;
归一化模块用于对待处理数据矩阵进行归一化处理;
位置编码模块用于对归一化处理之后的待处理数据矩阵进行位置编码,得到位置编码矩阵;
计算模块用于将位置编码矩阵输入多头注意力机制网络结构进行计算;
生成模块用于将多头注意力机制网络结构的计算结果通过多次Gibbs采样结合自回归的方式逐个生成输出序列中的每个Token,得到Token输出序列;
输出模块用于将Token输出序列通过输出层计算,以输出审计结果;其中,输出层包括依次连接的归一化逆转换和前馈神经网络;
上述功能模块的详细处理过程可参考上述审计方法的详细描述,在此不赘述。
本实施例的计算机可读存储介质,可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行上述审计方法,实现软件供应链审计的智能化。
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。

Claims (8)

1.一种软件供应链审计方法,其特征在于,包括以下步骤:
S1、采集软件供应链审计数据;
S2、基于Tokenization对采集的软件供应链审计数据进行数据分词,以转换得到Token序列;
S3、对Token序列进行Embedding编码,将Token序列的每个Token映射为一个实数向量,得到待处理数据矩阵;
S4、对待处理数据矩阵进行归一化处理,之后进行位置编码,得到位置编码矩阵;
S5、将位置编码矩阵输入多头注意力机制网络结构进行计算,其计算结果通过多次Gibbs采样结合自回归的方式逐个生成输出序列中的每个Token,得到Token输出序列;
S6、将Token输出序列通过输出层计算,以输出审计结果;其中,输出层包括依次连接的归一化逆转换和前馈神经网络;
所述步骤S1中,软件供应链审计数据的类型包括代码审查、组件分析和安全测试;
所述代码审查对应的软件供应链审计数据为代码片段或代码文件;
所述组件分析对应的软件供应链审计数据为组件知识图谱;
所述安全测试对应的软件供应链审计数据为软件供应链相关知识问题或相似度检测代码片段。
2.根据权利要求1所述的软件供应链审计方法,其特征在于,所述步骤S4中,归一化处理采用均方根标准化。
3.根据权利要求1所述的软件供应链审计方法,其特征在于,所述步骤S4中,位置编码采用旋转位置编码。
4.根据权利要求1所述的软件供应链审计方法,其特征在于,所述步骤S5中,位置编码矩阵输入多头注意力机制网络结构进行计算的过程包括以下步骤:
S51、位置编码矩阵通过Embedding层,通过三组矩阵运算得到query值、key值和value值;
S52、对key值和query值分别进行位置编码,并计算相似度得分;
S53、对相似度得分进行Softmax的掩蔽操作后,与value值相结合得到计算结果。
5.根据权利要求1所述的软件供应链审计方法,其特征在于,所述步骤S5中,每次生成一个Token时,使用上一次已生成的Token来预测下一个Token。
6.根据权利要求1所述的软件供应链审计方法,其特征在于,所述步骤S5中,前馈神经网络中选择SwiGLU激活函数。
7.一种软件供应链审计系统,应用如权利要求1-6任一项所述的审计方法,其特征在于,所述审计系统包括:
采集模块,用于采集软件供应链审计数据;
分词模块,用于基于Tokenization对采集的软件供应链审计数据进行数据分词,以转换得到Token序列;
编码模块,用于对Token序列进行Embedding编码,将Token序列的每个Token映射为一个实数向量,得到待处理数据矩阵;
归一化模块,用于对待处理数据矩阵进行归一化处理;
位置编码模块,用于对归一化处理之后的待处理数据矩阵进行位置编码,得到位置编码矩阵;
计算模块,用于将位置编码矩阵输入多头注意力机制网络结构进行计算;
生成模块,用于将多头注意力机制网络结构的计算结果通过多次Gibbs采样结合自回归的方式逐个生成输出序列中的每个Token,得到Token输出序列;
输出模块,用于将Token输出序列通过输出层计算,以输出审计结果;其中,输出层包括依次连接的归一化逆转换和前馈神经网络。
8.一种计算机可读存储介质,可读存储介质中存储有指令,其特征在于,当指令在计算机上运行时,使得计算机执行如权利要求1-6任一项所述的审计方法。
CN202410227591.XA 2024-02-29 2024-02-29 软件供应链审计方法、系统及计算机可读存储介质 Active CN117807603B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410227591.XA CN117807603B (zh) 2024-02-29 2024-02-29 软件供应链审计方法、系统及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410227591.XA CN117807603B (zh) 2024-02-29 2024-02-29 软件供应链审计方法、系统及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN117807603A CN117807603A (zh) 2024-04-02
CN117807603B true CN117807603B (zh) 2024-04-30

Family

ID=90423714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410227591.XA Active CN117807603B (zh) 2024-02-29 2024-02-29 软件供应链审计方法、系统及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN117807603B (zh)

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126910A (zh) * 2016-06-22 2016-11-16 上海垒土资产管理有限公司 基于马尔科夫状态转移模型的状态转换预测方法及系统
KR20200063281A (ko) * 2018-11-16 2020-06-05 한국전자통신연구원 신경망 자동 번역 장치 및 그 방법
CN113407711A (zh) * 2021-06-17 2021-09-17 成都崇瑚信息技术有限公司 一种利用预训练模型的吉布斯受限文本摘要生成方法
CN113488029A (zh) * 2021-06-23 2021-10-08 中科极限元(杭州)智能科技股份有限公司 基于参数共享非自回归语音识别训练解码方法及系统
CN113971404A (zh) * 2021-10-29 2022-01-25 中南民族大学 一种基于解耦注意力的文物安全命名实体识别方法
CN114077741A (zh) * 2021-11-01 2022-02-22 清华大学 软件供应链安全检测方法和装置、电子设备及存储介质
CN114169330A (zh) * 2021-11-24 2022-03-11 匀熵教育科技(无锡)有限公司 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN114818724A (zh) * 2022-03-18 2022-07-29 江汉大学 一种社交媒体灾害有效信息检测模型的构建方法
CN115376309A (zh) * 2022-06-29 2022-11-22 华南理工大学 一种基于多视角时间矩阵分解的缺失交通数据修复方法
CN115500818A (zh) * 2016-03-18 2022-12-23 哈佛大学校长及研究员协会 分析对象的运动以将其分成亚秒级模块的系统和方法
CN115759119A (zh) * 2023-01-10 2023-03-07 暨南大学 一种金融文本情感分析方法、系统、介质和设备
CN116432184A (zh) * 2023-05-24 2023-07-14 沈阳理工大学 基于语义分析和双向编码表征的恶意软件检测方法
WO2023217163A1 (zh) * 2022-05-11 2023-11-16 华能澜沧江水电股份有限公司 一种基于本地自注意力机制的大坝缺陷时序图像描述方法
CN117217268A (zh) * 2022-05-24 2023-12-12 英属维京群岛商烁星有限公司 基于自回归模型的变换器与相关的处理器
CN117236323A (zh) * 2023-10-09 2023-12-15 青岛中企英才集团商业管理有限公司 一种基于大数据的信息处理方法及系统
CN117390131A (zh) * 2023-07-04 2024-01-12 无锡学院 一种用于多领域的文本情感分类方法
WO2024021536A1 (zh) * 2022-07-27 2024-02-01 华东理工大学 一种融合时序特征提取的催化裂化装置关键指标建模方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112215223B (zh) * 2020-10-16 2024-03-19 清华大学 基于多元注意力机制的多方向场景文字识别方法及系统

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115500818A (zh) * 2016-03-18 2022-12-23 哈佛大学校长及研究员协会 分析对象的运动以将其分成亚秒级模块的系统和方法
CN106126910A (zh) * 2016-06-22 2016-11-16 上海垒土资产管理有限公司 基于马尔科夫状态转移模型的状态转换预测方法及系统
KR20200063281A (ko) * 2018-11-16 2020-06-05 한국전자통신연구원 신경망 자동 번역 장치 및 그 방법
CN113407711A (zh) * 2021-06-17 2021-09-17 成都崇瑚信息技术有限公司 一种利用预训练模型的吉布斯受限文本摘要生成方法
CN113488029A (zh) * 2021-06-23 2021-10-08 中科极限元(杭州)智能科技股份有限公司 基于参数共享非自回归语音识别训练解码方法及系统
CN113971404A (zh) * 2021-10-29 2022-01-25 中南民族大学 一种基于解耦注意力的文物安全命名实体识别方法
CN114077741A (zh) * 2021-11-01 2022-02-22 清华大学 软件供应链安全检测方法和装置、电子设备及存储介质
CN114169330A (zh) * 2021-11-24 2022-03-11 匀熵教育科技(无锡)有限公司 融合时序卷积与Transformer编码器的中文命名实体识别方法
CN114818724A (zh) * 2022-03-18 2022-07-29 江汉大学 一种社交媒体灾害有效信息检测模型的构建方法
WO2023217163A1 (zh) * 2022-05-11 2023-11-16 华能澜沧江水电股份有限公司 一种基于本地自注意力机制的大坝缺陷时序图像描述方法
CN117217268A (zh) * 2022-05-24 2023-12-12 英属维京群岛商烁星有限公司 基于自回归模型的变换器与相关的处理器
CN115376309A (zh) * 2022-06-29 2022-11-22 华南理工大学 一种基于多视角时间矩阵分解的缺失交通数据修复方法
WO2024021536A1 (zh) * 2022-07-27 2024-02-01 华东理工大学 一种融合时序特征提取的催化裂化装置关键指标建模方法
CN115759119A (zh) * 2023-01-10 2023-03-07 暨南大学 一种金融文本情感分析方法、系统、介质和设备
CN116432184A (zh) * 2023-05-24 2023-07-14 沈阳理工大学 基于语义分析和双向编码表征的恶意软件检测方法
CN117390131A (zh) * 2023-07-04 2024-01-12 无锡学院 一种用于多领域的文本情感分类方法
CN117236323A (zh) * 2023-10-09 2023-12-15 青岛中企英才集团商业管理有限公司 一种基于大数据的信息处理方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
蒋捷 ; 郑月晨 ; 周浩 ; 张慧增 ; .基于Gibbs抽样门限自回归模型的参数估计.杭州师范大学学报(自然科学版).2020,(第04期),全文. *
龚永罡 ; 裴晨晨 ; 廉小亲 ; 王嘉欣 ; .基于Transformer模型的中文文本自动校对研究.电子技术应用.2020,(第01期),全文. *

Also Published As

Publication number Publication date
CN117807603A (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN113312447B (zh) 基于概率标签估计的半监督日志异常检测方法
CN111914097A (zh) 基于注意力机制和多层级特征融合的实体抽取方法与装置
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN112560486A (zh) 基于多层神经网络的电力实体识别方法、存储介质和设备
CN114528845A (zh) 异常日志的分析方法、装置及电子设备
CN112559741B (zh) 核电设备缺陷记录文本分类方法、系统、介质及电子设备
US20220129630A1 (en) Method For Detection Of Malicious Applications
Tang et al. Chinese sentiment analysis based on lightweight character-level bert
CN117807603B (zh) 软件供应链审计方法、系统及计算机可读存储介质
CN116861269A (zh) 工程领域的多源异构数据融合及分析方法
Wen et al. A Cross-Project Defect Prediction Model Based on Deep Learning With Self-Attention
Gu et al. Hierarchical attention network for interpretable and fine-grained vulnerability detection
Keshavarz et al. Named entity recognition in long documents: an end-to-end case study in the legal domain
CN113761875B (zh) 事件抽取方法、装置、电子设备及存储介质
CN113076089B (zh) 一种基于对象类型的api补全方法
CN114218580A (zh) 一种基于多任务学习的智能合约漏洞检测方法
Mahyari A Hierarchical Deep Neural Network for Detecting Lines of Codes with Vulnerabilities
Li et al. A method of large-scale log pattern mining
CN113657443A (zh) 一种基于soinn网络的在线物联网设备识别方法
CN112434889A (zh) 一种专家行业分析方法、装置、设备及存储介质
Zhang et al. An improved biomedical event trigger identification framework via modeling document with hierarchical attention
Parisi et al. Making the most of scarce input data in deep learning-based source code classification for heterogeneous device mapping
CN117574391B (zh) 一种基于三地址码和神经网络的代码漏洞检测方法和系统
Zhang et al. Code smell detection research based on pre-training and stacking models
Xu et al. Predicting effectiveness of generate-and-validate patch generation systems using random forest

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant