CN114117453B - 基于数据深度关联的计算机防御系统以及防御方法 - Google Patents

基于数据深度关联的计算机防御系统以及防御方法 Download PDF

Info

Publication number
CN114117453B
CN114117453B CN202111496054.8A CN202111496054A CN114117453B CN 114117453 B CN114117453 B CN 114117453B CN 202111496054 A CN202111496054 A CN 202111496054A CN 114117453 B CN114117453 B CN 114117453B
Authority
CN
China
Prior art keywords
document
document feature
feature vector
feature vectors
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111496054.8A
Other languages
English (en)
Other versions
CN114117453A (zh
Inventor
周鹏儿
唐小勇
李长叶
吴智灿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Cxrt Technology Co ltd
Original Assignee
Shenzhen Cxrt Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Cxrt Technology Co ltd filed Critical Shenzhen Cxrt Technology Co ltd
Priority to CN202111496054.8A priority Critical patent/CN114117453B/zh
Publication of CN114117453A publication Critical patent/CN114117453A/zh
Application granted granted Critical
Publication of CN114117453B publication Critical patent/CN114117453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2107File encryption

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了基于数据深度关联的计算机防御系统以及防御方法,其通过二级的语义理解模型,不仅利用文件夹中每个文档中的内容之间的上下文信息并编码,而且还利用文件夹中多个文档的内容之间的上下文信息并编码,从而充分利用了所述各个文档之间的内容相关性。进一步地,在解码层面也通过转换器类别函数值和解码器隐状态机制实现了上下文解码,以提高回归的准确性,并且还提高了训练速度和收敛性。这样,可以更准确地对所述文件中的各份文档进行加密,进而提高了文件传输的安全性。

Description

基于数据深度关联的计算机防御系统以及防御方法
技术领域
本发明涉及计算机防御的领域,且更为具体地,涉及一种基于数据深度关联的计算机防御系统以及防御方法。
背景技术
目前,大部分企业主要是从外网和内网两方面做的信息安全防护工作。外网主要是采用安全设备防火墙防攻击等进行安全信息防护,防止黑客或者外来访问者进入企业内网窃取企业内部的核心数据。但是,如今大部分的企业发生重要数据泄密等丑闻主要是内部员工主动泄密,内部员工可以将重要资料通过U盘和邮件传输等等方式泄露出去。
现有的一些技术是在检测到数据从计算机内网被下载或者向外网IP进行传输时,对待传输的文件进行自动加密以起到安全防御的目的,但是,在被传输的文件夹中往往具有多份文档,有一些文档是私密性需要被加密的,而也有一些文档是非私密性不需要加密的,统一进行加密会影响到正常的文件传输和使用,因此,在加密之前,如何对文件夹中的文档进行标识是非常重要的。
因此,为了更好地对文件夹中的文档进行标识加密,以提高文件传输的安全性,期望一种基于数据深度关联的计算机防御系统。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于数据深度关联的计算机防御系统以及防御方法,其通过二级的语义理解模型,不仅利用文件夹中每个文档中的内容之间的上下文信息并编码,而且还利用文件夹中多个文档的内容之间的上下文信息并编码,从而充分利用了所述各个文档之间的内容相关性。进一步地,在解码层面也通过转换器类别函数值和解码器隐状态机制实现了上下文解码,以提高回归的准确性,并且还提高了训练速度和收敛性。这样,可以更准确地对所述文件中的各份文档进行加密,进而提高了文件传输的安全性。
根据本申请的一个方面,提供了一种基于数据深度关联的计算机防御系统,其包括:
待传输文档获取单元,用于获取待传输的多份文档;
第一语义编码单元,用于将所述多份文档中的每份文档的文本数据分别输入基于上下文的语义理解模型以获得文本语义特征向量的序列;
向量级联单元,用于将所述文本语义特征向量的序列中的所有文本语义特征向量级联为第一文档特征向量;
第二语义编码单元,用于将所述文本语义特征向量的序列通过基于转换器的编码器模型以获得第二文档特征向量的序列;
类别函数值计算单元,用于计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值,其中,所述归属于转换器的类别函数值与每个所述第二文档特征向量的初始安全性类别标签概率以及每个所述第二文档特征向量与所述第一文档特征向量的距离有关,所述第二文档特征向量的初始安全性类别标签概率为所述第二文档特征向量通过具有安全性标签的分类器所获得的概率值;
最终安全性标签概率计算单元,用于以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率,其中,所述类Softmax函数为取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值除以取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值的加权和;以及
文档加密单元,用于基于每个所述第二文档特征向量的最终安全性标签概率,确定是否对所述文件中的各份文档进行加密。
在上述基于数据深度关联的计算机防御系统中,所述第一语义编码单元,包括:分词子单元,用于对每份所述文档的文本数据进行分词以获得对应于每份文档的词序列;词向量子单元,用于使用所述语义理解模型的词嵌入模型将每份所述文档的词序列中的每个词转化为词向量以获得词向量的序列;语义编码子单元,用于使用所述语义理解模型的Bert模型将所述词向量的序列中的每个词向量转化为词特征向量以获得词特征向量的序列;以及,上下文编码子单元,用于使用所述语义理解模型的双向LSTM模型对所述词特征向量的序列进行上下文编码以获得对应于每份文档的文本语义特征向量。
在上述基于数据深度关联的计算机防御系统中,所述类别函数值计算单元,进一步用于:以如下公式计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值;
其中,所述公式为:
Figure BDA0003400102230000031
其中,Vi表示每个所述第二文档特征向量,V1表示所述第一文档特征向量,
Figure BDA0003400102230000032
表示每个所述第二文档特征向量与所述第一文档特征向量的距离的平方根,α表示每个所述第二文档特征向量的初始安全性类别标签概率。
在上述基于数据深度关联的计算机防御系统中,所述α作为超参数参与到所述第一语义理解模型和所述第二语义理解模型的训练过程中。
在上述基于数据深度关联的计算机防御系统中,所述最终安全性标签概率计算单元,进一步用于:以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率;其中,所述类Softmax函数为Pi=exp(-xi)/∑exp(-xi)。
在上述基于数据深度关联的计算机防御系统中,所述文档加密单元,进一步用于:响应于所述第二文档特征向量的最终安全性标签概率大于等于预设阈值,确定对对应的文档进行加密;以及,响应于所述第二文档特征向量的最终安全性标签概率小于预设阈值,确定不对对应的文档进行加密。
根据本申请的另一方面,一种基于数据深度关联的计算机防御系统的防御方法,其包括:
获取待传输的多份文档;
将所述多份文档中的每份文档的文本数据分别输入基于上下文的语义理解模型以获得文本语义特征向量的序列;
将所述文本语义特征向量的序列中的所有文本语义特征向量级联为第一文档特征向量;
将所述文本语义特征向量的序列通过基于转换器的编码器模型以获得第二文档特征向量的序列;
计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值,其中,所述归属于转换器的类别函数值与每个所述第二文档特征向量的初始安全性类别标签概率以及每个所述第二文档特征向量与所述第一文档特征向量的距离有关,所述第二文档特征向量的初始安全性类别标签概率为所述第二文档特征向量通过具有安全性标签的分类器所获得的概率值;
以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率,其中,所述类Softmax函数为取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值除以取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值的加权和;以及
基于每个所述第二文档特征向量的最终安全性标签概率,确定是否对所述文件中的各份文档进行加密。
在上述基于数据深度关联的计算机防御系统的防御方法中,将所述多份文档中的每份文档的文本数据分别输入基于上下文的语义理解模型以获得文本语义特征向量的序列,包括:对每份所述文档的文本数据进行分词以获得对应于每份文档的词序列;使用所述语义理解模型的词嵌入模型将每份所述文档的词序列中的每个词转化为词向量以获得词向量的序列;使用所述语义理解模型的Bert模型将所述词向量的序列中的每个词向量转化为词特征向量以获得词特征向量的序列;以及,使用所述语义理解模型的双向LSTM模型对所述词特征向量的序列进行上下文编码以获得对应于每份文档的文本语义特征向量。
在上述基于数据深度关联的计算机防御系统的防御方法中,计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值,包括:以如下公式计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值;其中,所述公式为:
Figure BDA0003400102230000041
其中,Vi表示每个所述第二文档特征向量,V1表示所述第一文档特征向量,
Figure BDA0003400102230000042
表示每个所述第二文档特征向量与所述第一文档特征向量的距离的平方根,α表示每个所述第二文档特征向量的初始安全性类别标签概率。
在上述基于数据深度关联的计算机防御系统的防御方法中,所述α作为超参数参与到所述第一语义理解模型和所述第二语义理解模型的训练过程中。
在上述基于数据深度关联的计算机防御系统的防御方法中,以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率,包括:以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率;其中,所述类Softmax函数为Pi=exp(-xi)/∑exp(-xi)。
在上述基于数据深度关联的计算机防御系统的防御方法中,基于每个所述第二文档特征向量的最终安全性标签概率,确定是否对所述文件中的各份文档进行加密,包括:响应于所述第二文档特征向量的最终安全性标签概率大于等于预设阈值,确定对对应的文档进行加密;以及,响应于所述第二文档特征向量的最终安全性标签概率小于预设阈值,确定不对对应的文档进行加密。
与现有技术相比,本申请提供的基于数据深度关联的计算机防御系统以及防御方法,其通过二级的语义理解模型,可以不仅获得每个文档中的内容之间的上下文信息并编码,而且可以获得所述多个文档的内容之间的上下文信息并编码,从而充分利用了所述各个文档之间的内容相关性。进一步地,在解码层面也通过转换器类别函数值和解码器隐状态机制实现了上下文解码,以提高回归的准确性,并且还提高了训练速度和收敛性。这样,可以更准确地对所述文件中的各份文档进行加密,进而提高了文件传输的安全性。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的基于数据深度关联的计算机防御系统的应用场景图。
图2为根据本申请实施例的基于数据深度关联的计算机防御系统的框图。
图3为根据本申请实施例的基于数据深度关联的计算机防御系统中第一语义编码单元的框图。
图4为根据本申请实施例的基于数据深度关联的计算机防御系统的防御方法的流程图。
图5为根据本申请实施例的基于数据深度关联的计算机防御系统的防御方法的架构示意图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
场景概述
如前所述,目前,大部分企业主要是从外网和内网两方面做的信息安全防护工作。外网主要是采用安全设备防火墙防攻击等进行安全信息防护,防止黑客或者外来访问者进入企业内网窃取企业内部的核心数据。但是,如今大部分的企业发生重要数据泄密等丑闻主要是内部员工主动泄密,内部员工可以将重要资料通过U盘和邮件传输等等方式泄露出去。
现有的一些技术是在检测到数据从计算机内网被下载或者向外网IP进行传输时,对待传输的文件进行自动加密,但是,在被传输的文件夹中往往具有多份文档,有一些文档是私密性需要被加密的,而也有一些文档是非私密性不需要加密的,这样,在加密之前,如何对文件夹中的文档进行标识是非常重要的。
因此,为了更好地对文件夹中的文档进行标识加密,以提高文件传输的安全性,期望一种基于数据深度关联的计算机防御系统。
相应地,在本申请的技术方案中,考虑到在对文档进行加密时,需要根据文档的内容进行标签标注,而文件夹中的多份文档之间的内容不是独立的,而是彼此相关联的,因此需要针对多份文档之间的内容相关性来对多份文档进行基于整体的标签标注,从而实现文件的传输安全性。
具体地,在第一级语义编码模型中,将每份文档的文本数据输入编码器模型,在本申请中具体为基于上下文的语义理解模型,例如Bert模型或者Bert模型+双向LSTM模型,并将所获得的特征向量的序列进行级联以获得第一文档特征向量。
然后,在第二级语义编码模型中,将多份文档中的每个的文档特征向量再输入编码器模型,这里的编码器模型为基于转换器(transformer)模型的语义理解模型,以获得第二文档特征向量的序列。
之后,计算每个第二文档特征向量与其对应的第一文档特征向量的归属于转换器的类别函数值,即,每个第二文档特征向量乘以第一文档特征向量的转置再加上每个第二文档特征向量的初始安全性类别标签概率,然后除以每个第二文档特征向量与其对应的第一文档特征向量的距离的平方根,从而获得每个第二文档特征向量的类别函数值。
然后,再以所有第二文档特征向量的类别函数值作为整体来计算其最终安全性标签概率,即Pi=exp(-xi)/∑exp(-xi),其中,xi为每个第二文档特征向量的类别函数值。
应可以理解,通过二级的语义理解模型,可以不仅获得每个文档中的内容之间的上下文信息并编码,而且可以获得多个文档的内容之间的上下文信息并编码,从而充分利用了各个文档之间的内容相关性。
此外,除了在编码层面利用了内容相关性之外,在解码层面也通过转换器类别函数值和解码器隐状态机制实现了上下文解码。也就是,代替对于每个第二文档特征向量单独进行标签标注,计算每个第二文档特征向量与其对应的第一文档特征向量的归属于转换器的类别函数值,该类别函数值不仅包含编码器的编码之前与之后的转移预测概率属性,也包含了分类解码器的隐状态。然后,再以类别函数值来作为类别概率空间来计算每个第二文档特征向量的标签概率,就在解码器层面实现了各个特征向量基于上下文特征的整体特征分布的充分利用,从而提高了回归的准确性,并提高了训练速度和收敛性。
基于此,本申请提出了一种基于数据深度关联的计算机防御系统,其包括:待传输文档获取单元,用于获取待传输的多份文档;第一语义编码单元,用于将所述多份文档中的每份文档的文本数据分别输入基于上下文的语义理解模型以获得文本语义特征向量的序列;向量级联单元,用于将所述文本语义特征向量的序列中的所有文本语义特征向量级联为第一文档特征向量;第二语义编码单元,用于将所述文本语义特征向量的序列通过基于转换器的编码器模型以获得第二文档特征向量的序列;类别函数值计算单元,用于计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值,其中,所述归属于转换器的类别函数值与每个所述第二文档特征向量的初始安全性类别标签概率以及每个所述第二文档特征向量与所述第一文档特征向量的距离有关,所述第二文档特征向量的初始安全性类别标签概率为所述第二文档特征向量通过具有安全性标签的分类器所获得的概率值;最终安全性标签概率计算单元,用于以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率,其中,所述类Softmax函数为取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值除以取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值的加权和;以及,文档加密单元,用于基于每个所述第二文档特征向量的最终安全性标签概率,确定是否对所述文件中的各份文档进行加密。
图1图示了根据本申请实施例的基于数据深度关联的计算机防御系统的应用场景图。如图1所示,在该应用场景中,首先,从计算机的存储端(例如,如图1中所示意的T)获取待传输文件夹(例如,如图1中所示意的F)中的多份文档(例如,如图1中所示意的D)。然后,将获得的所述多份文档输入至部署有基于数据深度关联的计算机防御算法的服务器中(例如,如图1中所示意的服务器S),其中,所述服务器能够以基于数据深度关联的计算机防御算法对所述多份文档进行处理,以生成每个所述第二文档特征向量的最终安全性标签概率。进而,基于所述最终安全性标签概率来确定是否对所述文件中的各份文档进行加密,以提高所述文件传输的安全性且兼顾文件传输的效率。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性系统
图2图示了根据本申请实施例的基于数据深度关联的计算机防御系统的框图。如图2所示,根据本申请实施例的基于数据深度关联的计算机防御系统200,包括:待传输文档获取单元210,用于获取待传输的多份文档;第一语义编码单元220,用于将所述多份文档中的每份文档的文本数据分别输入基于上下文的语义理解模型以获得文本语义特征向量的序列;向量级联单元230,用于将所述文本语义特征向量的序列中的所有文本语义特征向量级联为第一文档特征向量;第二语义编码单元240,用于将所述文本语义特征向量的序列通过基于转换器的编码器模型以获得第二文档特征向量的序列;类别函数值计算单元250,用于计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值,其中,所述归属于转换器的类别函数值与每个所述第二文档特征向量的初始安全性类别标签概率以及每个所述第二文档特征向量与所述第一文档特征向量的距离有关,所述第二文档特征向量的初始安全性类别标签概率为所述第二文档特征向量通过具有安全性标签的分类器所获得的概率值;最终安全性标签概率计算单元260,用于以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率,其中,所述类Softmax函数为取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值除以取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值的加权和;以及,文档加密单元270,用于基于每个所述第二文档特征向量的最终安全性标签概率,确定是否对所述文件中的各份文档进行加密。
具体地,在本申请实施例中,所述待传输文档获取单元210和所述第一语义编码单元220,用于获取待传输的多份文档,并将所述多份文档中的每份文档的文本数据分别输入基于上下文的语义理解模型以获得文本语义特征向量的序列。如前所述,在对文档进行加密时,需要根据所述文档的内容进行标签标注,而所述文件夹中的多份文档之间的内容不是独立的,而是彼此相关联的,因此,在本申请的技术方案中,需要针对所述多份文档之间的内容相关性来对多份所述文档进行基于整体的标签标注,从而实现文件的传输安全性。
也就是,在本申请的技术方案中,在第一级语义编码模型中,首先,需要从计算机的存储端获取待传输文件夹中的多份文档。然后,将所述多份文档中的每份文档的文本数据输入编码器模型,在一个具体示例中,可以输入基于上下文的语义理解模型,例如Bert模型或者Bert模型+双向LSTM模型,以获得文本语义特征向量的序列。
更具体地,在本申请的实施例中,所述第一语义编码单元,包括:首先,对每份所述文档的文本数据进行分词处理,以防止识别出的信息混乱,从而获得对应于每份文档的词序列。接着,使用所述语义理解模型的词嵌入模型将每份所述文档的词序列中的每个词转化为词向量,从而获得词向量的序列。然后,使用所述语义理解模型的Bert模型将所述词向量的序列中的每个词向量转化为词特征向量以获得词特征向量的序列。最后,使用所述语义理解模型的双向LSTM模型对所述词特征向量的序列进行上下文编码以获得对应于每份文档的文本语义特征向量。这样,可以提取出所述文档的词序列中的每个词的语义信息以及上下文关系信息的关联隐含特征。
图3图示了根据本申请实施例的基于数据深度关联的计算机防御系统中第一语义编码单元的框图。如图3所示,所述第一语义编码单元220,包括:第一语义编码单元,包括:分词子单元221,用于对每份所述文档的文本数据进行分词以获得对应于每份文档的词序列;词向量子单元222,用于使用所述语义理解模型的词嵌入模型将每份所述文档的词序列中的每个词转化为词向量以获得词向量的序列;语义编码子单元223,用于使用所述语义理解模型的Bert模型将所述词向量的序列中的每个词向量转化为词特征向量以获得词特征向量的序列;以及,上下文编码子单元224,用于使用所述语义理解模型的双向LSTM模型对所述词特征向量的序列进行上下文编码以获得对应于每份文档的文本语义特征向量。
具体地,在本申请实施例中,所述向量级联单元230,用于将所述文本语义特征向量的序列中的所有文本语义特征向量级联为第一文档特征向量。也就是,在本申请的技术方案中,在得到所述文本语义特征向量的序列后,将所述文本语义特征向量的序列中的所有文本语义特征向量进行级联以获得第一文档特征向量。应可以理解,这样就可以获得所述多份文档的每个文档中的内容之间的上下文信息的高维隐含关联特征。
具体地,在本申请实施例中,所述第二语义编码单元240,用于将所述文本语义特征向量的序列通过基于转换器的编码器模型以获得第二文档特征向量的序列。也就是,在本申请的技术方案中,进一步地,在第二级语义编码模型中,将所述多份文档中的每个的文档特征向量再输入编码器模型,在一个具体示例中,这里的编码器模型可以为基于转换器模型的语义理解模型,以获得第二文档特征向量的序列。应可以理解,通过所述二级的语义理解模型,可以不仅获得每个所述文档中的内容之间的上下文信息并编码,而且可以获得所述多个文档的内容之间的上下文信息并编码,从而充分利用了所述各个文档之间的内容相关性。
具体地,在本申请实施例中,所述类别函数值计算单元250,用于计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值,其中,所述归属于转换器的类别函数值与每个所述第二文档特征向量的初始安全性类别标签概率以及每个所述第二文档特征向量与所述第一文档特征向量的距离有关,所述第二文档特征向量的初始安全性类别标签概率为所述第二文档特征向量通过具有安全性标签的分类器所获得的概率值。应可以理解,除了在编码层面利用了内容相关性之外,在解码层面也需要通过转换器类别函数值和解码器隐状态机制以实现上下文的解码。也就是,在本申请的技术方案中,代替对于每个所述第二文档特征向量单独进行标签标注,而计算每个所述第二文档特征向量与其对应的所述第一文档特征向量的归属于转换器的类别函数值,该所述类别函数值不仅包含编码器的编码之前与之后的转移预测概率属性,也包含了分类解码器的隐状态。值得一提的是,在一个具体示例中,计算每个所述第二文档特征向量乘以所述第一文档特征向量的转置再加上每个所述第二文档特征向量的初始安全性类别标签概率,然后除以每个所述第二文档特征向量与其对应的所述第一文档特征向量的距离的平方根,从而获得所述每个第二文档特征向量的类别函数值。
更具体地,在本申请实施例中,所述类别函数值计算单元,进一步用于:以如下公式计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值;
其中,所述公式为:
Figure BDA0003400102230000111
其中,Vi表示每个所述第二文档特征向量,V1表示所述第一文档特征向量,
Figure BDA0003400102230000112
表示每个所述第二文档特征向量与所述第一文档特征向量的距离的平方根,α表示每个所述第二文档特征向量的初始安全性类别标签概率。值得一提的是,这里,所述α作为超参数参与到所述第一语义理解模型和所述第二语义理解模型的训练过程中。
具体地,在本申请实施例中,所述最终安全性标签概率计算单元260和所述文档加密单元270,用于以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率,其中,所述类Softmax函数为取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值除以取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值的加权和,并基于每个所述第二文档特征向量的最终安全性标签概率,确定是否对所述文件中的各份文档进行加密。也就是,在一个具体示例中,首先,以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率,其中,所述类Softmax函数为Pi=exp(-xi)/∑exp(-xi),xi为每个第二文档特征向量的类别函数值。应可以理解,通过这样的方式,可以在解码器层面实现所述各个特征向量基于上下文特征的整体特征分布的充分利用,从而提高了回归的准确性,并提高了训练速度和收敛性。然后,再基于每个所述第二文档特征向量的最终安全性标签概率,确定是否对所述文件中的各份文档进行加密。具体地,响应于所述第二文档特征向量的最终安全性标签概率大于等于预设阈值,确定对对应的文档进行加密;以及,响应于所述第二文档特征向量的最终安全性标签概率小于预设阈值,确定不对对应的文档进行加密。
综上,基于本申请实施例的所述基于数据深度关联的计算机防御系统200被阐明,其通过二级的语义理解模型,可以不仅获得每个文档中的内容之间的上下文信息并编码,而且可以获得所述多个文档的内容之间的上下文信息并编码,从而充分利用了所述各个文档之间的内容相关性。进一步地,在解码层面也通过转换器类别函数值和解码器隐状态机制实现了上下文解码,以提高回归的准确性,并且还提高了训练速度和收敛性。这样,可以更准确地对所述文件中的各份文档进行加密,进而提高了文件传输的安全性。
如上所述,根据本申请实施例的基于数据深度关联的计算机防御系统200可以实现在各种终端设备中,例如基于数据深度关联的计算机防御算法的服务器等。在一个示例中,根据本申请实施例的基于数据深度关联的计算机防御系统200可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该基于数据深度关联的计算机防御系统200可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该基于数据深度关联的计算机防御系统200同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该基于数据深度关联的计算机防御系统200与该终端设备也可以是分立的设备,并且该基于数据深度关联的计算机防御系统200可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性方法
图4图示了基于数据深度关联的计算机防御系统的防御方法的流程图。如图4所示,根据本申请实施例的基于数据深度关联的计算机防御系统的防御方法,包括步骤:S110,获取待传输的多份文档;S120,将所述多份文档中的每份文档的文本数据分别输入基于上下文的语义理解模型以获得文本语义特征向量的序列;S130,将所述文本语义特征向量的序列中的所有文本语义特征向量级联为第一文档特征向量;S140,将所述文本语义特征向量的序列通过基于转换器的编码器模型以获得第二文档特征向量的序列;S150,计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值,其中,所述归属于转换器的类别函数值与每个所述第二文档特征向量的初始安全性类别标签概率以及每个所述第二文档特征向量与所述第一文档特征向量的距离有关,所述第二文档特征向量的初始安全性类别标签概率为所述第二文档特征向量通过具有安全性标签的分类器所获得的概率值;S160,以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率,其中,所述类Softmax函数为取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值除以取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值的加权和;以及,S170,基于每个所述第二文档特征向量的最终安全性标签概率,确定是否对所述文件中的各份文档进行加密。
图5图示了根据本申请实施例的基于数据深度关联的计算机防御系统的防御方法的架构示意图。如图5所示,在所述基于数据深度关联的计算机防御系统的防御方法的网络架构中,首先,将获取的所述多份文档中的每份文档的文本数据(例如,如图5中所示意的IN)分别输入基于上下文的语义理解模型(例如,如图5中所示意的SUM)以获得文本语义特征向量的序列(例如,如图5中所示意的VF);接着,将所述文本语义特征向量的序列中的所有文本语义特征向量级联为第一文档特征向量(例如,如图5中所示意的VF1);然后,将所述文本语义特征向量的序列通过基于转换器的编码器模型(例如,如图5中所示意的C)以获得第二文档特征向量的序列(例如,如图5中所示意的VF2);接着,计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值(例如,如图5中所示意的CFV);然后,以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数(例如,如图5中所示意的圈S)来计算每个所述第二文档特征向量的最终安全性标签概率(例如,如图5中所示意的SLP);以及,最后,基于每个所述第二文档特征向量的最终安全性标签概率,确定是否对所述文件中的各份文档进行加密。
更具体地,在步骤S110和S120中,获取待传输的多份文档,并将所述多份文档中的每份文档的文本数据分别输入基于上下文的语义理解模型以获得文本语义特征向量的序列。也就是,在本申请的技术方案中,在第一级语义编码模型中,首先,需要从计算机的存储端获取待传输文件夹中的多份文档。然后,将所述多份文档中的每份文档的文本数据输入编码器模型,在一个具体示例中,可以输入基于上下文的语义理解模型,例如Bert模型或者Bert模型+双向LSTM模型,以获得文本语义特征向量的序列。
具体地,在本申请实施例中,将所述多份文档中的每份文档的文本数据分别输入基于上下文的语义理解模型以获得文本语义特征向量的序列的过程,包括:首先,对每份所述文档的文本数据进行分词处理,以防止识别出的信息混乱,从而获得对应于每份文档的词序列。接着,使用所述语义理解模型的词嵌入模型将每份所述文档的词序列中的每个词转化为词向量,从而获得词向量的序列。然后,使用所述语义理解模型的Bert模型将所述词向量的序列中的每个词向量转化为词特征向量以获得词特征向量的序列。最后,使用所述语义理解模型的双向LSTM模型对所述词特征向量的序列进行上下文编码以获得对应于每份文档的文本语义特征向量。这样,可以提取出所述文档的词序列中的每个词的语义信息以及上下文关系信息的关联隐含特征。
更具体地,在步骤S130中,将所述文本语义特征向量的序列中的所有文本语义特征向量级联为第一文档特征向量。也就是,在本申请的技术方案中,在得到所述文本语义特征向量的序列后,将所述文本语义特征向量的序列中的所有文本语义特征向量进行级联以获得第一文档特征向量。应可以理解,这样就可以获得所述多份文档的每个文档中的内容之间的上下文信息的高维隐含关联特征。
更具体地,在步骤S140中,将所述文本语义特征向量的序列通过基于转换器的编码器模型以获得第二文档特征向量的序列。也就是,在本申请的技术方案中,进一步地,在第二级语义编码模型中,将所述多份文档中的每个的文档特征向量再输入编码器模型,在一个具体示例中,这里的编码器模型可以为基于转换器模型的语义理解模型,以获得第二文档特征向量的序列。应可以理解,通过所述二级的语义理解模型,可以不仅获得每个所述文档中的内容之间的上下文信息并编码,而且可以获得所述多个文档的内容之间的上下文信息并编码,从而充分利用了所述各个文档之间的内容相关性。
更具体地,在步骤S150中,计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值,其中,所述归属于转换器的类别函数值与每个所述第二文档特征向量的初始安全性类别标签概率以及每个所述第二文档特征向量与所述第一文档特征向量的距离有关,所述第二文档特征向量的初始安全性类别标签概率为所述第二文档特征向量通过具有安全性标签的分类器所获得的概率值。应可以理解,除了在编码层面利用了内容相关性之外,在解码层面也需要通过转换器类别函数值和解码器隐状态机制以实现上下文的解码。也就是,在本申请的技术方案中,代替对于每个所述第二文档特征向量单独进行标签标注,而计算每个所述第二文档特征向量与其对应的所述第一文档特征向量的归属于转换器的类别函数值,该所述类别函数值不仅包含编码器的编码之前与之后的转移预测概率属性,也包含了分类解码器的隐状态。值得一提的是,在一个具体示例中,计算每个所述第二文档特征向量乘以所述第一文档特征向量的转置再加上每个所述第二文档特征向量的初始安全性类别标签概率,然后除以每个所述第二文档特征向量与其对应的所述第一文档特征向量的距离的平方根,从而获得所述每个第二文档特征向量的类别函数值。
更具体地,在步骤S170和步骤S160中,以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率,其中,所述类Softmax函数为取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值除以取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值的加权和,并基于每个所述第二文档特征向量的最终安全性标签概率,确定是否对所述文件中的各份文档进行加密。也就是,在一个具体示例中,首先,以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率,其中,所述类Softmax函数为Pi=exp(-xi)/∑exp(-xi),xi为每个第二文档特征向量的类别函数值。应可以理解,通过这样的方式,可以在解码器层面实现所述各个特征向量基于上下文特征的整体特征分布的充分利用,从而提高了回归的准确性,并提高了训练速度和收敛性。然后,再基于每个所述第二文档特征向量的最终安全性标签概率,确定是否对所述文件中的各份文档进行加密。具体地,响应于所述第二文档特征向量的最终安全性标签概率大于等于预设阈值,确定对对应的文档进行加密;以及,响应于所述第二文档特征向量的最终安全性标签概率小于预设阈值,确定不对对应的文档进行加密。
综上,基于本申请实施例的所述基于数据深度关联的计算机防御系统的防御方法被阐明,其通过二级的语义理解模型,可以不仅获得每个文档中的内容之间的上下文信息并编码,而且可以获得所述多个文档的内容之间的上下文信息并编码,从而充分利用了所述各个文档之间的内容相关性。进一步地,在解码层面也通过转换器类别函数值和解码器隐状态机制实现了上下文解码,以提高回归的准确性,并且还提高了训练速度和收敛性。这样,可以更准确地对所述文件中的各份文档进行加密,进而提高了文件传输的安全性。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (7)

1.一种基于数据深度关联的计算机防御系统,其特征在于,包括:
待传输文档获取单元,用于获取待传输的多份文档;
第一语义编码单元,用于将所述多份文档中的每份文档的文本数据分别输入基于上下文的语义理解模型以获得文本语义特征向量的序列;
向量级联单元,用于将所述文本语义特征向量的序列中的所有文本语义特征向量级联为第一文档特征向量;
第二语义编码单元,用于将所述文本语义特征向量的序列通过基于转换器的编码器模型以获得第二文档特征向量的序列;
类别函数值计算单元,用于计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值,其中,所述归属于转换器的类别函数值与每个所述第二文档特征向量的初始安全性类别标签概率以及每个所述第二文档特征向量与所述第一文档特征向量的距离有关,所述第二文档特征向量的初始安全性类别标签概率为所述第二文档特征向量通过具有安全性标签的分类器所获得的概率值;
最终安全性标签概率计算单元,用于以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率,其中,所述类Softmax函数为取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值除以取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值的加权和;以及
文档加密单元,用于基于每个所述第二文档特征向量的最终安全性标签概率,确定是否对文件中的各份文档进行加密;
所述类别函数值计算单元,进一步用于以如下公式计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值;
其中,所述公式为:
Figure FDA0003708761610000021
其中,Vi表示每个所述第二文档特征向量,V1表示所述第一文档特征向量,
Figure FDA0003708761610000022
表示每个所述第二文档特征向量与所述第一文档特征向量的距离的平方根,α表示每个所述第二文档特征向量的初始安全性类别标签概率。
2.根据权利要求1所述的基于数据深度关联的计算机防御系统,所述第一语义编码单元,包括:
分词子单元,用于对每份所述文档的文本数据进行分词以获得对应于每份文档的词序列;
词向量子单元,用于使用所述语义理解模型的词嵌入模型将每份所述文档的词序列中的每个词转化为词向量以获得词向量的序列;
语义编码子单元,用于使用所述语义理解模型的Bert模型将所述词向量的序列中的每个词向量转化为词特征向量以获得词特征向量的序列;以及
上下文编码子单元,用于使用所述语义理解模型的双向LSTM模型对所述词特征向量的序列进行上下文编码以获得对应于每份文档的文本语义特征向量。
3.根据权利要求1所述的基于数据深度关联的计算机防御系统,其中,所述最终安全性标签概率计算单元,进一步用于以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率;
其中,所述类Softmax函数为Pi=exp(-xi)/∑exp(-xi)。
4.根据权利要求3所述的基于数据深度关联的计算机防御系统,所述文档加密单元,进一步用于:响应于所述第二文档特征向量的最终安全性标签概率大于等于预设阈值,确定对对应的文档进行加密;以及,响应于所述第二文档特征向量的最终安全性标签概率小于预设阈值,确定不对对应的文档进行加密。
5.一种基于数据深度关联的计算机防御系统的防御方法,其特征在于,包括:
获取待传输的多份文档;
将所述多份文档中的每份文档的文本数据分别输入基于上下文的语义理解模型以获得文本语义特征向量的序列;
将所述文本语义特征向量的序列中的所有文本语义特征向量级联为第一文档特征向量;
将所述文本语义特征向量的序列通过基于转换器的编码器模型以获得第二文档特征向量的序列;
计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值,其中,所述归属于转换器的类别函数值与每个所述第二文档特征向量的初始安全性类别标签概率以及每个所述第二文档特征向量与所述第一文档特征向量的距离有关,所述第二文档特征向量的初始安全性类别标签概率为所述第二文档特征向量通过具有安全性标签的分类器所获得的概率值;
以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率,其中,所述类Softmax函数为取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值除以取每个所述第二文档特征向量的类别函数值的负值为幂的自然指数值的加权和;以及
基于每个所述第二文档特征向量的最终安全性标签概率,确定是否对文件中的各份文档进行加密;
其中,计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值,包括:
以如下公式计算所述第二文档特征向量的序列中每个第二文档特征向量与所述第一文档特征向量的归属于转换器的类别函数值;
其中,所述公式为:
Figure FDA0003708761610000041
其中,Vi表示每个所述第二文档特征向量,V1表示所述第一文档特征向量,
Figure FDA0003708761610000042
表示每个所述第二文档特征向量与所述第一文档特征向量的距离的平方根,α表示每个所述第二文档特征向量的初始安全性类别标签概率。
6.根据权利要求5所述的基于数据深度关联的计算机防御系统的防御方法,其中,将所述多份文档中的每份文档的文本数据分别输入基于上下文的语义理解模型以获得文本语义特征向量的序列,包括:
对每份所述文档的文本数据进行分词以获得对应于每份文档的词序列;
使用所述语义理解模型的词嵌入模型将每份所述文档的词序列中的每个词转化为词向量以获得词向量的序列;
使用所述语义理解模型的Bert模型将所述词向量的序列中的每个词向量转化为词特征向量以获得词特征向量的序列;以及
使用所述语义理解模型的双向LSTM模型对所述词特征向量的序列进行上下文编码以获得对应于每份文档的文本语义特征向量。
7.根据权利要求5所述的基于数据深度关联的计算机防御系统的防御方法,其中,以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率,包括:
以所有所述第二文档特征向量的类别函数值作为整体并使用类Softmax函数来计算每个所述第二文档特征向量的最终安全性标签概率;
其中,所述类Softmax函数为Pi=exp(-xi)/∑exp(-xi)。
CN202111496054.8A 2021-12-08 2021-12-08 基于数据深度关联的计算机防御系统以及防御方法 Active CN114117453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111496054.8A CN114117453B (zh) 2021-12-08 2021-12-08 基于数据深度关联的计算机防御系统以及防御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111496054.8A CN114117453B (zh) 2021-12-08 2021-12-08 基于数据深度关联的计算机防御系统以及防御方法

Publications (2)

Publication Number Publication Date
CN114117453A CN114117453A (zh) 2022-03-01
CN114117453B true CN114117453B (zh) 2022-08-12

Family

ID=80364654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111496054.8A Active CN114117453B (zh) 2021-12-08 2021-12-08 基于数据深度关联的计算机防御系统以及防御方法

Country Status (1)

Country Link
CN (1) CN114117453B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859978A (zh) * 2020-06-11 2020-10-30 南京邮电大学 一种基于深度学习的情感文本生成方法
CN111897949A (zh) * 2020-07-28 2020-11-06 北京工业大学 一种基于Transformer的引导性文本摘要生成方法
CN112861177A (zh) * 2021-02-05 2021-05-28 深圳市辰星瑞腾科技有限公司 一种基于物联网的计算机防卫系统
CN113128235A (zh) * 2019-12-31 2021-07-16 广东爱因智能数字营销有限公司 一种语义理解方法
CN113688234A (zh) * 2021-07-31 2021-11-23 广州永链信息技术有限责任公司 文本分类管理方法、装置、终端及可读存储介质
CN113722475A (zh) * 2021-07-30 2021-11-30 黎川县梦强科技有限公司 基于云存储的文件操作方法、系统和电子设备
CN113723107A (zh) * 2021-07-30 2021-11-30 黎川县梦强科技有限公司 智能终端间的联系人信息传送提取方法、系统和电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190205761A1 (en) * 2017-12-28 2019-07-04 Adeptmind Inc. System and method for dynamic online search result generation
CN111177366B (zh) * 2019-12-30 2023-06-27 北京航空航天大学 一种基于查询机制的抽取式文档摘要自动生成方法、装置及系统
CN112052835B (zh) * 2020-09-29 2022-10-11 北京百度网讯科技有限公司 信息处理方法、信息处理装置、电子设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113128235A (zh) * 2019-12-31 2021-07-16 广东爱因智能数字营销有限公司 一种语义理解方法
CN111859978A (zh) * 2020-06-11 2020-10-30 南京邮电大学 一种基于深度学习的情感文本生成方法
CN111897949A (zh) * 2020-07-28 2020-11-06 北京工业大学 一种基于Transformer的引导性文本摘要生成方法
CN112861177A (zh) * 2021-02-05 2021-05-28 深圳市辰星瑞腾科技有限公司 一种基于物联网的计算机防卫系统
CN113722475A (zh) * 2021-07-30 2021-11-30 黎川县梦强科技有限公司 基于云存储的文件操作方法、系统和电子设备
CN113723107A (zh) * 2021-07-30 2021-11-30 黎川县梦强科技有限公司 智能终端间的联系人信息传送提取方法、系统和电子设备
CN113688234A (zh) * 2021-07-31 2021-11-23 广州永链信息技术有限责任公司 文本分类管理方法、装置、终端及可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Software Defect Prediction Method Based on Transformer Model;Wei Zheng 等;《2021 IEEE International Conference on Artificial Intelligence and Computer Applications (ICAICA)》;20210802;第670-674页 *
一种多尺度CNN的图像语义分割算法;刘丹 等;《遥感信息》;20170215;第32卷(第01期);第57-64页 *
基于双特征嵌套注意力的方面词情感分析算法;肖宇晗 等;《智能系统学报》;20210309;第16卷(第01期);第142-151页 *

Also Published As

Publication number Publication date
CN114117453A (zh) 2022-03-01

Similar Documents

Publication Publication Date Title
CN110326253B (zh) 用于对加密数据进行模糊关键字搜索的方法和系统
CN102598007B (zh) 有效检测采指纹数据和信息的系统和方法
CN109831422B (zh) 一种基于端到端序列网络的加密流量分类方法
CN106610995B (zh) 一种创建密文索引的方法、装置及系统
CN107947918A (zh) 一种基于字符特征的无载体文本隐写方法
CN113656807A (zh) 一种漏洞管理方法、装置、设备及存储介质
CN113779355B (zh) 基于区块链的网络谣言溯源取证方法及系统
Naik et al. A ransomware detection method using fuzzy hashing for mitigating the risk of occlusion of information systems
Cheng et al. Secure index construction for privacy-preserving large-scale image retrieval
CN111666575B (zh) 基于词元编码的文本无载体信息隐藏方法
Anwar et al. StegoCrypt scheme using LSB-AES base64
Yu et al. A privacy-preserving JPEG image retrieval scheme using the local Markov feature and bag-of-words model in cloud computing
CN112887323B (zh) 一种面向工业互联网边界安全的网络协议关联与识别方法
CN114117453B (zh) 基于数据深度关联的计算机防御系统以及防御方法
Zhi-Li et al. A statistical algorithm for linguistic steganography detection based on distribution of words
Tang et al. OPPR: An outsourcing privacy-preserving JPEG image retrieval scheme with local histograms in cloud environment
Liu et al. Multi-keywords carrier-free text steganography method based on Chinese pinyin
CN116055067B (zh) 一种弱口令检测的方法、装置、电子设备及介质
Li et al. Encrypted jpeg image retrieval using histograms of transformed coefficients
CN111629027A (zh) 一种基于区块链的可信文件储存处理的方法
CN115268799A (zh) 一种基于云服务的存储方法和装置
CN107491423B (zh) 一种基于数值-字符串混合编码的中文文档基因量化与表征方法
Du et al. Extraction method of secret message based on optimal hypothesis test
Kadhem Text steganography method based on modified run length encoding
Rocha et al. The unseen challenge data sets

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant