CN116663499A - 智能化工业数据处理的方法及系统 - Google Patents
智能化工业数据处理的方法及系统 Download PDFInfo
- Publication number
- CN116663499A CN116663499A CN202310598570.4A CN202310598570A CN116663499A CN 116663499 A CN116663499 A CN 116663499A CN 202310598570 A CN202310598570 A CN 202310598570A CN 116663499 A CN116663499 A CN 116663499A
- Authority
- CN
- China
- Prior art keywords
- feature vector
- semantic understanding
- industrial data
- classification
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title abstract description 12
- 230000006399 behavior Effects 0.000 claims abstract description 151
- 230000007613 environmental effect Effects 0.000 claims abstract description 44
- 238000009826 distribution Methods 0.000 claims abstract description 30
- 239000013598 vector Substances 0.000 claims description 382
- 238000012549 training Methods 0.000 claims description 139
- 238000012545 processing Methods 0.000 claims description 93
- 238000000034 method Methods 0.000 claims description 62
- 239000011159 matrix material Substances 0.000 claims description 17
- 238000005457 optimization Methods 0.000 claims description 16
- 230000000737 periodic effect Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 14
- 230000004927 fusion Effects 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 12
- 238000013135 deep learning Methods 0.000 abstract description 8
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 36
- 238000004519 manufacturing process Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 13
- 230000000694 effects Effects 0.000 description 11
- 238000004590 computer program Methods 0.000 description 10
- 238000007726 management method Methods 0.000 description 9
- 230000009471 action Effects 0.000 description 8
- 238000001514 detection method Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000004134 energy conservation Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 4
- 238000003908 quality control method Methods 0.000 description 4
- 230000005855 radiation Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000035939 shock Effects 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 3
- 230000003252 repetitive effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000015654 memory Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000008844 regulatory mechanism Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computer And Data Communications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种智能化工业数据处理的方法及系统,其获取工业数据的五元组信息、外部环境特征和业务行为;采用基于深度学习的人工智能技术,挖掘工业数据的五元组信息、外部环境特征和业务行为的语义理解关联性特征分布信息,以此来综合进行工业数据的保密级别分类,从而提高工业数据的安全性。
Description
技术领域
本申请涉及智能化处理技术领域,并且更具体地,涉及一种智能化工业数据处理的方法及系统。
背景技术
随着工业互联网的普及,生产经营数据已经涵盖了企业园区、私有数据中心、公有云和行业监管机构,但缺乏有效的监管机制。现有的5GUPF(User Plane Function,用户面功能)技术虽然可以基于五元组对数据进行分流,但分类方法较少且安全性不足,需要运营商配置或搭建虚拟专网进行管理,同时仅能实现简单的分流操作,其他操作仍需串接其他网元,会降低数据的安全性和可靠性。而现有的SDN服务链主要用于云和广域网中的分布式部署,不适用于企业出口防护。
因此,期望一种优化的智能化工业数据处理方案,以提高工业数据的安全性。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种智能化工业数据处理的方法及系统,其获取工业数据的五元组信息、外部环境特征和业务行为;采用基于深度学习的人工智能技术,挖掘工业数据的五元组信息、外部环境特征和业务行为的语义理解关联性特征分布信息,以此来综合进行工业数据的保密级别分类,从而提高工业数据的安全性。
第一方面,提供了一种智能化工业数据处理的方法,其包括:
获取工业数据的五元组信息、外部环境特征和业务行为;
将所述工业数据的五元组信息通过包含嵌入层的上下文编码器以得到五元组语义理解特征向量;
将所述外部环境特征通过所述包含嵌入层的上下文编码器以得到外部环境特征语义理解特征向量;
将所述业务行为通过所述包含嵌入层的上下文编码器以得到业务行为语义理解特征向量;
融合所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量以得到分类特征向量;以及
将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示工业数据的级别标签。
在上述智能化工业数据处理的方法中,将所述工业数据的五元组信息通过包含嵌入层的上下文编码器以得到五元组语义理解特征向量,包括:对所述工业数据的五元组信息进行分词处理以将所述工业数据的五元组信息转化为由多个第一词组成的第一词序列;使用所述包含嵌入层的上下文编码器的嵌入层将所述第一词序列中各个第一词映射到词向量以获得第一词向量的序列;以及,使用所述包含嵌入层的上下文编码器对所述第一词向量的序列进行基于全局的上下文语义编码以得到所述五元组语义理解特征向量。
在上述智能化工业数据处理的方法中,使用所述包含嵌入层的上下文编码器对所述第一词向量的序列进行基于全局的上下文语义编码以得到所述五元组语义理解特征向量,包括:将所述第一词向量的序列进行一维排列以得到全局词特征向量;计算所述全局词特征向量与所述第一词向量的序列中各个第一词向量的转置向量之间的乘积以得到多个自注意力关联矩阵;分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;以及,分别以所述多个概率值中各个概率值作为权重对所述第一词向量的序列中各个第一词向量进行加权以得到所述五元组语义理解特征向量。
在上述智能化工业数据处理的方法中,将所述外部环境特征通过所述包含嵌入层的上下文编码器以得到外部环境特征语义理解特征向量,包括:对所述外部环境特征进行分词处理以将所述外部环境特征转化为由多个第二词组成的第二词序列;使用所述包含嵌入层的上下文编码器的嵌入层将所述第二词序列中各个第二词映射到词向量以获得第二词向量的序列;以及,使用所述包含嵌入层的上下文编码器对所述第二词向量的序列进行基于全局的上下文语义编码以得到所述外部环境特征语义理解特征向量。
在上述智能化工业数据处理的方法中,将所述业务行为通过所述包含嵌入层的上下文编码器以得到业务行为语义理解特征向量,包括:对所述业务行为进行分词处理以将所述业务行为转化为由多个第三词组成的第三词序列;使用所述包含嵌入层的上下文编码器的嵌入层将所述第三词序列中各个第三词映射到词向量以获得第三词向量的序列;以及,使用所述包含嵌入层的上下文编码器对所述第三词向量的序列进行基于全局的上下文语义编码以得到所述业务行为语义理解特征向量。
在上述智能化工业数据处理的方法中,融合所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量以得到分类特征向量,包括:以如下融合公式融合所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量以得到分类特征向量;其中,所述融合公式为:
Vs=λVa+βVb+αVc
其中,Vs表示所述分类特征向量,Va表示所述五元组语义理解特征向量,Vb表示所述外部环境特征语义理解特征向量,Vc表示所述业务行为语义理解特征向量,“+”表示所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量相对应位置处的元素相加,λ、β和α表示用于控制所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量之间的平衡的加权参数。
在上述智能化工业数据处理的方法中,还包括对所述包含嵌入层的上下文编码器和所述分类器进行训练;其中,对所述包含嵌入层的上下文编码器和所述分类器进行训练,包括:获取训练数据,所述训练数据包括工业数据的训练五元组信息、训练外部环境特征和训练业务行为,以及,所述工业数据的级别标签的真实值;将所述工业数据的训练五元组信息通过所述包含嵌入层的上下文编码器以得到训练五元组语义理解特征向量;将所述训练外部环境特征通过所述包含嵌入层的上下文编码器以得到训练外部环境特征语义理解特征向量;将所述训练业务行为通过所述包含嵌入层的上下文编码器以得到训练业务行为语义理解特征向量;融合所述训练五元组语义理解特征向量、所述训练外部环境特征语义理解特征向量和所述训练业务行为语义理解特征向量以得到训练分类特征向量;对所述训练分类特征向量进行特征分布优化以得到优化训练分类特征向量;将所述优化训练分类特征向量通过所述分类器以得到分类损失函数值;以及,基于所述分类损失函数值并通过梯度下降的反向传播来对所述包含嵌入层的上下文编码器和所述分类器进行训练。
在上述智能化工业数据处理的方法中,对所述训练分类特征向量进行特征分布优化以得到优化训练分类特征向量,包括:以如下优化公式对所述训练分类特征向量进行耿贝尔正态周期性重参数化以得到所述优化训练分类特征向量;其中,所述优化公式为:
其中,vi表示所述训练分类特征向量的各个位置的特征值,μ和σ分别是所述训练分类特征向量的各个位置的特征值集合的均值和方差,log表示以2为底的对数函数,arcsin(·)表示反正弦函数,arccos(·)表示反余弦函数,vi′表示所述优化训练分类特征向量的各个位置的特征值。
在上述智能化工业数据处理的方法中,将所述优化训练分类特征向量通过所述分类器以得到分类损失函数值,包括:所述分类器以如下分类公式对所述优化训练分类特征向量进行处理以生成分类结果,其中,所述分类公式为:softmax{(Wn,Bn):...:(W1,B1)|X},其中X表示所述优化训练分类特征向量,W1至Wn为权重矩阵,B1至Bn表示偏置矩阵;以及,计算所述分类结果与真实值之间的交叉熵值作为所述分类损失函数值。
第二方面,提供了一种智能化工业数据处理的系统,其包括:
数据获取模块,用于获取工业数据的五元组信息、外部环境特征和业务行为;
五元组编码模块,用于将所述工业数据的五元组信息通过包含嵌入层的上下文编码器以得到五元组语义理解特征向量;
外部环境编码模块,用于将所述外部环境特征通过所述包含嵌入层的上下文编码器以得到外部环境特征语义理解特征向量;
业务行为编码模块,用于将所述业务行为通过所述包含嵌入层的上下文编码器以得到业务行为语义理解特征向量;
融合模块,用于融合所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量以得到分类特征向量;
工业数据的级别生成模块,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示工业数据的级别标签。
与现有技术相比,本申请提供的智能化工业数据处理的方法及系统,其获取工业数据的五元组信息、外部环境特征和业务行为;采用基于深度学习的人工智能技术,挖掘工业数据的五元组信息、外部环境特征和业务行为的语义理解关联性特征分布信息,以此来综合进行工业数据的保密级别分类,从而提高工业数据的安全性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本申请实施例的智能化工业数据处理的方法的场景示意图。
图2为根据本申请实施例的智能化工业数据处理的方法的流程图。
图3为根据本申请实施例的智能化工业数据处理的方法的架构示意图。
图4为根据本申请实施例的智能化工业数据处理的方法中步骤120的子步骤的流程图。
图5为根据本申请实施例的智能化工业数据处理的方法中步骤123的子步骤的流程图。
图6为根据本申请实施例的智能化工业数据处理的方法中步骤130的子步骤的流程图。
图7为根据本申请实施例的智能化工业数据处理的方法中步骤140的子步骤的流程图。
图8为根据本申请实施例的智能化工业数据处理的方法中步骤170的子步骤的流程图。
图9为根据本申请实施例的智能化工业数据处理的系统的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
除非另有说明,本申请实施例所使用的所有技术和科学术语与本申请的技术领域的技术人员通常理解的含义相同。本申请中所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本申请的范围。
在本申请实施例记载中,需要说明的是,除非另有说明和限定,术语“连接”应做广义理解,例如,可以是电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
需要说明的是,本申请实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换,以使这里描述的本申请的实施例可以除了在这里图示或描述的那些以外的顺序实施。
如上所述,现有的5GUPF技术虽然可以基于五元组对数据进行分流,但分类方法较少且安全性不足,需要运营商配置或搭建虚拟专网进行管理,同时仅能实现简单的分流操作,其他操作仍需串接其他网元,会降低数据的安全性和可靠性。而现有的SDN服务链主要用于云和广域网中的分布式部署,不适用于企业出口防护。因此,期望一种优化的智能化工业数据处理方案,以提高工业数据的安全性。
相应地,考虑到在实际进行工业数据处理的过程中,工业数据主要包括有以下几类:五元组信息、外部环境特征和业务行为。其中,所述五元组信息包括:时间戳,用于记录数据采集的时间点或时间段;设备标识,用于唯一标识设备的编号或名称;传感器标识,用于唯一标识数据来源传感器的编号或名称;数据类型,用于记录数据的种类,如温度、压力、流量等;数据值,指具体的数据数值。所述外部环境特征包括以下几个方面:温度、湿度等气象因素、噪声和干扰、电磁干扰、振动和震动、光线和辐射。应可以理解,这些所述外部环境特征可以反映出生产过程和设备运行状况,以采取相应的措施来优化生产效率和产品质量。所述业务行为包括以下几个方面:设备控制、故障检测和维护、质量控制、生产计划和调度、能源管理和节能减排。应可以理解,这些所述业务行为可以反映出生产过程和管理效率,以采取相应的措施来优化生产效率、改进产品质量和保护环境。
基于此,在本申请的技术方案中,期望基于工业数据的五元组信息、外部环境特征和业务行为的语义理解特征来进行工业数据的处理,从而进行工业数据的级别分类,例如包括普通级别、企业机密级别和国家机密级别等,以此来提高工业数据的安全性。但是,由于工业数据中的各个数据项都有着各自的语义理解特征信息,这些语义理解特征都刻画了工业数据的保密级别表征信息,并且工业数据中的各个数据项之间还具有着上下文的语义关联特征,这对于工业数据的保密级别分类带来了困难。也就是说,在此过程中,难点在于如何挖掘所述工业数据的五元组信息、外部环境特征和业务行为的语义理解关联性特征分布信息,以此来综合进行工业数据的保密级别分类,从而提高工业数据的安全性。
近年来,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。深度学习以及神经网络的发展为挖掘所述工业数据的五元组信息、外部环境特征和业务行为的语义理解关联性特征分布信息提供了新的解决思路和方案。
具体地,在本申请的技术方案中,首先,获取工业数据的五元组信息、外部环境特征和业务行为。所述五元组信息包括时间戳、设备标识、传感器标识、数据类型和数据值;所述外部环境特征包括温度、湿度等气象因素、噪声和干扰、电磁干扰、振动和震动、光线和辐射。所述业务行为包括设备控制、故障检测和维护、质量控制、生产计划和调度、能源管理和节能减排。应可以理解,所述五元组信息反映了工业数据的基础信息,包括数据采集信息和数据类型信息等;所述外部环境特征可以反映了生产过程和设备运行状况,可以利用所述外部环境特征采取相应的措施来优化生产效率和产品质量;所述业务行为反映了生产过程和管理效率,可以利用所述业务行为采取相应的措施来优化生产效率、改进产品质量和保护环境。
然后,考虑到由于所述工业数据的五元组信息、外部环境特征和业务行为都是由各个词组成的,并且各个词之间还具有着上下文的语义关联关系。并且,还考虑到在工业数据处理中,所述工业数据的五元组信息、外部环境特征和业务行为往往是非结构化的数据,而通过上下文编码器可以将其转化为固定维度的向量表示,从而更方便地进行特征提取和分类。因此,为了能够进行工业数据的保密级别分类判断,需要进行所述工业数据的五元组信息、外部环境特征和业务行为的语义理解特征充分表达。基于此,在本申请的技术方案中,使用包含嵌入层的上下文编码器来分别进行所述工业数据的五元组信息、外部环境特征和业务行为的语义理解,以此来分别提取出所述工业数据的五元组信息、外部环境特征和业务行为的基于全局的上下文语义关联特征信息,从而得到五元组语义理解特征向量、外部环境特征语义理解特征向量和业务行为语义理解特征向量。
进一步地,融合所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量以得到分类特征向量,以此来将所述工业数据的五元组信息语义理解特征,所述外部环境特征的语义理解特征和所述业务行为的语义理解特征融合为一个完整的特征向量,以捕捉到所述工业数据的不同数据类型的语义理解特征之间的相互作用和依赖关系,从而更好地刻画所述工业数据的保密级别隐含特征信息。此外,融合所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量中的特征信息,还可以降低数据处理过程中的信息丢失和误差传递,提高模型的稳定性和可靠性,从而提高分类的精准度。
接着,进一步再将所述分类特征向量通过分类器中进行分类处理,以得到用于表示工业数据的级别标签的分类结果。也就是,在本申请的技术方案中,所述分类器的标签是所述工业数据的保密级别标签,具体地包括有普通级别、企业机密级别和国家机密级别,其中,所述分类器通过软最大值函数来确定所述分类特征向量属于哪个分类标签,以此来进行所述工业数据的保密级别判断。
特别地,在本申请的技术方案中,为了充分利用所述五元组语义理解特征向量所表达的工业数据的基础五元组信息(包括时间戳、设备表示、传感器表示、数据类型和数据值)之间的语义关联信息、所述外部环境特征语义理解特征向量所表达的所述工业数据的外部环境特征的语义信息以及所述业务行为语义理解特征向量所表达的所述工业数据的业务行为语义信息,优选地通过直接级联所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量来得到所述分类特征向量。但是,这样就会在所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量的级联位置引入分布间隙(distribution gap)。另一方面,虽然所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量是通过具有相同结构的语义编码器进行上下文语义编码得到(即通过所述嵌入层的上下文编码器进行上下文语义编码得到),但是因所述工业数据的五元组信息、外部环境特征和业务行为在数据源域端的数据表达方式、数据长短等基础特征差异较大,这会导致所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量在高维特征空间中的数据流形之间的相似度和一致性较差。这两方面叠加就会导致所述分类特征向量的整体特征分布的连续性差,影响模型训练时的训练效果。
基于此,本申请的申请人对所述分类特征向量,例如记为V进行耿贝尔(Gumbel)正态周期性重参数化,以获得优化后的分类特征向量V′,具体表示为:
μ和σ分别是特征值集合vi∈V的均值和方差,且vi ′∈V′。
这里,所述耿贝尔正态周期性重参数化通过将分类特征向量V的各个位置的特征值vi转换为其概率分布的角特征表达,来基于耿贝尔(Gumbel)分布的随机性周期操作方式在特征值集合的正态分布中引入随机性的周期式分布,以获得原特征分布的具有随机性的周期式连续可微近似,从而通过特征的周期性重参数化来提高优化后的分类特征向量V′在训练时,损失函数的梯度在模型中反向传播的动态连续波动能力,以提高所述包含嵌入层的上下文编码器在训练过程中的动态应用性,从而补偿所述分类特征向量的特征分布的连续性差对训练效果,例如训练速度和收敛结果准确度的影响。这样,能够准确地进行工业数据的保密级别检测判断,从而提高工业数据的安全性。
图1为根据本申请实施例的智能化工业数据处理的方法的场景示意图。如图1所示,在该应用场景中,首先,获取工业数据的五元组信息(例如,如图1中所示意的C1)、外部环境特征(例如,如图1中所示意的C2)和业务行为(例如,如图1中所示意的C3);然后,将获取的五元组信息、外部环境特征和业务行为输入至部署有智能化工业数据处理算法的服务器(例如,如图1中所示意的S)中,其中所述服务器能够基于智能化工业数据处理算法对所述五元组信息、所述外部环境特征和所述业务行为进行处理,以生成用于表示工业数据的级别标签的分类结果。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
在本申请的一个实施例中,图2为根据本申请实施例的智能化工业数据处理的方法的流程图。如图2所示,根据本申请实施例的智能化工业数据处理的方法100,包括:110,获取工业数据的五元组信息、外部环境特征和业务行为;120,将所述工业数据的五元组信息通过包含嵌入层的上下文编码器以得到五元组语义理解特征向量;130,将所述外部环境特征通过所述包含嵌入层的上下文编码器以得到外部环境特征语义理解特征向量;140,将所述业务行为通过所述包含嵌入层的上下文编码器以得到业务行为语义理解特征向量;150,融合所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量以得到分类特征向量;以及,160,将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示工业数据的级别标签。
图3为根据本申请实施例的智能化工业数据处理的方法的架构示意图。如图3所示,在该网络架构中,首先,获取工业数据的五元组信息、外部环境特征和业务行为;然后,将所述工业数据的五元组信息通过包含嵌入层的上下文编码器以得到五元组语义理解特征向量;接着,将所述外部环境特征通过所述包含嵌入层的上下文编码器以得到外部环境特征语义理解特征向量;然后,将所述业务行为通过所述包含嵌入层的上下文编码器以得到业务行为语义理解特征向量;接着,融合所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量以得到分类特征向量;以及,最后,将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示工业数据的级别标签。
具体地,在步骤110中,获取工业数据的五元组信息、外部环境特征和业务行为。如上所述,现有的5GUPF技术虽然可以基于五元组对数据进行分流,但分类方法较少且安全性不足,需要运营商配置或搭建虚拟专网进行管理,同时仅能实现简单的分流操作,其他操作仍需串接其他网元,会降低数据的安全性和可靠性。而现有的SDN服务链主要用于云和广域网中的分布式部署,不适用于企业出口防护。因此,期望一种优化的智能化工业数据处理方案,以提高工业数据的安全性。
相应地,考虑到在实际进行工业数据处理的过程中,工业数据主要包括有以下几类:五元组信息、外部环境特征和业务行为。其中,所述五元组信息包括:时间戳,用于记录数据采集的时间点或时间段;设备标识,用于唯一标识设备的编号或名称;传感器标识,用于唯一标识数据来源传感器的编号或名称;数据类型,用于记录数据的种类,如温度、压力、流量等;数据值,指具体的数据数值。所述外部环境特征包括以下几个方面:温度、湿度等气象因素、噪声和干扰、电磁干扰、振动和震动、光线和辐射。应可以理解,这些所述外部环境特征可以反映出生产过程和设备运行状况,以采取相应的措施来优化生产效率和产品质量。所述业务行为包括以下几个方面:设备控制、故障检测和维护、质量控制、生产计划和调度、能源管理和节能减排。应可以理解,这些所述业务行为可以反映出生产过程和管理效率,以采取相应的措施来优化生产效率、改进产品质量和保护环境。
基于此,在本申请的技术方案中,期望基于工业数据的五元组信息、外部环境特征和业务行为的语义理解特征来进行工业数据的处理,从而进行工业数据的级别分类,例如包括普通级别、企业机密级别和国家机密级别等,以此来提高工业数据的安全性。但是,由于工业数据中的各个数据项都有着各自的语义理解特征信息,这些语义理解特征都刻画了工业数据的保密级别表征信息,并且工业数据中的各个数据项之间还具有着上下文的语义关联特征,这对于工业数据的保密级别分类带来了困难。也就是说,在此过程中,难点在于如何挖掘所述工业数据的五元组信息、外部环境特征和业务行为的语义理解关联性特征分布信息,以此来综合进行工业数据的保密级别分类,从而提高工业数据的安全性。
近年来,深度学习以及神经网络已经广泛应用于计算机视觉、自然语言处理、文本信号处理等领域。深度学习以及神经网络的发展为挖掘所述工业数据的五元组信息、外部环境特征和业务行为的语义理解关联性特征分布信息提供了新的解决思路和方案。
具体地,在本申请的技术方案中,首先,获取工业数据的五元组信息、外部环境特征和业务行为。所述五元组信息包括时间戳、设备标识、传感器标识、数据类型和数据值;所述外部环境特征包括温度、湿度等气象因素、噪声和干扰、电磁干扰、振动和震动、光线和辐射。所述业务行为包括设备控制、故障检测和维护、质量控制、生产计划和调度、能源管理和节能减排。应可以理解,所述五元组信息反映了工业数据的基础信息,包括数据采集信息和数据类型信息等;所述外部环境特征可以反映了生产过程和设备运行状况,可以利用所述外部环境特征采取相应的措施来优化生产效率和产品质量;所述业务行为反映了生产过程和管理效率,可以利用所述业务行为采取相应的措施来优化生产效率、改进产品质量和保护环境。
具体地,在步骤120、步骤130和步骤140中,将所述工业数据的五元组信息通过包含嵌入层的上下文编码器以得到五元组语义理解特征向量;将所述外部环境特征通过所述包含嵌入层的上下文编码器以得到外部环境特征语义理解特征向量;以及,将所述业务行为通过所述包含嵌入层的上下文编码器以得到业务行为语义理解特征向量。
然后,考虑到由于所述工业数据的五元组信息、外部环境特征和业务行为都是由各个词组成的,并且各个词之间还具有着上下文的语义关联关系。并且,还考虑到在工业数据处理中,所述工业数据的五元组信息、外部环境特征和业务行为往往是非结构化的数据,而通过上下文编码器可以将其转化为固定维度的向量表示,从而更方便地进行特征提取和分类。因此,为了能够进行工业数据的保密级别分类判断,需要进行所述工业数据的五元组信息、外部环境特征和业务行为的语义理解特征充分表达。基于此,在本申请的技术方案中,使用包含嵌入层的上下文编码器来分别进行所述工业数据的五元组信息、外部环境特征和业务行为的语义理解,以此来分别提取出所述工业数据的五元组信息、外部环境特征和业务行为的基于全局的上下文语义关联特征信息,从而得到五元组语义理解特征向量、外部环境特征语义理解特征向量和业务行为语义理解特征向量。
图4为根据本申请实施例的智能化工业数据处理的方法中步骤120的子步骤的流程图,如图4所示,将所述工业数据的五元组信息通过包含嵌入层的上下文编码器以得到五元组语义理解特征向量,包括:121,对所述工业数据的五元组信息进行分词处理以将所述工业数据的五元组信息转化为由多个第一词组成的第一词序列;122,使用所述包含嵌入层的上下文编码器的嵌入层将所述第一词序列中各个第一词映射到词向量以获得第一词向量的序列;以及,123,使用所述包含嵌入层的上下文编码器对所述第一词向量的序列进行基于全局的上下文语义编码以得到所述五元组语义理解特征向量。
图5为根据本申请实施例的智能化工业数据处理的方法中步骤123的子步骤的流程图,如图5所示,使用所述包含嵌入层的上下文编码器对所述第一词向量的序列进行基于全局的上下文语义编码以得到所述五元组语义理解特征向量,包括:1231,将所述第一词向量的序列进行一维排列以得到全局词特征向量;1232,计算所述全局词特征向量与所述第一词向量的序列中各个第一词向量的转置向量之间的乘积以得到多个自注意力关联矩阵;1233,分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;1234,将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;以及,1235,分别以所述多个概率值中各个概率值作为权重对所述第一词向量的序列中各个第一词向量进行加权以得到所述五元组语义理解特征向量。
图6为根据本申请实施例的智能化工业数据处理的方法中步骤130的子步骤的流程图,如图6所示,将所述外部环境特征通过所述包含嵌入层的上下文编码器以得到外部环境特征语义理解特征向量,包括:131,对所述外部环境特征进行分词处理以将所述外部环境特征转化为由多个第二词组成的第二词序列;132,使用所述包含嵌入层的上下文编码器的嵌入层将所述第二词序列中各个第二词映射到词向量以获得第二词向量的序列;以及,133,使用所述包含嵌入层的上下文编码器对所述第二词向量的序列进行基于全局的上下文语义编码以得到所述外部环境特征语义理解特征向量。
图7为根据本申请实施例的智能化工业数据处理的方法中步骤140的子步骤的流程图,如图7所示,将所述业务行为通过所述包含嵌入层的上下文编码器以得到业务行为语义理解特征向量,包括:141,对所述业务行为进行分词处理以将所述业务行为转化为由多个第三词组成的第三词序列;142,使用所述包含嵌入层的上下文编码器的嵌入层将所述第三词序列中各个第三词映射到词向量以获得第三词向量的序列;以及,143,使用所述包含嵌入层的上下文编码器对所述第三词向量的序列进行基于全局的上下文语义编码以得到所述业务行为语义理解特征向量。
上下文编码器旨在挖掘得到词序列中上下文之间的隐藏模式,可选地,编码器包括:CNN(Convolutional Neural Network,卷积神经网络)、Recursive NN(RecursiveNeural Network,递归神经网络)、语言模型(Language Model)等。基于CNN的方法对于局部特征有比较好的提取效果,但其对于句子中的长程依赖(Long-termDependency)问题效果欠佳,因此基于Bi-LSTM(Long Short-Term Memory,长短期记忆网络)的编码器被广泛使用。Recursive NN把句子当作树状结构而非序列进行处理,从理论上而言具有更强的表示能力,但其存在样本标注难度大、深层易梯度消失、难以并行计算等弱点,因此在实际应用中使用较少。Transformer是应用广泛的网络结构了,同时具有CNN和RNN的特性,对于全局特征有较好的提取效果,同时相较于RNN(RecurrentNeural Network,循环神经网络)在并行计算上具有一定优势。
具体地,在步骤150中,融合所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量以得到分类特征向量。进一步地,融合所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量以得到分类特征向量,以此来将所述工业数据的五元组信息语义理解特征,所述外部环境特征的语义理解特征和所述业务行为的语义理解特征融合为一个完整的特征向量,以捕捉到所述工业数据的不同数据类型的语义理解特征之间的相互作用和依赖关系,从而更好地刻画所述工业数据的保密级别隐含特征信息。此外,融合所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量中的特征信息,还可以降低数据处理过程中的信息丢失和误差传递,提高模型的稳定性和可靠性,从而提高分类的精准度。
融合所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量以得到分类特征向量,包括:以如下融合公式融合所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量以得到分类特征向量;其中,所述融合公式为:
Vs=λVa+βVb+αVc
其中,Vs表示所述分类特征向量,Va表示所述五元组语义理解特征向量,Vb表示所述外部环境特征语义理解特征向量,Vc表示所述业务行为语义理解特征向量,“+”表示所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量相对应位置处的元素相加,λ、β和α表示用于控制所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量之间的平衡的加权参数。
具体地,在步骤160中,将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示工业数据的级别标签。接着,进一步再将所述分类特征向量通过分类器中进行分类处理,以得到用于表示工业数据的级别标签的分类结果。也就是,在本申请的技术方案中,所述分类器的标签是所述工业数据的保密级别标签,具体地包括有普通级别、企业机密级别和国家机密级别,其中,所述分类器通过软最大值函数来确定所述分类特征向量属于哪个分类标签,以此来进行所述工业数据的保密级别判断。
其中,将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示工业数据的级别标签,包括:使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
所述智能化工业数据处理的方法,还包括对所述包含嵌入层的上下文编码器和所述分类器进行训练;图8为根据本申请实施例的智能化工业数据处理的方法中步骤170的子步骤的流程图,如图8所示,对所述包含嵌入层的上下文编码器和所述分类器进行训练170,包括:171,获取训练数据,所述训练数据包括工业数据的训练五元组信息、训练外部环境特征和训练业务行为,以及,所述工业数据的级别标签的真实值;172,将所述工业数据的训练五元组信息通过所述包含嵌入层的上下文编码器以得到训练五元组语义理解特征向量;173,将所述训练外部环境特征通过所述嵌入层的上下文编码器以得到训练外部环境特征语义理解特征向量;174,将所述训练业务行为通过所述包含嵌入层的上下文编码器以得到训练业务行为语义理解特征向量;175,融合所述训练五元组语义理解特征向量、所述训练外部环境特征语义理解特征向量和所述训练业务行为语义理解特征向量以得到训练分类特征向量;176,对所述训练分类特征向量进行特征分布优化以得到优化训练分类特征向量;177,将所述优化训练分类特征向量通过所述分类器以得到分类损失函数值;以及,178,基于所述分类损失函数值并通过梯度下降的反向传播来对所述包含嵌入层的上下文编码器和所述分类器进行训练。
特别地,在本申请的技术方案中,为了充分利用所述五元组语义理解特征向量所表达的工业数据的基础五元组信息(包括时间戳、设备表示、传感器表示、数据类型和数据值)之间的语义关联信息、所述外部环境特征语义理解特征向量所表达的所述工业数据的外部环境特征的语义信息以及所述业务行为语义理解特征向量所表达的所述工业数据的业务行为语义信息,优选地通过直接级联所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量来得到所述分类特征向量。但是,这样就会在所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量的级联位置引入分布间隙(distribution gap)。
另一方面,虽然所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量是通过具有相同结构的语义编码器进行上下文语义编码得到(即通过所述嵌入层的上下文编码器进行上下文语义编码得到),但是因所述工业数据的五元组信息、外部环境特征和业务行为在数据源域端的数据表达方式、数据长短等基础特征差异较大,这会导致所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量在高维特征空间中的数据流形之间的相似度和一致性较差。这两方面叠加就会导致所述分类特征向量的整体特征分布的连续性差,影响模型训练时的训练效果。
基于此,本申请的申请人对所述分类特征向量,例如记为V进行耿贝尔(Gumbel)正态周期性重参数化,以获得优化后的分类特征向量V′,具体表示为:以如下优化公式对所述训练分类特征向量进行耿贝尔正态周期性重参数化以得到所述优化训练分类特征向量;其中,所述优化公式为:
其中,vi表示所述训练分类特征向量的各个位置的特征值,μ和σ分别是所述训练分类特征向量的各个位置的特征值集合的均值和方差,log表示以2为底的对数函数,arcsin(·)表示反正弦函数,arccos(·)表示反余弦函数,vi ′表示所述优化训练分类特征向量的各个位置的特征值。
这里,所述耿贝尔正态周期性重参数化通过将分类特征向量V的各个位置的特征值vi转换为其概率分布的角特征表达,来基于耿贝尔(Gumbel)分布的随机性周期操作方式在特征值集合的正态分布中引入随机性的周期式分布,以获得原特征分布的具有随机性的周期式连续可微近似,从而通过特征的周期性重参数化来提高优化后的分类特征向量V′在训练时,损失函数的梯度在模型中反向传播的动态连续波动能力,以提高所述包含嵌入层的上下文编码器在训练过程中的动态应用性,从而补偿所述分类特征向量的特征分布的连续性差对训练效果,例如训练速度和收敛结果准确度的影响。这样,能够准确地进行工业数据的保密级别检测判断,从而提高工业数据的安全性。
进一步地,将所述优化训练分类特征向量通过所述分类器以得到分类损失函数值,包括:所述分类器以如下分类公式对所述优化训练分类特征向量进行处理以生成分类结果,其中,所述分类公式为:softmax{(Wn,Bn):…:(W1,B1)|X},其中X表示所述优化训练分类特征向量,W1至Wn为权重矩阵,B1至Bn表示偏置矩阵;以及,计算所述分类结果与真实值之间的交叉熵值作为所述分类损失函数值。
综上,基于本申请实施例的智能化工业数据处理的方法100被阐明,其获取工业数据的五元组信息、外部环境特征和业务行为;采用基于深度学习的人工智能技术,挖掘工业数据的五元组信息、外部环境特征和业务行为的语义理解关联性特征分布信息,以此来综合进行工业数据的保密级别分类,从而提高工业数据的安全性。
在本申请的一个实施例中,图9为根据本申请实施例的智能化工业数据处理的系统的框图。如图9所示,根据本申请实施例的智能化工业数据处理的系统200,包括:数据获取模块210,用于获取工业数据的五元组信息、外部环境特征和业务行为;五元组编码模块220,用于将所述工业数据的五元组信息通过包含嵌入层的上下文编码器以得到五元组语义理解特征向量;外部环境编码模块230,用于将所述外部环境特征通过所述包含嵌入层的上下文编码器以得到外部环境特征语义理解特征向量;业务行为编码模块240,用于将所述业务行为通过所述包含嵌入层的上下文编码器以得到业务行为语义理解特征向量;融合模块250,用于融合所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量以得到分类特征向量;以及,工业数据的级别生成模块260,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示工业数据的级别标签。
在一个具体示例中,在上述智能化工业数据处理的系统中,所述五元组编码模块,包括:五元组分词单元,用于对所述工业数据的五元组信息进行分词处理以将所述工业数据的五元组信息转化为由多个第一词组成的第一词序列;五元组词映射单元,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述第一词序列中各个第一词映射到词向量以获得第一词向量的序列;以及,五元组语义编码单元,用于使用所述包含嵌入层的上下文编码器对所述第一词向量的序列进行基于全局的上下文语义编码以得到所述五元组语义理解特征向量。
在一个具体示例中,在上述智能化工业数据处理的系统中,所述五元组语义编码单元,包括:一维排列子单元,用于将所述第一词向量的序列进行一维排列以得到全局词特征向量;关联矩阵计算子单元,用于计算所述全局词特征向量与所述第一词向量的序列中各个第一词向量的转置向量之间的乘积以得到多个自注意力关联矩阵;标准化处理子单元,用于分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;分类子单元,用于将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;以及,加权子单元,用于分别以所述多个概率值中各个概率值作为权重对所述第一词向量的序列中各个第一词向量进行加权以得到所述五元组语义理解特征向量。
在一个具体示例中,在上述智能化工业数据处理的系统中,所述外部环境编码模块,包括:外部环境分词单元,用于对所述外部环境特征进行分词处理以将所述外部环境特征转化为由多个第二词组成的第二词序列;外部环境词映射单元,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述第二词序列中各个第二词映射到词向量以获得第二词向量的序列;以及,外部环境语义编码单元,用于使用所述包含嵌入层的上下文编码器对所述第二词向量的序列进行基于全局的上下文语义编码以得到所述外部环境特征语义理解特征向量。
在一个具体示例中,在上述智能化工业数据处理的系统中,所述业务行为编码模块,包括:业务行为分词单元,用于对所述业务行为进行分词处理以将所述业务行为转化为由多个第三词组成的第三词序列;业务行为词映射单元,用于使用所述包含嵌入层的上下文编码器的嵌入层将所述第三词序列中各个第三词映射到词向量以获得第三词向量的序列;以及,业务行为语义编码单元,使用所述包含嵌入层的上下文编码器对所述第三词向量的序列进行基于全局的上下文语义编码以得到所述业务行为语义理解特征向量。
在一个具体示例中,在上述智能化工业数据处理的系统中,所述融合模块,用于:以如下融合公式融合所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量以得到分类特征向量;其中,所述融合公式为:
Vs=λVa+βVb+αVc
其中,Vs表示所述分类特征向量,Va表示所述五元组语义理解特征向量,Vb表示所述外部环境特征语义理解特征向量,Vc表示所述业务行为语义理解特征向量,“+”表示所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量相对应位置处的元素相加,λ、β和α表示用于控制所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量之间的平衡的加权参数。
在一个具体示例中,在上述智能化工业数据处理的系统中,还包括对所述包含嵌入层的上下文编码器和所述分类器进行训练的训练模块;其中,所述训练模块,包括:训练数据获取单元,用于获取训练数据,所述训练数据包括工业数据的训练五元组信息、训练外部环境特征和训练业务行为,以及,所述工业数据的级别标签的真实值;训练五元组编码单元,用于将所述工业数据的训练五元组信息通过所述包含嵌入层的上下文编码器以得到训练五元组语义理解特征向量;训练外部环境编码单元,用于将所述训练外部环境特征通过所述包含嵌入层的上下文编码器以得到训练外部环境特征语义理解特征向量;训练业务行为编码单元,用于将所述训练业务行为通过所述包含嵌入层的上下文编码器以得到训练业务行为语义理解特征向量;训练融合单元,用于融合所述训练五元组语义理解特征向量、所述训练外部环境特征语义理解特征向量和所述训练业务行为语义理解特征向量以得到训练分类特征向量;训练优化单元,用于对所述训练分类特征向量进行特征分布优化以得到优化训练分类特征向量;损失函数值计算单元,用于将所述优化训练分类特征向量通过所述分类器以得到分类损失函数值;以及,训练单元,用于基于所述分类损失函数值并通过梯度下降的反向传播来对所述包含嵌入层的上下文编码器和所述分类器进行训练。
在一个具体示例中,在上述智能化工业数据处理的系统中,所述训练优化单元,用于:以如下优化公式对所述训练分类特征向量进行耿贝尔正态周期性重参数化以得到所述优化训练分类特征向量;其中,所述优化公式为:
其中,vi表示所述训练分类特征向量的各个位置的特征值,μ和σ分别是所述训练分类特征向量的各个位置的特征值集合的均值和方差,log表示以2为底的对数函数,arcsin(·)表示反正弦函数,arccos(·)表示反余弦函数,vi′表示所述优化训练分类特征向量的各个位置的特征值。
在一个具体示例中,在上述智能化工业数据处理的系统中,所述损失函数值计算单元,包括:分类子单元,用于所述分类器以如下分类公式对所述优化训练分类特征向量进行处理以生成分类结果,其中,所述分类公式为:softmax{(Wn,Bn):...:(W1,B1)|X},其中X表示所述优化训练分类特征向量,W1至Wn为权重矩阵,B1至Bn表示偏置矩阵;以及,计算子单元,用于计算所述分类结果与真实值之间的交叉熵值作为所述分类损失函数值。
这里,本领域技术人员可以理解,上述智能化工业数据处理的系统中的各个单元和模块的具体功能和操作已经在上面参考图1到图8的智能化工业数据处理的方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的智能化工业数据处理的系统200可以实现在各种终端设备中,例如用于智能化工业数据处理的服务器等。在一个示例中,根据本申请实施例的智能化工业数据处理的系统200可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该智能化工业数据处理的系统200可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该智能化工业数据处理的系统200同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该智能化工业数据处理的系统200与该终端设备也可以是分立的设备,并且智能化工业数据处理的系统200可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
本申请还提供了一种计算机程序产品,所述计算机程序产品包括指令,当所述指令被执行时,以使得装置执行对应于上述方法中的操作。
在本申请的一个实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有执行上述所述方法的计算机程序。
应可以理解,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例的方法、系统、和计算机程序产品的流程图和/或框图来描述的。应理解可由计算机程序指令实现流程图和/或框图中的每一流程和/或方框、以及流程图和/或框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或框图一个方框或多个方框中指定的功能的步骤。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (10)
1.一种智能化工业数据处理的方法,其特征在于,包括:
获取工业数据的五元组信息、外部环境特征和业务行为;
将所述工业数据的五元组信息通过包含嵌入层的上下文编码器以得到五元组语义理解特征向量;
将所述外部环境特征通过所述包含嵌入层的上下文编码器以得到外部环境特征语义理解特征向量;
将所述业务行为通过所述包含嵌入层的上下文编码器以得到业务行为语义理解特征向量;
融合所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量以得到分类特征向量;以及
将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示工业数据的级别标签。
2.根据权利要求1所述的智能化工业数据处理的方法,其特征在于,将所述工业数据的五元组信息通过包含嵌入层的上下文编码器以得到五元组语义理解特征向量,包括:
对所述工业数据的五元组信息进行分词处理以将所述工业数据的五元组信息转化为由多个第一词组成的第一词序列;
使用所述包含嵌入层的上下文编码器的嵌入层将所述第一词序列中各个第一词映射到词向量以获得第一词向量的序列;以及
使用所述包含嵌入层的上下文编码器对所述第一词向量的序列进行基于全局的上下文语义编码以得到所述五元组语义理解特征向量。
3.根据权利要求2所述的智能化工业数据处理的方法,其特征在于,使用所述包含嵌入层的上下文编码器对所述第一词向量的序列进行基于全局的上下文语义编码以得到所述五元组语义理解特征向量,包括:
将所述第一词向量的序列进行一维排列以得到全局词特征向量;
计算所述全局词特征向量与所述第一词向量的序列中各个第一词向量的转置向量之间的乘积以得到多个自注意力关联矩阵;
分别对所述多个自注意力关联矩阵中各个自注意力关联矩阵进行标准化处理以得到多个标准化后自注意力关联矩阵;
将所述多个标准化后自注意力关联矩阵中各个标准化后自注意力关联矩阵通过Softmax分类函数以得到多个概率值;以及
分别以所述多个概率值中各个概率值作为权重对所述第一词向量的序列中各个第一词向量进行加权以得到所述五元组语义理解特征向量。
4.根据权利要求3所述的智能化工业数据处理的方法,其特征在于,将所述外部环境特征通过所述包含嵌入层的上下文编码器以得到外部环境特征语义理解特征向量,包括:
对所述外部环境特征进行分词处理以将所述外部环境特征转化为由多个第二词组成的第二词序列;
使用所述包含嵌入层的上下文编码器的嵌入层将所述第二词序列中各个第二词映射到词向量以获得第二词向量的序列;以及
使用所述包含嵌入层的上下文编码器对所述第二词向量的序列进行基于全局的上下文语义编码以得到所述外部环境特征语义理解特征向量。
5.根据权利要求4所述的智能化工业数据处理的方法,其特征在于,将所述业务行为通过所述包含嵌入层的上下文编码器以得到业务行为语义理解特征向量,包括:
对所述业务行为进行分词处理以将所述业务行为转化为由多个第三词组成的第三词序列;
使用所述包含嵌入层的上下文编码器的嵌入层将所述第三词序列中各个第三词映射到词向量以获得第三词向量的序列;以及
使用所述包含嵌入层的上下文编码器对所述第三词向量的序列进行基于全局的上下文语义编码以得到所述业务行为语义理解特征向量。
6.根据权利要求5所述的智能化工业数据处理的方法,其特征在于,融合所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量以得到分类特征向量,包括:
以如下融合公式融合所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量以得到分类特征向量;
其中,所述融合公式为:
Vs=λVa+βVb+αVc
其中,Vs表示所述分类特征向量,Va表示所述五元组语义理解特征向量,Vb表示所述外部环境特征语义理解特征向量,Vc表示所述业务行为语义理解特征向量,“+”表示所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量相对应位置处的元素相加,λ、β和α表示用于控制所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量之间的平衡的加权参数。
7.根据权利要求6所述的智能化工业数据处理的方法,其特征在于,还包括对所述包含嵌入层的上下文编码器和所述分类器进行训练;
其中,对所述包含嵌入层的上下文编码器和所述分类器进行训练,包括:
获取训练数据,所述训练数据包括工业数据的训练五元组信息、训练外部环境特征和训练业务行为,以及,所述工业数据的级别标签的真实值;
将所述工业数据的训练五元组信息通过所述包含嵌入层的上下文编码器以得到训练五元组语义理解特征向量;
将所述训练外部环境特征通过所述包含嵌入层的上下文编码器以得到训练外部环境特征语义理解特征向量;
将所述训练业务行为通过所述包含嵌入层的上下文编码器以得到训练业务行为语义理解特征向量;
融合所述训练五元组语义理解特征向量、所述训练外部环境特征语义理解特征向量和所述训练业务行为语义理解特征向量以得到训练分类特征向量;
对所述训练分类特征向量进行特征分布优化以得到优化训练分类特征向量;
将所述优化训练分类特征向量通过所述分类器以得到分类损失函数值;以及
基于所述分类损失函数值并通过梯度下降的反向传播来对所述包含嵌入层的上下文编码器和所述分类器进行训练。
8.根据权利要求7所述的智能化工业数据处理的方法,其特征在于,对所述训练分类特征向量进行特征分布优化以得到优化训练分类特征向量,包括:
以如下优化公式对所述训练分类特征向量进行耿贝尔正态周期性重参数化以得到所述优化训练分类特征向量;
其中,所述优化公式为:
其中,vi表示所述训练分类特征向量的各个位置的特征值,μ和σ分别是所述训练分类特征向量的各个位置的特征值集合的均值和方差,log表示以2为底的对数函数,arcsin(·)表示反正弦函数,arccos(·)表示反余弦函数,vi ′表示所述优化训练分类特征向量的各个位置的特征值。
9.根据权利要求8所述的智能化工业数据处理的方法,其特征在于,将所述优化训练分类特征向量通过所述分类器以得到分类损失函数值,包括:
所述分类器以如下分类公式对所述优化训练分类特征向量进行处理以生成分类结果,其中,所述分类公式为:softmax{(Wn,Bn):…:(W1,B1)|X},其中X表示所述优化训练分类特征向量,W1至wn为权重矩阵,B1至Bn表示偏置矩阵;以及
计算所述分类结果与真实值之间的交叉熵值作为所述分类损失函数值。
10.一种智能化工业数据处理的系统,其特征在于,包括:
数据获取模块,用于获取工业数据的五元组信息、外部环境特征和业务行为;
五元组编码模块,用于将所述工业数据的五元组信息通过包含嵌入层的上下文编码器以得到五元组语义理解特征向量;
外部环境编码模块,用于将所述外部环境特征通过所述包含嵌入层的上下文编码器以得到外部环境特征语义理解特征向量;
业务行为编码模块,用于将所述业务行为通过所述包含嵌入层的上下文编码器以得到业务行为语义理解特征向量;
融合模块,用于融合所述五元组语义理解特征向量、所述外部环境特征语义理解特征向量和所述业务行为语义理解特征向量以得到分类特征向量;以及
工业数据的级别生成模块,用于将所述分类特征向量通过分类器以得到分类结果,所述分类结果用于表示工业数据的级别标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310598570.4A CN116663499A (zh) | 2023-05-19 | 2023-05-19 | 智能化工业数据处理的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310598570.4A CN116663499A (zh) | 2023-05-19 | 2023-05-19 | 智能化工业数据处理的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116663499A true CN116663499A (zh) | 2023-08-29 |
Family
ID=87714662
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310598570.4A Pending CN116663499A (zh) | 2023-05-19 | 2023-05-19 | 智能化工业数据处理的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116663499A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117314709A (zh) * | 2023-11-30 | 2023-12-29 | 吉林省拓达环保设备工程有限公司 | 污水处理进度的智能监测系统 |
-
2023
- 2023-05-19 CN CN202310598570.4A patent/CN116663499A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117314709A (zh) * | 2023-11-30 | 2023-12-29 | 吉林省拓达环保设备工程有限公司 | 污水处理进度的智能监测系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116627708B (zh) | 存储故障分析系统及其方法 | |
Wilson et al. | Deep learning-aided cyber-attack detection in power transmission systems | |
CN113420296B (zh) | 一种基于Bert模型与BiLSTM的C源代码漏洞检测方法 | |
CN109635928A (zh) | 一种基于深度学习模型融合的电压暂降原因识别方法 | |
CN113961759B (zh) | 基于属性图表示学习的异常检测方法 | |
Yuan et al. | Learning-based real-time event identification using rich real PMU data | |
CN113094200A (zh) | 一种应用程序的故障预测方法和装置 | |
CN116245513B (zh) | 基于规则库的自动化运维系统及其方法 | |
CN116405326B (zh) | 基于区块链的信息安全管理方法及其系统 | |
CN114462520A (zh) | 一种基于流量分类的网络入侵检测方法 | |
CN115951883B (zh) | 分布式微服务架构的服务组件管理系统及其方法 | |
CN116663499A (zh) | 智能化工业数据处理的方法及系统 | |
CN117237559B (zh) | 面向数字孪生城市的三维模型数据智能分析方法及系统 | |
CN114443899A (zh) | 视频分类方法、装置、设备及介质 | |
CN116341518A (zh) | 用于大数据统计分析的数据处理方法及系统 | |
CN116663540A (zh) | 基于小样本的金融事件抽取方法 | |
Fonseca et al. | Model-agnostic approaches to handling noisy labels when training sound event classifiers | |
CN115982037A (zh) | 一种基于抽象语法树的软件缺陷预测方法 | |
CN111159424A (zh) | 标注知识图谱实体的方法,装置,存储介质及电子设备 | |
CN116757773A (zh) | 服装电子商务销售管理系统及其方法 | |
CN113342982B (zh) | 融合RoBERTa和外部知识库的企业行业分类方法 | |
Yan et al. | Electricity theft identification algorithm based on auto-encoder neural network and random forest | |
CN115587007A (zh) | 基于RoBERTa的网络日志安全检测方法及系统 | |
Meng et al. | Classification of customer service tickets in power system based on character and word level semantic understanding | |
CN118152358A (zh) | 基于网络技术的数据存储方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |