CN117332377B - 一种基于深度学习的离散时间序列事件挖掘方法及系统 - Google Patents
一种基于深度学习的离散时间序列事件挖掘方法及系统 Download PDFInfo
- Publication number
- CN117332377B CN117332377B CN202311637302.5A CN202311637302A CN117332377B CN 117332377 B CN117332377 B CN 117332377B CN 202311637302 A CN202311637302 A CN 202311637302A CN 117332377 B CN117332377 B CN 117332377B
- Authority
- CN
- China
- Prior art keywords
- event
- vector
- signal
- sequence
- characterization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000005065 mining Methods 0.000 title claims abstract description 37
- 238000013135 deep learning Methods 0.000 title claims abstract description 17
- 239000013598 vector Substances 0.000 claims abstract description 202
- 238000012512 characterization method Methods 0.000 claims abstract description 82
- 238000012545 processing Methods 0.000 claims abstract description 26
- 230000008569 process Effects 0.000 claims abstract description 15
- 238000010219 correlation analysis Methods 0.000 claims abstract description 14
- 238000001514 detection method Methods 0.000 claims abstract description 13
- 238000005520 cutting process Methods 0.000 claims abstract description 4
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 claims description 7
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000012300 Sequence Analysis Methods 0.000 abstract description 2
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000009776 industrial production Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003912 environmental pollution Methods 0.000 description 1
- 230000008014 freezing Effects 0.000 description 1
- 238000007710 freezing Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012731 temporal analysis Methods 0.000 description 1
- 238000000700 time series analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/26—Discovering frequent patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2123/00—Data types
- G06F2123/02—Data types in the time domain, e.g. time-series data
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于深度学习的离散时间序列事件挖掘方法及系统,涉及时间序列分析技术领域,包括以下步骤:提前建立信号向量表征嵌入表,实时信号处理过程中,选择当前信号集S1以及下文信号集S2;通过BiLSTM‑Bert模型对S1和S2进行表征并输入BiLSTM‑Transformer模型得到嵌入向量H1与H2;通过事件发现模块对H1进行类别表征得到事件类别序列C1,通过事件截断预测模块对H1和H2进行事件相关性分析,判断H1中所对应的事件是否全部完成,若H1和H2具有高置信度的相同事件,进一步更新S2进行检测,直至H1和H2不存在高置信度的相同事件;根据S1和S2的窗口对完整事件进行截断,输出信号对应的事件结果。本发明的方法将具有相关性的事件信号进行整合得到长序列的时间序列事件。
Description
技术领域
本发明涉及时间序列分析和深度学习技术领域,具体涉及一种基于深度学习的的离散时间序列数据的事件挖掘方法及系统。
背景技术
离散时间序列数据在各领域都占据着关键地位,其广泛应用包括但不限于工业生产、金融市场、医疗保健、交通管理和环境监测等。这些数据记录了在不同时间点上发生的事件或观测值,这些事件对于决策制定、异常检测、趋势分析和资源优化等方面都至关重要。然而,从离散时间序列数据中有效挖掘事件和模式是一项复杂且具有挑战性的任务。在工业生产领域,离散时间序列数据可以包括生产线上的传感器数据,用于监测设备状态和生产效率。通过准确识别事件和模式,生产企业可以更好地规划维护和提高生产效率。在金融市场,时间序列数据是股票价格、汇率和市场指数等的核心组成部分。通过挖掘时间序列数据中的事件和趋势,金融从业者可以更好地制定交易策略、管理风险和预测市场走势。在医疗保健领域,患者的生理参数、医疗设备数据和健康记录都形成了时间序列数据。准确挖掘这些数据中的事件和趋势可以帮助医生进行疾病诊断、患者监测和治疗计划制定。在交通管理和环境监测领域,离散时间序列数据用于跟踪交通流量、大气污染、气象变化等信息。通过事件挖掘,政府和环境保护机构可以更好地管理交通流量、预测气象变化、以及监测环境污染情况。
现有的离散时间序列事件挖掘的方法挖掘的效率不高,容易出现漏检,并且无法同时挖掘出事件以及得到该事件对应有哪些信号以在以后的事件挖掘过程中更加高效准确的判断事件。
发明内容
为了更好地利用时间序列数据,提高决策制定的准确性,本发明提供了一种通用的离散时间序列事件挖掘方法。
本发明通过下述技术方案实现:
一种基于深度学习的离散时间序列事件挖掘方法,包括以下步骤:
Step1. 通过预训练BiLSTM-Bert模型将历史信号转化成信号表征向量,将转化得到信号表征向量与其对应的监控事件嵌入为查找表得到信号表征嵌入查找表;
Step2. 在实时信号处理过程中,选择滑动时间窗口长度为W1的当前信号集S1以及实时等待滑动时间窗口长度为W2的下文信号集S2;
通过BiLSTM-Bert模型对当前信号集S1和下文信号集S2进行表征,得到第一表征向量V1和第二表征向量V2;
Step3. 通过第一表征向量V1查询信号表征嵌入查找表,若查询到相应的事件,则作为信号集的类别标签表示,否则,不进行具体的类别标签表示;进入步骤Step4;
Step4. 将第一表征向量V1和第二表征向量V2输入BiLSTM-Transformer模型得到当前信号集S1的第一嵌入向量H1与下文信号集S2的第二嵌入向量H2;
Step5. 通过事件发现模块对第一嵌入向量H1进行信号到事件的类别表征得到第一事件类别序列C1;通过事件截断预测模块对第一嵌入向量H1和第二嵌入向量H2进行事件相关性分析;
Step6. 通过第一嵌入向量H1和第二嵌入向量H2的相关性分析结果判断信号集S1对应的事件是否全部完成,若第一嵌入向量H1和第二嵌入向量H2具有高置信度的相同事件,进一步滑动下文信号集的窗口更新S2,继续重复Step2到Step6中对下文信号集S2的处理部分以更新第二嵌入向量H2,直到第一嵌入向量H1和第二嵌入向量H2不存在高置信度的相同事件;
Step7.完成第一嵌入向量H1和第二嵌入向量H2的相关性检测后,根据当前信号集S1的窗口位置和最新的下文信号集S2的窗口位置对完整事件进行截断;
Step8.结合Step3中得到的类别标签结果,输出当前信号集S1挖掘的事件结果以及事件对应的信号;
Step9.继续滑动当前信号集的窗口和下文信号集的窗口,重复Step2-Step8,直至检测完毕。
具体地,所述预训练模型BiLSTM-Bert模型包括Bert模块和BiLSTM模块,Bert模块的输入信号先通过Embedding操作,Bert模块用于对Embedding操作后的信号进行序列表征向量,BiLSTM模块用于对时序表征进行进一步的相关性学习,得到更有效的上下文表征向量。
具体地,所述Embedding操作包括Token Embedding层、Segment Embedding层和Position Embedding层。
具体地,所述Step4中,将第一表征向量V1和第二表征向量V2输入BiLSTM-Transformer模型得到当前信号集S1的第一嵌入向量H1与下文信号集S2的第二嵌入向量H2包括:
Step41、将第一表征向量V1和第二表征向量V2输入BiLSTM模块实现时序序列数据在时间维度上的顺序处理,实现序列数据的逐字处理;
Step42、将第一表征向量V1和第二表征向量V2输入Transformer模块中实现非顺序处理,序列数据作为整体处理,通过内部注意力模块增强信号序列之间的关系;
Step43、拼接BiLSTM模块得到的顺序处理特征以及Transformer模块得到的非顺序特征,得到第一嵌入向量H1和第二嵌入向量H2。
进一步地,所述Step5中,所述事件截断预测模块还能够对第二嵌入向量H2进行类别表征得到第二事件类别序列C2。
具体地,所述通过事件发现模块对第一嵌入向量H1进行信号到事件的类别表征得到第一事件类别序列C1,具体为:将第一嵌入向量H1通过FFN实现嵌入向量维度向事件类别维度转换,得到滑动时间窗口长度为W1的当前信号集S1对应序列下的类别向量,再通过softmax实现对具体类别的预测,得到第一事件类别序列C1;
所述事件截断预测模块中,对第二嵌入向量H2进行信号到事件的类别表征得到第二事件类别序列C2,具体为:将第二嵌入向量H2通过FFN实现嵌入向量维度向事件类别维度转换,再通过softmax实现对具体类别的预测,得到第二事件类别序列C2。
优选地,所述Step6中,对第一嵌入向量H1和第二嵌入向量H2的相关性分析通过获取嵌入向量相关性矩阵M1来进行判断,其中,矩阵M1中,信号与信号之间的权重包括时间权重和表征向量权重,计算如下:
其中,/>为时间权重的权重大小,/>是表征向量的权重大小,/>是信号之间的相关性参数,i表示第i个信号,j表示第j个信号;
时间权重的计算公式为:
其中,/>表示信号i的实时时间,/>表示信号j的实时时间,T表示信号集S1窗口中第一个信号与信号集S2窗口中最后一个信号的时间差;/>表示信号i对于信号j的时间权重大小,权重越大,表示信号在时间维度上更相近,同属于一个事件的可能性更高;
表征向量的权重计算公式为:
其中,/>示信号i的信号表征,/>表示信号j的信号表征转置,/>表示信号i对于信号j的信号表征权重大小,权重越大,表示信号在表征向量维度上更相近,同属于一个事件的可能性更高。
进一步地,所述Step8中,结合Step3中得到的类别标签结果,输出挖掘的事件结果以及事件对应的信号具体为,对第一事件类别序列C1、第二事件类别序列C2、第一嵌入向量H1和第二嵌入向量H2,以及Step3中得到的类别标签结果进行分析,获得当前信号集S1的事件类别挖掘结果以及类别事件对应的信号表征向量;进一步地,此步骤包括如下步骤:
若第一事件类别序列C1中未检测出有效事件且Step3中得到的类别标签结果为空,则进入Step9;
若第一事件类别序列C1中未检测出有效事件且Step3中得到的类别标签结果不为空,则将此事件作为当前信号集S1的事件类别挖掘结果;
若第一事件类别序列C1中检测出有效事件且Step3中得到的类别标签结果不为空,且二者的结果不一致,将第一事件类别序列C1中检测出有效事件作为结果。
具体地,所述BiLSTM-Transformer模型训练过程的损失函数包括对比损失部分和交叉熵损失部分,计算公式分别如下:
其中,/>表示对比损失值;C表示事件类别序列,为第一事件类别序列C1或第二事件类别序列C2,这里写C是为了方便描述;H表示嵌入向量,为第一嵌入向量H1或第二嵌入向量H2,这些写H是为了方便描述;D表示嵌入向量H和事件类别序列C的欧氏距离,具体的/>;Y表示C和H的匹配程度,当匹配程度较高,代表一致,m为设定的阈值,N为窗口内信号数;其中Y的具体计算公式为:
其中,/>表示第i个信号和H中第j个向量的匹配程度,/>表示C中第i个信号的向量转置,/>表示H中第j个向量表示,softmax表示对运算结果进行(0,1)映射,将匹配程度简化显示;
其中,/>表示交叉熵损失值,/>表示真实标签,/>表示预测结果,M表示事件类别数,N为窗口内信号数。
同时,本发明还公布一种基于深度学习的离散时间序列事件挖掘系统,所述系统用于对获得的信号进行事件挖掘,所述系统中采用了如上所述的方法。
采用上述技术方案,本发明包括以下优点:
1.提高事件检测的准确性,通过滑动窗口技术和相关性分析,本发明可以更准确地检测到实时数据流中的事件信息,减少漏检和误检的情况。
2.增强事件信息的全面性,通过对多个滑动窗口的事件信息进行合并或关联,本发明可以获得更全面的事件信息,获取最大长度的事件发生段,为后续的应用提供更有价值的支持。
3.本发明对信号相关性的计算经过了BiLSTM-Transformer模型后得到嵌入向量,在向量层面对相关性进行计算,并且,考虑到了信号随着时间的增长信号衰减的因素,从时间维度和向量特征值维度进行了权重计算,挖掘的时间也更准确。
4.信号对于事件的表征源于预训练模型的自然语言编码,并且在模型训练过程中,可以进一步更新信号-事件表征信息。
5.引入注意力模块确认信号与事件相关性,在事件-信号维度,信号-事件维度进行多重统一。
6.本发明可以提前通过查表的方式进行待挖掘事件的初步判断,并且能够继续通过模型对事件进行分析,和查表得结果进行综合判断,减少漏检率。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对本发明实施例或现有技术描述中所需要使用的附图作简单地介绍,应当理解,下面附图仅仅是本发明的一些实施例,因此不应被看作是对范围的限定。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明中整体结构图;图中,FFN表示前馈神经网络;
图2为BiLSTM-Bert模型结构图,其中,具体编号的解释见具体实施方式部分。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。
本发明的方法,能够对多种离散事件序列信号进行事件挖掘,下面以文本信号为例进行详细说明。
如图1所示,本实施例提供一种通用的离散时间序列事件挖掘方法,包括以下步骤:
一种基于深度学习的离散时间序列事件挖掘方法,包括以下步骤:
Step1. 通过预训练BiLSTM-Bert模型将历史文本信号转化成信号表征向量,将转化得到信号表征向量与其对应的监控事件嵌入为查找表得到信号表征嵌入查找表;建立信号表征嵌入查找表能将历史信号序列表征所对应的表征向量与事件类别关系进行相互对应。具体地,BiLSTM-Bert模型如图2所示。所述BiLSTM-Bert预训练模型包括Bert模块和BiLSTM模块,Bert模块的输入信号先通过Embedding操作,Bert模块用于对Embedding操作后的信号进行序列表征向量,BiLSTM模块用于对时序表征进行进一步的相关性学习,得到更有效的上下文表征向量。具体地,所述Embedding操作包括Token Embedding层、SegmentEmbedding层和Position Embedding层。Token Embedding层用于获取文本中词的向量表示,Segment Embedding层用于辅助Bert区别句子对中的两个句子的向量表示,PositionEmbedding层用于让Bert学习到输入的顺序属性;输入文本在送入Token Embedding层之前要先进行Tokenization处理。图2中,Token Embeddings表示多个Token Embedding层,意为词块嵌入;Segment Embeddings表示多个Segment Embedding层,意为词块嵌入;PositionEmbeddings表示多个Position Embedding层,意为位置嵌入;这些英文单词的含义为本领域技术人员的公知内容,且本领域内通常用英文单词表示这些模块。应当知晓,图1和图2中的模型及其子模块名称,BiLSTM-Bert、BiLSTM-Transformer、LSTM Hidden、BiLSTM、Bert、FNN、softmax这些名称均为本领域技术人员知晓的模块含义,且本领域内通常用英文单词表示这些模型及模块。
Segment Embedding层只有两种向量表示,用于区分输入句子中的不同段落或句子。Position Embedding层使用不同频率的正弦与余弦函数进行获取,这种方法能够有效地捕捉序列中的位置信息。Position Embedding公式如下:
其中,/>和/>均表示位置编码信息,pos表示输入序列位置序号,k表示维度序号,/>表示给定位置长度,/>表示模型的隐藏层维度;Segment Embedding层只有两种向量表示,前一个向量是把0赋给第一个句子中的各个Token, 后一个向量是把1赋给第二个句子中的各个Token。如果输入仅仅只有一个句子,那么它的Segment Embedding就是全0。
Token Embedding是将文本转换为向量表示的关键步骤,它首先对输入文本进行Tokenization处理,然后在开头和结尾插入特殊的Token(如[CLS]和[SEQ]),两个特殊的Token会被插入到Tokenization的结果的开头 ([CLS])和结尾 ([SEQ])。Tokenization使用的方法是WordPiece Tokenization,输入序列通过one-hot编码,其维度为[batch_size×seq_len×vacab_size]。通过构建二维数组,其维度为[vacab_size×d_model],将输入序列与二维数组进行矩阵相乘,得到Token Embedding后的编码信息。最终将不同Embedding的表征进行相加得到表征后的序列化特征。
图2中,LSTM Hidden表示LSTM的隐藏层,图中,Position Embeddings表示采用PE编码(具体见具体实施方式),其中 E0,...,E7表述为不同位置的编码信息。SegmentEmbedding层只有两种向量表示,Segment Embedding层把0赋给第一个句子中的各个Token,前一个向量是把0赋给第一个句子中的各个Token,后一个向量是把1赋给第二个句子中的各个Token,EA表示有0/1构成的向量表征。图2中,Token Embeddings是要将各个词转换成固定维度的向量,其中可能包含开头([CLS)表征E[CLS]和结尾([SEQ)表征E[SEQ],具体的实体词如January通过Token Embedding表征为EJanuary。
此外,Bert模块内部采用Transformer的堆叠Encoder模块设计,具体地,将Embedding后的序列表征进行自注意力增强,并在多层Encoder模块中逐步增强,进行优化。同时,模型中的BiLSTM模块在得到Bert模块处理后的序列表征后,通过BiLSTM模块对时序数据进行更深入的相关性学习,从而得到更为有效的上下文表征向量。
Step2. 在实时信号处理过程中,选择滑动时间窗口长度为W1的当前信号集以及实时等待滑动时间窗口长度为W2的下文信号集;
通过BiLSTM-Bert模型对当前信号集S1和下文信号集S2进行表征,得到第一表征向量V1和第二表征向量V2。
当前信号集S1和下文信号集S2的窗口宽度提前设置,在后续每一次的滑动中,窗口的宽度都是相同的。当前信号集的滑动窗口按照设置的窗口长度参数W1进行选择,从实时数据中按照W1的长度进行截断,下文信号集的滑动窗口按照设置的窗口长度参数W2向后移动,下文信号集的滑动窗口是在当前信号集的滑动窗口的基础上向后移动的。通过下文信号集的滑动窗口,可以捕获到与当前信号集相关的上下文信息(这里指下文信息),进一步分析时间序列数据中的事件关系和相关性。这种滑动窗口的设计可以更好地处理时间序列数据,提取有用的信息,并应用于时间序列分析和预测任务中。
Step3. 通过第一表征向量V1查询信号表征嵌入查找表,若查询到相应的事件,则作为信号集的类别标签表示,否则,不进行具体的类别标签表示,这里,不论是否获得类别标签表示,都将进入Step4,因为最终会将此处的类别标签表示和最终获得的事件类别序列C进行对比;
Step4. 将第一表征向量V1和第二表征向量V2输入BiLSTM-Transformer模型得到当前信号集S1的第一嵌入向量H1与下文信号集S2的第二嵌入向量H2。BiLSTM实现了顺序处理:输入(比如说句子)逐字处理。Transformer 使用非顺序处理,序列数据作为整体处理,通过内部注意力模块增强信号序列之间的关系,得到时间窗口长度为W1当前信号集的第一嵌入向量H1;
具体地,所述Step4中,将第一表征向量V1和第二表征向量V2输入BiLSTM-Transformer模型得到当前信号集S1的第一嵌入向量H1与下文信号集S2的第二嵌入向量H2包括:
Step41、将第一表征向量V1和第二表征向量V2输入BiLSTM模块实现时序序列数据在时间维度上的顺序处理,实现序列数据的逐字处理;
Step42、将第一表征向量V1和第二表征向量V2输入Transformer模块中实现非顺序处理,序列数据作为整体处理,通过内部注意力模块增强信号序列之间的关系,在Transformer模块中,利用了自注意力机制来完成特征的优化表示;
Step43、通过拼接BiLSTM模块得到的顺序处理特征以及Transformer模块得到的非顺序特征,得到第一嵌入向量H1和第二嵌入向量H2。这意味着序列数据被作为整体来处理,并通过Transformer内部的注意力模块来增强信号序列之间的关系。嵌入向量H融合了顺序和非顺序处理的优势,提供了更丰富的序列信息。
Step5. 通过事件发现模块对第一嵌入向量H1进行信号到事件的类别表征得到第一事件类别序列C1;通过事件截断预测模块对第一嵌入向量H1和第二嵌入向量H2进行事件相关性分析,事件截断预测模块的目的是或者下文信号集的截断位置,它是移动的,其截断位置通过相关性分析结果进行判定;并且,所述事件截断预测模块还能够对第二嵌入向量H2进行类别表征得到第二事件类别序列C2,具体地,将第二嵌入向量H2通过FFN实现嵌入向量维度向事件类别维度转换,再通过softmax实现对具体类别的预测,得到第二事件类别序列C2。
Step6. 通过第一嵌入向量H1和第二嵌入向量H2的相关性分析结果判断信号集S1对应的事件是否全部完成,若第一嵌入向量H1和第二嵌入向量H2具有高置信度的相同事件,进一步滑动下文信号集的窗口更新S2,继续重复Step2到Step6中对下文信号集S2的处理部分以更新第二嵌入向量H2,直到第一嵌入向量H1和第二嵌入向量H2不存在高置信度的相同事件;这里的Step2到Step6应当灵活理解,并不是Step2到Step6里面的所有内容,因为后续的过程只是对下文信号集S2的窗口进行向后滑动,因此Step2到Step6过程中,第一嵌入向量H1不用重复计算,只需要获取新的第二嵌入向量H2即可。具体的进行相关性判断也是在事件截断预测模块内进行的。对第一嵌入向量H1和第二嵌入向量H2的相关性分析通过获取嵌入向量相关性矩阵M1来进行判断。上述的判断第一嵌入向量H1和第二嵌入向量H2中是否具有相同事件的意思是,通过判断第一嵌入向量H1和第二嵌入向量H2之间的相关性来判断离散的序列信号集S1和下文信号集S2中是否含有相同的事件,因为输出的序列表征可能有多个高置信度的事件,对高置信度的判定是通过阈值判定法。
进一步地,信号随着时间增长,属于同一个事件而衰弱,第一嵌入向量H1和第二嵌入向量H2对应信号的连续性可能存在,也可能不存在;因此,判断第一嵌入向量H1和第二嵌入向量H2的相关性时,不仅包含特征信息的比较,还应考虑到信号随着时间差的增加而具有衰弱性,如果两个窗口的时间差太大,但只依赖信号之间的表征相关性,可能将较大时间差所包含的信号归属于到同一个事件之中,然而时间差太大的事件更倾向于属于不同的事件。在计算过程中,时间差带来的衰弱来自于信号集S1窗口和信号集S2窗口中实时信号的具体时间,计算两个窗口的整体时间差T,即信号集S1窗口中第一个信号与信号集S2窗口中最后一个信号的时间差,而信号对之间的时间差按照信号的具体时间进行计算。
其中,/>表示信号i的实时时间,/>表示信号j的实时时间,/>表示信号i对于信号j的时间权重大小,权重越大,表示信号在时间维度上更相近,同属于一个事件的可能性更高。
表征向量的权重计算为:
其中/>表示信号i的信号表征,/>表示信号j的信号表征转置,/>表示信号i对于信号j的信号表征权重大小,权重越大,表示信号在表征向量维度上更相近,同属于一个事件的可能性更高。
最终,利用加权计算的信号时间权重和表征权重得到信号对的实际权重关系,具体为:
其中,/>为时间权重的权重大小,/>是表征向量的权重大小,/>是信号之间的相关性参数,i表示第i个信号,j表示第j个信号。
Step7. 完成第一嵌入向量H1和第二嵌入向量H2的相关性检测后,根据当前信号集S1的窗口位置和最新的下文信号集S2的窗口位置对完整事件进行截断;
Step8.结合Step3中得到的类别标签结果,输出当前信号集S1挖掘的事件结果以及事件对应的信号;此步骤具体包括:
具体为,对第一事件类别序列C1、第二事件类别序列C2、第一嵌入向量H1和第二嵌入向量H2,以及Step3中得到的类别标签结果进行分析,获得当前信号集S1的事件类别挖掘结果以及类别事件对应的信号表征向量;进一步地,此步骤包括如下步骤:
若第一事件类别序列C1中未检测出有效事件且Step3中得到的类别标签结果为空,则进入Step9;
若第一事件类别序列C1中未检测出有效事件且Step3中得到的类别标签结果不为空,则将此事件作为当前信号集S1的事件类别挖掘结果;
若第一事件类别序列C1中检测出有效事件且Step3中得到的类别标签结果不为空,且二者的结果不一致,将第一事件类别序列C1中检测出有效事件作为结果。本发明检测有效事件参考了Step3中得到的标签结果和模型结果,针对不同场景进行不同的事件输出,降低了漏检率。实际应用中,还可以将最终的事件挖掘结果对信号表征嵌入查找表进行更新,方便以后的查找,更新过程中应注意信号的泄露风险。同时,本发明中加入了第二事件类别序列C2,第二事件类别序列C2能够辅助第二嵌入向量H2进行判断,具体的,可以直接对第二事件类别序列C2和第一事件类别序列C1进行相关性分析以判定是否具有相同事件,加强了第一嵌入向量H1和第二嵌入向量H2之间相关性分析的判定结果。值得注意的是,本发明中所说的具有相同事件是并非是完全相同的事件,因为序列中包含多个事件,只要存在交集即认为有相同的事件。同时,第一事件类别序列C1与第一嵌入向量H1,第二事件类别序列C2和第二嵌入向量H2,能够进行对比损失的计算。
Step9.继续滑动当前信号集的窗口和下文信号集的窗口,重复Step2-Step8,直至检测完毕。这里的下文信号集的窗口的滑动应当进行初始更新,也就是每次在进行新的当前信号集检测时,下文信号集的窗口始终在当前信号集的窗口的相邻位置,而不是上次信号集的截断位置。
BiLSTM-Bert模型的训练过程为:加载预训练的Bert模块并冻结其大部分层,然后定义BiLSTM模块,将Bert模块和BiLSTM模块整合到一个模型中,选择适当的优化器和损失函数进行模型训练,使用真实数据使用验证集对模型进行评估,根据性能进行调整。
上述步骤中,所述BiLSTM-Transformer模型训练过程的损失函数包括对比损失部分和交叉熵损失部分,计算公式分别如下:
其中,/>表示对比损失值;C表示事件类别序列,为第一事件类别序列C1或第二事件类别序列C2,这里写C是为了方便描述;H表示嵌入向量,为第一嵌入向量H1或第二嵌入向量H2,这些写H是为了方便描述;D表示嵌入向量H和事件类别序列C的欧氏距离,具体的/>;Y表示C和H的匹配程度,当匹配程度较高,代表一致,m为设定的阈值,N为窗口内信号数;其中Y的具体计算公式为:
其中,/>表示第i个信号和H中第j个向量的匹配程度,/>表示C中第i个信号的向量转置,/>表示H中第j个向量表示,softmax表示对运算结果进行(0,1)映射,将匹配程度简化显示;
其中,/>表示交叉熵损失值,/>表示真实标签,/>表示预测结果,M表示事件类别数,N为窗口内信号数。本发明中,模型训练的损失函数包括对比损失和普通的交叉熵损失,对比损失能够有效增强信号的深层表征,实现相关信号与不相干信号的区分。该损失函数也可以很好的表达成对信号的匹配程度,保证自身特性重要特性不变。
上述方案能够持续监控和分析时间序列数据,及时发现并处理相关事件。本发明除了能够挖掘事件,还能够对信号对应的事件是否完整进行检测,应当注意,这并不是检测完整事件中是否有相交的内容。本发明中,对于两个信号,本发明是检测它是否是同一个事件中的信号,检测事件是否相交是针对两个事件否有相交内容,两个事件之间已经是完整的了。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于深度学习的离散时间序列事件挖掘方法,其特征在于,包括以下步骤:
Step1. 通过预训练BiLSTM-Bert模型将历史文本信号转化成信号表征向量,将转化得到信号表征向量与其对应的监控事件嵌入为查找表得到信号表征嵌入查找表;
Step2. 在实时信号处理过程中,选择滑动时间窗口长度为W1的当前信号集S1以及实时等待滑动时间窗口长度为W2的下文信号集S2;
通过BiLSTM-Bert模型对当前信号集S1和下文信号集S2进行表征,得到第一表征向量V1和第二表征向量V2;
Step3. 通过第一表征向量V1查询信号表征嵌入查找表,若查询到相应的事件,则作为信号集的类别标签表示,否则,不进行具体的类别标签表示;进入步骤Step4;
Step4. 将第一表征向量V1和第二表征向量V2输入BiLSTM-Transformer模型得到当前信号集S1的第一嵌入向量H1与下文信号集S2的第二嵌入向量H2;
Step5. 通过事件发现模块对第一嵌入向量H1进行信号到事件的类别表征得到第一事件类别序列C1;通过事件截断预测模块对第一嵌入向量H1和第二嵌入向量H2进行事件相关性分析;
Step6. 通过第一嵌入向量H1和第二嵌入向量H2的相关性分析结果判断信号集S1对应的事件是否全部完成,若第一嵌入向量H1和第二嵌入向量H2具有高置信度的相同事件,进一步滑动下文信号集的窗口更新S2,继续重复Step2到Step6中对下文信号集S2的处理部分以更新第二嵌入向量H2,直到第一嵌入向量H1和第二嵌入向量H2不存在高置信度的相同事件;
Step7.完成第一嵌入向量H1和第二嵌入向量H2的相关性检测后,根据当前信号集S1的窗口位置和最新的下文信号集S2的窗口位置对完整事件进行截断;
Step8.结合Step3中得到的类别标签结果,输出当前信号集S1挖掘的事件结果以及事件对应的信号;
Step9.继续滑动当前信号集的窗口和下文信号集的窗口,重复Step2-Step8,直至检测完毕。
2.根据权利要求1所述的一种基于深度学习的离散时间序列事件挖掘方法,其特征在于,所述BiLSTM-Bert模型包括Bert模块和BiLSTM模块,Bert模块的输入信号先通过Embedding操作,Bert模块用于对Embedding操作后的信号进行序列表征向量,BiLSTM模块用于对时序表征进行进一步的相关性学习。
3.根据权利要求2所述的一种基于深度学习的离散时间序列事件挖掘方法,其特征在于,所述Embedding操作包括Token Embedding层、Segment Embedding层和PositionEmbedding层。
4.根据权利要求1所述的一种基于深度学习的离散时间序列事件挖掘方法,其特征在于,所述Step4中,将第一表征向量V1和第二表征向量V2输入BiLSTM-Transformer模型得到当前信号集S1的第一嵌入向量H1与下文信号集S2的第二嵌入向量H2包括:
Step41、将第一表征向量V1和第二表征向量V2输入BiLSTM模块实现时序序列数据在时间维度上的顺序处理,实现序列数据的逐字处理;
Step42、将第一表征向量V1和第二表征向量V2输入Transformer模块中实现非顺序处理,序列数据作为整体处理,通过内部注意力模块增强信号序列之间的关系;
Step43、拼接BiLSTM模块得到的顺序处理特征以及Transformer模块得到的非顺序特征,得到第一嵌入向量H1和第二嵌入向量H2。
5.根据权利要求1所述的一种基于深度学习的离散时间序列事件挖掘方法,其特征在于,所述Step5中,所述事件截断预测模块还能够对第二嵌入向量H2进行类别表征得到第二事件类别序列C2。
6.根据权利要求5所述的一种基于深度学习的离散时间序列事件挖掘方法,其特征在于,所述通过事件发现模块对第一嵌入向量H1进行信号到事件的类别表征得到第一事件类别序列C1,具体为:将第一嵌入向量H1通过FFN实现嵌入向量维度向事件类别维度转换,得到滑动时间窗口长度为W1的当前信号集S1对应序列下的类别向量,再通过softmax实现对具体类别的预测,得到第一事件类别序列C1;
所述事件截断预测模块还能够对第二嵌入向量H2进行类别表征得到第二事件类别序列C2,具体为:将第二嵌入向量H2通过FFN实现嵌入向量维度向事件类别维度转换,再通过softmax实现对具体类别的预测,得到第二事件类别序列C2;
FFN为前馈神经网络。
7.根据权利要求1所述的一种基于深度学习的离散时间序列事件挖掘方法,其特征在于,所述Step6中,对第一嵌入向量H1和第二嵌入向量H2的相关性分析通过获取嵌入向量相关性矩阵M1来进行判断,其中,矩阵M1中,信号与信号之间的权重包括时间权重和表征向量权重,计算如下:
其中,/>为时间权重的权重大小,/>是表征向量的权重大小,是信号之间的相关性参数,/>表示第/>个信号,/>表示第/>个信号;
时间权重的计算公式为:
其中,/>表示信号/>的实时时间,/>表示信号/>的实时时间,T表示信号集S1窗口中第一个信号与信号集S2窗口中最后一个信号的时间差,/>表示信号/>对于信号/>的时间权重大小,权重越大,表示信号在时间维度上更相近,同属于一个事件的可能性更高;
表征向量的权重计算公式为:
其中/>表示信号/>的信号表征,/>表示信号/>的信号表征的转置,/>表示信号/>对于信号/>的信号表征权重大小,权重越大,表示信号在表征向量维度上更相近,同属于一个事件的可能性更高。
8.根据权利要求5所述的一种基于深度学习的离散时间序列事件挖掘方法,其特征在于,所述Step8中,结合Step3中得到的类别标签结果,输出挖掘的事件结果以及事件对应的信号具体为,对第一事件类别序列C1、第二事件类别序列C2、第一嵌入向量H1和第二嵌入向量H2,以及Step3中得到的类别标签结果进行分析,获得当前信号集S1的事件类别挖掘结果以及类别事件对应的信号表征向量;进一步地,此步骤包括如下步骤:
若第一事件类别序列C1中未检测出有效事件且Step3中得到的类别标签结果为空,则进入Step9;
若第一事件类别序列C1中未检测出有效事件且Step3中得到的类别标签结果不为空,则将此类别标签结果作为当前信号集S1的事件类别挖掘结果;
若第一事件类别序列C1中检测出有效事件且Step3中得到的类别标签结果不为空,且二者的结果不一致,将第一事件类别序列C1中检测出有效事件作为结果。
9.根据权利要求8所述的一种基于深度学习的离散时间序列事件挖掘方法,其特征在于,所述BiLSTM-Transformer模型训练过程的损失函数包括对比损失部分和交叉熵损失部分,计算公式分别如下:
其中,/>表示对比损失值;C表示事件类别序列,为第一事件类别序列C1或第二事件类别序列C2;H表示嵌入向量,为第一嵌入向量H1或第二嵌入向量H2;D表示嵌入向量H和事件类别序列C的欧氏距离,具体的;Y表示C和H的匹配程度,当匹配程度较高,代表一致,m为设定的阈值,N为窗口内信号数;
其中,/>表示交叉熵损失值,/>表示真实标签,/>示预测结果,M表示事件类别数,N为窗口内信号数;
其中Y的计算公式为:
其中/>表示第/>个信号和H中第/>个向量的匹配程度,/>表示C中第/>个信号的向量转置,/>表示H中第/>个向量表示,softmax表示对运算结果进行(0,1)映射,将匹配程度简化显示。
10.一种基于深度学习的离散时间序列事件挖掘系统,其特征在于,所述系统用于对获得的信号进行事件挖掘,所述系统中采用了如权利要求1-9中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311637302.5A CN117332377B (zh) | 2023-12-01 | 2023-12-01 | 一种基于深度学习的离散时间序列事件挖掘方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311637302.5A CN117332377B (zh) | 2023-12-01 | 2023-12-01 | 一种基于深度学习的离散时间序列事件挖掘方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117332377A CN117332377A (zh) | 2024-01-02 |
CN117332377B true CN117332377B (zh) | 2024-02-02 |
Family
ID=89279749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311637302.5A Active CN117332377B (zh) | 2023-12-01 | 2023-12-01 | 一种基于深度学习的离散时间序列事件挖掘方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117332377B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761936A (zh) * | 2021-08-19 | 2021-12-07 | 哈尔滨工业大学(威海) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 |
CN115018124A (zh) * | 2022-05-05 | 2022-09-06 | 阿里巴巴(中国)有限公司 | 数据预测方法、系统、设备及存储介质 |
CN115659974A (zh) * | 2022-09-30 | 2023-01-31 | 中国科学院软件研究所 | 一种基于开源软件供应链的软件安全舆情事件抽取方法与装置 |
CN116383387A (zh) * | 2023-04-06 | 2023-07-04 | 西安电子科技大学 | 一种基于事理逻辑的联合事件抽取方法 |
CN116562286A (zh) * | 2023-05-05 | 2023-08-08 | 北京邮电大学 | 一种基于混合图注意力的智能配置事件抽取方法 |
CN116596150A (zh) * | 2023-05-29 | 2023-08-15 | 中国石油大学(华东) | 基于多分支自注意力的Transformer霍克斯过程模型的事件预测方法 |
CN116757218A (zh) * | 2023-05-18 | 2023-09-15 | 电子科技大学 | 一种基于上下句关系预测的短文本事件共指消解方法 |
CN116777068A (zh) * | 2023-06-19 | 2023-09-19 | 东南大学 | 一种基于因果Transformer的网络化数据预测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9928213B2 (en) * | 2014-09-04 | 2018-03-27 | Qualcomm Incorporated | Event-driven spatio-temporal short-time fourier transform processing for asynchronous pulse-modulated sampled signals |
-
2023
- 2023-12-01 CN CN202311637302.5A patent/CN117332377B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113761936A (zh) * | 2021-08-19 | 2021-12-07 | 哈尔滨工业大学(威海) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 |
CN115018124A (zh) * | 2022-05-05 | 2022-09-06 | 阿里巴巴(中国)有限公司 | 数据预测方法、系统、设备及存储介质 |
CN115659974A (zh) * | 2022-09-30 | 2023-01-31 | 中国科学院软件研究所 | 一种基于开源软件供应链的软件安全舆情事件抽取方法与装置 |
CN116383387A (zh) * | 2023-04-06 | 2023-07-04 | 西安电子科技大学 | 一种基于事理逻辑的联合事件抽取方法 |
CN116562286A (zh) * | 2023-05-05 | 2023-08-08 | 北京邮电大学 | 一种基于混合图注意力的智能配置事件抽取方法 |
CN116757218A (zh) * | 2023-05-18 | 2023-09-15 | 电子科技大学 | 一种基于上下句关系预测的短文本事件共指消解方法 |
CN116596150A (zh) * | 2023-05-29 | 2023-08-15 | 中国石油大学(华东) | 基于多分支自注意力的Transformer霍克斯过程模型的事件预测方法 |
CN116777068A (zh) * | 2023-06-19 | 2023-09-19 | 东南大学 | 一种基于因果Transformer的网络化数据预测方法 |
Non-Patent Citations (5)
Title |
---|
Bidirectional LSTM-RNN-based hybrid deep learning frameworks for univariate time series classification;Mehak Khan等;The Journal of Supercomputing Article;第77卷;7021–7045 * |
DPMN:面向重叠关系抽取问题的多任务学习网络;李雅杰等;计算机工程与应用;1-10 * |
Predicting the Long-Term Dependencies in Time Series Using Recurrent Artificial Neural Networks;Cristian Ubal等;Machine Learning and Knowledge Extraction;第5卷(第4期);1340-1358 * |
基于小波分析的时间序列事件检测方法;卢北辰等;计算机集成制造系统;第28卷(第10期);3031-3038 * |
融合双重注意力机制的时间序列异常检测模型;杨超城;计算机科学与探索;1-18 * |
Also Published As
Publication number | Publication date |
---|---|
CN117332377A (zh) | 2024-01-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102172925B1 (ko) | 딥러닝 기반 기후 변화 예측 시스템의 동작 방법 | |
CN113779260B (zh) | 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统 | |
Abdualgalil et al. | Applications of machine learning algorithms and performance comparison: a review | |
CN111274817A (zh) | 一种基于自然语言处理技术的智能化软件成本度量方法 | |
CN116910633B (zh) | 一种基于多模态知识混合推理的电网故障预测方法 | |
CN115688920A (zh) | 知识抽取方法、模型的训练方法、装置、设备和介质 | |
CN115359799A (zh) | 语音识别方法、训练方法、装置、电子设备及存储介质 | |
CN116383399A (zh) | 一种事件舆情风险预测方法及系统 | |
CN117236677A (zh) | 一种基于事件抽取的rpa流程挖掘方法及装置 | |
CN116484024A (zh) | 一种基于知识图谱的多层次知识库构建方法 | |
Deußer et al. | KPI-EDGAR: A novel dataset and accompanying metric for relation extraction from financial documents | |
Chen et al. | Association mining of near misses in hydropower engineering construction based on convolutional neural network text classification | |
CN112216379A (zh) | 一种基于智能联合学习的疾病诊断系统 | |
CN117332377B (zh) | 一种基于深度学习的离散时间序列事件挖掘方法及系统 | |
CN116362247A (zh) | 一种基于mrc框架的实体抽取方法 | |
CN116975161A (zh) | 电力设备局放文本的实体关系联合抽取方法、设备、介质 | |
CN116245107A (zh) | 电力审计文本实体识别方法、装置、设备及存储介质 | |
CN117235489A (zh) | 传动系统多源监测数据的图变分自编码特征提取方法 | |
CN115934966A (zh) | 基于遥感影像推荐信息的自动标注方法 | |
US11620577B2 (en) | Multi-modal data explainer pipeline | |
Gao et al. | Mining and Visualizing Cost and Schedule Risks from News Articles with NLP and Network Analysis | |
CN114818460A (zh) | 基于自动机器学习的实验室设备剩余使用寿命预测方法 | |
Moon et al. | Design and verification of process discovery based on nlp approach and visualization for manufacturing industry | |
CN112800762A (zh) | 一种处理带格式风格文本的要素内容抽取方法 | |
CN111949867A (zh) | 跨app的用户行为分析模型训练方法、分析方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |