CN111881299A - 基于复制神经网络的离群事件检测与识别方法 - Google Patents
基于复制神经网络的离群事件检测与识别方法 Download PDFInfo
- Publication number
- CN111881299A CN111881299A CN202010786373.1A CN202010786373A CN111881299A CN 111881299 A CN111881299 A CN 111881299A CN 202010786373 A CN202010786373 A CN 202010786373A CN 111881299 A CN111881299 A CN 111881299A
- Authority
- CN
- China
- Prior art keywords
- event
- neural network
- time
- identification
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
基于复制神经网络的离群事件检测与识别方法,涉及信息技术领域,针对现有技术中多数方法为了能够顺利完成深度学习模型训练严重依赖异常数据,但异常数据不易获取的问题,包括以下步骤:步骤一:获取待处理中文文本序列数据;步骤二:对待处理中文文本序列数据进行时间序列分析;步骤三:对时间序列分析后的中文文本序列数据进行浅层语义分析;步骤四:对浅层语义分析后的中文文本序列数据,利用基于深度学习策略进行事件触发词的识别与抽取;步骤五:对事件触发词识别与抽取后的中文文本序列数据进行候选事件识别;步骤六:将候选事件识别后的中文文本序列数据作为输入,利用训练好的复制神经网络进行离群事件的检测与识别。
Description
技术领域
本发明涉及信息技术领域,具体为一种基于复制神经网络的离群事件检测与识别方法。
背景技术
离群点检测在数据挖掘的诸多领域有着广泛的应用场景,例如金融领域、信息传输领域、图像领域、文本错误等。离群点是数据集中与其他数据显著不同的数据,有些离群点可以被认为是噪声,而有些离群点却是关键信息,通常意味着事件的转折点或者某个突发事件的发生。考虑到异常概念本身的性质,异常数据与正常数据相比通常少之又少而且不易获取,为了能够顺利完成深度学习模型的训练,大多数方法严重依赖异常数据。相比之下,复制神经网络(Replicator Neural Networks,RpNN)则可以大量减轻该方面需要而仅使用正常数据,其在正常数据上进行模型训练,对正常数据进行建模和模式重建而不需要大量异常数据的手工构建。
发明内容
本发明的目的是:针对现有技术中多数方法为了能够顺利完成深度学习模型训练严重依赖异常数据,但异常数据不易获取的问题,提出一种基于复制神经网络的离群事件检测与识别方法。
本发明为了解决上述技术问题采取的技术方案是:
基于复制神经网络的离群事件检测与识别方法,包括以下步骤:
步骤一:获取待处理中文文本序列数据;
步骤二:对待处理中文文本序列数据进行时间序列分析;
步骤三:对时间序列分析后的中文文本序列数据进行浅层语义分析;
步骤四:对浅层语义分析后的中文文本序列数据,利用基于深度学习策略进行事件触发词的识别与抽取;
步骤五:对事件触发词识别与抽取后的中文文本序列数据进行候选事件识别;
步骤六:将候选事件识别后的中文文本序列数据作为输入,利用训练好的复制神经网络进行离群事件的检测与识别;
所述复制神经网络的训练过程为:
A将待处理中文文本序列数据作为数据集合,把数据集合的每一列都进行归一化处理;
B选择70%的数据作为训练集合,30%的数据作为验证集合;
C随机生成一个三层的神经网络结构,权重随机生成,范围在[0,1]内,输入层的数据和输出层的数据保持一致,并且神经网络中间层的节点个数是输入层的一半;
D使用BP算法训练模型,当训练集合的误差降低,并且验证集合的误差增加时,则停止训练,同时返回具有最小验证集合误差的神经网络,将该神经网络作为训练好的神经网络。
进一步的,所述复制神经网络的训练过程中,使用BP算法训练模型,并在误差的目标函数中增加连接权与阈值的平方和,用于描述网络复杂度。
进一步的,所述步骤二之前执行如下步骤:
首先对待处理中文文本序列进行时间序列的归一化处理,然后采用参考时间动态选择机制对时间表达式进行规范化,并采用关键词机制,将面向句子的时间识别转化为面向篇章的主题事件片段的时间识别。
进一步的,所述主题事件片段的时间识别的具体步骤为:
识别事件的时间,进而将面向句子或短语的时间识别转化为面向篇章的时间识别,从而识别主题事件片段的时间。
进一步的,所述时间表达式包括明确的时间表达式和隐式时间表达式。
进一步的,所述隐式时间表达式通过上下文和先验知识确定。
进一步的,所述步骤三中浅层语义分析的具体步骤为:
基于统计机器学习方法,以句法成分为标注单位,首先采用分词、词性标记、命名实体识别、浅层句法分析过程对输入文本进行预处理,得到完整句法分析树;其次通过剪枝技术过滤掉句法分析树中不是语义角色的句法成分结点;再次采用典型的二元分类方法,逐个判断候选句法成分是否为目标谓词的语义角色;然后采用分类技术对语义角色进行分类;最后对上述机器学习方法获得的结果进行修正。
进一步的,所述步骤四中事件触发词的识别的具体步骤为:
首先使用Bi-LSTM模型对每个词及其前面信息和后面信息的语义进行编码,同时,结合CNN模型共同组成一个向量表示;
所述Bi-LSTM模型由前向LSTM神经网络和反向LSTM神经网络组成,前向LSTM神经网络用于对当前词之前的上下文建模,反向LSTM神经网络用于对当前词之后的上下文进行建模,前向LSTM神经网络的输入是当前词以及当前词前面的上下文信息,反向LSTM神经网络的输入是当前词以及当前词后面的上下文信息,从前向后运行前向LSTM神经网络,从后向前运行反向LSTM神经网络,然后,将前向LSTM神经网络的输出和反向LSTM神经网络的输出进行结合,作为Bi-LSTM模型的输出,即该当前词作为事件触发词的候选;
所述CNN模型具有不同宽度的多个卷积过程filter,将卷积过程filter的输出发送到Max-Pooling层,得到一个具有固定长度的输出向量,之后,用softmax方法对输出向量进行处理,识别候选触发词,最后,将每个候选触发词分类为一种事件类型,触发词和待识别的事件类型相对应。
进一步的,所述步骤五中候选事件识别包括:特征轨迹、事件片段的相似性、发展趋势和预测过程四个步骤;
所述特征轨迹中,特征即表示该事件的触发词,特征Wi在某一时刻t对事件的影响,即特征能量fit,特征能量fit用于分析该事件的所有特征的变化情况;
所述事件片段的相似性表示具有相同时间窗口的事件片段的差异程度,事件片段et由时间窗口中的特征fit表示,即[f1t,f2t,...,fnt],事件片段的相似度即为特征向量之间的相似度;
所述发展趋势表示用某个主题片段中的所有特征能量表示某个事件片段发生的强度和进展,主题事件片段的能量pow(et)由该时间窗口中包含的所有特征能量表示,事件的变化趋势即事件片段的能量变化趋势;
所述预测过程表示基于时序对整个事件中的事件进行模拟和预测,用某些时间间隔内的信息来预测下一时间间隔内某个元事件或事件发生的情况。
本发明的有益效果是:
本发明在离群事件检测方面,多数方法为了能够顺利完成深度学习模型训练严重依赖异常数据,但该类数据一般不易获取。复制神经网络(Replicator Neural Networks,RpNN)可以大量减轻该方面需要而只需正常数据,其在正常数据上进行模型训练,对正常数据进行建模和模式重建而不需要大量异常数据的手工构建。本方案将面向整个事件演化过程中的全局离群点进行检测,即检测与整个时间序列中除了该点(子序列)之外的其他序列不匹配的离群点。
附图说明
图1为一个全连接的复制神经网络模型示意图;
图2为一个全连接的复制神经网络模型示意图;
图3为具有三个卷积过程filter的卷积神经网络模型结构示例;
图4为事件触发词Trigger的识别与抽取示意图;
图5为离群事件检测与识别的处理过程图。
具体实施方式
具体实施方式一:参照图1具体说明本实施方式,本实施方式所述的基于复制神经网络的离群事件检测与识别方法,包括以下步骤:
步骤一:获取待处理中文文本序列数据;
步骤二:对待处理中文文本序列数据进行时间序列分析;
步骤三:对时间序列分析后的中文文本序列数据进行浅层语义分析;
步骤四:对浅层语义分析后的中文文本序列数据,利用基于深度学习策略进行事件触发词的识别与抽取;
步骤五:对事件触发词识别与抽取后的中文文本序列数据进行候选事件识别;
步骤六:将候选事件识别后的中文文本序列数据作为输入,利用训练好的复制神经网络进行离群事件的检测与识别;
所述复制神经网络的训练过程为:
A将待处理中文文本序列数据作为数据集合,把数据集合的每一列都进行归一化处理;
B选择70%的数据集合作为训练集合,30%的数据集合作为验证集合;
C随机生成一个三层的神经网络结构,权重随机生成,范围在[0,1]内,输入层的数据和输出层的数据保持一致,并且神经网络中间层的节点个数是输入层的一半;
D使用BP算法训练模型,当训练集合的误差降低,并且验证集合的误差增加时,则停止训练,同时返回具有最小验证集合误差的神经网络,将该神经网络作为训练好的神经网络。
复制神经网络模拟的是一个恒等映射,输入层的神经元个数和输出层的神经元个数是一样的,在这类神经网络中输入的变量也是输出的变量,模型中间层节点的个数少于输入层和输出层节点的个数,该模型起到压缩数据和恢复数据的作用,应用该模型,通过数据的压缩再恢复来检测样本是否为离群点,如果输入数据模式因为有较高的重建误差而难以完美重建,那么这些输入数据则非常有可能是离群点。
RpNN模型是一个回归模型的变体,正常情况下,输入向量通过多层感知机网络(Multi-Layer Perceptron,MLP)映射到预期的输出向量。然而对于RpNN模型而言,输入向量同时也作为输出向量,RpNN模型试图在输出端重建输入数据的模式。在训练过程中,RpNN的权重通过最小化所有数据模式的平均平方误差(或者平均重建误差)来驱动。因此,正常数据的数据模式可以通过训练所得的RpNN模型很好地重建,而作为离群点的数据模式则很难通过RpNN完美重建,并会有一个较高的重建误差(Reconstruction Error),那么这个重建误差就可以作为一个数据点的异常度的标准。
具体地,输入和输出的n个神经元对应训练数据中每一条记录的n个特征,中间的隐层数目则通过经验确定。一个全连接的复制神经网络模型如图1所示,假设其第k层的第i个神经元的输出通过激活函数Sk(Iki)来计算,其中Iki通常表示成θ,表示到达该神经元的所有输入神经元的加权和,由公式1定义。
其中,Zki表示第k层的第j个神经元输出,Lk是第k层的神经元的数目。
另有学者提出的RpNN模型中,三层隐层的外侧两个隐层的激活函数如公式2所示。
Sk(θ)=tanh(akθ) (k=2,4) (2)
其中,ak是一个调和参数。而对于最中间隐层的激活函数,有学者提出了一种类阶梯的激活函数,其参数N表示阶梯的个数,ak则控制从一层到下一层的转换率,该阶梯状激活函数如公式3所示。
图2给出了一个阶梯数为4的类阶梯状激活函数示意。假设ak被设置为一个很大的数(在有关工作中,该值被设置为100),阶梯数为4的类阶梯状激活函数表示该阶梯状的激活函数可以把输入的数据分散到4个簇当中,这个簇的个数可以事先设定,而a用来调节转换率大小也可以设定。在整个训练过程选用两个可选的激活函数之一作为输出层的激活函数。第一个是线性的即输入的加权和,第二个是Sigmoid函数,如公式4所示。
训练过程可以采用一个可调节的学习率在每次迭代L中训练整个神经网络。权重更新可以通过公式5完成。
在第L+1次迭代时学习率αL+1如公式6所示。
其中,eL指的是平均平方误差,如公式7所示。
其中,m指的是训练数据中记录的条数,n指的是特征数,而xij表示输入值同时也是目标输出值,oij是RpNN模型的第L次迭代的输出值。这些参数以及RpNN架构中单元的数目都可以在训练过程中进行适当调整以完成收敛。
基于RpNN进行离群点检测需要明确一个离群点的离群度的标准、对待分类数据的举措以及大数据集当中采样数据的机制。
其中,关于离群度的定义,参考学者们提出的思想,即:选用所有特征的平均重建误差作为样本点的离群度尺度,如公式8所示。该尺度可定义为OF(Outlier Factor),而OFi则是第i个记录的离群度,如公式8所示。
其中,n是特征数,该OF计算式适用于所有数据。
对于分类数据,将整个数据集分成一系列的数据子集,每一个子集对应着分类数据的某个具体的值。
采样机制通过在数据集当中随机采样。
事件挖掘是从大量与事件相关的历史数据中提取人们事先未知、潜在有用的相关知识,进而揭示事件的内在规律,完成预测未来行为等决策工作。离群事件是事件的一种特殊呈现方式,有些离群点可以被认为是噪声,有些离群点可能是事件发展演化过程的关键点或转折点,因此离群事件检测是文本信息处理的一个重要研究内容。本发明将面向整个事件演化过程,采用复制神经网络进行离群事件的检测与识别,目的是利用离群点进行事件的演化分析,以期通过小概率事件,抓住事件发展的重要信息。
针对以上问题,本发明提出以下发明内容:
1.提出一种深度神经网络与时间序列分析相结合的方法,以时间作为脉络,实现基本的事件识别,处理过程包括:
(1)基于参考时间动态选择机制,将浅层语义分析和事件检测与识别相结合;
(2)基于深度神经网络的事件触发词识别与抽取;
(3)基于时间序列分析的事件检测与识别。
2.提出一种基于复制神经网络的离群事件检测与识别方法
复制神经网络模拟的是一个恒等映射,输入层的神经元个数和输出层的神经元个数是相同的,该模型起到压缩数据和恢复数据的作用,通过数据的压缩再恢复来检测样本是否为离群点。
3.基本事件识别与候选离群事件的互相验证。
针对以上内容,本专利提出以下针对离群事件的检测与识别过程:
步骤一:获取待处理中文文本序列
步骤二:对待处理中文文本序列进行时间序列分析
步骤三:对时间序列分析后的中文文本序列进行浅层语义分析
步骤四:对浅层语义分析后的中文文本序列,基于深度学习策略进行事件触发词的识别与抽取
步骤五:对事件触发词识别与抽取后的中文文本序列进行候选事件识别
步骤六:对候选事件识别后的中文文本序列,基于复制神经网络进行离群事件的检测与识别
步骤七:对中文文本序列中检测与识别出的离群事件进行综合验证。
步骤一:获取待处理中文文本序列
事件本身具有很强的时序特点,众多事件也是随着时间的演化不断发展变化,多数发明仅仅关注孤立事件本身,没有考虑事件的发展变化。事件发展过程中(例如:自然灾害、抗议活动等),在一定时间间隔内事件的发展产生子事件,并通常产生新的数据,进而形成新的事件。
子事件与事件之间的关系并非简单的包含关系,例如:子事件可能具有事件的一般特征;也可能仅具有少量特征或者没有,是一个相对独立的事件,只是一个短暂的出现。对于大多数事件来说,其中嵌套了一组子事件,在新的子事件发生时产生新的数据,新数据的内容与以前不同,它代表了事件的当前状态。
本发明将深度神经网络与时间序列识别有机结合在一起,以时间作为脉络进行事件检测与识别。图3给出了离群事件检测与识别的处理过程。
步骤二:对待处理中文文本序列进行时间序列分析
事件本身具有很强的时序特点,众多事件随着时间的演化不断发展变化,因此对事件的识别与分析,也可以看作是时间序列分析。作为事件,一般都有一个主题,与主题相关的时间信息体现了事件在时间维度的主题特征,与时间相关、反映主题事件发展过程的信息,都可称为主题事件的时序特征。而事件的发生时间是最重要的时序特征之一,它是事件发展的索引和演化体现,因此对事件中的时间识别的研究是对事件研究的基础和关键。时间识别可以辅助主题事件分析,同时对发现事件发展的规律、衍生主题事件的演化趋势等会起到关键性作用。时间识别也是事件检测与识别中一个比较重要的领域,相应的时间识别也是一个动作或状态变化的时间。但是人们不止关注一个动作的发生和变化,也希望更多关注事件的整体信息框架和发展过程。
时序分析要面临的首要问题是时间序列的归一化。本发明根据事件的特性提出面向事件的时间识别,定位为事件片段的时间识别,即文档描述的情境发生时间。这部分内容包括时间表达式的识别和规范化、元事件发生时间的确定以及事件片段的时间识别。在事件识别中,元事件(Meta Event)表示一个状态的改变或者动作的发生,通常由动词或能表示动作的名词等作为触发词触发,即自动内容抽取国际评测会议(AutomaticContentExtraction,ACE)中对事件的定义。
对于事件片段的时间识别问题,采取参考时间动态选择机制,将浅层语义分析与事件抽取相结合的方法。为了改善纯粹基于关键词或静态参考时间机制的主题事件片段的时间识别性能,本发明重点采取针对时间表达式的参考时间动态选择。
采用动态选择参考时间机制,规范化时间表达式和识别主题事件片段时间。中文表达式是多种多样的,包括明确时间表达式和隐式时间表达式。当前,面向事件的时间识别大多是面向句子或短语的,并采用静态时间值或静态规则。根据静态时间值和静态规则遇到的问题,采用参考时间动态选择机制对时间表达式进行规范化,并采用关键词机制,将面向句子的时间识别转化为面向篇章的主题事件片段的时间识别。
步骤三:对时间序列分析后的中文文本序列进行浅层语义分析
把浅层语义分析结果和时间表达式进行映射,识别事件的时间,进而将面向句子或短语的时间识别转化为面向篇章的时间识别,从而识别主题事件片段的时间。在这个过程中,需要采用动态参考时间选择机制对时间表达式进行规范化。
中文时间表达式是多种多样的,包括明确的时间表达式(如“2020年1月23日”、“2020-01-23”)和隐式时间表达式(如“1月23日”、“两天前”、“发生后两小时”)。隐式的时间表达式通过上下文和一些先验知识确定并转换成需要的模式(需要首先确定参考时间、偏移量和偏移粒度等)。明确的时间表达式直接在时间轴上定位准确的时间,其它不规范的表达方式需要进行规范化,参考时间通常包括全局参考时间和局部参考时间的识别。
步骤四:对浅层语义分析后的中文文本序列,基于深度学习策略进行事件触发词的识别与抽取
在深度神经网络的研究应用中,双向长短期记忆模型(Bi-directionalLongShort-Term Memory,Bi-LSTM)可以捕获每个词的上下文信息,能够将前向序列信息或反向序列信息传递给当前词;卷积神经网络模型(Convolutional Neural Networks,CNN)特别适用于抽取语义表示和获取一些局部突出特征(如语块等)。鉴于事件触发词的重要性及其识别的难度,触发词的前后序列信息的传递、语块特征获取以及利用GPU服务器实现深度神经网络的计算能力,非常适合于事件检测中的触发词识别与抽取之类的信息处理任务。
为了能够更好地预测每个词是否为事件触发器,本发明使用Bi-LSTM模型对每个词及其前面信息和后面信息的语义进行编码,同时,结合CNN模型所具有的较强的获取结构信息的能力,共同组成一个向量表示,作为触发词候选。
(1)基于Bi-LSTM模型方法
Bi-LSTM是一种双向循环神经网络(Recurrent Neural Network,RNN),词表示可以用其前面和后面的信息同时建模实现。Bi-LSTM由两个LSTM神经网络组成,前向LSTM用于对当前词的前面上下文建模,反向LSTM用于对当前词的后面上下文进行建模。前向LSTM的输入是当前词以及其前面的上下文信息,反向LSTM的输入是当前词以及其后面的上下文信息,从前向后运行前向LSTM,从后向前运行反向LSTM。然后,将前向LSTM的输出和反向LSTM的输出有机结合,作为Bi-LSTM的输出,该当前词作为事件触发词的候选。
(2)基于CNN模型方法
CNN模型能够很好地抽取语义表示,尤其是获取一些局部突出特征(如语块等),本发明使用具有不同宽度的多个卷积过程filter(也称为kernel或者feature detector),生成局部上下文表示,图4给出了一个具有三个卷积过程filter的CNN结构示意图。
其中,{w1,w2,...wi,...wn}表示一个由n个词组成的句子,卷积过程filter是具有共享参数的线性层的列表,将卷积过程filter的输出送到Max-Pooling层,得到一个具有固定长度的输出向量C3。
(3)事件触发词识别与抽取过程
图5给出了一个事件触发词Trigger识别的例子,其中,Fv和Bv分别是前向LSTM和反向LSTM的输出向量,C2和C3是具有不同宽度的卷积过程filter的输出向量,最后,用softmax方法来识别候选触发词,并将每个候选触发词分类为一种特定的事件类型。
步骤五:对事件触发词识别与抽取后的中文文本序列进行候选事件识别
对于事件进展的分析主要是指对主题事件在时间序列上进行分析,包括主题事件特征在时序上的轨迹、主题事件在时间序列上的发展趋势、预测等。所谓时间序列就是均匀时间间隔的各种社会、自然现象的数量指标依时间次序排列起来的统计数据。时间序列分析是对历史数据变化的分析,来评价事物的现状和估计事物的未来变化,通常时间序列分析方法一般包括趋势模型、季节模型、指数平滑法等。事件在时间序列上的分析从以下4个方面展开:
(1)特征轨迹
特征即表示该事件的触发词,特征Wi在某一时刻t对事件的影响也叫做特征能量fit,分析该事件的所有特征的变化情况。
(2)事件片段的相似性
表示具有相同时间窗口的事件片段的差异程度等,事件片段et由时间窗口中的特征fit表示,即[f1t,f2t,...,fnt],事件片段的相似度即为特征向量之间的相似度。
(3)发展趋势
用某个主题片段中的所有特征能量表示某个事件片段发生的强度和进展,主题事件片段的能量pow(et)由该时间窗口中包含的所有特征能量表示,事件的变化趋势即事件片段的能量变化趋势。
(4)预测
基于时序对整个事件中的事件进行模拟和预测,用某些时间间隔内的信息来预测下一时间间隔内某个元事件或事件发生的情况。
步骤六:对候选事件识别后的中文文本序列,基于复制神经网络进行离群事件的检测与识别
对于RpNN模型中隐层层数以及各层的单元数可以根据实际需要进行调节,本发明综合了一些学者们的工作,采用单个隐层而不用三个隐层以极大降低复杂度;采用常见的sigmoid激活函数而不用类阶梯的激活函数。单个隐层结合sigmoid激活函数相比三个隐层结合多个隐层的效果在相关学者的工作中得到了实验证明。通过选用sigmoid激活函数而弃用类阶梯函数,可以在训练过程中方便地利用反向传播算法(BackpropagationAlgorithm,BP算法)进行权重的更新和参数优化。由于采用单隐层,连同输入层和输出屋,该复制神经网络的结构即为三层结构。算法1给出了整个网络模型的具体训练过程。
算法1:基于RpNN的离群事件检测模型训练
(1)把数据集合的每一列都进行归一化;
(2)选择70%的数据集合作为训练集合,30%的数据集合作为验证集合;
(3)随机生成一个三层的神经网络结构,里面的权重都是随机生成,范围在[0,1]内。输入层的数据和输出层的数据保持一致,并且神经网络中间层的节点个数是输入层的一半;
(4)使用BP算法来训练模型。为了防止神经网络的过拟合,本发明采取两种策略来防止这个问题:第一种策略是“早停”(Early Stopping),即当训练集合的误差降低,但是验证集合的误差增加时,则停止训练,同时返回具有最小验证集合误差的神经网络;第二种策略是“正则化”(Regularization),其基本思想是在误差目标函数中增加一个用于描述网络复杂度的部分,本发明采用链接权与阀值的平方和。
步骤七:对中文文本序列中检测与识别出的离群事件进行综合验证
根据事件检测过程,本发明将以下几点进行综合分析,作为辅助离群事件验证的依据。
(1)根据语言现象,由于事件当前的发展情况只与之前的发展情况有关,而与之后的情况关联较小,同时离该时间点越近的时间段对当前发展情况影响越大,因此作为离群点的可能性越小。
(2)对于事件的识别(包括离群事件),也可以是基于子序列的事件,或者说它可以是一个时间点也可以是一个时间段。
(3)某个时间点的数据值也许不是离群点,但它如果和时间信息、空间信息或其他时间点信息结合起来就可能是异常数据。
(4)一般基于子序列的离群事件检测,需要预先设定子序列的长度。根据线是由点组成的这一理论,在检测某个时间点的数据值是否是离群点时,结合时间信息、空间信息、与其它点的关联信息,如果检测出的两个离群事件在时间上是连续的,则两个离群事件组合起来就是基于子序列的离群点,即时间段。
(5)离群点是指它们与数据的一般行为或特征不一致,类似异常数据的挖掘主要使用偏差检测。在数学意义上,偏差是指分类中的反常实例、不满足规则的特例,或者观测结果与模型预测值不一致并随时间变化等等。而统计中的假设检验问题,正是在总体分布函数完全未知或只知其参数的情况,根据样本对所提出的假设做出决策,也就是判断样本是否异常。
需要注意的是,具体实施方式仅仅是对本发明技术方案的解释和说明,不能以此限定权利保护范围。凡根据本发明权利要求书和说明书所做的仅仅是局部改变的,仍应落入本发明的保护范围内。
Claims (9)
1.基于复制神经网络的离群事件检测与识别方法,其特征在于包括以下步骤:
步骤一:获取待处理中文文本序列数据;
步骤二:对待处理中文文本序列数据进行时间序列分析;
步骤三:对时间序列分析后的中文文本序列数据进行浅层语义分析;
步骤四:对浅层语义分析后的中文文本序列数据,利用基于深度学习策略进行事件触发词的识别与抽取;
步骤五:对事件触发词识别与抽取后的中文文本序列数据进行候选事件识别;
步骤六:将候选事件识别后的中文文本序列数据作为输入,利用训练好的复制神经网络进行离群事件的检测与识别;
所述复制神经网络的训练过程为:
A将待处理中文文本序列数据作为数据集合,把数据集合的每一列都进行归一化处理;
B选择70%的数据作为训练集合,30%的数据作为验证集合;
C随机生成一个三层的神经网络结构,权重随机生成,范围在[0,1]内,输入层的数据和输出层的数据保持一致,并且神经网络中间层的节点个数是输入层的一半;
D使用BP算法训练模型,当训练集合的误差降低,并且验证集合的误差增加时,则停止训练,同时返回具有最小验证集合误差的神经网络,将该神经网络作为训练好的神经网络。
2.根据权利要求1所述的基于复制神经网络的离群事件检测与识别方法,其特征在于在所述复制神经网络的训练过程中,使用BP算法训练模型,并在误差的目标函数中增加连接权与阈值的平方和,用于描述网络复杂度。
3.根据权利要求1所述的基于复制神经网络的离群事件检测与识别方法,其特征在于在所述步骤二之前执行如下步骤:
首先对待处理中文文本序列进行时间序列的归一化处理,然后采用参考时间动态选择机制对时间表达式进行规范化,并采用关键词机制,将面向句子的时间识别转化为面向篇章的主题事件片段的时间识别。
4.根据权利要求3所述的基于复制神经网络的离群事件检测与识别方法,其特征在于所述主题事件片段的时间识别的具体步骤为:
识别事件的时间,进而将面向句子或短语的时间识别转化为面向篇章的时间识别,从而识别主题事件片段的时间。
5.根据权利要求4所述的基于复制神经网络的离群事件检测与识别方法,其特征在于所述时间表达式包括明确的时间表达式和隐式时间表达式。
6.根据权利要求5所述的基于复制神经网络的离群事件检测与识别方法,其特征在于所述隐式时间表达式通过上下文和先验知识确定。
7.根据权利要求1所述的基于复制神经网络的离群事件检测与识别方法,其特征在于所述步骤三中浅层语义分析的具体步骤为:
基于统计机器学习方法,以句法成分为标注单位,首先采用分词、词性标记、命名实体识别、浅层句法分析过程对输入文本进行预处理,得到完整句法分析树;其次通过剪枝技术过滤掉句法分析树中不是语义角色的句法成分结点;再次采用典型的二元分类方法,逐个判断候选句法成分是否为目标谓词的语义角色;然后采用分类技术对语义角色进行分类;最后对上述机器学习方法获得的结果进行修正。
8.根据权利要求1所述的基于复制神经网络的离群事件检测与识别方法,其特征在于所述步骤四中事件触发词的识别的具体步骤为:
首先使用Bi-LSTM模型对每个词及其前面信息和后面信息的语义进行编码,同时,结合CNN模型共同组成一个向量表示;
所述Bi-LSTM模型由前向LSTM神经网络和反向LSTM神经网络组成,前向LSTM神经网络用于对当前词之前的上下文建模,反向LSTM神经网络用于对当前词之后的上下文进行建模,前向LSTM神经网络的输入是当前词以及当前词前面的上下文信息,反向LSTM神经网络的输入是当前词以及当前词后面的上下文信息,从前向后运行前向LSTM神经网络,从后向前运行反向LSTM神经网络,然后,将前向LSTM神经网络的输出和反向LSTM神经网络的输出进行结合,作为Bi-LSTM模型的输出,即该当前词作为事件触发词的候选;
所述CNN模型具有不同宽度的多个卷积过程filter,将卷积过程filter的输出发送到Max-Pooling层,得到一个具有固定长度的输出向量,之后,用softmax方法对输出向量进行处理,识别候选触发词,最后,将每个候选触发词分类为一种事件类型,触发词和待识别的事件类型相对应。
9.根据权利要求1所述的基于复制神经网络的离群事件检测与识别方法,其特征在于所述步骤五中候选事件识别包括:特征轨迹、事件片段的相似性、发展趋势和预测过程四个步骤;
所述特征轨迹中,特征即表示该事件的触发词,特征Wi在某一时刻t对事件的影响,即特征能量fit,特征能量fit用于分析该事件的所有特征的变化情况;
所述事件片段的相似性表示具有相同时间窗口的事件片段的差异程度,事件片段et由时间窗口中的特征fit表示,即[f1t,f2t,...,fnt],事件片段的相似度即为特征向量之间的相似度;
所述发展趋势表示用某个主题片段中的所有特征能量表示某个事件片段发生的强度和进展,主题事件片段的能量pow(et)由该时间窗口中包含的所有特征能量表示,事件的变化趋势即事件片段的能量变化趋势;
所述预测过程表示基于时序对整个事件中的事件进行模拟和预测,用某些时间间隔内的信息来预测下一时间间隔内某个元事件或事件发生的情况。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010786373.1A CN111881299B (zh) | 2020-08-07 | 2020-08-07 | 基于复制神经网络的离群事件检测与识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010786373.1A CN111881299B (zh) | 2020-08-07 | 2020-08-07 | 基于复制神经网络的离群事件检测与识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111881299A true CN111881299A (zh) | 2020-11-03 |
CN111881299B CN111881299B (zh) | 2023-06-30 |
Family
ID=73210962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010786373.1A Active CN111881299B (zh) | 2020-08-07 | 2020-08-07 | 基于复制神经网络的离群事件检测与识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111881299B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541341A (zh) * | 2020-12-18 | 2021-03-23 | 广东电网有限责任公司 | 一种文本事件元素提取方法 |
CN112766172A (zh) * | 2021-01-21 | 2021-05-07 | 北京师范大学 | 一种基于时序注意力机制的人脸连续表情识别方法 |
WO2023208091A1 (zh) * | 2022-04-29 | 2023-11-02 | 上海微电子装备(集团)股份有限公司 | 检测配方设置与优化方法、装置、电子设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7480640B1 (en) * | 2003-12-16 | 2009-01-20 | Quantum Leap Research, Inc. | Automated method and system for generating models from data |
CN106353805A (zh) * | 2015-07-17 | 2017-01-25 | 中国石油化工股份有限公司 | 一种直观的微地震事件分类方法 |
US20180165554A1 (en) * | 2016-12-09 | 2018-06-14 | The Research Foundation For The State University Of New York | Semisupervised autoencoder for sentiment analysis |
US20200076840A1 (en) * | 2018-09-05 | 2020-03-05 | Oracle International Corporation | Malicious activity detection by cross-trace analysis and deep learning |
-
2020
- 2020-08-07 CN CN202010786373.1A patent/CN111881299B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7480640B1 (en) * | 2003-12-16 | 2009-01-20 | Quantum Leap Research, Inc. | Automated method and system for generating models from data |
CN106353805A (zh) * | 2015-07-17 | 2017-01-25 | 中国石油化工股份有限公司 | 一种直观的微地震事件分类方法 |
US20180165554A1 (en) * | 2016-12-09 | 2018-06-14 | The Research Foundation For The State University Of New York | Semisupervised autoencoder for sentiment analysis |
US20200076840A1 (en) * | 2018-09-05 | 2020-03-05 | Oracle International Corporation | Malicious activity detection by cross-trace analysis and deep learning |
Non-Patent Citations (2)
Title |
---|
薛安荣;李明;: "无线传感器网络中异常读数检测算法研究", 计算机应用研究 * |
马晨曦;陈兴蜀;王文贤;王海舟;: "基于递归神经网络的中文事件检测", 信息网络安全, no. 05 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541341A (zh) * | 2020-12-18 | 2021-03-23 | 广东电网有限责任公司 | 一种文本事件元素提取方法 |
CN112766172A (zh) * | 2021-01-21 | 2021-05-07 | 北京师范大学 | 一种基于时序注意力机制的人脸连续表情识别方法 |
CN112766172B (zh) * | 2021-01-21 | 2024-02-02 | 北京师范大学 | 一种基于时序注意力机制的人脸连续表情识别方法 |
WO2023208091A1 (zh) * | 2022-04-29 | 2023-11-02 | 上海微电子装备(集团)股份有限公司 | 检测配方设置与优化方法、装置、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111881299B (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321603B (zh) | 一种用于航空发动机气路故障诊断的深度计算模型 | |
CN107516110B (zh) | 一种基于集成卷积编码的医疗问答语义聚类方法 | |
CN111881299B (zh) | 基于复制神经网络的离群事件检测与识别方法 | |
CN110232395B (zh) | 一种基于故障中文文本的电力系统故障诊断方法 | |
CN110008323B (zh) | 一种半监督学习结合集成学习的问题等价性判别的方法 | |
CN110070895B (zh) | 一种基于监督变分编码器因素分解的混合声音事件检测方法 | |
CN112733444A (zh) | 基于CycleGAN神经网络的多步长时间序列预测方法 | |
CN112329974B (zh) | 基于lstm-rnn的民航安保事件行为主体识别与预测方法及系统 | |
CN110956309A (zh) | 基于crf和lstm的流程活动预测方法 | |
CN111309909A (zh) | 一种基于混合模型的文本情感分类方法 | |
CN114266201B (zh) | 一种基于深度学习的自注意力电梯困人预测方法 | |
CN116680105A (zh) | 一种基于邻域信息融合注意力机制的时序异常检测方法 | |
CN115292568B (zh) | 一种基于联合模型的民生新闻事件抽取方法 | |
CN113255366A (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN117094291B (zh) | 基于智能写作的自动新闻生成系统 | |
CN114881173A (zh) | 基于自注意力机制的简历分类方法和装置 | |
CN112766339A (zh) | 一种轨迹识别模型训练方法及轨迹识别方法 | |
CN112560440A (zh) | 一种基于深度学习的面向方面级情感分析的句法依赖方法 | |
CN114401135B (zh) | 基于LSTM-Attention用户和实体行为分析技术的内部威胁检测方法 | |
CN115391523A (zh) | 风电场多源异构数据处理方法及装置 | |
CN114298052A (zh) | 一种基于概率图的实体联合标注关系抽取方法和系统 | |
CN113835739A (zh) | 一种软件缺陷修复时间的智能化预测方法 | |
Hung et al. | Application of Adaptive Neural Network Algorithm Model in English Text Analysis | |
Gurunath et al. | Insights Into Deep Steganography: A Study of Steganography Automation and Trends | |
CN112232557A (zh) | 基于长短期记忆网络的转辙机健康度短期预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |