CN113420117A - 一种基于多元特征融合的突发事件分类方法 - Google Patents
一种基于多元特征融合的突发事件分类方法 Download PDFInfo
- Publication number
- CN113420117A CN113420117A CN202110699105.0A CN202110699105A CN113420117A CN 113420117 A CN113420117 A CN 113420117A CN 202110699105 A CN202110699105 A CN 202110699105A CN 113420117 A CN113420117 A CN 113420117A
- Authority
- CN
- China
- Prior art keywords
- feature
- target statement
- event type
- information
- pattern
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于多元特征融合的突发事件分类方法。该方法包括:根据文本间的依存句法关系自动抽取突发事件领域文本的模式特征,计算相关度以过滤模式特征并分配相应的权重,获取目标语句归属于某种事件类别的概率;根据模式特征匹配的识别结果,建立模式特征与门控循环单元输出特征耦合的双层注意力网络;基于双层耦合注意力机制和双向门控循环单元建立多元特征联合学习的框架模型;采用最小化损失函数的方法训练模型;基于模型参数检测突发事件类型。本发明可以将模式特征匹配输出和门控循环单元特征输出进行融合,结合模式特征匹配方法和注意力机制方法的优点,从多元角度对事件信息进行挖掘,可以更加准确地对突发事件类型进行分类。
Description
技术领域
本发明涉及互联网中数据挖掘技术领域,尤其涉及一种基于多元特征融合的突发事件分类方法。
背景技术
突发事件的发生往往具有突发性和不可预知性。在如今信息爆炸的时代背景下,人工识别并获取突发事件相关信息的方式显然是效率极低且不切实际的。解决这一问题的有效途径是实现突发事件信息的自动化抽取和识别,它能够自发地从非结构化的自然语言文本中抽取出事件的各类要素信息,并将抽取结果以结构化信息的方式展示。它可以为人工抽取提供辅助,实现对突发事件的及时预警,也可以为实现突发事件应急决策快速响应提供重要的数据保证和决策依据。
目前,现有技术中的突发事件信息抽取和识别方法包括:基于模式匹配的方法和基于深度学习的方法。
基于模式匹配的方法核心在于模式特征库的构建,人工构建模式特征库耗时耗力,因此学者们提出了一系列自动获取模式的方法:AutoAlog、PALKA、CRYSTAL、LIEP、AutoAlog-TS、ExDisco、TIMES等。该方法的缺点为:该方法是基于人工建立的模式实现事件抽取,如事件抽取模板或正则表达式等,其自动化程度较低,需要大量的人工辅助工作。可移植性较低,当应用领域发生改变时,需要重新构建模式特征库。
基于深度学习的方法则具有领域无关性,其基本思想为将事件抽取转化为分类问题,将词向量作为输入特征进行模型训练,利用训练好的模型进行事件类型识别分类。基于深度学习的事件识别技术可以从文本中自动学习出相关信息,其关键在于特征工程的选择和神经网络框架的构造。该方法的缺点为:神经网络往往需要大量带标注的语料进行训练,才能从文本的共性中学习出某种类别的特性。这加大了在语料匮乏的领域和语言环境中进行事件识别任务的难度,因此语料库的规模和质量也在一定程度上限制了基于深度学习方法的性能表现。
发明内容
本发明的实施例提供了一种基于多元特征融合的突发事件分类方法,以克服现有技术的问题。
为了实现上述目的,本发明采取了如下技术方案。
一种基于多元特征融合的突发事件分类方法,包括:
步骤S1、选取基础语料库,根据突发事件领域的文本特点,通过现有工具包对基础语料库中的语料进行依存句法分析并抽取模式特征,计算模式相关度并为每个模式特征分配在对应事件类别中的权重,得到模式特征库;
步骤S2、通过现有工具包对待分类的目标语句进行依存句法分析,按照事件类型依次选择所述模式特征库进行模式特征匹配,计算出所述目标语句属于各个事件类型的可能性分数,并随机初始化嵌入到神经网络中,得到所述目标语句归属各事件类别的概率分布特征信息;
步骤S3、根据所述目标语句属于各个事件类型的可能性分数,选取最大可能性分数对应的事件类型作为所述目标语句的当前输入事件类型,并随时初始化嵌入到神经网络中,得到所述目标语句的事件类别嵌入向量;
步骤S4、对所述目标语句进行预处理,得到所述目标语句的各特征嵌入向量;
步骤S5、将所述目标语句的各特征嵌入向量输入到两层堆叠的双向GRU网络中,将所述双向GRU网络的输出特征信息作为所述双向GRU网络编码得到的所述目标语句的全局信息表示;
步骤S6、将所述目标语句归属各事件类别的概率分布特征信息和所述目标语句的全局信息表示通过双层耦合注意力机制进行多元特征融合,得到所述目标语句的局部特征表示信息;
步骤S7:将所述目标语句的全局信息表示和所述目标语句的事件类别嵌入向量进行融合处理,得到所述目标语句的全局特征表示信息;
步骤S8:将所述目标语句的局部特征表示信息和所述全局特征表示信息进行加权求和后再通过sigmoid函数得到模型输出值,将所述模型输出值作为所述目标语句属于当前输入事件类型的概率;
步骤S9、根据所述目标语句属于各个输入事件类型的概率,得到所述待分类的目标语句的突发事件类型。
优选地,所述步骤S1中模式相关度r(p)定义为模式特征p和相应事件类型的相关程度:
ui=log[(N-n(p)+Z)/(n(p)+Z)]
di为包含句子或者事件的一篇文档,N为di中句子总数,n(p)为模式特征p在di中出现的次数,Z为平滑参数;
K=k1*(1-b+b*dn/avgdn)
上面式子中fi为p在文本di中匹配的频率,k1,b都是可调节的参数,dn,avgdn分别为文本di的句子数和相关文本集D中所有文本的平均句子数;
每种模式特征p在相应事件类别中的权重wp由以下公式计算:
Mp为模式特征p在相关事件类型的句子中匹配到的次数,M为相关类型句子总数,A为所有事件类型的句子总数。
优选地,所述步骤S2中目标语句属于各个事件类型的可能性分数spk通过对模式特征匹配后的各类型权重向量进行归一化处理得到:
spk为目标语句属于第k维事件类型的可能性分数,代表归属于对应事件类型的概率;wk为第k维权重。
优选地,所述步骤S6中双层耦合注意力机制具体包括:
Attention1通过均值池化将GRU各层输出的隐藏层状态组成的矩阵转换为向量表示便于GRU输出对模式特征匹配输出的权重学习的引导,计算注意力权重αn,通过加权池化得到经过注意力机制引导后的模式特征匹配输出的嵌入表示s1,计算公式如下:
其中pn表示模式特征匹配结果归属于第n个类别的输出嵌入向量,αn为该模式特征匹配结果的权重,AN,WN和UN均为参数矩阵;
Attention2通过均值池化将模式特征匹配输出转换为向量表示引导学习GRU各层隐藏层状态输出的注意力权重,计算注意力权重αk,通过加权池化得到经过注意力机制引导后语句的上下文特征信息嵌入表示s2,计算公式如下:
目标语句的局部特征表示信息V1由s1和s2得到:
V1=ρ1*s1+(1-ρ1)*s2
其中权重参数ρ1∈[0,1]。
优选地,所述步骤S7中全局特征表示信息Vg的计算方式为:
Vg=s*t
其中s为每一层GRU最后一个节点输出的总和,编码了目标语句的全局信息;t为事件类型特征随机初始化后的嵌入向量,用于捕获目标语句的全局特征表示信息。
优选地,所述步骤S8中模型输出值o计算如下:
o=σ[ρ2*∑iVgi+(1-ρ2)*∑iVli]
其中权重参数ρ2∈[0,1],σ为sigmoid函数,将输出映射到[0,1]范围内,表示目标语句属于当前输入事件类型的概率。
由上述本发明的实施例提供的技术方案可以看出,本发明实施例可以将模式特征匹配输出和门控循环单元特征输出进行融合,结合模式特征匹配方法和神经网络中注意力机制方法的优点,从多元角度对事件信息进行挖掘,可以更加准确地对突发事件类型进行分类。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于多元特征融合的突发事件分类方法的实现原理图。
图2为本发明实施例提供的一种基于多元特征融合的突发事件分类方法的处理流程图。
图3为本发明实施例提供的一种Attention1结构图。
图4为本发明实施例提供的一种Attention2结构图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
本发明实施例为了解决人工辅助建立模式特征库以及单一的模式匹配或深度学习方法在事件分类任务中存在的问题,提供了一种基于多元特征融合的突发事件分类方法,使得对突发事件的识别和分类更加及时和准确。
本发明实施例利用词语间依存关系从语料中自动抽取模式特征表示,引入模式相关度的计算对模式特征进行过滤,根据词语相似度隐式扩充模式特征库,构建最终模式特征库。在神经网络中嵌入模式特征匹配结果的概率分布信息,通过双层耦合注意力机制与双向堆叠GRU网络的输出特征进行融合,最后嵌入事件类型信息并结合GRU层编码的全局特征表示信息得到目标语句属于输入事件类型的概率,输出突发事件的类别。
程序开始,在模式特征抽取模块中输入待分类的目标语句或者含有批量目标语句的文档路径,系统获取一个目标语句,对句子进行依存句法分析并将处理结果存储在数据库中,通过模式特征抽取模块建立最终的模式特征库。查询模式特征库并对模式特征进行匹配;调用神经网络融合模块对输入的目标语句进行预处理,将预处理结果输入嵌入模块转化为向量表示;之后系统将模式特征匹配模块和嵌入模块的输出一起输入到神经网络融合模块执行得到事件类型检测结果,打印输出,然后对下一个目标语句进行类型识别,直到完成所有目标语句的分类,程序结束。
本发明实施例提供的一种基于多元特征融合的突发事件分类方法的实现原理图如图1所示,具体处理流程如图2所示,包括如下的处理流程;
步骤S10、选取基础语料库,对语料库进行预处理得到训练集和测试集。
本发明选取中文突发事件语料库(Chinese Emergency Corpus,CEC)作为基础语料库。对CEC中的生语料进行预处理,剔除与突发事件发生的描述不相关的句子,并从中选取部分句子作为干扰项来验证模型的准确性。从而使得语料库包含六种突发事件类别:地震、火灾、交通事故、恐怖袭击、食物中毒、NULL,其中“NULL”类别表示语句不归属为任意前五种突发事件。同时在此阶段也对语料进行了分词、词性标注、实体识别等操作。
随机选取80%预处理过后的CEC语料库中的语料作为训练集,其余作为测试集。其中训练集中不包含“NULL”类型的语句,而在测试集中加入了10例分别从五种突发事件中分别清洗出的“NULL”语句。表1为清洗后语料库分布情况示意图。
表1清洗后语料库分布情况
步骤S20、根据突发事件领域的文本特点,通过现有工具包对基础语料库中的语料进行依存句法分析。以谓语动词作为核心词,根据依存关系抽取二元组和三元组,根据二元组和三元组获取基础语料库的模式特征。引入模式相关度概念,并计算模式特征和对应事件类别的相关性r(p),根据相关度阈值筛选过滤模式特征库。
模式特征是进行事件模式识别和分类的基础性依据。本发明同时采用二元组和三元组的形式作为抽取模板,以此作为模式特征的定义,并结合突发事件领域的特定情况,选取谓语动词作为模式特征的核心。本发明利用依存句法分析得到的结果在整个句子中以主谓宾依存关系作为线索捕获出完整的三元组形式,对于不满足主谓宾依存关系的动词则仅抽取二元组形式,最终抽取的模式特征表示为实体、单词、依存关系的形式。例如在地震类型中,通常事件被描述为“某地发生地震”的形式,则模式特征可定义为:[<地名><“发生”类动词><“地震”类名词>]这样的三元组形式;而在“交通事故”类型的事件中,除了定义[<地名><“发生”类动词><“交通事故”类名词>]这样的三元组模式特征外,还定义了[<“交通工具”类名词><“撞击”类动词>]这样的二元组模式特征。对基础语料库中的每个事件类型单独进行上述抽取过程,得到基础语料库的最初的模式特征库。
由于最初获得的模式特征库存在大量不相干的模式特征,本发明引入模式相关度概念并设置阈值来对最初的模式特征库进行筛选过滤。在本发明中,模式相关度r(p)定义为模式特征p和对应事件类型的相关程度,通过以下公式计算:
ui=log[(N-n(p)+0.5)/(n(p)+0.5)]
di为一篇文档,可能包含多个句子或者事件。N为di中句子总数,n(p)为模式特征p在di中出现的次数(匹配句子数),0.5主要是做平滑处理(可取其它值)。
K=k1*(1-b+b*dn/avgdn)
上面式子中fi为p在文本di中匹配的频率(匹配次数/句子总数),k1,b都是可调节的参数,dn,avgdn分别为文本di的句子数和相关文本集D中所有文本的平均句子数。通常设置k1=2,b=0.75。参数b的作用主要是调节文本句子数量(长度)对相关性的影响。
通过对不同文本表达的突发事件类别设定不同的模式相关度阈值,对初始的模式特征库进行相关过滤得到新的模式特征库。为上述新的模式特征库中的每个模式特征p分配在对应事件类别中的权重wp,在上述新的模式特征库中加入各模式特征的权重得到最终的模式特征库。计算公式如下:
Mp为模式特征p在相关事件类型的句子中匹配到的次数,M为相关类型句子总数,A为所有事件类型的句子总数。
步骤S30、通过现有工具包对待分类的目标语句进行依存句法分析,并将依存句法分析结果存储在数据库中。
根据上述目标语句的依存句法分析结果,按照事件类型依次选择模式特征库进行模式特征匹配,计算出目标语句属于各个事件类型的可能性概率spk,作为目标语句的模式特征匹配的输出。目标语句的可能性分数spk通过对模式特征匹配后的各类型权重向量进行归一化处理得到:
spk为第k维的可能性得分,代表归属于对应事件类型的概率;wk为第k维权重。
同时为了能够利用有限的模式特征去匹配更多的相关描述,本发明引入了基于概念知识库的词语相似度计算方法,具体为基于同义词词林扩展版的相似度计算算法,来实现对模式特征库的隐式扩充,使得一个模式能够识别大于本身的场景范围。具体流程为:首先计算目标语句中的动词A和模式特征核心词B的相似度sim(A,B),若相似度sim(A,B)大于阈值,则计算与A、B具有相同依存关系的依存词C、D的相似度sim(C,D),若sim(A,B)和sim(C,D)均大于阈值,即使在A≠B、C≠D的情况下依旧判断模式特征匹配成功。
步骤S40、对目标语句进行预处理得到向量表示以作为双向堆叠门控循环单元层的输入特征,同时将模式特征匹配的输出嵌入到神经网络中以进行多元特征融合。即嵌入归属各事件类别的概率分布特征信息,通过双层注意力机制与门控循环单元的输出特征进行耦合,得到目标语句的局部特征表示信息。
在目标语句的预处理阶段,本发明对目标语句中的生语料进行了分词、命名实体识别、词性标注等工作。然后利用word2vec模型进行词嵌入工作,对于其它特征,包括词性、命名实体、事件类别、模式匹配输出各事件概率分布特征,选择随机初始化的方式进行嵌入。捕获目标语句的上下文信息和双向的语义依赖关系,得到各特征嵌入向量,其中包括单词向量和词性向量(或实体向量)。
本发明的神经网络部分采用双向GRU(Gated Recurrent Unit,门控循环单元)网络。将目标语句的预处理阶段获取的单词向量和词性向量拼接后,作为一个节点输入到两层双向堆叠的GRU网络中。双向GRU网络结合了两个方向的GRU网络的隐状态,即从句子起点开始移动的GRU和从句子末尾开始移动的GRU的结合。具体而言,其中前向GRU从左至右依次读取句子中各节点,生成前向隐状态序列同理,后向GRU从右至左依次读取各节点,生成后向隐状态序列两层堆叠GRU中前一层GRU的输出作为后一层GRU的输入,取每一层GRU中最后一个节点的输出进行相加,得到目标语句的全局信息表示s:
hk=GRU(xk,hk-1)
本发明将模式匹配输出的目标语句属于各个事件类型的可能性概率分布信息也作为一项输入特征,嵌入到GRU网络中,与上述GRU网络编码得到的目标语句的全局信息表示共同建立双层耦合的Attention网络,以实现多元特征融合,来捕获句中隐藏的触发词,即无需人工标注,通过神经网络自动学习相关事件类型的触发词表达并完成分类任务。
图3为本发明实施例提供的一种Attention1模块的结构图。Attention1通过均值池化将GRU网络各层输出的隐藏层状态组成的矩阵转换为向量表示便于GRU网络输出对模式特征匹配输出结果权重学习的引导:
注意力权重αn定义为:
其中,AN,WN和UN均为参数矩阵。
通过加权池化得到经过注意力机制引导后模式特征匹配输出的嵌入表示s1:
hk表示GRU第k个令牌信息的输出,αk为该令牌的权重向量,其中ω(hk,p)由下式计算求得:
其中,AH,WH和UH均为参数矩阵。
通过加权池化得到经过注意力机制引导后语句的上下文特征信息嵌入表示s2:
步骤S50、利用门控循环单元编码的全局信息表示和事件类别嵌入向量得到全局特征表示信息,将局部特征表示信息和全局特征表示信息进行加权求和并通过一个sigmoid函数得到最终输出的目标语句属于当前输入突发事件类型的概率,即模型最终输出值。根据输出值建立损失函数,利用训练数据,采用最小化损失函数的方法训练模型;基于训练所得的模型参数检测突发事件类型。
本发明将事件类型特征随机初始化为一个嵌入向量t,用于捕获目标语句的全局特征表示信息Vg:
Vg=s*t
其中s为每一层GRU最后一个节点输出的总和,编码了目标语句的全局信息。
由s1和s2得到目标语句的局部信息V1:
V1=ρ1*s1+(1-ρ1)*s2
其中权重参数ρ1∈[0,1]。输出o计算如下:
o=σ[ρ2*∑iVgi+(1-ρ2)*∑iVli]
其中权重参数ρ2∈[0,1],σ为sigmoid函数,将输出映射到[0,1]范围内,表示目标语句属于当前输入事件类型的概率。
损失函数定义如下:
其中为预测值,即模型的输出值,表示目标语句包含该事件类型的概率;y∈{0,1}为真实值,即分类标记值。(y(i)*β+1)是偏置项,其中β≥0,对于负样本,y=0,则(y(i)*β+1)=1;对于正样本,y=1,则(y(i)*β+1)=β+1。θ为损失函数的参数,δ为其L2范式的权重。通过最小化损失函数来训练模型,学习得到模型参数用于对突发事件类型进行分类。
在系统执行过程中,用户只需输入待分类的目标语句或者将语句以文档的方式批量输入,系统就可以自动完成所有语句的突发事件类型分类任务并打印输出。在测试系统中,还可以根据目标语句中标注的真实值自动计算出系统各项评估指标:准确率、召回率、F1值。
对于多重二分类任务,我们选取精确率P(Precision)、召回率R(Recall)以及F1值三个评估指标来对模型性能进行评估。定义TP(True Positive)为实际是正类,被预测为正类的事件数目;TN为实际是负类,被预测为负类的事件数目;FP(FalsePositive)为实际是负类,被预测为正类的事件数目;FN(False Negative)为实际是正类,被预测为负类的事件数目。
则精准率计算公式如下:
召回率计算公式如下:
F1值同时衡量准确率P和召回率R:
对于这三个指标来说,其值越大表明系统分类的效果越好。
各种算法模型的整体性能对比如表2所示。
1.PatternMatching:本发明提出的模式特征匹配算法,即去除神经网络特征融合部分。
2.LSTM+Attention:Shulin Liu提出的TBNNAM模型,在没有触发词标注的情况执行事件分类任务。
3.BiGRU+Attention:本发明提出的神经网络分类算法,即去除模式特征匹配融合部分。
4.PatternMatching+BiGRU+Attention:没有堆叠GRU的单层GRU模型。
5.Pattern Matching+双层BiGRU+Attention:本发明提出的基于多元特征融合的突发事件分类方法。
表2模型整体性能对比
综上所述,本发明实施例针对单一的模式匹配和深度学习方法进行突发事件分类的不足之处,本发明提出了一种基于多元特征融合的突发事件分类方法,能够从自然语言文本中识别出文本所包含的突发事件类别,提高了事件分类的准确率。
本发明实施例提出了一种基于多元特征融合的突发事件分类方法,能够从自然语言文本中识别出文本所包含的突发事件类别,提高了事件分类准确率,为后续突发事件的追踪和应急策略的制定提供信息基础。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (6)
1.一种基于多元特征融合的突发事件分类方法,其特征在于,包括:
步骤S1、选取基础语料库,根据突发事件领域的文本特点,通过现有工具包对基础语料库中的语料进行依存句法分析并抽取模式特征,计算模式相关度并为每个模式特征分配在对应事件类别中的权重,得到模式特征库;
步骤S2、通过现有工具包对待分类的目标语句进行依存句法分析,按照事件类型依次选择所述模式特征库进行模式特征匹配,计算出所述目标语句属于各个事件类型的可能性分数,并随机初始化嵌入到神经网络中,得到所述目标语句归属各事件类别的概率分布特征信息;
步骤S3、根据所述目标语句属于各个事件类型的可能性分数,选取最大可能性分数对应的事件类型作为所述目标语句的当前输入事件类型,并随机初始化嵌入到神经网络中,得到所述目标语句的事件类别嵌入向量;
步骤S4、对所述目标语句进行预处理,得到所述目标语句的各特征嵌入向量;
步骤S5、将所述目标语句的各特征嵌入向量输入到两层堆叠的双向GRU网络中,将所述双向GRU网络的输出特征信息作为所述双向GRU网络编码得到的所述目标语句的全局信息表示;
步骤S6、将所述目标语句归属各事件类别的概率分布特征信息和所述目标语句的全局信息表示通过双层耦合注意力机制进行多元特征融合,得到所述目标语句的局部特征表示信息;
步骤S7:将所述目标语句的全局信息表示和所述目标语句的事件类别嵌入向量进行融合处理,得到所述目标语句的全局特征表示信息;
步骤S8:将所述目标语句的局部特征表示信息和所述全局特征表示信息进行加权求和后再通过sigmoid函数得到模型输出值,将所述模型输出值作为所述目标语句属于当前输入事件类型的概率;
步骤S9、根据所述目标语句属于各个输入事件类型的概率,得到所述待分类的目标语句的突发事件类型。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中模式相关度r(p)定义为模式特征p和相应事件类型的相关程度:
ui=log[(N-n(p)+Z)/(n(p)+Z)]
di为包含句子或者事件的一篇文档,N为di中句子总数,n(p)为模式特征p在di中出现的次数,Z为平滑参数;
K=k1*(1-b+b*dn/avgdn)
上面式子中fi为p在文本di中匹配的频率,k1,b都是可调节的参数,dn,avgdn分别为文本di的句子数和相关文本集D中所有文本的平均句子数;
每种模式特征p在相应事件类别中的权重wp由以下公式计算:
Mp为模式特征p在相关事件类型的句子中匹配到的次数,M为相关类型句子总数,A为所有事件类型的句子总数。
4.根据权利要求1所述的方法,其特征在于,所述步骤S6中双层耦合注意力机制具体包括:
Attention1通过均值池化将GRU各层输出的隐藏层状态组成的矩阵转换为向量表示便于GRU输出对模式特征匹配输出的权重学习的引导,计算注意力权重αn,通过加权池化得到经过注意力机制引导后的模式特征匹配输出的嵌入表示s1,计算公式如下:
其中pn表示模式特征匹配结果归属于第n个类别的输出嵌入向量,αn为该模式特征匹配结果的权重,AN,WN和UN均为参数矩阵;
Attention2通过均值池化将模式特征匹配输出转换为向量表示引导学习GRU各层隐藏层状态输出的注意力权重,计算注意力权重αk,通过加权池化得到经过注意力机制引导后语句的上下文特征信息嵌入表示s2,计算公式如下:
目标语句的局部特征表示信息Vl由s1和s2得到:
V1=ρ1*s1+(1-ρ1)*s2
其中权重参数ρ1∈[0,1]。
5.根据权利要求1所述的方法,其特征在于,所述步骤S7中全局特征表示信息Vg的计算方式为:
Vg=s*t
其中s为每一层GRU最后一个节点输出的总和,编码了目标语句的全局信息;t为事件类型特征随机初始化后的嵌入向量,用于捕获目标语句的全局特征表示信息。
6.根据权利要求1所述的方法,其特征在于,所述步骤S8中模型输出值o计算如下:
o=σ[ρ2*∑iVgi+(1-ρ2)*∑iVli]
其中权重参数ρ2∈[0,1],σ为sigmoid函数,将输出映射到[0,1]范围内,表示目标语句属于当前输入事件类型的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110699105.0A CN113420117B (zh) | 2021-06-23 | 2021-06-23 | 一种基于多元特征融合的突发事件分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110699105.0A CN113420117B (zh) | 2021-06-23 | 2021-06-23 | 一种基于多元特征融合的突发事件分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113420117A true CN113420117A (zh) | 2021-09-21 |
CN113420117B CN113420117B (zh) | 2023-10-20 |
Family
ID=77716405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110699105.0A Active CN113420117B (zh) | 2021-06-23 | 2021-06-23 | 一种基于多元特征融合的突发事件分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420117B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116112746A (zh) * | 2023-04-10 | 2023-05-12 | 成都有为财商教育科技有限公司 | 在线教育直播视频压缩方法及系统 |
CN116108169A (zh) * | 2022-12-12 | 2023-05-12 | 长三角信息智能创新研究院 | 一种基于知识图谱的热线工单智能分派方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846017A (zh) * | 2018-05-07 | 2018-11-20 | 国家计算机网络与信息安全管理中心 | 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 |
US20190354797A1 (en) * | 2018-05-18 | 2019-11-21 | Synaptics Incorporated | Recurrent multimodal attention system based on expert gated networks |
CN111581396A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种基于多维特征融合与依存句法的事件图谱构建系统及方法 |
CN112307740A (zh) * | 2020-12-30 | 2021-02-02 | 中国人民解放军国防科技大学 | 一种基于混合注意力网络的事件检测方法及装置 |
US20210056168A1 (en) * | 2019-08-20 | 2021-02-25 | International Business Machines Corporation | Natural language processing using an ontology-based concept embedding model |
-
2021
- 2021-06-23 CN CN202110699105.0A patent/CN113420117B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108846017A (zh) * | 2018-05-07 | 2018-11-20 | 国家计算机网络与信息安全管理中心 | 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法 |
US20190354797A1 (en) * | 2018-05-18 | 2019-11-21 | Synaptics Incorporated | Recurrent multimodal attention system based on expert gated networks |
US20210056168A1 (en) * | 2019-08-20 | 2021-02-25 | International Business Machines Corporation | Natural language processing using an ontology-based concept embedding model |
CN111581396A (zh) * | 2020-05-06 | 2020-08-25 | 西安交通大学 | 一种基于多维特征融合与依存句法的事件图谱构建系统及方法 |
CN112307740A (zh) * | 2020-12-30 | 2021-02-02 | 中国人民解放军国防科技大学 | 一种基于混合注意力网络的事件检测方法及装置 |
Non-Patent Citations (2)
Title |
---|
余本功;朱梦迪;: "基于层级注意力多通道卷积双向GRU的问题分类研究", 数据分析与知识发现, no. 08, pages 54 - 66 * |
余蓓;刘宇;顾进广;: "基于概念图谱与BiGRU-Att模型的突发事件演化关系抽取", 武汉科技大学学报, no. 02, pages 51 - 58 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116108169A (zh) * | 2022-12-12 | 2023-05-12 | 长三角信息智能创新研究院 | 一种基于知识图谱的热线工单智能分派方法 |
CN116108169B (zh) * | 2022-12-12 | 2024-02-20 | 长三角信息智能创新研究院 | 一种基于知识图谱的热线工单智能分派方法 |
CN116112746A (zh) * | 2023-04-10 | 2023-05-12 | 成都有为财商教育科技有限公司 | 在线教育直播视频压缩方法及系统 |
CN116112746B (zh) * | 2023-04-10 | 2023-07-14 | 成都有为财商教育科技有限公司 | 在线教育直播视频压缩方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113420117B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110134757B (zh) | 一种基于多头注意力机制的事件论元角色抽取方法 | |
CN109726389B (zh) | 一种基于常识和推理的中文缺失代词补全方法 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN110704598A (zh) | 一种语句信息的抽取方法、抽取装置及可读存储介质 | |
CN111966812B (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
CN113312500A (zh) | 一种面向大坝安全运行的事件图谱构建方法 | |
CN110222178A (zh) | 文本情感分类方法、装置、电子设备及可读存储介质 | |
CN113095415B (zh) | 一种基于多模态注意力机制的跨模态哈希方法及系统 | |
CN111159485B (zh) | 尾实体链接方法、装置、服务器及存储介质 | |
CN112883732A (zh) | 基于关联记忆网络的中文细粒度命名实体识别方法及装置 | |
CN111159407A (zh) | 训练实体识别和关系分类模型的方法、装置、设备及介质 | |
CN110472062B (zh) | 识别命名实体的方法及装置 | |
CN113420117B (zh) | 一种基于多元特征融合的突发事件分类方法 | |
CN113742733A (zh) | 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置 | |
CN110852071B (zh) | 知识点检测方法、装置、设备及可读存储介质 | |
CN114528835A (zh) | 基于区间判别的半监督专业术语抽取方法、介质及设备 | |
CN115081430A (zh) | 中文拼写检错纠错方法、装置、电子设备及存储介质 | |
CN110659392B (zh) | 检索方法及装置、存储介质 | |
CN113836269B (zh) | 一种基于问答式系统的篇章级核心事件抽取方法 | |
CN114691525A (zh) | 测试用例的选择方法及装置 | |
CN114742016A (zh) | 一种基于多粒度实体异构图的篇章级事件抽取方法及装置 | |
CN113779190A (zh) | 事件因果关系识别方法、装置、电子设备与存储介质 | |
CN116629211B (zh) | 基于人工智能的写作方法及系统 | |
CN113536784A (zh) | 文本处理方法、装置、计算机设备和存储介质 | |
CN111859979A (zh) | 讽刺文本协同识别方法、装置、设备及计算机可读介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |