CN116227598A - 一种基于双阶段注意力机制的事件预测方法、设备及介质 - Google Patents

一种基于双阶段注意力机制的事件预测方法、设备及介质 Download PDF

Info

Publication number
CN116227598A
CN116227598A CN202310504806.3A CN202310504806A CN116227598A CN 116227598 A CN116227598 A CN 116227598A CN 202310504806 A CN202310504806 A CN 202310504806A CN 116227598 A CN116227598 A CN 116227598A
Authority
CN
China
Prior art keywords
causal
event
stage
generalization
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310504806.3A
Other languages
English (en)
Other versions
CN116227598B (zh
Inventor
王华杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Yunwei Software Technology Co ltd
Shandong University of Finance and Economics
Original Assignee
Jinan Yunwei Software Technology Co ltd
Shandong University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Yunwei Software Technology Co ltd, Shandong University of Finance and Economics filed Critical Jinan Yunwei Software Technology Co ltd
Priority to CN202310504806.3A priority Critical patent/CN116227598B/zh
Publication of CN116227598A publication Critical patent/CN116227598A/zh
Application granted granted Critical
Publication of CN116227598B publication Critical patent/CN116227598B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于双阶段注意力机制的事件预测方法、设备及介质,属于模型预测技术领域,用于解决现有因果事件中语义的序列长度难以进行完整性的提取,并且难以准确地聚焦出该序列信息中的关键信息,影响了因果事件中各个语料因果关系的预测识别的技术问题。方法包括:将因果事件中各个语料所对应的因果网络图进行泛化处理,得到泛化因果网络;然后对若干因果事件中谓语动词的语义进行注意力机制训练,并基于预设相似度度量,对若干因果事件中多种语法进行拼接训练,得到第二阶段注意力的推理模型;再对语义序列信息进行有关各语料之间因果关系的预测,得到因果关系预测结果;并将因果关系预测结果发送到客户端中。

Description

一种基于双阶段注意力机制的事件预测方法、设备及介质
技术领域
本申请涉及模型预测领域,尤其涉及一种基于双阶段注意力机制的事件预测方法、设备及介质。
背景技术
由于自然语言本身的时序特性,在需要处理复杂任务、进行大规模运算时,通过循环神经网络在建立长距离依赖的过程,仍然掣肘于计算和存储能力,从而限制了神经网络在自然语言处理中的发展。
在一个阅读理解场景,现有的因果推理模型需要根据全文内容回答相关的问题,但无法预知问题,而为了回答相关问题需要最大程度地掌握语义,因果推理模型需要逐句逐字地记忆信息,同时也无法捕捉过长序列包含的信息,仅仅只能获取一定序列长度内的信息,不能完整的获取事件序列信息,难以准确的预测聚焦出该事件序列信息中的关键信息,以至于造成了因果事件中语料因果关系的预测提取不够精确。
发明内容
本申请实施例提供了一种基于双阶段注意力机制的事件预测方法、设备及介质,用于解决如下技术问题:现有因果事件中语义的序列长度难以进行完整性的提取,并且难以准确地聚焦出该序列信息中的关键信息,影响了因果事件中各个语料因果关系的预测识别。
本申请实施例采用下述技术方案:
一方面,本申请实施例提供了一种基于双阶段注意力机制的事件预测方法,包括:将预设因果事件中各个语料所对应的因果网络图进行有关节点集合与边集合的泛化处理,得到泛化因果网络;通过所述泛化因果网络中的事件特征向量,对若干因果事件中谓语动词的语义进行注意力机制训练,得到第一阶段注意力的推理模型;根据所述第一阶段注意力的推理模型,并基于预设相似度度量,对所述若干因果事件中多种语法进行拼接训练,得到第二阶段注意力的推理模型;通过所述第二阶段注意力的推理模型,对因果事件中的语义序列信息进行有关各语料之间因果关系的预测,得到基于所述语义序列信息的因果关系预测结果;并将所述因果关系预测结果发送到工作人员的客户端中,以方便所述工作人员查看。
本申请实施例通过双阶段的注意力机制,将因果事件中各个语料的语义序列长度进行了聚焦化注意,利用两次注意力机制的模型训练,能够通过预设的泛化因果网络进行事件特征向量的学习,然后再基于第一阶段注意力的推理模型进行的谓语动词的语义注意,并结合第二阶段注意力的推理模型的各个预料间因果关系的相关性与必然性的预测,能够更加准确地聚焦出该序列信息中的关键信息,提高了因果事件中各个语料因果关系的预测准确性,保证了双阶段注意力推理模型的事件推理的准确率。
在一种可行的实施方式中,将预设因果事件中各个语料所对应的因果网络图进行有关节点集合与边集合的泛化处理,得到泛化因果网络,具体包括:将所述预设因果事件中各个语料所对应的因果知识网络进行有关节点与边的相同集合分类,得到基于所述因果知识网络的节点集合与边集合;根据所述因果知识网络中节点集合的共现频率,确定出所述因果网络中有关边集合的有向边权重;基于所述因果知识网络中每个因果对的相关性信息与必然性信息,并根据所述有向边权重,对所述因果知识网络进行因果对应关系的权重训练,得到所述泛化因果网络。
在一种可行的实施方式中,在通过所述泛化因果网络中的事件特征向量,对若干因果事件中谓语动词的语义进行注意力机制训练,得到第一阶段注意力的推理模型之前,所述方法还包括:通过预设DeepWalk算法,将与所述泛化因果网络对应的泛化因果网络图进行节点序列的转化,并将转换后的若干节点进行节点的向量嵌入,得到所述若干节点的节点特征向量;通过所述泛化因果网络,将若干因果事件中的因果事件特征对应到所述节点特征向量中,得到所述泛化因果网络中的事件特征向量;其中,所述事件特征向量包括:查询向量、关键向量以及价值向量。
在一种可行的实施方式中,通过所述泛化因果网络中的事件特征向量,对若干因果事件中谓语动词的语义进行注意力机制训练,得到第一阶段注意力的推理模型,具体包括:基于预设的注意力机制,将所述泛化因果网络中的事件特征向量与所述若干因果事件中谓语动词的语义进行对应聚焦训练,具体包括:将所述泛化因果网络中的线性层进行输出分割,得到线性层输出结果;其中,所述线性层输出结果包括:超参batch-size、MCNC任务输出维度以及所述泛化因果网络中的隐藏层维度;基于所述泛化因果网络中的事件特征向量,将所述线性层输出结果中对应的隐藏层维度进行行列的划分,得到所述超参batch-size的维度;其中,所述超参batch-size的维度包括超参batch-size的a维度与超参batch-size的b维度;通过预设的Relu激活函数,将所述超参batch-size的维度分别与所述事件特征向量中的价值向量共同输入到所述线性层中,分别确定出基于所述超参batch-size的a维度的关键向量以及基于所述超参batch-size的b维度的查询向量;其中,所述关键向量与所述查询向量均在所述事件特征向量中;基于预设打分函数,将所述关键向量与所述查询向量进行打分计算,得到所述注意力机制的聚焦输出分数;根据所述聚焦输出分数,对所述若干因果事件中谓语动词的语义进行有关所述注意力机制的聚焦训练,得到所述第一阶段注意力的推理模型,以实现对若干因果事件中谓语动词的语义进行初步识别提取。
本申请实施例通过第一阶段注意力的推理模型,能够更好的捕捉谓语短语及其时态在泛化因果网络中的语义。
在一种可行的实施方式中,基于预设打分函数,将所述关键向量与所述查询向量进行打分计算,得到所述注意力机制的聚焦输出分数,具体包括:根据
Figure SMS_1
,得到所述注意力机制的聚焦输出分数;其中,k为关键向量,v为价值向量,q为查询向量,
Figure SMS_2
所述超参batch-size的a维度的集合序列,
Figure SMS_3
为所述价值向量的集合序列,n为序列数,exp为指数函数,
Figure SMS_4
为所述价值向量的n集合序列,
Figure SMS_5
为所述价值向量的j集合序列,s为预设打分函数Score(k,q)=tanh(k+q)。
在一种可行的实施方式中,根据所述第一阶段注意力的推理模型,并基于预设相似度度量,对所述若干因果事件中多种语法进行拼接训练,得到第二阶段注意力的推理模型,具体包括:根据训练后的所述第一阶段注意力的推理模型,对若干因果事件中谓语动词的语义主体以及对应上下文信息的识别提取,得到若干因果语句;将所述若干因果语句中的谓语动词以及其他短语参数进行组合拼接,得到单一语句,并提取所述单一语句的特征向量;其中,所述其他短语参数包括:主语、宾语以及介词短语;根据预设的DOT距离相似度度量,将所述特征向量与预设目标特征向量进行相似度的比较计算,得到特征相似度;根据所述特征相似度,将所述单一语句中的谓语动词以及其他短语参数重新进行拼接训练,迭代至所述特征相似度符合预设相似度,并得到所述第二阶段注意力的推理模型。
本申请实施例通过若干因果语句中的谓语动词进行主语、宾语、介词短语的组合拼接,同时使用DOT距离相似度度量能够更好的帮助单一语句的特征向量的模型训练,生成二阶段注意力的推理模型。
在一种可行的实施方式中,通过所述第二阶段注意力的推理模型,对因果事件中的语义序列信息进行有关各语料之间因果关系的预测,得到基于所述语义序列信息的因果关系预测结果,具体包括:获取待处理的因果事件中的语义序列信息;其中,所述语义序列信息为基于若干因果语句中的谓语动词以及其他短语参数进行组合拼接的序列信息;将所述语义序列信息传递给训练后第二阶段注意力的推理模型的Bert Encoder中,并进行各语料之间的因果关系预测,分别得到每个语义序列信息的特征向量以及所述每个语义序列信息的因果关系预测值;其中,所述因果关系预测值为所述因果事件中任意两个语料属于同一因果关系的概率大小;基于预设交叉熵损失函数,对每个语义序列信息的特征向量进行关各语料之间因果关系的最大化期望处理,得到所述语义序列信息的因果关系期望值;将所述因果关系期望值与所述因果关系预测值进行比较判断,得到所述因果关系预测结果。
本申请实施例通过将因果关系期望值与因果关系预测值进行比较判断,根据两个值的差距大小,来判断出因果关系预测结果中预测的准确性。
在一种可行的实施方式中,将所述因果关系预测结果发送到工作人员的客户端中,以方便所述工作人员查看,具体包括:
通过预设实时通讯终端,将所述因果关系预测结果发送给实时通讯服务器中;并根据预安装了实时通讯客户端,实时获取所述因果关系预测结果,以实现所述工作人员对所述因果关系预测结果的实时监督查看。
第二方面,本申请实施例还提供了一种基于双阶段注意力机制的事件预测设备,所述设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有能够被所述至少一个处理器执行的指令,以使所述至少一个处理器能够执行上述任一实施方式所述的一种基于双阶段注意力机制的事件预测方法。
第三方面,本申请实施例还提供了一种非易失性计算机存储介质,其特征在于,所述存储介质为非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有至少一个程序,每个所述程序包括指令,所述指令当被终端执行时,使所述终端执行上述任一实施方式所述的一种基于双阶段注意力机制的事件预测方法。
本申请提供了一种基于双阶段注意力机制的事件预测方法、设备及介质,通过双阶段的注意力机制,将因果事件中各个语料的语义序列长度进行了聚焦化注意,利用两次注意力机制的模型训练,能够通过预设的泛化因果网络进行事件特征向量的学习,然后再基于第一阶段注意力的推理模型进行的谓语动词的语义注意,并结合第二阶段注意力的推理模型的各个预料间因果关系的相关性与必然性的预测,能够更加准确地聚焦出该序列信息中的关键信息,提高了因果事件中各个语料因果关系的预测准确性,保证了双阶段注意力推理模型的事件推理的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本申请实施例提供的一种基于双阶段注意力机制的事件预测方法流程图;
图2为本申请实施例提供的一种基于双阶段注意力机制的事件预测设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本说明书实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
本申请实施例提供了一种基于双阶段注意力机制的事件预测方法,如图1所示,基于双阶段注意力机制的事件预测方法具体包括步骤S101-S104:
S101、将预设因果事件中各个语料所对应的因果网络图进行有关节点集合与边集合的泛化处理,得到泛化因果网络。
具体地,将预设因果事件中各个语料所对应的因果知识网络进行有关节点与边的相同集合分类,得到基于因果知识网络的节点集合与边集合。根据因果知识网络中节点集合的共现频率,确定出因果网络中有关边集合的有向边权重。
进一步地,基于因果知识网络中每个因果对的相关性信息与必然性信息,并根据有向边权重,对因果知识网络进行因果对应关系的权重训练,得到泛化因果网络。
在一个实施例中,根据
Figure SMS_8
,得到因果网络图中有关边集合的有向边权重
Figure SMS_10
。其中,
Figure SMS_12
为因果网络图中节点集合的共现频率,k为共现频率的个数,
Figure SMS_7
为节点集合中的原因节点,
Figure SMS_9
为节点集合中的结果节点。通过有关边集合的有向边权重、因果必然性概率以及因果充分性概率,对因果网络图进行广泛化的因果关系依赖训练,得到泛化因果网络。对所有因果网络图中节点集合的共现频率进行计算,并且作为边集合中边的权重,得到因果网络图中有关边集合中每个边的有向边权重
Figure SMS_11
,即有向边
Figure SMS_13
Figure SMS_6
作为一种可行的实施方式,因果必然性 (Necessity Causality) 是指再叙事事件链集合中因果文本的一种因果对中,原因文本必须在结果文本之前发生。而因果充分性是指在一种因果对中,原因文本发生了,结果文本一定会发生。
S102、通过泛化因果网络中的事件特征向量,对若干因果事件中谓语动词的语义进行注意力机制训练,得到第一阶段注意力的推理模型。
具体地,通过预设DeepWalk算法,将与泛化因果网络对应的泛化因果网络图进行节点序列的转化,并将转换后的若干节点进行节点的向量嵌入,得到若干节点的节点特征向量。通过泛化因果网络,将若干因果事件中的因果事件特征对应到节点特征向量中,得到泛化因果网络中的事件特征向量。其中,事件特征向量包括:查询向量、关键向量以及价值向量。
作为一种可行的实施方式,首先通过DeepWalk算法,将泛化因果网络对应的泛化因果网络图进行节点序列的转化,以实现多个节点的向量嵌入,完成节点的降维处理,得到多个节点的节点特征向量,然后将泛化因果网络对应的节点映射到低维连续向量空间中,得到因果事件的图谱语义信息与图结构信息,将若干因果事件中的因果事件特征对应到节点特征向量中,最终得到泛化因果网络中的事件特征向量。
进一步地,基于预设的注意力机制,将泛化因果网络中的事件特征向量与若干因果事件中谓语动词的语义进行对应聚焦训练,具体包括:将泛化因果网络中的线性层进行输出分割,得到线性层输出结果。其中,线性层输出结果包括:超参batch-size、MCNC任务输出维度以及泛化因果网络中的隐藏层维度。基于泛化因果网络中的事件特征向量,将线性层输出结果中对应的隐藏层维度进行行列的划分,得到超参batch-size的维度。其中,超参batch-size的维度包括超参batch-size的a维度与超参batch-size的b维度。
进一步地,通过预设的Relu激活函数,将超参batch-size的维度分别与事件特征向量中的价值向量共同输入到线性层中,分别确定出基于超参batch-size的a维度的关键向量以及基于超参batch-size的b维度的查询向量。其中,关键向量与查询向量均在事件特征向量中。基于预设打分函数,将关键向量与查询向量进行打分计算,得到注意力机制的聚焦输出分数。
其中,根据
Figure SMS_14
,得到注意力机制的聚焦输出分数。其中,k为关键向量,v为价值向量,q为查询向量,
Figure SMS_15
为超参batch-size的a维度的集合序列,
Figure SMS_16
为价值向量的集合序列,n为序列数,exp为指数函数,
Figure SMS_17
为价值向量的n集合序列,
Figure SMS_18
为价值向量的j集合序列,s为预设打分函数Score(k,q)=tanh(k+q)。
在一个实施中,对线性层的输出进行分割,线性层输出结果的维度为Hb×Hm×Hs,其中Hb为超参batch-size的大小,Hs为MCNC任务输出的维度 13,其中前8列代表八个上下文,后5列代表五个选项,Hm为隐藏层(hidden-dim) 的维度128,然后将线性层输出的第二个维度( Hm)分为前8列{a1,...,an},与后5列{b1,...,bn},则参数a维度为batch-size×8×128,参数b维度为batch-size×5×128,然后将
Figure SMS_19
序列作为注意力机制中的价值向量(value factor),并将其与bn分别两次输入线性层并使用Relu激活函数进行激活,前者输出后将被作为注意力机制中的关键向量(key factor),后者输出后将被作为查询向量(query factor),这两个向量将被输入注意力的打分函数Score(k,q)中。
作为一种可行的实施方式,隐藏层层数同样是一个需要权衡的参数设置,增加隐藏层深度可以让输入序列有更好的表示,使其包含更多的信息,如果模型隐藏层层数设置过多,深度学习的神经网络过深,会因为梯度反向传播 (Back Propagation) 导致梯度过小,而造成“梯度消失”(Vanishing Gradient Problem),训练准确率下降。
进一步地,根据聚焦输出分数,对若干因果事件中谓语动词的语义进行有关注意力机制的聚焦训练,得到第一阶段注意力的推理模型,以实现对若干因果事件中谓语动词的语义进行初步识别提取。
S103、根据第一阶段注意力的推理模型,并基于预设相似度度量,对若干因果事件中多种语法进行拼接训练,得到第二阶段注意力的推理模型。
具体地,根据训练后的第一阶段注意力的推理模型,对若干因果事件中谓语动词的语义主体以及对应上下文信息的识别提取,得到若干因果语句。将若干因果语句中的谓语动词以及其他短语参数进行组合拼接,得到单一语句,并提取单一语句的特征向量。其中,其他短语参数包括:主语、宾语以及介词短语。根据预设的DOT距离相似度度量,将特征向量与预设目标特征向量进行相似度的比较计算,得到特征相似度。
作为一种可行的实施方式,根据
Figure SMS_20
,得到特征相似度,其中,X为特征向量,Y为预设目标特征向量。
进一步地,根据特征相似度,将单一语句中的谓语动词以及其他短语参数重新进行拼接训练,迭代至特征相似度符合预设相似度,并得到第二阶段注意力的推理模型。
S104、通过第二阶段注意力的推理模型,对因果事件中的语义序列信息进行有关各语料之间因果关系的预测,得到基于语义序列信息的因果关系预测结果。并将因果关系预测结果发送到工作人员的客户端中,以方便工作人员查看。
具体地,获取待处理的因果事件中的语义序列信息。其中,语义序列信息为基于若干因果语句中的谓语动词以及其他短语参数进行组合拼接的序列信息。将语义序列信息传递给训练后第二阶段注意力的推理模型的Bert Encoder中,并进行各语料之间的因果关系预测,分别得到每个语义序列信息的特征向量以及每个语义序列信息的因果关系预测值。其中,因果关系预测值为因果事件中任意两个语料属于同一因果关系的概率大小。
进一步地,基于预设交叉熵损失函数,对每个语义序列信息的特征向量进行关各语料之间因果关系的最大化期望处理,得到语义序列信息的因果关系期望值。将因果关系期望值与因果关系预测值进行比较判断,得到因果关系预测结果。
进一步地,通过预设实时通讯终端,将因果关系预测结果发送给实时通讯服务器中。并根据预安装了实时通讯客户端,实时获取因果关系预测结果,以实现工作人员对因果关系预测结果的实时监督查看。
作为一种可行的实施方式,泛化因果网络能够高效的表达因果关系,在泛化因果网络的基础上,二阶段注意力方法的事件推理模型能够有效提升了事件推理的准确率。其中第一阶段的注意力推理模型只传递谓词,能够很好的捕捉谓词短语及其时态在因果网络中的语义,第二阶段的注意力推理模型能够进行主语、宾语、介词短语的组合拼接,同时使用DOT相似度度量能够将每个语义序列信息进行有关因果关系的聚焦,提高了因果事件中各个语料因果关系的预测准确性,保证了双阶段注意力推理模型的事件推理的准确率。
另外,本申请实施例还提供了一种基于双阶段注意力机制的事件预测设备,如图2所示,基于双阶段注意力机制的事件预测设备200具体包括:
至少一个处理器201;以及,与至少一个处理器201通信连接的存储器202;其中,存储器202存储有能够被至少一个处理器201执行的指令,以使至少一个处理器201能够执行:
将预设因果事件中各个语料所对应的因果网络图进行有关节点集合与边集合的泛化处理,得到泛化因果网络;
通过泛化因果网络中的事件特征向量,对若干因果事件中谓语动词的语义进行注意力机制训练,得到第一阶段注意力的推理模型;
根据第一阶段注意力的推理模型,并基于预设相似度度量,对若干因果事件中多种语法进行拼接训练,得到第二阶段注意力的推理模型;
通过第二阶段注意力的推理模型,对因果事件中的语义序列信息进行有关各语料之间因果关系的预测,得到基于语义序列信息的因果关系预测结果;并将因果关系预测结果发送到工作人员的客户端中,以方便工作人员查看。
本申请实施例通过双阶段的注意力机制,将因果事件中各个语料的语义序列长度进行了聚焦化注意,利用两次注意力机制的模型训练,能够通过预设的泛化因果网络进行事件特征向量的学习,然后再基于第一阶段注意力的推理模型进行的谓语动词的语义注意,并结合第二阶段注意力的推理模型的各个预料间因果关系的相关性与必然性的预测,能够更加准确地聚焦出该序列信息中的关键信息,提高了因果事件中各个语料因果关系的预测准确性,保证了双阶段注意力推理模型的事件推理的准确率。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备、非易失性计算机存储介质实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的设备和介质与方法是一一对应的,因此,设备和介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备和介质的有益技术效果。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请的实施例可以有各种更改和变化。凡在本申请实施例的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于双阶段注意力机制的事件预测方法,其特征在于,所述方法包括:
将预设因果事件中各个语料所对应的因果网络图进行有关节点集合与边集合的泛化处理,得到泛化因果网络;
通过所述泛化因果网络中的事件特征向量,对若干因果事件中谓语动词的语义进行注意力机制训练,得到第一阶段注意力的推理模型;
根据所述第一阶段注意力的推理模型,并基于预设相似度度量,对所述若干因果事件中多种语法进行拼接训练,得到第二阶段注意力的推理模型;
通过所述第二阶段注意力的推理模型,对因果事件中的语义序列信息进行有关各语料之间因果关系的预测,得到基于所述语义序列信息的因果关系预测结果;并将所述因果关系预测结果发送到工作人员的客户端中,以方便所述工作人员查看。
2.根据权利要求1所述的一种基于双阶段注意力机制的事件预测方法,其特征在于,将预设因果事件中各个语料所对应的因果网络图进行有关节点集合与边集合的泛化处理,得到泛化因果网络,具体包括:
将所述预设因果事件中各个语料所对应的因果知识网络进行有关节点与边的相同集合分类,得到基于所述因果知识网络的节点集合与边集合;
根据所述因果知识网络中节点集合的共现频率,确定出所述因果网络中有关边集合的有向边权重;
基于所述因果知识网络中每个因果对的相关性信息与必然性信息,并根据所述有向边权重,对所述因果知识网络进行因果对应关系的权重训练,得到所述泛化因果网络。
3.根据权利要求1所述的一种基于双阶段注意力机制的事件预测方法,其特征在于,在通过所述泛化因果网络中的事件特征向量,对若干因果事件中谓语动词的语义进行注意力机制训练,得到第一阶段注意力的推理模型之前,所述方法还包括:
通过预设DeepWalk算法,将与所述泛化因果网络对应的泛化因果网络图进行节点序列的转化,并将转换后的若干节点进行节点的向量嵌入,得到所述若干节点的节点特征向量;
通过所述泛化因果网络,将若干因果事件中的因果事件特征对应到所述节点特征向量中,得到所述泛化因果网络中的事件特征向量;其中,所述事件特征向量包括:查询向量、关键向量以及价值向量。
4.根据权利要求1所述的一种基于双阶段注意力机制的事件预测方法,其特征在于,通过所述泛化因果网络中的事件特征向量,对若干因果事件中谓语动词的语义进行注意力机制训练,得到第一阶段注意力的推理模型,具体包括:
基于预设的注意力机制,将所述泛化因果网络中的事件特征向量与所述若干因果事件中谓语动词的语义进行对应聚焦训练,具体包括:
将所述泛化因果网络中的线性层进行输出分割,得到线性层输出结果;其中,所述线性层输出结果包括:超参batch-size、MCNC任务输出维度以及所述泛化因果网络中的隐藏层维度;
基于所述泛化因果网络中的事件特征向量,将所述线性层输出结果中对应的隐藏层维度进行行列的划分,得到所述超参batch-size的维度;其中,所述超参batch-size的维度包括超参batch-size的a维度与超参batch-size的b维度;
通过预设的Relu激活函数,将所述超参batch-size的维度分别与所述事件特征向量中的价值向量共同输入到所述线性层中,分别确定出基于所述超参batch-size的a维度的关键向量以及基于所述超参batch-size的b维度的查询向量;其中,所述关键向量与所述查询向量均在所述事件特征向量中;
基于预设打分函数,将所述关键向量与所述查询向量进行打分计算,得到所述注意力机制的聚焦输出分数;
根据所述聚焦输出分数,对所述若干因果事件中谓语动词的语义进行有关所述注意力机制的聚焦训练,得到所述第一阶段注意力的推理模型,以实现对若干因果事件中谓语动词的语义进行初步识别提取。
5.根据权利要求4所述的一种基于双阶段注意力机制的事件预测方法,其特征在于,基于预设打分函数,将所述关键向量与所述查询向量进行打分计算,得到所述注意力机制的聚焦输出分数,具体包括:
根据
Figure QLYQS_1
,得到所述注意力机制的聚焦输出分数;其中,k为关键向量,v为价值向量,q为查询向量,
Figure QLYQS_2
为所述超参batch-size的a维度的集合序列,
Figure QLYQS_3
为所述价值向量的集合序列,n为序列数,exp为指数函数,
Figure QLYQS_4
为所述价值向量的n集合序列,
Figure QLYQS_5
为所述价值向量的j集合序列,s为预设打分函数Score(k,q)=tanh(k+q)。
6.根据权利要求1所述的一种基于双阶段注意力机制的事件预测方法,其特征在于,根据所述第一阶段注意力的推理模型,并基于预设相似度度量,对所述若干因果事件中多种语法进行拼接训练,得到第二阶段注意力的推理模型,具体包括:
根据训练后的所述第一阶段注意力的推理模型,对若干因果事件中谓语动词的语义主体以及对应上下文信息的识别提取,得到若干因果语句;
将所述若干因果语句中的谓语动词以及其他短语参数进行组合拼接,得到单一语句,并提取所述单一语句的特征向量;其中,所述其他短语参数包括:主语、宾语以及介词短语;
根据预设的DOT距离相似度度量,将所述特征向量与预设目标特征向量进行相似度的比较计算,得到特征相似度;
根据所述特征相似度,将所述单一语句中的谓语动词以及其他短语参数重新进行拼接训练,迭代至所述特征相似度符合预设相似度,并得到所述第二阶段注意力的推理模型。
7.根据权利要求1所述的一种基于双阶段注意力机制的事件预测方法,其特征在于,通过所述第二阶段注意力的推理模型,对因果事件中的语义序列信息进行有关各语料之间因果关系的预测,得到基于所述语义序列信息的因果关系预测结果,具体包括:
获取待处理的因果事件中的语义序列信息;其中,所述语义序列信息为基于若干因果语句中的谓语动词以及其他短语参数进行组合拼接的序列信息;
将所述语义序列信息传递给训练后第二阶段注意力的推理模型的Bert Encoder中,并进行各语料之间的因果关系预测,分别得到每个语义序列信息的特征向量以及所述每个语义序列信息的因果关系预测值;其中,所述因果关系预测值为所述因果事件中任意两个语料属于同一因果关系的概率大小;
基于预设交叉熵损失函数,对每个语义序列信息的特征向量进行关各语料之间因果关系的最大化期望处理,得到所述语义序列信息的因果关系期望值;
将所述因果关系期望值与所述因果关系预测值进行比较判断,得到所述因果关系预测结果。
8.根据权利要求1所述的一种基于双阶段注意力机制的事件预测方法,其特征在于,将所述因果关系预测结果发送到工作人员的客户端中,以方便所述工作人员查看,具体包括:
通过预设实时通讯终端,将所述因果关系预测结果发送给实时通讯服务器中;并根据预安装了实时通讯客户端,实时获取所述因果关系预测结果,以实现所述工作人员对所述因果关系预测结果的实时监督查看。
9.一种基于双阶段注意力机制的事件预测设备,其特征在于,所述设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有能够被所述至少一个处理器执行的指令,以使所述至少一个处理器能够执行根据权利要求1-8任一项所述的一种基于双阶段注意力机制的事件预测方法。
10.一种非易失性计算机存储介质,其特征在于,所述存储介质为非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有至少一个程序,每个所述程序包括指令,所述指令当被终端执行时,使所述终端执行根据权利要求1-8任一项所述的一种基于双阶段注意力机制的事件预测方法。
CN202310504806.3A 2023-05-08 2023-05-08 一种基于双阶段注意力机制的事件预测方法、设备及介质 Active CN116227598B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310504806.3A CN116227598B (zh) 2023-05-08 2023-05-08 一种基于双阶段注意力机制的事件预测方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310504806.3A CN116227598B (zh) 2023-05-08 2023-05-08 一种基于双阶段注意力机制的事件预测方法、设备及介质

Publications (2)

Publication Number Publication Date
CN116227598A true CN116227598A (zh) 2023-06-06
CN116227598B CN116227598B (zh) 2023-07-11

Family

ID=86580962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310504806.3A Active CN116227598B (zh) 2023-05-08 2023-05-08 一种基于双阶段注意力机制的事件预测方法、设备及介质

Country Status (1)

Country Link
CN (1) CN116227598B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180121785A1 (en) * 2016-11-03 2018-05-03 Nec Laboratories America, Inc. Context-aware attention-based neural network for interactive question answering
CN110781369A (zh) * 2018-07-11 2020-02-11 天津大学 一种基于依存句法和泛化因果网络进行情感原因挖掘方法
CN111444402A (zh) * 2019-10-29 2020-07-24 天津大学 基于索引构建和社会因控网络进行社区检测的分析方法
CN111709225A (zh) * 2020-05-09 2020-09-25 北京明略软件系统有限公司 一种事件因果关系判别方法、装置和计算机可读存储介质
CN113392137A (zh) * 2021-05-06 2021-09-14 杭州电子科技大学 基于双窗口机制的多变量时间序列数据预测模型
CN113919319A (zh) * 2021-10-15 2022-01-11 中国人民解放军国防科技大学 基于动作场景强化的脚本事件预测方法
CN114038212A (zh) * 2021-10-19 2022-02-11 南京航空航天大学 基于双阶段注意力机制和深度强化学习的信号灯控制方法
CN114080609A (zh) * 2020-11-18 2022-02-22 阿里巴巴集团控股有限公司 基于编码知识的非线性因果建模
US20220101103A1 (en) * 2020-09-25 2022-03-31 Royal Bank Of Canada System and method for structure learning for graph neural networks

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180121785A1 (en) * 2016-11-03 2018-05-03 Nec Laboratories America, Inc. Context-aware attention-based neural network for interactive question answering
CN110781369A (zh) * 2018-07-11 2020-02-11 天津大学 一种基于依存句法和泛化因果网络进行情感原因挖掘方法
CN111444402A (zh) * 2019-10-29 2020-07-24 天津大学 基于索引构建和社会因控网络进行社区检测的分析方法
CN111709225A (zh) * 2020-05-09 2020-09-25 北京明略软件系统有限公司 一种事件因果关系判别方法、装置和计算机可读存储介质
US20220101103A1 (en) * 2020-09-25 2022-03-31 Royal Bank Of Canada System and method for structure learning for graph neural networks
CN114080609A (zh) * 2020-11-18 2022-02-22 阿里巴巴集团控股有限公司 基于编码知识的非线性因果建模
CN113392137A (zh) * 2021-05-06 2021-09-14 杭州电子科技大学 基于双窗口机制的多变量时间序列数据预测模型
CN113919319A (zh) * 2021-10-15 2022-01-11 中国人民解放军国防科技大学 基于动作场景强化的脚本事件预测方法
CN114038212A (zh) * 2021-10-19 2022-02-11 南京航空航天大学 基于双阶段注意力机制和深度强化学习的信号灯控制方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HUAJIE WANG 等: "EREC: Enhanced Language Representations with Event Chains", 《MDPI》, pages 1 - 13 *
孙杰 等: "结合注意力机制和因果卷积网络的维吾尔语方言识别", 《声学技术》, pages 697 - 703 *

Also Published As

Publication number Publication date
CN116227598B (zh) 2023-07-11

Similar Documents

Publication Publication Date Title
Obamuyide et al. Zero-shot relation classification as textual entailment
CN110705255B (zh) 检测语句之间的关联关系的方法和装置
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN113761868B (zh) 文本处理方法、装置、电子设备及可读存储介质
CN116304748B (zh) 一种文本相似度计算方法、系统、设备及介质
CN113779227B (zh) 案情事实抽取方法及系统及装置及介质
Gnanasekaran et al. Using Recurrent Neural Networks for Classification of Natural Language-based Non-functional Requirements.
CN115759254A (zh) 基于知识增强生成式语言模型的问答方法、系统及介质
CN117272142A (zh) 一种日志异常检测方法、系统及电子设备
CN110852066A (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN114120166A (zh) 视频问答方法、装置、电子设备及存储介质
CN117421639A (zh) 多模态数据分类方法、终端设备及存储介质
CN116227598B (zh) 一种基于双阶段注意力机制的事件预测方法、设备及介质
CN114925681B (zh) 知识图谱问答问句实体链接方法、装置、设备及介质
CN114386425B (zh) 用于对自然语言文本内容进行处理的大数据体系建立方法
CN116186220A (zh) 信息检索方法、问答处理方法、信息检索装置及系统
CN118715523A (zh) 使用语言模型神经网络生成具有内联证据的输出序列
CN112528015B (zh) 在消息交互传播中进行谣言判别的方法及装置
CN115357712A (zh) 方面级情感分析方法、装置、电子设备及存储介质
CN111666770B (zh) 一种语义匹配方法及装置
CN112989001A (zh) 一种问答处理方法、装置、介质及电子设备
CN117521674B (zh) 对抗信息的生成方法、装置、计算机设备和存储介质
CN116955560B (zh) 基于思考链和知识图谱的数据处理方法及系统
CN116227601B (zh) 一种基于动词时态的泛化因果网络构建方法、设备及介质
CN114842246B (zh) 一种社交媒体压力类别检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant