CN115759036B - 基于推荐的事件检测模型的构建方法及利用模型进行事件检测的方法 - Google Patents

基于推荐的事件检测模型的构建方法及利用模型进行事件检测的方法 Download PDF

Info

Publication number
CN115759036B
CN115759036B CN202211334721.7A CN202211334721A CN115759036B CN 115759036 B CN115759036 B CN 115759036B CN 202211334721 A CN202211334721 A CN 202211334721A CN 115759036 B CN115759036 B CN 115759036B
Authority
CN
China
Prior art keywords
event
trigger
word
event type
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211334721.7A
Other languages
English (en)
Other versions
CN115759036A (zh
Inventor
闫琰
李天诚
张博文
李文捷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China University of Mining and Technology Beijing CUMTB
Original Assignee
China University of Mining and Technology Beijing CUMTB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China University of Mining and Technology Beijing CUMTB filed Critical China University of Mining and Technology Beijing CUMTB
Priority to CN202211334721.7A priority Critical patent/CN115759036B/zh
Publication of CN115759036A publication Critical patent/CN115759036A/zh
Application granted granted Critical
Publication of CN115759036B publication Critical patent/CN115759036B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

一种基于推荐的事件检测模型的构建方法包括:对包含事件文本、触发词、事件类型的原始数据集进行预处理,构建初始的基于推荐的事件检测模型及初始参数,所述模型包括BERT层、触发词超图卷积层、触发词判别器、事件类型超图卷积层、注意力权重层、神经协同过滤层、预测层;对模型进行触发词和事件类型层面的训练;一种使用基于推荐的事件检测模型进行事件检测的方法为将包含事件类型、正采样事件文本及负采样事件文本输入至基于推荐的事件检测模型中根据交互分数推荐top‑k个事件文本;本发明提供的方法是无触发词的事件检测,因此消除了因人为标注触发词产生的人工成本,同时,本发明将推荐思想应用到事件检测中,能够更加精准的完成事件检测。

Description

基于推荐的事件检测模型的构建方法及利用模型进行事件检 测的方法
技术领域:
本发明属于自然语言处理领域,具体涉及一种基于推荐的事件检测模型的构建方法及利用模型进行事件检测的方法。
背景技术:
事件检测是自然语言处理领域中一个常见的语义分析任务,其目的在于检测某条语句或某篇文章是否与某类事件相关,常规的事件检测技术是通过设计特有的模型,首先检测事件文本的触发词,然后判断触发词是属于哪一个事件类型,如Liu等人在[JointlyMultiple Events Extraction via Attention-based Graph Information Aggregation]一文中提出的OneIE模型使用基于注意力机制的图卷积网络进行事件检测,但OneIE存在长尾问题,即测试数据中许多触发因素可能不会出现在训练数据中,同时还存在某个触发词可能所属多个事件类型,但OneIE可能出现分类错误的情况,除此之外,数据集中的触发词需要人工标注,需要大量的人工成本,最后在现有技术中,尚未有将推荐的思想应用到事件检测中来的方法。
发明内容:
针对上述问题,本发明提供了一种基于推荐的事件检测模型的构建方法及利用模型进行事件检测的方法,达到了通过对群组的文本推荐来实现事件检测的目的。
一种基于推荐的事件检测模型的构建方法,该方法包括:
对包含事件文本、触发词、事件类型的原始数据集进行预处理:将原始数据集中的事件文本、触发词、事件类型提取出来保存在JSON文件中,每条数据的事件文本、触发词、事件类型构成一个数据样本;将预处理后的数据集按7:3的比例划分为测试集和训练集;对训练集中的每个数据样本分别生成事件文本、触发词、事件类型的映射整数,分别构建事件文本-映射整数字典、触发词-映射整数字典、事件类型-映射整数字典、事件类型-触发词关系字典,通过所述事件文本-映射整数字典、触发词-映射整数字典、事件类型-映射整数字典构建触发词粗粒度辅助张量h_ul_corase、触发词细粒度辅助张量h_ul_fine、事件类型辅助张量train_hgg;
其中,h_ul_coarse、h_ul_fine是描述事件类型-触发词之间所属关系、触发词-触发词关系的矩阵,其构建方式为:建立以训练集中的触发词的映射整数为行坐标、事件类型的映射整数为纵坐标的矩阵,矩阵元素表示是否存在事件类型-触发词的对应关系,存在则为1,否则为0;设定一维向量θ为全0的、长度为触发词个数的向量,在0到触发词数量的闭区间内,随机选取触发词数量的1/5个整数,这些整数是触发词的映射整数,θ中出现随机触发词的位置的元素赋值为1,事件类型-触发词矩阵的转置与θ进行矩阵乘法,得到的矩阵的转置记为α;设定一维向量β为全0的、长度为触发词个数的向量,在0到触发词数量的闭区间内,随机选取触发词数量的3/10个整数,β中出现随机触发词的位置的元素赋值为1,矩阵中的每个行向量和β的转置进行矩阵乘法,得到的矩阵的转置记为γ;计算h_ul_coarse和h_ul_fine的具体过程如下:α的第0维和第1维分别加上10-5得到中间变量αDV和αDE;γ的第0维和第1维分别加上10-5得到中间变量γDV、γDE,以αDV、γDV、αDE、γDE的每个元素的倒数作为矩阵的对角线元素分别构建中间矩阵αinvDE、γinvDE、αDV2、γDV2,将αDV2、α、αinvDE、α的转置和αDV2全部进行矩阵相乘得到h_ul_corase;将γDV2、γ、γinvDE、γ的转置和γDV2全部进行矩阵相乘得到h_ul_fine;
事件类型辅助张量train_hgg是一个描述事件类型之间关系的矩阵,事件类型之间的关系指的是,任意两个不同的事件类型之间,是否存在部分触发词相同;建立以训练集中事件类型的映射整数为行和列的事件类型矩阵,若两个不同的事件类型之间存在部分触发词相同,则在矩阵中两个指向的位置赋值为1,否则赋值为0,所述事件类型矩阵和其转置矩阵完成矩阵乘法后,结果再与所述事件类型矩阵完成对应元素相乘即可得到train_hgg;
构建初始的基于推荐的事件检测模型及初始参数,所述基于推荐的事件检测模型包括:BERT层、触发词超图卷积层、触发词判别器、事件类型超图卷积层、注意力权重层、神经协同过滤层、预测层;其中,触发词超图卷积层由两个自定义层组成,事件类型超图卷积层由一个自定义层组成,将六个随机初始化的可学习参数分别作为三个所述自定义层的权重和偏置,所述自定义层对输入做对应元素相乘,触发词超图卷积层和事件类型超图卷积层均使用dropout函数;触发词判别器包括一全连接层和一个双线性层,触发词判别器使用带有逻辑回归的二分类交叉熵损失BCEwithLogitsLoss作为损失函数以最大化正对之间的一致性,触发词判别器学习两个输入张量之间的分数,并为正对分配比负对更高的分数;预测层为一个二层感知器,所述二层感知器使用relu函数和dropout函数;注意力权重层是为了计算触发词关于事件文本的权重,此权重表示触发词在事件类型决策中的权重,或者说是触发词在决定事件类型对事件文本的选择方面的影响,显然,如果触发词对某个事件文本有显式的交互关系,它应该在事件类型对事件文本的选择上有更大的影响;
将所述训练集中的所有触发词输入至初始的基于推荐的事件检测模型中,经过BERT层得到触发词词向量,所述触发词词向量分别与h_ul_corase和h_ul_fine输入到触发词超图卷积层分别得到触发词粗粒度超图特征值和触发词细粒度超图特征值;针对训练集中的数据样本构建<正采样触发词,负采样触发词>的数据对,根据数据对中正采样触发词的映射整数和负采样触发词的映射整数在触发词粗粒度超图特征值和触发词细粒度超图特征值中索引得到正采样触发词粗粒度超图特征值、正采样触发词细粒度超图特征值及负采样触发词粗粒度超图特征值;正采样触发词粗粒度超图特征值和正采样触发词细粒度超图特征值经过触发词判别器后输出触发词正对分数;正采样触发词粗粒度超图特征值和负采样触发词粗粒度超图特征值经过判别器输出触发词负对分数;通过触发词正对分数和触发词负对分数计算损失值并更新模型参数;
将所述训练集中所有的触发词和事件类型分别输入到更新参数后的基于推荐的事件检测模型中,经过BERT层后得到全部触发词的词向量和全部事件类型的词向量;将所有触发词词向量、触发词粗粒度辅助张量及触发词细粒度辅助张量输入至触发词超图卷积层后得到触发词粗粒度超图特征值和触发词细粒度超图特征值,将触发词粗粒度超图特征值和触发词细粒度超图特征值之和作为触发词双粒度超图特征值;将所有的事件类型词向量和事件类型辅助张量输入事件类型超图卷积层得到事件类型超图特征值;针对每一个事件类型,通过事件类型-触发词的关系字典中索引得到该事件类型中的所有触发词,将该事件类型的所有触发词输入到更新参数后的基于推荐的事件检测模型中,经过BERT层得到该事件类型所有触发词的词向量;根据触发词-映射整数字典获取到该事件类型所有触发词的映射整数,通过所述映射整数在所述触发词的双粒度超图特征值中索引得到该事件类型所有触发词的行向量;将所述行向量与该事件类型所有触发词的词向量相加得到该事件类型所有触发词的嵌入表示;针对训练集中的所有事件文本构建<事件类型,正采样事件文本,负采样事件文本>的数据对,将所述数据对输入至更新参数后的基于推荐的事件检测模型中,经过BERT层后得到事件文本的词向量,所述事件文本为正采样事件文本和负采样事件文本;将所述事件文本的词向量与所述该事件类型所有触发词的嵌入表示拼接后,输入到注意力权重层得到该事件类型所有触发词关于事件文本的权重,将该事件类型所有触发词加权后与事件类型的词向量、事件类型超图特征值中该事件类型对应行向量求和得到该事件类型的嵌入表示,其中,所述行向量通过索引事件类型-映射字典获取得到;将该事件类型的嵌入表示、事件文本的词向量经神经协同过滤层得到该事件类型关于事件文本的交互特征,将所述交互特征、该事件类型的词向量及事件文本的词向量拼接后,输入到预测层,输出得到该事件类型关于事件文本的交互分数;事件类型和正采样事件文本的交互分数为正分数,事件类型和负采样事件事件文本的交互分数为负分数,通过正负分数计算损失值并更新模型参数,直到达到预定训练轮次,所对应的模型为最终的基于推荐的事件检测模型;其中,负采样是指除自身以外的其他数据,即负采样触发词为除指定正采样触发词以外的其他触发词,负采样事件文本为除指定正采样事件文本以外的其他事件文本,一般的,在推荐领域中:假设有一群只关注运动商品的用户A~Z构成的群组G,现在有一个休闲T恤的商品I,因为现在只知道群组用户关注运动商品,而不知道用户是否关心休闲T恤,那么商品I对于群组G以及群组内的用户A~Z就是负采样用户,在群组内,用户B~Z相对于用户A可以视为是负采样用户,对于其他用户同理,如果有另外一群关注化妆品的用户a~z,用户a~z相对用户A也是负采样用户;在事件检测领域中:假设有一新闻“中国国产C919获得型号合格证”,这是一个关于“交通工具”的新闻,另一新闻是一个关于“能源”的新闻。“能源”明显不是与“交通工具”同一类型,所以“能源”的新闻相对“交通工具”的新闻是负样本;
通过测试集中的数据测试基于推荐的事件检测模型;
为了照顾计算机的负荷能力,数据对经过切分后形成包含一定数量数据对的数据块,按批量输入至基于推荐的事件检测模型中。
优选的,所述通过测试集中的数据测试基于推荐的事件检测模型的方法为:
针对测试集中的数据构建<事件类型,正采样事件文本,负采样事件文本>的数据对,将所述数据对输入至基于推荐的事件检测模型后输出事件类型关于每一个事件文本的交互分数,从所有交互分数中选出分数最高的K个事件文本,如果正采样事件文本在K个事件文本之内,则命中,将该正采样事件文本推荐给该事件类型,否则不推荐。
优选的,基于基于推荐的事件检测模型还包括分词器,输入经分词后经BERT层得到词向量。
优选的,所述分词器为BertTokenizer分词器。
优选的,通过Adam优化器更新所述基于推荐的事件检测模型的参数。
优选的,所述神经协同过滤层为NCF,尽管矩阵分解在协同过滤方面是有效的,但它的性能会被交互函数的简单选择即内积而阻碍,因此为了更好地建模触发词或事件类型与事件文本之间潜在特征的交互,本发明在协同过滤的部分将内积部分全部替换成NCF。
优选的,原始数据集为ACE2005数据集,数据集ACE2005有8种大事件类型,33种小事件类型,虽然在事件检测任务中,事件触发词应当是确定所属某一个事件类型,而不是所属多个事件类型,但对于所属同一个大事件类型的多个小事件类型的所有触发词,也与大事件类型中其他触发词存在联系,因此在事件检测中,不同事件类型的触发词之间的联系仍然存在,事件类型超图卷积层依然适用。
一种使用基于推荐的事件检测模型进行事件检测的方法,将包含事件类型、正采样事件文本及负采样事件文本输入至基于推荐的事件检测模型中,输出事件类型关于每一个事件文本的交互分数,根据交互分数形成N*1的矩阵,根据交互分数推荐top-k个事件文本,其中所述事件文本包括正采样事件文本和负采样事件文本,在推荐领域的思想中,一个推荐界面不可能展示推荐序列的所有物品,并且用户不一定对推荐序列的每一个物品感兴趣,因此,top-k推荐考虑用户最感兴趣的k个物品,也就是模型所得推荐分数最高的k个物品。
本发明提供了一种基于推荐的事件检测模型的构建方法及利用模型进行事件检测的方法,本发明通过群组推荐技术建模触发词之间的关系,用在事件检测中通过已有触发词之间的关系、触发词事件文本对所属事件类型的影响,在一定程度上避免了长尾问题、多属触发词等问题,本发明将推荐思想应用到事件检测中,能够更为精准的完成事件检测,同时,本方法仅在构建检测模型的过程中使用数据样本中的触发词对所述检测模型进行训练,在测试及实际应用过程中,只需要输入事件类型及事件文本即可完成推荐,因此可以认为本方法是无触发词的事件检测,因此消除了因人为标注触发词产生的人工成本。
附图说明:
附图1是本实施例中提供的一种基于推荐的事件检测模型的构建方法流程图。附图2是本实施例中提供的一种基于推荐的事件检测模型判断是否推荐的流程图。
附图3是本实施例中利用一种基于推荐的事件检测模型进行事件检测时输出结果的示意图。
具体实施方式:
为了使本发明技术方案更容易理解,现用具体实施例的方式,对本发明设计的一种基于推荐的事件检测模型的构建方法进行清晰、完整的描述。
以下结合说明书附图1~3对本发明提供的一种基于推荐的事件检测模型的构建方法及模型的应用进行说明,所述方法具体包括以下步骤:
对包含事件文本、触发词、事件类型的原始数据集ACE2005进行预处理:将原始数据集中的事件文本、触发词、事件类型提取出来保存在JSON文件中,每条数据的事件文本、触发词、事件类型构成一个数据样本。将预处理后的数据集按7:3的比例划分为测试集和训练集。对训练集中的每个数据样本分别生成事件文本、触发词、事件类型的映射整数,分别构建事件文本-映射整数字典、触发词-映射整数字典、事件类型-映射整数字典、事件类型-触发词关系字典,通过所述事件文本-映射整数字典、触发词-映射整数字典、事件类型-映射整数字典构建触发词粗粒度辅助张量h_ul_corase、触发词细粒度辅助张量h_ul_fine、事件类型辅助张量train_hgg。
对每条数据样本统计其事件文本、触发词、事件类型是否分别出现在其对应的映射字典中,如果不存在,将其添加进对应的映射字典并对其赋值,值为当前字典已有事件文本、触发词、事件类型不同的数量+1,从而形成字符串-映射整数的映射字典,在构建辅助张量时,映射字典中的键值可以在整数空间中代表事件文本、触发词或事件类型。
其中,h_ul_coarse、h_ul_fine是描述事件类型-触发词之间所属关系、触发词-触发词关系的矩阵,其构建方式为:建立以训练集中的触发词的映射整数为行坐标、事件类型的映射整数为纵坐标的矩阵,矩阵元素表示是否存在事件类型-触发词的对应关系,存在则为1,否则为0;设定一维向量θ为全0的、长度为触发词个数的向量,在0到触发词数量的闭区间内,随机选取触发词数量的1/5个整数,这些整数是触发词的映射整数,θ中出现随机触发词的位置的元素赋值为1,事件类型-触发词矩阵的转置与θ进行矩阵乘法,得到的矩阵的转置记为α;设定一维向量β为全0的、长度为触发词个数的向量,在0到触发词数量的闭区间内,随机选取触发词数量的3/10个整数,β中出现随机触发词的位置的元素赋值为1,矩阵中的每个行向量和β的转置进行矩阵乘法,得到的矩阵的转置记为γ。计算h_ul_coarse和h_ul_fine的具体过程如下:α的第0维和第1维分别加上10-5得到中间变量αDV和αDE;γ的第0维和第1维分别加上10-5得到中间变量γDV、γDE,以αDV、γDV、αDE、γDE的每个元素的倒数作为矩阵的对角线元素分别构建中间矩阵αinvDE、γinvDE、αDV2、γDV2,将αDV2、α、αinvDE、α的转置和αDV2全部进行矩阵相乘得到h_ul_corase;将γDV2、γ、γinvDE、γ的转置和γDV2全部进行矩阵相乘得到h_ul_fine;
事件类型辅助张量train_hgg是一个描述事件类型之间关系的矩阵,事件类型之间的关系指的是,任意两个不同的事件类型之间,是否存在部分触发词相同;建立以训练集中事件类型的映射整数为行和列的事件类型矩阵,若两个不同的事件类型之间存在部分触发词相同,则在矩阵中两个指向的位置赋值为1,否则赋值为0,所述事件类型矩阵和其转置矩阵完成矩阵乘法后,结果再与所述事件类型矩阵完成对应元素相乘即可得到train_hgg。
构建初始的基于推荐的事件检测模型及初始参数,所述基于推荐的事件检测模型包括:BERT层、触发词超图卷积层、触发词判别器、事件类型超图卷积层、注意力权重层、神经协同过滤层、预测层。
其中,触发词超图卷积层由两个自定义层组成,事件类型超图卷积层由一个自定义层组成,将六个随机初始化的可学习参数分别作为三个所述自定义层的权重和偏置,所述自定义层对输入做对应元素相乘,触发词超图卷积层和事件类型超图卷积层均使用dropout函数。所述触发词超图卷积层输入是触发词的词向量与h_ul_fine或触发词的词向量与h_ul_coarse,自定义层将词向量和辅助张量对应元素相乘,再加上偏置,在前向传播时,先将触发词的词向量归一化,再和辅助张量输入第一层自定义层,中间输出经过dropout函数再和辅助张量输入第二层自定义层,根据输入的辅助向量,分别输出触发词粗粒度超图特征值和触发词细粒度超图特征值;所述事件类型超图卷积的输入是train_hgg,dropout函数得到的结果即为事件类型超图特征值。
判别器层由一个权重初始化为均匀分布、偏置初始化为0的全连接层,和一个权重、偏置均初始化为0的双线性层构成,二者设定输入和输出维度相同。判别器使用带有逻辑回归的二分类交叉熵损失BCEwithLogitsLoss作为损失函数以最大化正对之间的一致性;所述判别器的输入是粗粒度超图特征值和细粒度超图特征值,判别器层前向传播时,将两种粒度特征值分别输入全连接层,结果再输入到双线性层,得到双线性插值矩阵,触发词判别器学习两个输入张量之间的分数,并为正对分配比负对更高的分数。
注意力权重层是为了计算触发词关于事件文本的权重,此权重表示触发词在事件类型决策中的权重,或者说是触发词在决定事件类型对事件文本的选择方面的影响,显然,如果触发词对某个事件文本有显式的交互关系,它应该在事件类型对事件文本的选择上有更大的影响。所述注意力权重层的输入是事件类型、触发词的词向量,输出触发词关于事件文本的注意力权重,注意力权重层的结构是一个二层的感知器,在第一层和第二层全连接层之间使用ReLU作为激活函数以及对中间输出经过dropout函数计算,二层感知器的输出经过Softmax函数后,结果即为注意力权重。
搭建神经协同过滤层采用NCF,NCF由一个多层感知器和一个全连接层构成,所处多层感知器每层之间使用ReLU作为激活函数,NCF的输入是触发词和事件文本的嵌入表示或事件类型的嵌入表示和事件文本的嵌入表示。NCF在前向传播时,将触发词和事件文本的嵌入表示或事件类型的嵌入表示和事件文本的嵌入表示在最内层维度上进行拼接得到NCF的多层感知器的输入张量MLP_in;将两个嵌入表示进行内积得到矩阵分解张量MF_tensor,将MLP_in输入到NCF的感知器,再经过dropout层,得到的结果和MF_tensor在最内层维度上进行拼接,拼接张量输入到NCF全连接层,得到用户或群组与物品的隐式反馈分数。
预测层为一个二层感知器,所述二层感知器使用relu函数和dropout函数,输入是带有注意力权重的触发词与事件文本词向量或事件类型与事件文本词向量的神经协同过滤分数、触发词和事件文本的词向量或事件类型词向量和事件文本的词向量,输出结果表示事件文本和触发词或事件文本和事件类型的相关程度。
触发词层面的训练:将所述训练集中的所有触发词输入至初始的基于推荐的事件检测模型中,经过BERT层得到触发词词向量,所述触发词词向量分别与h_ul_corase和h_ul_fine输入到触发词超图卷积层分别得到触发词粗粒度超图特征值和触发词细粒度超图特征值;针对训练集中的数据样本构建<正采样触发词,负采样触发词>的数据对,根据数据对中正采样触发词的映射整数和负采样触发词的映射整数在触发词粗粒度超图特征值和触发词细粒度超图特征值中索引得到正采样触发词粗粒度超图特征值、正采样触发词细粒度超图特征值及负采样触发词粗粒度超图特征值;正采样触发词粗粒度超图特征值和正采样触发词细粒度超图特征值经过触发词判别器后输出触发词正对分数;正采样触发词粗粒度超图特征值和负采样触发词粗粒度超图特征值经过判别器输出触发词负对分数;通过触发词正对分数和触发词负对分数计算损失值,并使用Adam作为优化器根据损失值更新模型参数更新模型参数。
事件类型层面的训练:将所述训练集中所有的触发词和事件类型分别输入到更新参数后的基于推荐的事件检测模型中,分词后经过BERT层后得到全部触发词的词向量和全部事件类型的词向量;将所有触发词词向量、触发词粗粒度辅助张量及触发词细粒度辅助张量输入至触发词超图卷积层后得到触发词粗粒度超图特征值和触发词细粒度超图特征值,将触发词粗粒度超图特征值和触发词细粒度超图特征值之和作为触发词双粒度超图特征值;将所有的事件类型词向量和事件类型辅助张量输入事件类型超图卷积层得到事件类型超图特征值;针对每一个事件类型,通过事件类型-触发词的关系字典中索引得到该事件类型中的所有触发词,将该事件类型的所有触发词输入到更新参数后的基于推荐的事件检测模型中,分词后经过BERT层得到该事件类型所有触发词的词向量;根据触发词-映射整数字典获取到该事件类型所有触发词的映射整数,通过所述映射整数在所述触发词的双粒度超图特征值中索引得到该事件类型所有触发词的行向量;将所述行向量与该事件类型所有触发词的词向量相加得到该事件类型所有触发词的嵌入表示;针对训练集中的所有事件文本构建<事件类型,正采样事件文本,负采样事件文本>的数据对,将所述数据对输入至更新参数后的基于推荐的事件检测模型中,分词后经过BERT层后得到事件文本的词向量,所述事件文本为正采样事件文本和负采样事件文本;将所述事件文本的词向量与所述该事件类型所有触发词的嵌入表示拼接后,输入到注意力权重层得到该事件类型所有触发词关于事件文本的权重,将该事件类型所有触发词加权后与事件类型的词向量、事件类型超图特征值中该事件类型对应行向量求和得到该事件类型的嵌入表示,其中,所述行向量通过索引事件类型-映射字典获取得到;将该事件类型的嵌入表示、事件文本的词向量经神经协同过滤层得到该事件类型关于事件文本的交互特征,将所述交互特征、该事件类型的词向量及事件文本的词向量拼接后,输入到预测层,输出得到该事件类型关于事件文本的交互分数;事件类型和正采样事件文本的交互分数为正分数,事件类型和负采样事件事件文本的交互分数为负分数,通过正负分数计算损失值,并使用Adam作为优化器根据损失值更新模型参数更新模型参数,完成8轮训练后所对应的模型为最终的基于推荐的事件检测模型。
其中,负采样是除自身以外的其他数据,即负采样触发词为除指定正采样触发词以外的其他触发词,负采样事件文本为除指定正采样事件文本以外的其他事件文本,一般的,在推荐领域中:假设有一群只关注运动商品的用户A~Z构成的群组G,现在有一个休闲T恤的商品I,因为现在只知道群组用户关注运动商品,而不知道用户是否关心休闲T恤,那么商品I对于群组G以及群组内的用户A~Z就是负采样用户,在群组内,用户B~Z相对于用户A可以视为是负采样用户,对于其他用户同理,如果有另外一群关注化妆品的用户a~z,用户a~z相对用户A也是负采样用户;在事件检测领域中:假设有一新闻“中国国产C919获得型号合格证”,这是一个关于“交通工具”的新闻,另一新闻是一个关于“能源”的新闻。“能源”明显不是与“交通工具”同一类型,所以“能源”的新闻相对“交通工具”的新闻是负样本。
通过测试集中的数据测试基于推荐的事件检测模型:针对测试集中的数据构建<事件类型,正采样事件文本,负采样事件文本>的数据对,将所述数据对输入至基于推荐的事件检测模型后输出事件类型关于每一个事件文本的交互分数,从所有交互分数中选出分数最高的K个事件文本,如果正采样事件文本在K个事件文本之内,则命中,将该正采样事件文本推荐给该事件类型,否则不推荐。
为了照顾计算机的负荷能力,数据对经过切分后形成包含一定数量数据对的数据块,按批量输入至基于推荐的事件检测模型中,以下针对数据对的构建和批量切分进行说明:
假设有一个数据集,数据集里有三个类型,美食,服饰,运动,每个类型有文本和触发词。为了方便表示,使用F代表美食、使用C代表服饰、使用S代表运动,假设都只有2个文本和触发词,负采样数为1,批量为2。记每一个类型T,其第i个事件文本为Ttexti,对应的触发词为Ttriggeri
则对于触发词层面的训练阶段所需输入数据,形成的数据存储结构为:
正采样触发词:[Ftrigger0,Ftrigger1,Ctrigger0,Ctrigger1,Strigger0,Strigger1]
负采样触发词:[Ctrigger0,Ftrigger0,Strigger1,Strigger0,Ctrigger1,Ftrigger1]
正采样触发词和负采样触发词中相应位置的触发词形成一个数据对关系:如:Ftrigger0和Ctrigger0就形成一个<正采样触发词,负采样触发词>的数据对,
对其批量切分:
正采样触发词:
[[Ftrigger0,Ftrigger1],[Ctrigger0,Ctrigger1],[Strigger0,Strigger1]]
负采样触发词:
[[Ctrigger0,Ftrigger0],[Strigger1,Strigger0],[Ctrigger1,Ftrigger1]]
触发词层面训练时,每次同时输入正采样触发词和负采样触发词的相同位置的批量块,一般的,输入[Ftrigger0,Ftrigger1]作为正采样触发词,输入[Ctrigger0,Ftrigger0]作为负采样触发词
对于事件类型层面的训练阶段所需输入数据,形成的数据存储结构为:
事件类型:[F,F,C,C,S,S]
正采样事件文本:[Ftext0,Ftext1,Ctext0,Ctext1,Stext0,Stext1]
负采样事件文本:[Stext0,Ctext1,Ftext1,Stext1,Ftext1,Ftext0]
事件类型、正采样事件文本、负采样事件文本在相应位置的元素形成一个数据对关系,一般的:F、Ftext0、Stext0就形成一个<事件类型,正采样事件文本,负采样事件文本>的数据对,
对其批量切分:
事件类型:[[F,F],[C,C],[S,S]]
正采样文本:[[Ftext0,Ftext1],[Ctext0,Ctext1],[Stext0,Stext1]]
负采样文本:[[Stext0,Ctext1],[Ftext1,Stext1],[Ftext1,Ftext0]]
事件类型层面训练时,每次输入事件类型、正采样文本、负采样文本相同位置的批量块,一般的,输入[F,F]和[Ftext0,Ftext1]获得正对交互分数,输入[F,F]和[Stext0,Ctext1]获得负对交互分数。
在利用所述基于推荐的事件检测模型进行事件检测的方法为:将包含事件类型、正采样事件文本及负采样事件文本输入至基于推荐的事件检测模型中,输出事件类型关于每一个事件文本的交互分数,根据交互分数形成N*1的矩阵,根据交互分数推荐top-k个事件文本,其中所述事件文本包括正采样事件文本和负采样事件文本。
应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理和宗旨的的前提下,还可以做出若干改进、替换、变型和润饰,这些改进、替换、变型和润饰也应视为本发明的保护范围。

Claims (9)

1.一种基于推荐的事件检测模型的构建方法,其特征在于,所述方法包括:
对包含事件文本、触发词、事件类型的原始数据集进行预处理:将原始数据集中的事件文本、触发词、事件类型提取出来保存在JSON文件中,每条数据的事件文本、触发词、事件类型构成一个数据样本;将预处理后的数据集按比例划分为测试集和训练集;对训练集中的每个数据样本分别生成事件文本、触发词、事件类型的映射整数,分别构建事件文本-映射整数字典、触发词-映射整数字典、事件类型-映射整数字典、事件类型-触发词关系字典,通过所述事件文本-映射整数字典、触发词-映射整数字典、事件类型-映射整数字典构建触发词粗粒度辅助张量h_ul_corase、触发词细粒度辅助张量h_ul_fine、事件类型辅助张量train_hgg;
构建初始的基于推荐的事件检测模型及初始参数,所述基于推荐的事件检测模型包括:BERT层、触发词超图卷积层、触发词判别器、事件类型超图卷积层、注意力权重层、神经协同过滤层、预测层;其中,触发词超图卷积层由两个自定义层组成,事件类型超图卷积层由一个自定义层组成,将六个随机初始化的可学习参数分别作为三个所述自定义层的权重和偏置;触发词判别器包括一全连接层和一个双线性层;预测层为一个二层感知器;
将所述训练集中的所有触发词输入至初始的基于推荐的事件检测模型中,经过BERT层得到触发词词向量,所述触发词词向量分别与h_ul_corase和h_ul_fine输入到触发词超图卷积层分别得到触发词粗粒度超图特征值和触发词细粒度超图特征值;针对训练集中的数据样本构建<正采样触发词,负采样触发词>的数据对,根据数据对中正采样触发词的映射整数和负采样触发词的映射整数在触发词粗粒度超图特征值和触发词细粒度超图特征值中索引得到正采样触发词粗粒度超图特征值、正采样触发词细粒度超图特征值及负采样触发词粗粒度超图特征值;正采样触发词粗粒度超图特征值和正采样触发词细粒度超图特征值经过触发词判别器后输出触发词正对分数;正采样触发词粗粒度超图特征值和负采样触发词粗粒度超图特征值经过判别器输出触发词负对分数;通过触发词正对分数和触发词负对分数计算损失值并更新模型参数;
将所述训练集中所有的触发词和事件类型分别输入到更新参数后的基于推荐的事件检测模型中,经过BERT层后得到全部触发词的词向量和全部事件类型的词向量;将所有触发词词向量、触发词粗粒度辅助张量及触发词细粒度辅助张量输入至触发词超图卷积层后得到触发词粗粒度超图特征值和触发词细粒度超图特征值,将触发词粗粒度超图特征值和触发词细粒度超图特征值之和作为触发词双粒度超图特征值;将所有的事件类型词向量和事件类型辅助张量输入事件类型超图卷积层得到事件类型超图特征值;针对每一个事件类型,通过事件类型-触发词的关系字典中索引得到该事件类型中的所有触发词,将该事件类型的所有触发词输入到更新参数后的基于推荐的事件检测模型中,经过BERT层得到该事件类型所有触发词的词向量;根据触发词-映射整数字典获取到该事件类型所有触发词的映射整数,通过所述映射整数在所述触发词的双粒度超图特征值中索引得到该事件类型所有触发词的行向量;将所述行向量与该事件类型所有触发词的词向量相加得到该事件类型所有触发词的嵌入表示;针对训练集中的数据样本构建<事件类型,正采样事件文本,负采样事件文本>的数据对,将所述数据对输入至更新参数后的基于推荐的事件检测模型中,经过BERT层后得到事件文本的词向量,所述事件文本为正采样事件文本和负采样事件文本;将所述事件文本的词向量与所述该事件类型所有触发词的嵌入表示拼接后,输入到注意力权重层得到该事件类型所有触发词关于事件文本的权重,将该事件类型所有触发词加权后与事件类型的词向量、事件类型超图特征值中该事件类型对应行向量求和得到该事件类型的嵌入表示;将该事件类型的嵌入表示、事件文本的词向量经神经协同过滤层得到该事件类型关于事件文本的交互特征,将所述交互特征、该事件类型的词向量及事件文本的词向量拼接后,输入到预测层,输出得到该事件类型关于事件文本的交互分数;事件类型和正采样事件文本的交互分数为正分数,事件类型和负采样事件文本的交互分数为负分数,通过正负分数计算损失值并更新模型参数,直到达到预定训练轮次,所对应的模型为最终的基于推荐的事件检测模型;
通过测试集中的数据测试基于推荐的事件检测模型。
2.如权利要求1所述的一种基于推荐的事件检测模型的构建方法,其特征在于,所述通过测试集中的数据测试基于推荐的事件检测模型的方法为:
针对测试集中的数据构建<事件类型,正采样事件文本,负采样事件文本>的数据对,将所述数据对输入至基于推荐的事件检测模型后输出事件类型关于每一个事件文本的交互分数,从所有交互分数中选出分数最高的K个事件文本,如果正采样事件文本在K个事件文本之内,则命中,将该正采样事件文本推荐给该事件类型,否则不推荐。
3.如权利要求1所述的一种基于推荐的事件检测模型的构建方法,其特征在于,基于推荐的事件检测模型还包括分词器,输入经分词后经BERT层得到词向量。
4.如权利要求3所述的一种基于推荐的事件检测模型的构建方法,其特征在于,所述分词器为BertTokenizer分词器。
5.如权利要求1所述的一种基于推荐的事件检测模型的构建方法,其特征在于,通过Adam优化器更新所述基于推荐的事件检测模型的参数。
6.如权利要求1所述的一种基于推荐的事件检测模型的构建方法,其特征在于,所述神经协同过滤层为NCF。
7.如权利要求1所述的一种基于推荐的事件检测模型的构建方法,其特征在于,原始数据集为ACE2005数据集。
8.如权利要求1所述的一种基于推荐的事件检测模型的构建方法,其特征在于,所述构建触发词粗粒度辅助张量h_ul_corase、触发词细粒度辅助张量h_ul_fine的方法为:
建立以训练集中的触发词的映射整数为行坐标、事件类型的映射整数为纵坐标的矩阵,矩阵元素表示是否存在事件类型-触发词的对应关系,存在则为1,否则为0;设定一维向量θ为全0的、长度为触发词个数的向量,在0到触发词数量的闭区间内,随机选取触发词数量的1/5个整数,这些整数是触发词的映射整数,θ中出现随机触发词的位置的元素赋值为1,事件类型-触发词矩阵的转置与θ进行矩阵乘法,得到的矩阵的转置记为α;设定一维向量β为全0的、长度为触发词个数的向量,在0到触发词数量的闭区间内,随机选取触发词数量的3/10个整数,β中出现随机触发词的位置的元素赋值为1,矩阵中的每个行向量和β的转置进行矩阵乘法,得到的矩阵的转置记为γ;计算h_ul_coarse和h_ul_fine的具体过程如下:α的第0维和第1维分别加上10-5得到中间变量αDV和αDE;γ的第0维和第1维分别加上10-5得到中间变量γDV、γDE,以αDV、γDV、αDE、γDE的每个元素的倒数作为矩阵的对角线元素分别构建中间矩阵αinvDE、γinvDE、αDV2、γDV2,将αDV2、α、αinvDE、α的转置和αDV2全部进行矩阵相乘得到h_ul_corase;将γDV2、γ、γinvDE、γ的转置和γDV2全部进行矩阵相乘得到h_ul_fine;
所述事件类型辅助张量train_hgg的构建方法为:
建立以训练集中事件类型的映射整数为行和列的事件类型矩阵,若两个不同的事件类型之间存在部分触发词相同,则在矩阵中两个指向的位置赋值为1,否则赋值为0,所述事件类型矩阵和其转置矩阵完成矩阵乘法后,结果再与所述事件类型矩阵完成对应元素相乘即可得到train_hgg。
9.一种使用权利要求1~8中任一方法所构建的基于推荐的事件检测模型进行事件检测的方法,其特征在于,所述方法包括:将包含事件类型、正采样事件文本及负采样事件文本输入至基于推荐的事件检测模型中,输出事件类型关于每一个事件文本的交互分数,根据交互分数形成N*1的矩阵,根据交互分数推荐top-k个事件文本,其中所述事件文本包括正采样事件文本和负采样事件文本。
CN202211334721.7A 2022-10-28 2022-10-28 基于推荐的事件检测模型的构建方法及利用模型进行事件检测的方法 Active CN115759036B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211334721.7A CN115759036B (zh) 2022-10-28 2022-10-28 基于推荐的事件检测模型的构建方法及利用模型进行事件检测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211334721.7A CN115759036B (zh) 2022-10-28 2022-10-28 基于推荐的事件检测模型的构建方法及利用模型进行事件检测的方法

Publications (2)

Publication Number Publication Date
CN115759036A CN115759036A (zh) 2023-03-07
CN115759036B true CN115759036B (zh) 2023-08-04

Family

ID=85355708

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211334721.7A Active CN115759036B (zh) 2022-10-28 2022-10-28 基于推荐的事件检测模型的构建方法及利用模型进行事件检测的方法

Country Status (1)

Country Link
CN (1) CN115759036B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116861901B (zh) * 2023-07-04 2024-04-09 广东外语外贸大学 一种基于多任务学习的中文事件检测方法、系统和电子设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109710919A (zh) * 2018-11-27 2019-05-03 杭州电子科技大学 一种融合注意力机制的神经网络事件抽取方法
CN111967268B (zh) * 2020-06-30 2024-03-19 北京百度网讯科技有限公司 文本中的事件抽取方法、装置、电子设备和存储介质
CN112580330B (zh) * 2020-10-16 2023-09-12 昆明理工大学 基于中文触发词指导的越南语新闻事件检测方法
US11893345B2 (en) * 2021-04-06 2024-02-06 Adobe, Inc. Inducing rich interaction structures between words for document-level event argument extraction
CN114169447B (zh) * 2021-12-10 2022-12-06 中国电子科技集团公司第十研究所 基于自注意力卷积双向门控循环单元网络的事件检测方法
CN114548101B (zh) * 2022-04-25 2022-08-02 北京大学 基于可回溯序列生成方法的事件检测方法和系统

Also Published As

Publication number Publication date
CN115759036A (zh) 2023-03-07

Similar Documents

Publication Publication Date Title
CN109241424B (zh) 一种推荐方法
Sun et al. Provable sparse tensor decomposition
Rudolph et al. Exponential family embeddings
CN110717098B (zh) 基于元路径的上下文感知用户建模方法、序列推荐方法
CN111241311A (zh) 媒体信息推荐方法、装置、电子设备及存储介质
CN106682095B (zh) 基于图的主题描述词预测及排序方法
Liu et al. Model-based learning from preference data
CN115759036B (zh) 基于推荐的事件检测模型的构建方法及利用模型进行事件检测的方法
Alfarhood et al. DeepHCF: a deep learning based hybrid collaborative filtering approach for recommendation systems
Pessiot et al. Learning to Rank for Collaborative Filtering.
Anam Sentiment Analysis of Online Lectures using K-Nearest Neighbors based on Feature Selection
CN111079011A (zh) 一种基于深度学习的信息推荐方法
Chen et al. LogCF: Deep Collaborative Filtering with Process Data for Enhanced Learning Outcome Modeling.
Kumar et al. A novel fuzzy rough sets theory based cf recommendation system
Feng et al. Predicting book sales trend using deep learning framework
Almutairi et al. A Comparative Analysis for Arabic Sentiment Analysis Models In E-Marketing Using Deep Learning Techniques
Zahir et al. Multilinear algebra methods for higher-dimensional graphs
Rahaman et al. Identifying the signature of suicidality: A machine learning approach
Kassab Iterative Matrix Completion and Topic Modeling Using Matrix and Tensor Factorizations
Nagaraj et al. Comparative Analysis for Prediction and Classification of Mental Health Issues and Challenges Using Hybrid Learning Techniques
Lee et al. Beyond exchangeability: The Chinese voting process
Huang et al. Pairwise-based hierarchical gating networks for sequential recommendation
Nasiriyan et al. Sparse Connectivity and Activity Using Sequential Feature Selection in Supervised Learning
Zuhri et al. Product Review Ranking in e-Commerce using Urgency Level Classification Approach
El Mourabit et al. A new sentiment analysis system of tweets based on machine learning approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant