CN117851601A

CN117851601A - 事件分类模型的训练方法、使用方法、装置及介质

Info

Publication number: CN117851601A
Application number: CN202410205213.1A
Authority: CN
Inventors: 毕经纶; 刘继超; 陈斌; 王玮; 金岩; 甘琳
Original assignee: Hainayun IoT Technology Co Ltd; Qingdao Hainayun Digital Technology Co Ltd; Qingdao Hainayun Intelligent System Co Ltd
Current assignee: Hainayun IoT Technology Co Ltd; Qingdao Hainayun Digital Technology Co Ltd; Qingdao Hainayun Intelligent System Co Ltd
Priority date: 2024-02-26
Filing date: 2024-02-26
Publication date: 2024-04-09
Anticipated expiration: 2044-02-26
Also published as: CN117851601B

Abstract

本申请提供一种事件分类模型的训练方法、使用方法、装置及介质，涉及数据处理技术领域；该训练方法包括：获取文章数据的关键句子集合；按照预设层面从关键句子集合中提取文章整体特征，以得到支持集；预设层面包括关键句子与文章标题的关联度，以及关键句子与事件描述信息的关联度，事件描述信息是对相应预设事件类型的描述；基于原型表征和事件描述表征，确定类向量；事件描述表征是基于事件描述信息得到的，类向量是预设事件类型的表征；根据支持集和类向量，对原始分类模型进行训练，以得到训练好的事件分类模型。本申请的方法，用于使事件分类模型在少样本场景下也能很好地进行事件分类。

Description

事件分类模型的训练方法、使用方法、装置及介质

技术领域

本申请涉及数据处理技术，尤其涉及一种事件分类模型的训练方法、使用方法、装置及介质。

背景技术

事件分类是将事件按照其特征、性质或其他相关标准进行分组或归类的过程。通过事件分类，可以发现领域中大量的事件数据，从而使其更易于管理、分析和处理。

目前，监督学习范式下的事件分类方法需要大量标注数据，来实现在输入待分类事件时，能够输出对应的事件类别。在此基础上，在新的事件类型出现时，由于缺少标注数据，导致如何在输入待分类事件时，快速确定其事件类型为新的事件类型成为了难点。

发明内容

本申请提供一种事件分类模型的训练方法、使用方法、装置及介质，用以实现在少样本场景下事件的快速、准确地分类。

第一方面，本申请提供一种事件分类模型的训练方法，该方法包括：

获取文章数据的关键句子集合，所述文章数据是通过预设方式从预设数据来源爬取的；

按照预设层面从所述关键句子集合中提取文章整体特征，以得到支持集；所述预设层面包括所述关键句子与文章标题的关联度，以及所述关键句子与事件描述信息的关联度，所述事件描述信息是对相应预设事件类型的描述；所述支持集包含不同所述预设事件类型的文章整体特征；

通过原型网络计算所述支持集中每个所述预设事件类型的样本均值，以得到原型表征，并基于所述原型表征和事件描述表征，确定类向量；所述事件描述表征是基于所述事件描述信息得到的，所述类向量是所述预设事件类型的表征；

根据所述支持集和所述类向量，对原始分类模型进行训练，以得到训练好的事件分类模型；其中，以在输入所述文章整体特征时，输出相应的类向量为训练目标。

第二方面，本申请提供一种事件分类模型的使用方法，该方法包括：

在获取到在线文章时，获取所述在线文章的关键句子集合，并根据所述关键句子集合提取所述在线文章的文章特征；

将所述文章特征输入至训练好的事件分类模型中，以得到所述在线文章的类向量，根据所述类向量确定事件类型；所述事件分类模型是基于第一方面任一项所述的事件分类模型的训练方法得到的。

第三方面，本申请提供一种事件分类模型的训练装置，该装置包括：

获取模块，用于获取文章数据的关键句子集合，所述文章数据是通过预设方式从预设数据来源爬取的；

第一提取模块，用于按照预设层面从所述关键句子集合中提取文章整体特征，以得到支持集；所述预设层面包括所述关键句子与文章标题的关联度，以及所述关键句子与事件描述信息的关联度，所述事件描述信息是对相应预设事件类型的描述；所述支持集包含不同所述预设事件类型的文章整体特征；

计算模块，用于通过原型网络计算所述支持集中每个所述预设事件类型的样本均值，以得到原型表征，并基于所述原型表征和事件描述表征，确定类向量；所述事件描述表征是基于所述事件描述信息得到的，所述类向量是所述预设事件类型的表征；

训练模块，用于根据所述支持集和所述类向量，对原始分类模型进行训练，以得到训练好的事件分类模型；其中，以在输入所述文章整体特征时，输出相应的类向量为训练目标。

第四方面，本申请提供一种事件分类模型的使用装置，该装置包括：

第二提取模块，用于在获取到在线文章时，获取所述在线文章的关键句子集合，并根据所述关键句子集合提取所述在线文章的文章特征；

分类模块，用于将所述文章特征输入至训练好的事件分类模型中，以得到所述在线文章的类向量，根据所述类向量确定事件类型；所述事件分类模型是基于第一方面任一项所述的事件分类模型的训练方法得到的。

第五方面，本发明提供一种电子设备，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如上第一方面或第二方面中任一项所述的方法。

第六方面，本发明提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上第一方面或第二方面中任一项所述的方法。

本申请提供一种事件分类模型的训练方法、使用方法、装置及介质，在本申请的训练方法中，电子设备首先获取文章数据的关键句子集合，然后基于关键句子与文章标题的关联度，以及关键句子与事件描述信息的关联度，从关键句子集合中提取文章整体特征，并得到包含不同预设事件类型的文章整体特征的支持集。进一步的，电子设备对通过原型网络得到的原型表征和预设事件类型的事件描述保证进行融合，得到预设事件类型的类向量。最后，电子设备基于支持集和类向量对原始分类模型进行训练，以得到训练好的事件分类模型。基于此训练过程的事件分类模型，在少样本场景时，也能够快速、准确地对事件进行分类。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1为本申请实施例提供的一种事件分类模型的应用场景示意图；

图2为本申请实施例提供的一种事件分类模型的训练方法的流程示意图一；

图3为本申请实施例提供的一种事件分类模型的训练方法的流程示意图二；

图4为本申请实施例提供的一种事件分类模型的训练方法的流程示意图三；

图5为本申请实施例提供的一种确定文档整体特征的过程示意图；

图6为本申请实施例提供的一种事件分类模型的使用方法的流程示意图；

图7为本申请实施例提供的一种事件分类模型的训练装置的结构示意图；

图8为本申请实施例提供的一种事件分类模型的使用装置的结构示意图；

图9为本申请实施例提供的一种电子设备的结构示意图。

图中，71、获取模块，72、第一提取模块，73、计算模块，74、训练模块，81、第二提取模块，82、分类模块，91、处理器，92、存储器，93、总线，94、收发器。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

事件分类是将事件按照事件特征、性质或其他相关标准进行分组或归类的过程。

事件分类过程主要包括数据爬取、数据预处理、事件分类等过程。监督学习范式下的事件分类方法需要大量标注数据，但是当新的事件类型出现时，在缺少标注数据的情况下，如何实现对事件的快速分类是目前亟需解决的问题。

已知技术中，常采用度量学习等方法来解决少样本学习问题，但是这些方法在每个领域事件类型较多，且事件大类中的某些事件子类较为接近时，将无法准确分类相近事件。

因此，本申请提供一种事件分类模型的训练方法、使用方法、装置及介质，从事件类型的标签信息出发，设计一种融入标签语义信息的文档整体特征提取方法以及类向量的提取方法，以增强类向量，使得模型更好地学习类表达，更好地区分相近事件类型的类向量，从而提升模型对于新事件的分类效率。

具体的，由于爬虫技术爬取到的文章中很多文章的篇幅较长，导致模型不能很好地理解文本数据，因此为了缩短文章篇幅，本申请中首先通过文本摘要技术将文章压缩成简短的摘要。然后，需要对每个事件定义事件描述。其次，对于支持集的文档，使用标题与事件描述两个层次提取特征。此外，为了增强少样本数据的类向量表达，结合事件描述提取出文章的语义特征。最后，使用一种对比学习技术使得事件子类之间类与类具有更大的差异性，使得模型能够更好地泛化到新的类别或任务。最后使用无参数的分类器将查询集样本分类到最相似的类别中去。

图1为本申请实施例提供的一种事件分类模型的应用场景示意图，如图1所示，本申请的方法可应用于任一需要对文档所属的事件类型进行分类的场景。示例性的，本申请的方法可应用于任一社交APP的服务器，用于监控用户在该社交APP的公开平台发布的文章，服务器在获取到用户发布的文章时，将该文章输入至训练好的事件分类模型中，以快速、准确地对文章进行分类，从而有利于得到良好的社交环境。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

下面结合附图，对本申请的实施例进行详细说明，在各实施例不冲突的情况下，下述的实施例及实施例中的特征可以相互结合。

图2为本申请实施例提供的一种事件分类模型的训练方法的流程示意图一，下面结合图2，对本申请的一些实施方式作详细说明。

如图2所示，本实施例提供的方法包括：

S201，获取文章数据的关键句子集合。

其中，文章数据是通过预设方式从预设数据来源爬取的。

在本实施例中，电子设备可以通过任一种爬虫技术从预设数据来源中爬取文章数据，预设数据来源包括图书馆，预设数据来源除前述来源外，还可以包括各个网页的文章数据，本实施例中，不对具体爬虫方式、数据来源进行限定。

可以理解的是，关键句子集合是通过对文章数据进行摘要提取后得到的。本实施例中，后续采用BERT模型来对文章数据进行向量化，由于会存在篇幅较长的文章，无法直接输入到BERT模型中。因此，本实施例中首先对各个文章数据进行摘要提取，以得到文章数据对应的关键句子集合。

S202，按照预设层面从关键句子集合中提取文章整体特征，以得到支持集。

其中，预设层面包括关键句子与文章标题的关联度，以及关键句子与事件描述信息的关联度，事件描述信息是对相应预设事件类型的描述；支持集包含不同预设事件类型的文章整体特征。

在本实施例中，电子设备中存储有提前配置的各个预设事件类型，电子设备自动完成对于每个预设事件类型的定义，得到预设事件类型唯一对应的事件描述信息。具体的，本实施例中对于预设事件类型的定义来自百度百科，示例性的，若预设事件类型为火灾，则电子设备基于百度百科获取其定义为：在时间或空间上失去控制的燃烧。在实际应用中，对于预设事件类型的定义还可以是用户输入的，或者，根据相应工具书录入的，本实施例中不对此进行限定。

本实施例中，在获取查询集时，电子设备仅基于关键句子与文章标题的关联度，提取文章整体特征。

S203，通过原型网络计算支持集中每个预设事件类型的样本均值，以得到原型表征，并基于原型表征和事件描述表征，确定类向量。

其中，事件描述表征是基于事件描述信息得到的，类向量是预设事件类型的表征。

可以理解的是，少样本场景下数据量较少，从而会导致事件分类模型不能很好地学习到类向量。因此，考虑到事件描述信息具有高度概括的作用，本实施例中融入事件描述信息来提取文章整体特征。

进一步的，电子设备使用原型网络计算支持集中每个预设事件类型的样本均值、得到原型表征，再对原型表征与事件描述表征进行融合处理，得到最终的类向量，从而实现在少样本场景下增强类向量的表达，减少由数据噪声产生的影响。

可以理解的是，支持集中的任一文章整体特征即为一个样本。

具体的，在本实施例中，电子设备基于关键句子与文章标题的关联度，以及关键句子与事件描述信息的关联度，提取文章整体特征，以得到支持集。

S204，根据支持集和类向量，对原始分类模型进行训练，以得到训练好的事件分类模型。

其中，以在输入文章整体特征时，输出相应的类向量为训练目标。

在本实施例中，将支持集中的每个样本作为原始分类模型的输入，将每个样本对应的预设事件类型的类向量作为目标输出，对原始分类模型进行训练，从而得到训练好的事件分类模型。

可以理解的是，在对原始分类模型进行训练的过程中，还涉及基于查询集进行测试或验证的过程，此为已知技术，本实施例中不对此过程进行展开说明。

本实施例提供的方法中，电子设备首先通过预设方式从预设数据来源爬取文章数据，对于得到的文章数据，电子设备通过摘要提取获取文章数据的关键句子集合。其次，电子设备基于关键句子与文章标题的关联度，以及关键句子与事件描述信息的关联度，从关键句子集合中提取文章整体特征，并得到包含不同预设事件类型的文章整体特征的支持集。此外，电子设备还对通过原型网络得到的原型表征和预设事件类型的事件描述保证进行融合，得到预设事件类型的类向量。最后，电子设备基于支持集和类向量对原始分类模型进行训练，以得到训练好的事件分类模型。

通过本实施例的方法，对于少样本场景，通过由关键句子与文章标题的关联度及关键句子与事件描述信息的关联度，提取的文章整体特征，以及由原型表征和事件描述表征融合得到的类向量，对原始分类模型进行训练，有效增强了类向量的表达，降低数据噪声产生的额影响，从而使得得到的事件分类模型能够更好地进行事件分类。

图3为本申请实施例提供的一种事件分类模型的训练方法的流程示意图二，下面结合图3对本申请中方法进行详细说明。具体的，本实施例在上述实施例的基础上，着重对确定获取文章数据的关键句子集合的方式进行详细说明。

具体的，如图3所示，本实施例提供的方法包括：

S301，按照预设规则将文章数据划分成多个句子，得到文档句子集合。

具体的，预设规则可以为任一种分句规则，只要可以将文章数据划分为多个句子即可，本实施例中不对此进行限定。

S302，通过Sentence-BERT模型获得文章数据的标题向量、句子向量以及事件描述表征。

其中，事件描述表征是通过文章数据的所属事件类型唯一对应的事件描述信息得到的。

在本实施例中，电子设备将各个句子输入Sentence-BERT模型中，以获取各个句子对应的句子向量，文章标题输入至Sentence-BERT模型终，以获取文章标题的标题向量，将文章数据对应的事件描述信息输入至Sentence-BERT模型中，以获取事件描述信息对应的事件描述表征。

S303，计算文章数据中两两句子间的第一相似度、文章标题与不同句子的第二相似度，以及所属事件类型与文章数据中不同句子的第三相似度，以分别得到第一相似度矩阵、第二相似度矩阵、第三相似度矩阵。

在本实施例中，电子设备通过计算两两句子间的余弦相似度来确定第一相似度矩阵，通过计算文章标题与不同句子之间的余弦相似度来确定第二相似度矩阵，通过计算所属事件类型与不同句子的余弦相似度来确定第三相似度矩阵。

示例性的，本实施例中，在计算所属事件类型与文章数据中不同句子的第三相似度矩阵时，对于第i个句子，其与所属事件类型的相似度具体计算原理如下：

在上式中，s_i用于表示第i个句子，s_d用于表示文章数据的所属事件类型。电子设备通过上式依次计算各个句子与所属事件类型的相似度，以得到第三相似度矩阵。

可以理解的是，第一相似度矩阵为n×n的矩阵，第二相似度矩阵为n×1的矩阵，第三相似度矩阵为n×1的矩阵，n为文章数据包含的句子数量。

S304，获取文章数据中不同句子在文章数据中的位置权重矩阵。

其中，文章数据中位置靠中间的句子的位置权重大于位置靠后的句子的位置权重，小于位置靠前的句子的位置权重。

在本实施例中，配置各个句子位置权重的规则为：处于文章数据中间的句子，其位置权重大于处于文章数据中靠后的句子的位置权重，小于处于文章数据中靠前的句子的位置权重。具体的，本实施例中位置权重的配置遵循以下规则：

其中，用于表示文章数据中位于位置p的第i个句子的权重，e₁和e₂均为权重调整阈值，x、y、n用于表示文章数据的句子数量，且x＜y＜n。由上式可知，对于文章数据中的前x个句子，其权重配置为/>，对于文章数据中的第x+1到第y个句子，其权重配置为1，对于文章数据中的第y+1到第n个句子，其权重配置为/>。

进一步的，基于上述权重配置规则，能够得到文章数据对应的位置权重矩阵，可以理解的是，位置权重矩阵为n×1的矩阵，n为文章数据包括的句子数量。

S305，对位置权重矩阵、第一相似度矩阵、第二相似度矩阵及第三相似度矩阵进行加权求和，以得到综合相似度矩阵，并根据综合相似度矩阵迭代更新每个句子的权重，直至每相邻的两个句子的权重差值小于预设值时，将权重较高的前m个句子作为关键句子，得到关键句子集合。

其中，m为大于0的整数。

在本实施例中，电子设备为位置权重矩阵、第一相似度矩阵、第二相似度矩阵及第三相似度矩阵分别配置一个初始权重：λ_s、λ_p、λ_t、λ_d，其中，λ_s+λ_p+λ_t+λ_d=1。

通过对位置权重矩阵、第一相似度矩阵、第二相似度矩阵及第三相似度矩阵加权求和，得到综合相似度矩阵W_z，具体的，W_z如下式所示：

可以理解的是，W_s用于表示两两句子间的第一相似度矩阵，W_p用于表示位置权重矩阵，W_t用于表示文章标题与不同句子的第二相似度矩阵，W_d用于表示所属事件类型与文章数据中不同句子的第三相似度矩阵。

进一步的，基于综合相似度矩阵迭代更新每个句子的权重，直至每相邻的两个句子的权重差值小于预设时，停止迭代。具体的，本实施例中的迭代过程与传统的TextRank方法一致，此处不再赘述。迭代停止时，电子设备按照句子权重大小对文章数据包括的各个句子进行排序，并将前m个句子作为关键句子，基于这m个关键句子，构成关键句子集合。可以理解的是，m小于n。

本实施例提供的方法中，电子设备在对文章数据进行关键句子提取时，考虑所属事件类型的事件描述表征，最终得到综合相似度矩阵，有效优化了句子权重的更新过程，有效过滤了少样本场景下模型难以理解的噪声数据，从而能够在少样本场景下快速地提取出与事件类型最匹配的句子，从而对长篇文档中的噪音数据进行过滤，间接地加强了支持集文档特征的表示。

图4为本申请实施例提供的一种事件分类模型的训练方法的流程示意图三，下面结合图4对本实施例的方法进行详细说明。具体的，本实施例在前述实施例的基础上，着重对得到文档整体特征和类向量的方式进行详细说明。如图4所示，本实施例包括：

S401，将关键句子集合输入至BERT模型中，以得到各个关键句子的关键句子表征。

在本实施例中，使用BERT模型作为文本编码器，将关键句子集合输入至BERT模型中，得到各个关键句子的关键句子表征。

S402，计算各关键句子表征与标题表征的第一关联度，以及各关键句子表征与事件描述表征的第二关联度。

S403，根据第一关联度，对关键句子表征进行加权求和，得到第一表征；根据第二关联度，对关键句子表征进行加权求和，得到第二表征。

S404，通过第一预设门控机制对第一表征和第二表征进行融合处理，以得到文档内容表征；对文档内容特征和标题表征进行拼接操作，以得到文章整体特征。

其中，第一预设门控机制用于为第一表征和第二表征配置权重。

在本实施例中，电子设备首先计算各个关键句子表征与标题表征的第一关联度，然后根据关键句子对应的第一关联度对各个关键句子进行加权求和，得到第一表征。电子设备首先计算各个关键句子与事件描述表征的第二相关度，然后根据关键句子对应的第二关联度对各个关键句子进行加权求和，得到第二表征。

进一步的，电子设备根据第一预设门控机制融合第一表征和第二表征，得到文档内容表征，再拼接文档内容表征和标题表征，最终得到文章整体特征。

在本实施例中，第一关联度的计算方式具体表示为：，其中，t用于表示标题表征，/>用于表示第i个关键句子表征与标题表征的第一关联度，C_i用于表示第i个关键句子表征，/>为C_i的转置。

第二关联度的计算方式具体表示为：，其中，d用于表示事件描述表征，/>用于表示第i个关键句子表征与事件描述表征的第二关联度。

第一表征的计算方式具体表示为：，/>用于表示第一表征。第二表征的计算方式具体表示为：/>，/>用于表示第二表征。

进一步的，电子设备根据第一门控机制对第一表征和第二表征进行融合处理，得到融合后的文章内容表征。具体的，该过程表示为：

其中，s用于表示文章内容表征，gate_1用于表示第一预设门控机制。具体的，本实施例中，，/>。其中，W₁用于表示可训练的权重矩阵，b₁用于表示偏置，“；”用于表示拼接操作。

进一步的，电子设备对文章内容表征和标题表征进行拼接处理，得到文章整体特征。具体的，该过程表示为：v=[t；s]，其中，v用于表示文章整体特征。

图5为本申请实施例提供的一种确定文档整体特征的过程示意图，如图5所示，对于爬取到的文章数据，电子设备通过改进的TextRank方法，融合事件描述表征，对文章数据进行摘要提取，得到文章数据对应的关键句子集合，在图5中，关键句子集合包括Sentence-1、Sentence-2……Sentence-m。然后，电子设备将关键句子集合输入BERT模型中，以得到各个关键句子的关键句子表征S1、S2……Sm。进一步的，电子设备计算各个关键句子表征与标题表征的第一关联度，并根据第一关联度，对关键句子表征进行加权求和，得到第一表征。计算各个关键句子表征与事件描述表征的第二关联度，并根据第二关联度，对关键句子表征进行加权求和，得到第二表征/>。最后，电子设备将第一表征和第二表征融合后，与标题表征融合，得到文章整体表征。

S405，通过第二预设门控机制确认类向量需要保留的原型向量表征的第一信息，以及需要替代的原型向量表征的第二信息；通过第三预设门控机制确认需要保留的事件描述表征的第三信息，并根据第一信息、第二信息及第三信息，确定类向量。

其中，第一信息用于指示需要保留的原型向量表征，第二信息用于指示需要替代的原型向量表征，第三信息用于指示需要保留的事件描述表征。可以理解的是，在少样本场景下，传统的分类器表现不佳，因此本实施例使用一种基于度量学习的方法来判断新样本的类别。本实施例提出一种融合语义信息的类向量模型，首先使用原型网络求得支持集中每个类型的样本的均值Pi。可以理解的是，支持集中每个样本即为一个上述步骤得到的文章整体表征。

其中，式中表示第i个预设事件类型的第k个样本向量。

然后使用两个门控机制将事件信息特征与原型向量特征进行融合，即第二预设门控机制和第三预设门控机制。其中，第二预设门控机制用于确认最终类向量需要引入多少原型向量，需要将多少事件信息替代到原型向量中。第三预设门控机制用于确认需要保留多少事件信息特征。将这两阶段的产出向量相加作为最终的类向量。具体的，该过程的具体表示如下：

其中，gate_2为第二预设门控机制，激活函数为relu函数，/>表示保留的原型向量信息，/>表示引入的事件描述信息。W₂为可训练的权重矩阵，b₂用于表示偏置，“；”用于表示拼接操作。

其中，gate_3为第三预设门控机制，代表需要保留的事件信息，/>表示最终的类向量，W₃用于表示可训练的权重矩阵，b₃用于表示偏置，“；”用于表示拼接操作。

S406，建立支持集的对比支持集，通过支持集和对比支持集，确定第一损失函数。

S407，根据各类向量与对应的事件描述表征之间的相似度，以及各类向量与剩余类向量对应的事件描述表征之间的相似度，确定第二损失函数。

S408，根据各类向量与查询集中对应样本之间的相似度，以及各类向量与查询集中剩余样本之间的相似度，确定第三损失函数。

S409，将类向量和查询集样本输入到原始分类模型中，以得到第四损失函数，并对第一损失函数、第二损失函数、第三损失函数及第四损失函数进行融合处理，得到融合损失函数。

S410，基于融合损失函数对原始分类模型进行训练，以得到训练好的事件分类模型。

可以理解的是，某事件大类中很多事件子类较为相似，因此，本实施例中使用一种监督对比学习方法建立支持集-支持集、类向量-事件描述信息、类向量-查询集之间的关系，用于拉近正样本之间的距离、拉远负样本之间的距离，即使相同事件类别的样本距离更近，而不通用事件类别的样本距离更远。

具体的，本实施例中，建立支持集的对比支持集，并根据支持集和对比支持集确定第一损失函数为：，其中，/>和/>为支持集中同一个预设事件类型的样本向量，/>表示与/>不同类的样本向量，/>为温度系数。

根据各类向量与对应的事件描述表征之间的相似度，以及各类向量与剩余类向量对应的事件描述表征之间的相似度，确定第二损失函数为：，其中，/>表示事件i的类向量与其事件信息之间的相似度，/>表示事件i的类向量与其他事件类型n事件信息之间的相似度。

根据各类向量与查询集中对应样本之间的相似度，以及各类向量与查询集中剩余样本之间的相似度，确定第三损失函数为：，其中，/>表示事件i的类向量与查询集中对应样本之间的相似度，/>用于表示事件i的类向量与查询集中剩余样本之间的相似度。

进一步的，非参数的距离分类器通常用于少样本分类问题，这类分类器不依赖于显式的参数化模型，而是基于样本之间的距离或相似性进行分类。本实施例采用该距离分类器作为原始分类模型，具体的，该类分类器在分类新样本时，该分类器会测量新样本与训练集中样本的距离或相似性，并将其分配给与其最近的类别。比如，对于一个新样本，找到训练集中与之最相似的若干个样本，通过他们的类别来进行投票或加权投票来确定新样本的类别。

本实施例中，基于上述距离分类器，在训练阶段，将类向量与查询集样本输入到该距离分类器中，从而计算少样本分类的损失函数，即第四损失函数。进一步的，本实施例中，将第一损失函数、第二损失函数、第三损失函数、第四损失函数相融合，得到融合损失函数，并基于该融合损失函数，对原始分类模型进行训练。

具体的，融合损失函数表示为：，其中，α，β，γ分别为平衡参数，/>，/>，d（）为点积计算。具体的，S用于表示支持集，/>用于表示查询集中第i个样本，/>用于表示样本/>对应的标签事件类型，/>用于表示标签/>对应的类向量，/>用于表示所属事件类型c对应的类向量。

本实施例提供的方法中，对于支持集的文章整体特征，电子设备结合标题表征和事件描述表征两个层次通过关键句子集合提取文章整体特征。进一步的，利用预设事件类型的事件描述信息，来增强类向量的表达，从而进一步加强了少样本场景下事件类型对应的类向量的表达。

此外，针对预设事件类型中某个事件大类的子类可能过于相近的问题，本实施例的方法中采用混合对比学习方法，通过建立支持集-支持集、类向量-查询集、类向量-事件描述信息之间的联系进行有监督对比学习，从而能够更好地表示类向量。

图6为本申请实施例提供的一种事件分类模型的使用方法的流程示意图，下面结合图6对本实施例的方法进行详细说明。如图6所示，本实施例的方法包括：

S601，在获取到在线文章时，获取在线文章的关键句子集合，并根据关键句子集合提取在线文章的文章特征。

具体的，本实施例中电子设备通过前述实施例提供的改进TextRank方法对在线文章进行提取，以得到在线文章的关键句子集合。进一步的，电子设备根据前述实施例提供的融入事件描述信息的文档特征提取方法，来根据关键句子集合提取在线文章的文章特征。

S602，将文章特征输入至训练好的事件分类模型中，以得到在线文章的类向量，根据类向量确定事件类型。

其中，事件分类模型是基于上述的事件分类模型的训练方法实施例得到的，本实施例中不再赘述。

本实施例中的方法中，电子设备将得到的文章特征输入至训练好的事件分类模型中，即可得到在线文章对应的类向量，进一步的，电子设备根据类向量确定事件类型。可以理解的是，事件类型对应唯一的类向量。

通过上述实施例从方法流程的角度介绍一种事件分类模型的训练方法及事件分类模型的使用方法，下述实施例从虚拟模块或虚拟单元的角度介绍一种事件分类模型的训练装置及事件分类模型的使用装置，具体详见下述实施例。

本申请实施例提供一种事件分类模型的训练装置，图7为本申请实施例提供的一种事件分类模型的训练装置的结构示意图，如图7所示，该装置包括获取模块71、第一提取模块72、计算模块73及训练模块74。

其中，获取模块71，用于获取文章数据的关键句子集合，文章数据是通过预设方式从预设数据来源爬取的；

第一提取模块72，用于按照预设层面从关键句子集合中提取文章整体特征，以得到支持集；预设层面包括关键句子与文章标题的关联度，以及关键句子与事件描述信息的关联度，事件描述信息是对相应预设事件类型的描述；支持集包含不同预设事件类型的文章整体特征；

计算模块73，用于通过原型网络计算支持集中每个预设事件类型的样本均值，以得到原型表征，并基于原型表征和事件描述表征，确定类向量；事件描述表征是基于事件描述信息得到的，类向量是预设事件类型的表征；

训练模块74，用于根据支持集和类向量，对原始分类模型进行训练，以得到训练好的事件分类模型；其中，以在输入文章整体特征时，输出相应的类向量为训练目标。

本申请实施例的另一种可能的实现方式，获取模块71具体用于：

按照预设规则将文章数据划分成多个句子，得到文档句子集合；

通过Sentence-BERT模型获得文章数据的标题向量、句子向量以及事件描述表征，事件描述表征是通过文章数据的所属事件类型唯一对应的事件描述信息得到的；

计算文章数据中两两句子间的第一相似度、文章标题与不同句子的第二相似度，以及所属事件类型与文章数据中不同句子的第三相似度，以分别得到第一相似度矩阵、第二相似度矩阵、第三相似度矩阵；

根据第一相似度矩阵、第二相似度矩阵及第三相似度矩阵，确定关键句子集合。

获取文章数据中不同句子在文章数据中的位置权重矩阵，文章数据中位置靠中间的句子的位置权重大于位置靠后的句子的位置权重，小于位置靠前的句子的位置权重；

对位置权重矩阵、第一相似度矩阵、第二相似度矩阵及第三相似度矩阵进行加权求和，以得到综合相似度矩阵，并根据综合相似度矩阵迭代更新每个句子的权重，直至每相邻的两个句子的权重差值小于预设值时，将权重较高的前m个句子作为关键句子，得到关键句子集合；m为大于0的整数。

本申请实施例的另一种可能的实现方式，第一提取模块72具体用于：

将关键句子集合输入至BERT模型中，以得到各个关键句子的关键句子表征；

计算各关键句子表征与标题表征的第一关联度，以及各关键句子表征与事件描述表征的第二关联度；

根据第一关联度，对关键句子表征进行加权求和，得到第一表征；根据第二关联度，对关键句子表征进行加权求和，得到第二表征；

通过第一预设门控机制对第一表征和第二表征进行融合处理，以得到文档内容表征；第一预设门控机制用于为第一表征和第二表征配置权重；

对文档内容特征和标题表征进行拼接操作，以得到文章整体特征。

本申请实施例的另一种可能的实现方式，计算模块73具体用于：

通过第二预设门控机制确认类向量需要保留的原型向量表征的第一信息，以及需要替代的原型向量表征的第二信息；第一信息用于指示需要保留的原型向量表征，第二信息用于指示需要替代的原型向量表征；

通过第三预设门控机制确认需要保留的事件描述表征的第三信息；第三信息用于指示需要保留的事件描述表征；

根据第一信息、第二信息及第三信息，确定类向量。

本申请实施例的另一种可能的实现方式，训练模块74还用于：

建立支持集的对比支持集，通过支持集和对比支持集，确定第一损失函数；

根据各类向量与对应的事件描述表征之间的相似度，以及各类向量与剩余类向量对应的事件描述表征之间的相似度，确定第二损失函数；

根据各类向量与查询集中对应样本之间的相似度，以及各类向量与查询集中剩余样本之间的相似度，确定第三损失函数。

本申请实施例的另一种可能的实现方式，训练模块74具体用于：

将类向量和查询集样本输入到原始分类模型中，以得到第四损失函数；

对第一损失函数、第二损失函数、第三损失函数及第四损失函数进行融合处理，得到融合损失函数；

基于融合损失函数对原始分类模型进行训练，以得到训练好的事件分类模型。

本申请实施例提供一种事件分类模型的使用装置，图8为本申请实施例提供的一种事件分类模型的使用装置的结构示意图，如图8所示，该装置包括第二提取模块81和分类模块82。

其中，第二提取模块81，用于在获取到在线文章时，获取在线文章的关键句子集合，并根据关键句子集合提取在线文章的文章特征；

分类模块82，用于将文章特征输入至训练好的事件分类模型中，以得到在线文章的类向量，根据类向量确定事件类型；事件分类模型是基于事件分类模型的训练方法得到的。

本申请实施例提供的一种事件分类模型的训练装置及一种事件分类模型的使用装置，分别适用于上述事件分类模型的训练方法的方法实施例、事件分类模型的使用方法的方法实施例，在此不再赘述。

本申请实施例中提供了一种电子设备，如图9所示，图9所示的电子设备包括：处理器91和存储器92。其中，处理器91和存储器92相连，如通过总线93相连。可选地，电子设备还可以包括收发器94。需要说明的是，实际应用中收发器94不限于一个，该电子设备的结构并不构成对本申请实施例的限定。

处理器91可以是中央处理器（Central Processing Unit，CPU），通用处理器，数据信号处理器（Digital Signal Processor，DSP），专用集成电路（Application SpecificIntegrated Circuit，ASIC），现场可编程门阵列（Field Programmable Gate Array，FPGA）或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器91也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线93可包括一通路，在上述组件之间传送信息。总线93可以是外设部件互连标准（Peripheral Component Interconnect，PCI）总线或扩展工业标准结构（ExtendedIndustry Standard Architecture，EISA）总线等。总线93可以分为地址总线、数据总线、控制总线等。为便于表示，图9中仅用一条粗线表示，但并不表示仅有一根总线93或一种类型的总线93。

存储器92可以是只读存储器（Read Only Memory，ROM）或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器（Random Access Memory，RAM）或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器（ElectricallyErasable Programmable Read Only Memory，EEPROM）、只读光盘（Compact Disc ReadOnly Memory，CD-ROM）或其他光盘存储、光碟存储（包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等）、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器92用于存储执行本申请方案的应用程序代码，并由处理器91来控制执行。处理器91用于执行存储器92中存储的应用程序代码，以实现前述方法实施例所示的内容。

图9示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

Claims

1.一种事件分类模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述获取文章数据的关键句子集合，包括：

按照预设规则将所述文章数据划分成多个句子，得到文档句子集合；

通过Sentence-BERT模型获得所述文章数据的标题向量、句子向量以及所述事件描述表征，所述事件描述表征是通过所述文章数据的所属事件类型唯一对应的事件描述信息得到的；

计算所述文章数据中两两句子间的第一相似度、所述文章标题与不同句子的第二相似度，以及所述所属事件类型与所述文章数据中不同句子的第三相似度，以分别得到第一相似度矩阵、第二相似度矩阵、第三相似度矩阵；

根据所述第一相似度矩阵、所述第二相似度矩阵及所述第三相似度矩阵，确定所述关键句子集合。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一相似度矩阵、所述第二相似度矩阵及所述第三相似度矩阵，确定所述关键句子集合，包括：

获取所述文章数据中不同句子在所述文章数据中的位置权重矩阵，所述文章数据中位置靠中间的句子的位置权重大于位置靠后的句子的位置权重，小于位置靠前的句子的位置权重；

对所述位置权重矩阵、所述第一相似度矩阵、所述第二相似度矩阵及所述第三相似度矩阵进行加权求和，以得到综合相似度矩阵，并根据所述综合相似度矩阵迭代更新每个句子的权重，直至每相邻的两个句子的权重差值小于预设值时，将权重较高的前m个句子作为关键句子，得到所述关键句子集合；m为大于0的整数。

4.根据权利要求3所述的方法，其特征在于，所述按照预设层面从所述关键句子集合中提取文章整体特征，以得到支持集，包括：

将所述关键句子集合输入至BERT模型中，以得到各个关键句子的关键句子表征；

计算各所述关键句子表征与标题表征的第一关联度，以及各所述关键句子表征与事件描述表征的第二关联度；

根据所述第一关联度，对所述关键句子表征进行加权求和，得到第一表征；根据所述第二关联度，对所述关键句子表征进行加权求和，得到第二表征；

通过第一预设门控机制对所述第一表征和所述第二表征进行融合处理，以得到文档内容表征；所述第一预设门控机制用于为所述第一表征和所述第二表征配置权重；

对所述文档内容特征和所述标题表征进行拼接操作，以得到所述文章整体特征。

5.根据权利要求3所述的方法，其特征在于，所述基于所述原型表征和事件描述表征，确定类向量，包括：

通过第二预设门控机制确认所述类向量需要保留的原型向量表征的第一信息，以及需要替代的原型向量表征的第二信息；所述第一信息用于指示需要保留的原型向量表征，所述第二信息用于指示需要替代的原型向量表征；

通过第三预设门控机制确认需要保留的事件描述表征的第三信息；所述第三信息用于指示需要保留的事件描述表征；

根据所述第一信息、所述第二信息及所述第三信息，确定所述类向量。

6.根据权利要求1所述的方法，其特征在于，所述根据所述支持集和所述类向量，对原始分类模型进行训练之前，所述方法还包括：

建立所述支持集的对比支持集，通过所述支持集和所述对比支持集，确定第一损失函数；

根据各所述类向量与对应的事件描述表征之间的相似度，以及各所述类向量与剩余类向量对应的事件描述表征之间的相似度，确定第二损失函数；

根据各所述类向量与查询集中对应样本之间的相似度，以及各所述类向量与所述查询集中剩余样本之间的相似度，确定第三损失函数。

7.根据权利要求6所述的方法，其特征在于，所述根据所述支持集和所述类向量，对原始分类模型进行训练，包括：

将所述类向量和查询集样本输入到所述原始分类模型中，以得到第四损失函数；

对所述第一损失函数、第二损失函数、第三损失函数及第四损失函数进行融合处理，得到融合损失函数；

基于所述融合损失函数对所述原始分类模型进行训练，以得到训练好的事件分类模型。

8.一种事件分类模型的使用方法，其特征在于，所述方法包括：

将所述文章特征输入至训练好的事件分类模型中，以得到所述在线文章的类向量，根据所述类向量确定事件类型；所述事件分类模型是基于权利要求1-7任一项所述的事件分类模型的训练方法得到的。

9.一种事件分类模型的训练装置，其特征在于，包括：

10.一种事件分类模型的使用装置，其特征在于，包括：

分类模块，用于将所述文章特征输入至训练好的事件分类模型中，以得到所述在线文章的类向量，根据所述类向量确定事件类型；所述事件分类模型是基于权利要求1-7任一项所述的事件分类模型的训练方法得到的。

11.一种电子设备，其特征在于，包括：至少一个处理器和存储器；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述至少一个处理器执行如权利要求1-8任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，所述计算机执行指令被处理器执行时用于实现如权利要求1-8任一项所述的方法。