CN114881141A - 事件类型分析方法及相关设备 - Google Patents
事件类型分析方法及相关设备 Download PDFInfo
- Publication number
- CN114881141A CN114881141A CN202210487017.9A CN202210487017A CN114881141A CN 114881141 A CN114881141 A CN 114881141A CN 202210487017 A CN202210487017 A CN 202210487017A CN 114881141 A CN114881141 A CN 114881141A
- Authority
- CN
- China
- Prior art keywords
- language model
- training
- input tuple
- label
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/217—Validation; Performance evaluation; Active pattern learning techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种事件类型分析方法及相关设备。所述方法包括:获取包括有父标签的父训练集和包括有子标签的第一子训练集;将父训练集中的第一输入元组转化为第一提示格式;基于第一提示格式对预训练语言模型进行调整,得到第一语言模型;将父标签加入第一子训练集的对应的第二输入元组中,得到第二子训练集;将第二子训练集中的第二输入元组转化为第二提示格式;基于第二提示格式对所述第一语言模型进行调整,得到第二语言模型;利用第二语言模型分析待检测文本对应的事件类型。本申请实施例通过引入父子标签以及费雪信息的概念,在训练模型时提供了额外的监督信号,以及能够有效识别信息量最大的示范例子用于训练,最终实现了对事件类型的分析。
Description
技术领域
本申请涉及事件检测技术领域,尤其涉及一种事件类型分析方法及相关设备。
背景技术
事件检测(ED)的目的是将事件标签分配给无标签的句子,在现实世界的应用中,当只有少数标注的样本可用时,这往往会陷入困境。现有的工作主要聚焦于使用元学习来克服低资源问题,但在模型学习和筛选时仍然需要来自其他任务的标注数据。
小样本学习是事件检测实践中最成功的技术之一。它通常通过增加参数的数量来丰富输入文本的语义表示,例如,加深模型或构建比现有模型更复杂的注意结构。然而,随着模型参数量的提高,训练过程需要更多的人工标注样本,这就造成了难以承受的时间和人力成本。随后,元学习在最近的许多研究中被用于小样本事件检测,其范式是从丰富的数据类中学习元知识,如事件特征,然后将其推广到只有少量例子的新类。然而,基于元学习的方法的泛化能力主要依赖于不容易获得的丰富的类。
发明内容
有鉴于此,本申请的目的在于提出一种事件类型分析方法及相关设备。
基于上述目的,本申请提供了一种事件类型分析方法,包括:
获取包括有父标签的父训练集和包括有子标签的第一子训练集;
将所述父训练集中的第一输入元组转化为第一提示格式;
基于所述第一提示格式对预训练语言模型进行调整,得到第一语言模型;
将所述父标签加入所述第一子训练集的对应的第二输入元组中,得到第二子训练集;
将所述第二子训练集中的第二输入元组转化为第二提示格式;
基于所述第二提示格式对所述第一语言模型进行调整,得到第二语言模型;
利用所述第二语言模型分析待检测文本对应的事件类型。
在一种可能的实现方式中,所述将所述父训练集中的第一输入元组转化为第一提示格式,包括:
利用平均向量表示法将所述第一输入元组的标签转化为标签向量;
利用重建模板将所述第一输入元组重建为句子提示格式;
所述标签向量和所述句子提示格式组成所述第一提示格式。
在一种可能的实现方式中,还包括通过以下方法得到所述重建模板:
对于所述训练集中的每个输入元组,将所述每个输入元组中的三个元素进行排列组合,得到输入元组元素的排列组合;
在所述排列组合中分别填入掩码,并输入至文本到文本转换器中,利用束搜索方法确定所述重建模板。
在一种可能的实现方式中,所述在所述排列组合中分别填入掩码,输入至文本到文本转换器中,利用束搜索方法确定所述重建模板,包括:
在所述排列组合中分别填入掩码,得到掩码后排列组合;
将所述掩码后排列组合输入至所述文本到文本转换器中,利用所述文本到文本转换器使用自然语言填补所述掩码;
利用束搜索对填补掩码后的排列组合进行解码得到候选模板集,根据填补所述掩码后得到的结果,得到所述重建模板。
在一种可能的实现方式中,所述基于所述第一提示格式对预训练语言模型进行调整,得到第一语言模型,包括:
计算所述第一输入元组的句子与所述父训练集中的第三输入元组的句子的相似度;
将前50%所述相似度对应的第三输入元组作为所述第一输入元组的第一支持集;
将所述第一支持集中的第三输入元组转化为第三提示格式;
将所述第一提示格式与所述第三提示格式进行拼接,得到上下文;
将所述上下文输入所述预训练语言模型中,得到第一训练标签;
利用所述第一训练标签和所述第一输入元组的标签,计算得到费雪信息;
将所述费雪信息最大值对应的所述第三输入元组作为支持例子;
利用所述支持例子对所述预训练语言模型进行调整,得到第一语言模型。
在一种可能的实现方式中,所述利用所述第一训练标签和所述第一输入元组的标签,计算得到第一费雪信息,包括:
利用所述第一训练标签和所述第一输入元组的标签,计算得到标签损失;
利用所述标签损失获取所述预训练语言模型的参数梯度;
根据所述参数梯度计算得到所述费雪信息。
在一种可能的实现方式中,所述利用所述支持例子对所述预训练语言模型进行调整,得到第一语言模型,包括:
将所述支持例子与所述句子提示格式拼接后输入所述预训练语言模型中,得到第二训练标签;
利用所述第二训练标签和所述第一输入元组的标签,计算训练损失;
利用所述训练损失对所述预训练语言模型进行调整,得到第一语言模型。
基于同一发明构思,本说明书一个或多个实施例还提供了一种事件类型分析装置,包括:
获取模块,被配置为获取包括有父标签的父训练集和包括有子标签的第一子训练集;
转化模块,被配置为将所述父训练集中的第一输入元组转化为第一提示格式;
调整模块,被配置为基于所述第一提示格式对预训练语言模型进行调整,得到第一语言模型;
数据处理模块,被配置为将所述父标签加入所述第一子训练集的对应的第二输入元组中,得到第二子训练集;
转化模块,被配置为将所述第二子训练集中的第二输入元组转化为第二提示格式;
调整模块,被配置为基于所述第二提示格式对所述第一语言模型进行调整,得到第二语言模型;
预测模块,被配置为利用所述第二语言模型分析待检测文本对应的事件类型。
基于同一发明构思,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任意一项所述的事件类型分析方法。
基于同一发明构思,本说明书一个或多个实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述任一所述的事件类型分析方法。
从上面所述可以看出,本申请提供的事件类型分析方法及相关设备,通过获取包括有父标签的父训练集和包括有子标签的第一子训练集;将所述父训练集中的第一输入元组转化为第一提示格式;基于所述第一提示格式对预训练语言模型进行调整,得到第一语言模型;将所述父标签加入所述第一子训练集的对应的第二输入元组中,得到第二子训练集;将所述第二子训练集中的第二输入元组转化为第二提示格式;基于所述第二提示格式对所述第一语言模型进行调整,得到第二语言模型;利用所述第二语言模型分析待检测文本对应的事件类型。对于模型而言,通过带有父子标签的父子训练集对其进行训练,用从易到难的样本训练语言模型,符合人类的课程学习过程,有效的缓解了数据不足带来的分类瓶颈,另外,引入费雪信息的概念,利用此来对示范例子进行过滤,使得最终可以为每个输入元组动态的选择信息量最大的支撑例子来训练模型,有效防止了对原语言模型的性能的损害。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的事件类型分析方法流程图;
图2为本申请实施例的事件类型分析装置结构图;
图3为本申请实施例的电子设备结构。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如背景技术部分所述,相关技术中主要聚焦于使用元学习来克服低资源问题,但在模型学习和筛选时仍然需要来自其他任务的标注数据,因此引入提示学习的概念,但这些方法都忽略了特定的任务信息,一般采用示范学习来对模型进行调整,就导致模型无法利用最有信息量的例子进行训练并损害模型性能。
综合上述考虑,本申请提出一种事件类型分析方法及相关设备,通过结合包含父子标签的父子训练集,用从易到难的样本训练语言模型,可以在没有额外训练数据的情况下提供额外的监督信号,有效的缓解了数据不足带来的分类瓶颈。另外,利用费雪信息来过滤得到信息量最大的示范例子,有效降低了参与示范的实例数量,与此同时仍旧保持甚至提高了调整模型的效率。
以下,通过具体的实施例来详细说明本申请的技术方案。
参考图1,本申请实施例事件类型分析方法,包括以下步骤:
步骤S101,获取包括有父标签的父训练集和包括有子标签的第一子训练集。
步骤S102,将所述父训练集中的第一输入元组转化为第一提示格式。
步骤S103,基于所述第一提示格式对预训练语言模型进行调整,得到第一语言模型。
步骤S104,将所述父标签加入所述第一子训练集的对应的第二输入元组中,得到第二子训练集。
步骤S105,将所述第二子训练集中的第二输入元组转化为第二提示格式。
步骤S106,基于所述第二提示格式对所述第一语言模型进行调整,得到第二语言模型
步骤S107,利用所述第二语言模型分析待检测文本对应的事件类型。
在步骤S101中,在事件类型的分析过程中,每个事件类型均由一个父标签和一个子标签构成。以FewEvent中的事件类型yi=Life.Be-born为例,“Life”是事件类型yi的父标签,“Be-born”是其子标签,而每个事件类型(即子标签)在训练集中有K个例子。理想情况下,每一个父标签都包含Np个子标签。这样一来,每个父标签的数据量可以达到Np*K。标签数据量的差异可以很容易地将事件检测分为两个训练阶段,即容易的父标签分类阶段和困难的子标签分类阶段。在这两个训练阶段中既没有引入额外的参数,也没有增加计算的工作量。
在一种可能的实现方式中,将所述父训练集中的第一输入元组转化为第一提示格式,包括:
利用平均向量表示法将所述第一输入元组的标签转化为标签向量;
利用重建模板将所述第一输入元组重建为句子提示格式;
所述标签向量和所述句子提示格式组成所述第一提示格式。
在一种可能的实现方式中,所述第一输入元组包括:句子、标签和触发词。
在步骤S102中,事件标签不包含无实际意义的停止词,例如“city-of-birth”中的“of”,一些事件标签会共享相同的词,这些词与每个类别中包含的上下文相近,例如“Start-Org”、“Merge-Org”和“end-Org”中的“Org”,且典型的加权表示可能会导致标签之间的差异不明显,因此应用平均向量法来获得标签向量。所述标签向量通过下式计算:
其中,M(yi)表示标签向量,yi表示标签,li表示标签分解后的第i个参数,Cy表示所有标签分解后的参数的集合。
在一种可能的实现方式中,还包括通过以下方法得到所述重建模板:
对于所述训练集中的每个输入元组,将所述每个输入元组中的三个元素进行排列组合,得到输入元组元素的排列组合;
在所述排列组合中分别填入掩码,并输入至文本到文本转换器中,利用束搜索方法确定所述重建模板。
在一种可能的实现方式中,所述在所述排列组合中分别填入掩码,输入至文本到文本转换器中,利用束搜索方法确定所述重建模板,包括:
在所述排列组合中分别填入掩码,得到掩码后排列组合;
将所述掩码后排列组合输入至所述文本到文本转换器中,利用所述文本到文本转换器使用自然语言填补所述掩码;
利用束搜索对填补掩码后的排列组合进行解码得到候选模板集,根据填补所述掩码后得到的结果,得到所述重建模板。
在一种可能的实现方式中,可以将原始输入直接作为预先确定的约束,若输入有f个因素,那么文本到文本转换器的输入就有f!个排列组合。在本申请实施例中,输入元组为(xi,yi,ti),事件类型分析只有三个元素:句子、触发词和标签,采用函数P来输出这些输入的所有排列组合,如下所示:
在上述排列组合中分别填入掩码,得到掩码后排列组合,如下所示:
利用文本到文本转换器使用自然语言填补上边的占位符“<X>”、“<Y>”、“<Z>”。对于每个排列组合,利用束搜索对填补后的排列组合进行解码,文本到文本转换器相应的可以生成一个模板候选集,所述模板候选集通过下式计算:
将模板候选集中的每个模板都带入到预训练语言模型中,根据模板在该语言模型中填补掩码的性能,选取得到最终的重建模板。所述重建模板通过下式计算:
在一种可能的实现方式中,所述基于所述第一提示格式对预训练语言模型进行调整,得到第一语言模型,包括:
计算所述第一输入元组的句子与所述父训练集中的第三输入元组的句子的相似度;
将前50%所述相似度对应的第三输入元组作为所述第一输入元组的第一支持集;
将所述第一支持集中的第三输入元组转化为第三提示格式;
将所述第一提示格式与所述第三提示格式进行拼接,得到上下文;
将所述上下文输入所述预训练语言模型中,得到第一训练标签;
利用所述第一训练标签和所述第一输入元组的标签,计算得到费雪信息;
将所述费雪信息最大值对应的所述第三输入元组作为支持例子;
利用所述支持例子对所述预训练语言模型进行调整,得到第一语言模型。在一种可能的实现方式中,所述利用所述第一训练标签和所述第一输入元组的标签,计算得到第一费雪信息,包括:
利用所述第一训练标签和所述第一输入元组的标签,计算得到标签损失;
利用所述标签损失获取所述预训练语言模型的参数梯度;
根据所述参数梯度计算得到所述费雪信息。
在一种可能的实现方式中,所述利用所述支持例子对所述预训练语言模型进行调整,得到第一语言模型,包括:
将所述支持例子与所述句子提示格式拼接后输入所述预训练语言模型中,得到第二训练标签;
利用所述第二训练标签和所述第一输入元组的标签,计算训练损失;
利用所述训练损失对所述预训练语言模型进行调整,得到第一语言模型。
在步骤S103中,示范学习的优越性在于能够为语言模型示范应该如何为输入的实际提示提供答案。例如,在提供"The capital of China is[MASK]"的查询语句前,先举几个例子,如"Great Britain’s capital is London.Japan’s capital is Tokyo."。这些示范例子使性能强大的语言模型能够学习重复的模式。因此,在嵌入空间中与查询样本在语义上接近的例子始终能产生强大的性能。
因此,我们采用预先训练好的Sentence-BERT(SBERT)来衡量例子之间的语义相似度,它对每个句子进行独立编码,并将它们映射到一个密集的向量空间。具体来说,SBERT创建连体和三连体网络来更新权重,这样产生的句子嵌入就可以用余弦相似度进行比较。
在本申请实施例中,SBERT先将所述第一输入元组的句子与所述父训练集中的第三输入元组的句子分别转化为第一输入向量和第二输入向量,所述相似度通过下式计算:
其中,dist(·)表示计算相似度,a表示第一输入向量,b表示第二输入向量。
所述第一输入元组的句子需和所述父训练集中的第三输入元组中的每个句子都分别计算余弦相似度,比较后取相似度较大的前50%对应的第三输入元组作为第一支持集。
将第一支持集中的每一个第三输入元组通过标签表示方程和文本对文本转换器进行转化,得到第三提示格式。
所述第三提示格式通过下式表示:
Dtrain表示训练集,T(·)表示文本到文本转换器,M(·)表示标签表示方程,(xi,yi,ti)表示输入元组。
在一种可能的实现方式中,拼接后得到的所述上下文通过下式表示:
在一种可能的实现方式中,所述标签损失通过下式计算:
在一种可能的实现方式中,所述参数梯度通过下式计算:
在一种可能的实现方式中,所述费雪信息通过下式计算:
在步骤S103中,得到第一语言模型后,将父标签加入至所述第一子训练集中,进行步骤S104-106。
在本申请实施例中,步骤S104对应步骤S101,步骤S105对应步骤S102,步骤S106对应步骤S103,其中不同之处在于步骤S105中,在将所述第二子训练集中的第二输入元组转化为第二提示格式时,因引入了父标签,因此在转化时需要考虑父标签这一参数,其余步骤仅为简单参数替换,在此不做赘述。
经过步骤S106得到第二语言模型后,进行步骤S107,利用第二语言模型分析待检测文本对应的事件类型。在此步骤中,第二语言模型的输入为待检测文本,输出为所述事件类型。
通过上述实施例可以看出,本申请实施例所述的事件类型分析方法,通过带有父子标签的父子训练集对其进行训练,用从易到难的样本训练语言模型,符合人类的课程学习过程,有效的缓解了数据不足带来的分类瓶颈,另外,引入费雪信息的概念,利用此来对示范例子进行过滤,使得最终可以为每个输入元组动态的选择信息量最大的支撑例子来训练模型,有效防止了对原语言模型的性能的损害。相比于现有技术而言,本申请避免引入额外的参数以及在降低参数示范实例的同时,保持甚至提高了调整模型的效率。
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种事件类型分析装置。
参考图2,所述事件类型分析装置,包括:
获取模块21,被配置为获取包括有父标签的父训练集和包括有子标签的第一子训练集;
转化模块22,被配置为将所述父训练集中的第一输入元组转化为第一提示格式;
调整模块23,被配置为基于所述第一提示格式对预训练语言模型进行调整,得到第一语言模型;
数据处理模块24,被配置为将所述父标签加入所述第一子训练集的对应的第二输入元组中,得到第二子训练集;
转化模块22,被配置为将所述第二子训练集中的第二输入元组转化为第二提示格式;
调整模块23,被配置为基于所述第二提示格式对所述第一语言模型进行调整,得到第二语言模型;
预测模块25,被配置为利用所述第二语言模型分析待检测文本对应的事件类型。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的事件类型分析方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的事件类型分析方法。
图3示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的事件类型分析方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的事件类型分析方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的事件类型分析方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种事件类型分析方法,其特征在于,包括:
获取包括有父标签的父训练集和包括有子标签的第一子训练集;
将所述父训练集中的第一输入元组转化为第一提示格式;
基于所述第一提示格式对预训练语言模型进行调整,得到第一语言模型;
将所述父标签加入所述第一子训练集的对应的第二输入元组中,得到第二子训练集;
将所述第二子训练集中的第二输入元组转化为第二提示格式;
基于所述第二提示格式对所述第一语言模型进行调整,得到第二语言模型;
利用所述第二语言模型分析待检测文本对应的事件类型。
2.根据权利要求1所述的方法,其特征在于,所述将所述父训练集中的第一输入元组转化为第一提示格式,包括:
利用平均向量表示法将所述第一输入元组的标签转化为标签向量;
利用重建模板将所述第一输入元组重建为句子提示格式;
所述标签向量和所述句子提示格式组成所述第一提示格式。
3.根据权利要求2所述的方法,其特征在于,还包括通过以下方法得到所述重建模板:
对于所述训练集中的每个输入元组,将所述每个输入元组中的三个元素进行排列组合,得到输入元组元素的排列组合;
在所述排列组合中分别填入掩码,并输入至文本到文本转换器中,利用束搜索方法确定所述重建模板。
4.根据权利要求3所述的方法,其特征在于,所述在所述排列组合中分别填入掩码,输入至文本到文本转换器中,利用束搜索方法确定所述重建模板,包括:
在所述排列组合中分别填入掩码,得到掩码后排列组合;
将所述掩码后排列组合输入至所述文本到文本转换器中,利用所述文本到文本转换器使用自然语言填补所述掩码;
利用束搜索对填补掩码后的排列组合进行解码得到候选模板集,根据填补所述掩码后得到的结果,得到所述重建模板。
5.根据权利要求2所述的方法,其特征在于,所述基于所述第一提示格式对预训练语言模型进行调整,得到第一语言模型,包括:
计算所述第一输入元组的句子与所述父训练集中的第三输入元组的句子的相似度;
将前50%所述相似度对应的第三输入元组作为所述第一输入元组的第一支持集;
将所述第一支持集中的第三输入元组转化为第三提示格式;
将所述第一提示格式与所述第三提示格式进行拼接,得到上下文;
将所述上下文输入所述预训练语言模型中,得到第一训练标签;
利用所述第一训练标签和所述第一输入元组的标签,计算得到费雪信息;
将所述费雪信息最大值对应的所述第三输入元组作为支持例子;
利用所述支持例子对所述预训练语言模型进行调整,得到第一语言模型。
6.根据权利要求5所述的方法,其特征在于,所述利用所述第一训练标签和所述第一输入元组的标签,计算得到第一费雪信息,包括:
利用所述第一训练标签和所述第一输入元组的标签,计算得到标签损失;
利用所述标签损失获取所述预训练语言模型的参数梯度;
根据所述参数梯度计算得到所述费雪信息。
7.根据权利要求5所述的方法,其特征在于,所述利用所述支持例子对所述预训练语言模型进行调整,得到第一语言模型,包括:
将所述支持例子与所述句子提示格式拼接后输入所述预训练语言模型中,得到第二训练标签;
利用所述第二训练标签和所述第一输入元组的标签,计算训练损失;
利用所述训练损失对所述预训练语言模型进行调整,得到第一语言模型。
8.一种事件检测装置,其特征在于,包括:
获取模块,被配置为获取包括有父标签的父训练集和包括有子标签的第一子训练集;
转化模块,被配置为将所述父训练集中的第一输入元组转化为第一提示格式;
调整模块,被配置为基于所述第一提示格式对预训练语言模型进行调整,得到第一语言模型;
数据处理模块,被配置为将所述父标签加入所述第一子训练集的对应的第二输入元组中,得到第二子训练集;
转化模块,被配置为将所述第二子训练集中的第二输入元组转化为第二提示格式;
调整模块,被配置为基于所述第二提示格式对所述第一语言模型进行调整,得到第二语言模型;
预测模块,被配置为利用所述第二语言模型分析待检测文本对应的事件类型。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。
10.一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使计算机执行权利要求1至7任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210487017.9A CN114881141A (zh) | 2022-05-06 | 2022-05-06 | 事件类型分析方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210487017.9A CN114881141A (zh) | 2022-05-06 | 2022-05-06 | 事件类型分析方法及相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114881141A true CN114881141A (zh) | 2022-08-09 |
Family
ID=82672877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210487017.9A Pending CN114881141A (zh) | 2022-05-06 | 2022-05-06 | 事件类型分析方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114881141A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116861885A (zh) * | 2023-07-11 | 2023-10-10 | 贝壳找房(北京)科技有限公司 | 标签生成方法、装置、设备和介质 |
-
2022
- 2022-05-06 CN CN202210487017.9A patent/CN114881141A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116861885A (zh) * | 2023-07-11 | 2023-10-10 | 贝壳找房(北京)科技有限公司 | 标签生成方法、装置、设备和介质 |
CN116861885B (zh) * | 2023-07-11 | 2024-05-07 | 贝壳找房(北京)科技有限公司 | 标签生成方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111027327B (zh) | 机器阅读理解方法、设备、存储介质及装置 | |
CN109960810B (zh) | 一种实体对齐方法及装置 | |
CN111666416B (zh) | 用于生成语义匹配模型的方法和装置 | |
CN111611797B (zh) | 基于Albert模型的预测数据标注的方法、装置及设备 | |
CN113255328B (zh) | 语言模型的训练方法及应用方法 | |
CN112182217A (zh) | 多标签文本类别的识别方法、装置、设备和存储介质 | |
CN116541492A (zh) | 一种数据处理方法及相关设备 | |
CN112182167A (zh) | 一种文本匹配方法、装置、终端设备和存储介质 | |
CN114782054A (zh) | 基于深度学习算法的客服服务质量检测方法及相关设备 | |
CN115659175A (zh) | 一种面向微服务资源的多模态数据分析方法、装置及介质 | |
CN114881141A (zh) | 事件类型分析方法及相关设备 | |
CN117275466A (zh) | 一种业务意图识别方法、装置、设备及其存储介质 | |
CN116090458A (zh) | 医学信息抽取方法、装置、电子设备及存储介质 | |
CN116957006A (zh) | 预测模型的训练方法、装置、设备、介质及程序产品 | |
CN115544210A (zh) | 基于持续学习的事件抽取的模型训练、事件抽取的方法 | |
CN115168575A (zh) | 应用于审计领域的主语补全方法及相关设备 | |
CN112818688B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN114912452A (zh) | 一种实体识别、信息抽取的方法和装置 | |
CN112015891A (zh) | 基于深度神经网络的网络问政平台留言分类的方法及系统 | |
CN117216194B (zh) | 文博领域知识问答方法及装置、设备和介质 | |
CN111562864B (zh) | 显示图片方法、电子设备和计算机可读介质 | |
CN115688026A (zh) | 用于审计领域的模型训练方法、文本分类方法及相关设备 | |
CN116975289A (zh) | 基于语义信息的文本属性级情感分类方法及相关设备 | |
CN117033554A (zh) | 数据分析方法、装置、计算机设备以及存储介质 | |
CN114444493A (zh) | 试题处理方法及装置、计算机可读存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |