CN115701862B - 一种事件要素的确定方法、装置、电子设备及存储介质 - Google Patents
一种事件要素的确定方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115701862B CN115701862B CN202310031992.3A CN202310031992A CN115701862B CN 115701862 B CN115701862 B CN 115701862B CN 202310031992 A CN202310031992 A CN 202310031992A CN 115701862 B CN115701862 B CN 115701862B
- Authority
- CN
- China
- Prior art keywords
- event
- sample
- target
- label
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本申请提供了一种事件要素的确定方法、装置、电子设备及存储介质。本申请涉及事件要素抽取技术领域。事件要素的确定方法包括:获取目标文件的目标事件要素抽取请求;基于目标事件要素抽取请求,将目标文件输入训练好的目标多语言事件要素抽取模型,确定目标文件对应的目标事件要素以及目标事件要素对应的目标事件类型;其中,目标事件类型是基于查询标签从预设事件标签数据库中确定的,预设事件标签数据库是基于训练好的目标多语言事件要素抽取模型确定的。本申请在能够提取目标文件中目标事件要素的同时,还可以确定各个目标事件要素对应的目标事件类型,进而提高目标事件要素与对应事件类型的相关性和匹配度,进而提高事件要素的抽取效率。
Description
技术领域
本申请涉及事件要素抽取技术领域,尤其是涉及一种事件要素的确定方法、装置、电子设备及存储介质。
背景技术
事件要素抽取旨在根据句子或文件中发生的事件,以结构化的方式抽取上述句子或文件中的事件要素,且事件要素抽取通常是信息检索中的重要前置任务之一,事件要素抽取在诸多领域有着广泛应用(如公共事务管理领域),且事件要素能够及时捕获社会事件的爆发和掌握事件的演变动态,且及时的对事件要素进行抽取有助对对应事件的快速应急响应以及急速处置,因此,对面向以自然语言形式存在的文本数据或文本文件,研究满足不同应用场景需要的事件要素抽取方法成为当前热点研究课题之一。
然而,传统的事件要素抽取通常是通过预训练语言模型识别确定目标事件要素,但是传统的离散式语言模型只能够识别出句子或文件中的事件要素,而通常情况下,在句子或文件中相同的事件要素可能对应着不同的事件,导致传统的事件要素与对应事件的相关性和匹配度较低,进而导致事件要素的抽取效率较低。
发明内容
有鉴于此,本申请的目的在于提供一种事件要素的确定方法、装置、电子设备及存储介质,通过将目标文件入训练好的目标多语言事件要素抽取模型,确定所述目标文件对应的目标事件要素以及所述目标事件要素对应的目标事件类型,在能够提取目标文件中目标事件要素的同时,还可以确定各个目标事件要素对应的目标事件类型,进而提高目标事件要素与对应事件类型的相关性和匹配度,进而提高事件要素的抽取效率。
本申请实施例提供了一种事件要素的确定方法,所述事件要素的确定方法包括:
获取目标文件的目标事件要素抽取请求,其中,所述目标事件要素抽取请求中包括针对所述目标文件中目标事件类型的查询标签;
基于所述目标事件要素抽取请求,将所述目标文件输入训练好的目标多语言事件要素抽取模型,确定所述目标文件对应的目标事件要素以及所述目标事件要素对应的目标事件类型;其中,所述目标事件类型是基于所述查询标签从预设事件标签数据库中确定的,所述预设事件标签数据库是基于训练好的目标多语言事件要素抽取模型确定的。
进一步的,通过以下方式确定目标事件类型:
将查询标签对应的查询向量与预设事件标签数据库中的各个样本事件标签对应的样本事件向量进行相似度计算,确定相似度最高的所述样本事件向量对应的所述样本事件标签为目标事件标签;
根据所述目标事件标签,确定目标文件中的目标事件类型。
进一步的,通过以下方式确定训练好的目标多语言事件要素抽取模型:
根据样本文件,确定所述样本文件对应的各个样本事件类型、各个所述样本事件类型对应的样本事件标签以及各个所述样本事件类型对应的样本事件要素标签;
将所述样本文件、所述样本事件标签以及所述的样本事件要素标签输入初始多语言事件要素抽取模型进行分步迭代训练,直到分步迭代后的损失值小于预设损失阈值,确定训练好的目标多语言事件要素抽取模型。
进一步的,所述预设损失阈值包括第一预设损失阈值和第二预设损失阈值,所述将所述样本文件、所述样本事件标签以及所述的样本事件要素标签输入初始多语言事件要素抽取模型进行分步迭代训练,直到分步迭代后的损失值小于预设损失阈值,确定训练好的目标多语言事件要素抽取模型,包括:
将样本文件和各个样本事件类型对应的各个样本事件要素标签输入初始多语言事件要素抽取模型进行分步迭代训练,确定各个所述样本事件类型对应的各个样本要素预设类型,其中,所述样本事件要素标签用于表征样本要素真实类型;
当各个所述样本要素预设类型与各个所述样本要素真实类型之间的损失值小于所述第一预设损失阈值,训练截止,确定训练好的中间多语言事件要素抽取模型;
将所述样本文件和各个所述样本事件类型对应各个所述样本事件标签输入训练好的所述中间多语言事件要素抽取模型进行分步迭代训练,确定各个所述样本事件类型对应的各个样本事件预设类型,其中,所述样本事件标签用于表征样本事件真实类型;
当各个所述样本事件真实类型与各个所述样本事件预设类型之间的损失值小于第二预设阈值,训练截止,确定训练好的目标多语言事件要素抽取模型。
进一步的,通过以下方式确定预设事件标签数据库:
获取各个样本事件类型对应各个所述样本事件标签以及各个所述样本事件标签的样本事件词向量;
针对各个所述样本事件词向量进行平均值计算,并将各个所述样本事件词向量的平均值确定为各个所述样本事件标签的键,以及将各个所述样本事件词向量确定为各个所述样本事件标签的值;
根据不同的样本事件类型对应的不同所述样本事件标签,建立不同的所述样本事件标签对应的键值对;
根据不同的所述键值对,确定预设事件标签数据库。
进一步的,所述将查询标签对应的查询向量与预设事件标签数据库中的各个样本事件标签对应的样本事件向量进行相似度计算,确定相似度最高的所述样本事件向量对应的所述样本事件标签为目标事件标签,包括:
将查询标签对应的查询向量与预设事件标签数据库中的各个样本事件标签对应的键进行余弦相似度计算,确定所述预设事件标签数据库中余弦相似度最大的键所对应的样本事件标签为目标事件标签。
本申请实施例还提供了一种事件要素的确定装置,所述事件要素的确定装置,包括:
获取模块,用于获取目标文件的目标事件要素抽取请求,其中,所述目标事件要素抽取请求中包括针对所述目标文件中目标事件类型的查询标签;
确定模块,用于基于所述目标事件要素抽取请求,将所述目标文件输入训练好的目标多语言事件要素抽取模型,确定所述目标文件对应的目标事件要素以及所述目标事件要素对应的目标事件类型;其中,所述目标事件类型是基于所述查询标签从预设事件标签数据库中确定的,所述预设事件标签数据库是基于训练好的目标多语言事件要素抽取模型确定的。
进一步的,通过以下方式确定目标事件类型:
将查询标签对应的查询向量与预设事件标签数据库中的各个样本事件标签对应的样本事件向量进行相似度计算,确定相似度最高的所述样本事件向量对应的所述样本事件标签为目标事件标签;
根据所述目标事件标签,确定目标文件中的目标事件类型。
本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的事件要素的确定方法的步骤。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的事件要素的确定方法的步骤。
本申请实施例提供的事件要素的确定方法、装置、电子设备及存储介质,与现有技术中的事件要素抽取方法相比,本申请提供的实施例通过将目标文件入训练好的目标多语言事件要素抽取模型,确定所述目标文件对应的目标事件要素以及所述目标事件要素对应的目标事件类型,在能够提取目标文件中目标事件要素的同时,还可以确定各个目标事件要素对应的目标事件类型,进而提高目标事件要素与对应事件类型的相关性和匹配度,进而提高事件要素的抽取效率。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种事件要素的确定方法的流程图;
图2示出了本申请实施例所提供的一种事件要素的确定方法中训练目标多语言事件要素抽取模型的流程图;
图3示出了本申请实施例所提供的一种事件要素的确定装置的结构示意图;
图4示出了本申请实施例所提供的一种电子设备的结构示意图。
图中:
300-事件要素的确定装置;310-获取模块;320-确定模块;400-电子设备;410-处理器;420-存储器;430-总线。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
首先,对本申请可适用的应用场景进行介绍。本申请可应用于事件要素抽取技术领域。
经研究发现,传统的事件要素抽取通常是通过预训练语言模型识别确定目标事件要素,但是传统的离散式语言模型只能够识别出句子或文件中的事件要素,而通常情况下,在句子或文件中相同的事件要素可能对应着不同的事件,导致传统的事件要素与对应事件的相关性和匹配度较低,进而导致事件要素的抽取效率较低。
且现有技术中的事件要素抽取的方法在训练数据量充足的情况下表现出优越的性能,然而,传统事件要素注释的过程需要花费大量的时间和人力,并且事件要素抽取任务严重依赖于已标注的数据,然后,将带注释的训练样本输入预训练模型中(如m-bert语言预训练模型以及m-bert、m-T5语言预训练模型等),实现对待检测句子中事件要素的抽取和确定。
现有技术中,对事件要素抽取的研究主要包括两类方法:(1)基于分类的方法;(2)基于生成式的方法。
其中,基于分类的方法把要素抽取任务看做分类任务,大多使用多个标签来表示事件类型或要素类型,再使用序列标注(BIO)的方法来抽取事件要素。虽然取得了一定效果,但是此种方法在抽取的过程中并没有结合标签的语义和各个事件要素之间的联系,即缺少对事件要素与事件类型之间的联系和相关性,进而导致确定事件要素的方法的实用性较低。
而基于生成式的方法存在解决的问题:(1)手工和离散提示的次优性;(2)提示标签由于跨语言语种导致的难迁移性。
其中,现有技术的基于生成式的要素抽取是为每一个事件类型设计的手工提示或者离散提示,但是每一个事件类型对应的手工提示或者离散提示在没有进行微调的情况下是次优的,这严重影响了预训练模型的性能。
且现有技术的基于生成式的要素抽取中的手工提示是语言相关性提示,很难将其从源语言迁移到目标语言(如从汉语到西班牙语),现举例说明现有技术的基于生成式的要素抽取中的手工提示是语言相关性提示无法实现跨语言的要素抽取:
如论文“Multilingual Generative Language Models for Zero-Shot Cross-Lingual Event ArgumentExtraction”训练阶段使用离散提示作为预训练语言模型(m-T5)的输入,例如使用“<Attacker>[None]</Attacker><Target>[None]</Target><Instrument>[None]</Instrument><Place>[None]</Place>”作为“Conflict:Attack”事件要素标签,把此标签和需要抽取事件要素的句子(Earlier Monday, a 19-year-old Palestinianriding a bicycle detonated a 30-kilo ( 66-pound ) bomb near a military jeepin the Gaza Strip, injuring three soldiers来源于源语言)输入进初始多语言事件要素抽取模型,并且使用“<Attacker> Palestinian </Attacker> <Target> jeep andsoldiers </Target> <Instrument> bomb </Instrument> <Place> Gaza Strip </Place>”作为标签训练上述初始多语言事件要素抽取模型,在测试阶段将手工制造的提示(someattacker attacked some facility, someone, or some organization by some way insomewhere)和需要抽取事件要素的句子(巴勒斯坦人持续以石块攻击以色列部队,以军则是还以催泪弹、橡皮子弹甚至是实弹,结果又造成两名巴勒斯坦青年丧生,10多人受伤,来源于目标语言)输入进已经微调过的训练好的语言模型,模型会根据手工制造的提示输出:<Attacker>巴勒斯坦人</Attacker><Target>以色列部队</Target><Instrument>石块</Instrument><Place>[None]</Place>,最后再根据模板匹配的方法将抽取的事件要素结构化的表示出来,然而这种构建的离散提示未在模型训练的过程中进行微调(提示的次优性问题)。虽然此离散提示是语义无关性提示,但是此离散性提示并没有引入事件类型的提示,在抽取的过程中,模型并不能很好的区分具有相同离散提示的不同事件类型。例如:Life: Injure和Life: Die事件都需要抽取Agent、Victim、Instrument、Place四种类型的事件要素,即他们都具有相同的离散提示(离散标签):“<Agent> [None] </Agent> <Victim> [None] </Victim> <Instrument> [None] </Instrument> <Place> [None] </Place>”。
基于此,本申请实施例提供了一种事件要素的确定方法、装置、电子设备及存储介质,在能够提取目标文件中目标事件要素的同时,还可以确定各个目标事件要素对应的目标事件类型,进而提高目标事件要素与对应事件类型的相关性和匹配度,进而提高事件要素的抽取效率。
请参阅图1,图1为本申请实施例所提供的一种事件要素的确定方法的流程图。如图1中所示,本申请实施例提供的事件要素的确定方法,包括以下步骤:
S101、获取目标文件的目标事件要素抽取请求,其中,所述目标事件要素抽取请求中包括针对所述目标文件中目标事件类型的查询标签。
该步骤中,目标事件要素抽取请求任务包括两个子任务,一个是事件类型检测;一个是在检测并确定事件类型的基础上,对对应类型的事件类型进行事件要素的抽取,本申请的实施例提供的事件要素的确定方法适用于第二个子任务。
这里,当作业人员需要对目标文件进行目标事件要素的提取时,首先确定目标文件对应的目标事件类型,然后接收包含有该目标事件类型的查询标签的目标事件要素抽取请求。
S102、基于所述目标事件要素抽取请求,将所述目标文件输入训练好的目标多语言事件要素抽取模型,确定所述目标文件对应的目标事件要素以及所述目标事件要素对应的目标事件类型;其中,所述目标事件类型是基于所述查询标签从预设事件标签数据库中确定的,所述预设事件标签数据库是基于训练好的目标多语言事件要素抽取模型确定的。
该步骤中,目标文件输入训练好的目标多语言事件要素抽取模型,确定所述目标文件对应的目标事件要素以及所述目标事件要素对应的目标事件类型。
这里,通过以下子步骤确定目标事件类型:
子步骤1021、将查询标签对应的查询向量与预设事件标签数据库中的各个样本事件标签对应的样本事件向量进行相似度计算,确定相似度最高的所述样本事件向量对应的所述样本事件标签为目标事件标签。
这里,将查询标签对应的查询向量与预设事件标签数据库中的各个样本事件标签对应的键进行余弦相似度计算,确定所述预设事件标签数据库中余弦相似度最大的键所对应的样本事件标签为目标事件标签。
其中,预设事件标签数据库中各个样本事件标签是通过键值对的形式进行存储的。
子步骤1022、根据所述目标事件标签,确定目标文件中的目标事件类型。
这里,根据目标事件标签对目标事件的描述,确定目标文件中的目标事件类型。
其中,每个目标事件类型对应有唯一一个目标事件标签,且每个目标事件类型对应的目标事件标签是根据操作需求或公职常识进行的自定义设置。
可选的,通过以下子步骤确定预设事件标签数据库:
子步骤1、获取各个样本事件类型对应各个所述样本事件标签以及各个所述样本事件标签的样本事件词向量。
该步骤中,在建立预设事件标签数据库的过程中,需要获取不同类型的样本文本,以及各个样本对应的各个样本事件类型、各个样本事件类型对应各个所述样本事件标签,且本申请提供的实施例将样本事件标签以词向量的形式进行表示。
子步骤2、针对各个所述样本事件词向量进行平均值计算,并将各个所述样本事件词向量的平均值确定为各个所述样本事件标签的键,以及将各个所述样本事件词向量确定为各个所述样本事件标签的值。
该步骤中,将样本事件标签对应的样本事件词向量以键值对的形式进行存储,将样本事件词向量的平均值确定为样本事件标签的键,并将样本事件词向量确定为各个样本事件标签的值。
子步骤3、根据不同的样本事件类型对应的不同所述样本事件标签,建立不同的所述样本事件标签对应的键值对。
子步骤4、根据不同的所述键值对,确定预设事件标签数据库。
该步骤中,预设事件标签数据库通过键值对保存机制存储对应的样本事件标签,且本申请实施例通过预设事件标签数据库的键值对存储机制,来确定最大的目标事件词向量作为目标事件要素对应的目标事件类型。
本申请实施例提供的事件要素的确定方法,与现有技术中的事件要素抽取方法相比,本申请提供的实施例通过将目标文件入训练好的目标多语言事件要素抽取模型,确定所述目标文件对应的目标事件要素以及所述目标事件要素对应的目标事件类型,在能够提取目标文件中目标事件要素的同时,还可以确定各个目标事件要素对应的目标事件类型,进而提高目标事件要素与对应事件类型的相关性和匹配度,进而提高事件要素的抽取效率。
请参阅图2,图2为本申请一实施例提供的一种事件要素的确定方法中训练目标多语言事件要素抽取模型的流程图。如图2中所示,本申请实施例提供的事件要素的确定方法中确定训练目标多语言事件要素抽取模型的方法,包括以下步骤:
S201、根据样本文件,确定所述样本文件对应的各个样本事件类型、各个所述样本事件类型对应的样本事件标签以及各个所述样本事件类型对应的样本事件要素标签。
S202、将样本文件和各个样本事件类型对应的各个样本事件要素标签输入初始多语言事件要素抽取模型进行分步迭代训练,确定各个所述样本事件类型对应的各个样本要素预设类型,其中,所述样本事件要素标签用于表征样本要素真实类型。
该步骤中,本申请的实施例中提供的初始多语言事件要素抽取模型的类型可以根据不同的应用场景和需求进行自定义的设置和选择。
这里,本申请的实施例中提供的初始多语言事件要素抽取模型选用多语言生成式预训练模型(mT5-large)。
其中,分步迭代训练指的是对于样本事件标签和样本事件要素标签的分别迭代训练,本申请的实施例是先对样本事件要素标签进行迭代训练,在样本事件要素标签迭代训练完成后,停止对样本事件要素标签迭代训练,同时开始对样本事件标签进行迭代训练,在样本事件标签迭代训练完成后,完成对初始多语言事件要素抽取模型的迭代训练。
S203、当各个所述样本要素预设类型与各个所述样本要素真实类型之间的损失值小于所述第一预设损失阈值,训练截止,确定训练好的中间多语言事件要素抽取模型。
该步骤中,各个所述样本要素预设类型与各个所述样本要素真实类型之间的损失值小于所述第一预设损失阈值,训练截止,此时,停止对样本事件要素标签进行迭代训练,说明此时的中间多语言事件要素抽取模型是带有训练好的样本要素预设类型的多语言事件要素抽取模型。
这里,本申请提供的实施例中的样本事件要素标签可以具体为:
选择 <Agent>:None <Victim>:None <Instrument>:None <Place>:None作为Conflict:Attack样本事件Conflict:Attack的样本事件要素标签。
S204、将所述样本文件和各个所述样本事件类型对应各个所述样本事件标签输入训练好的所述中间多语言事件要素抽取模型进行分步迭代训练,确定各个所述样本事件类型对应的各个样本事件预设类型,其中,所述样本事件标签用于表征样本事件真实类型。
S205、当各个所述样本事件真实类型与各个所述样本事件预设类型之间的损失值小于第二预设阈值,训练截止,确定训练好的目标多语言事件要素抽取模型。
该步骤中,本申请提供的实施例中的样本事件标签可以具体为:
对样本事件Conflict:Attack的样本事件标签描述可以为“The event isrelated to conflict and some violent physical act。
本申请实施例提供的事件要素的确定方法,与现有技术中的事件要素抽取方法相比,本申请提供的实施例通过将目标文件入训练好的目标多语言事件要素抽取模型,确定所述目标文件对应的目标事件要素以及所述目标事件要素对应的目标事件类型,在能够提取目标文件中目标事件要素的同时,还可以确定各个目标事件要素对应的目标事件类型,进而提高目标事件要素与对应事件类型的相关性和匹配度,进而提高事件要素的抽取效率。
请参阅图3,图3为本申请实施例所提供的一种事件要素抽取装置的结构示意图。如图3中所示,所述事件要素的确定装置300包括:
获取模块310,用于获取目标文件的目标事件要素抽取请求,其中,所述目标事件要素抽取请求中包括针对所述目标文件中目标事件类型的查询标签。
确定模块320,用于基于所述目标事件要素抽取请求,将所述目标文件输入训练好的目标多语言事件要素抽取模型,确定所述目标文件对应的目标事件要素以及所述目标事件要素对应的目标事件类型;其中,所述目标事件类型是基于所述查询标签从预设事件标签数据库中确定的,所述预设事件标签数据库是基于训练好的目标多语言事件要素抽取模型确定的。
可选的,所述确定模块320,具体通过以下方式确定目标事件类型:
将查询标签对应的查询向量与预设事件标签数据库中的各个样本事件标签对应的样本事件向量进行相似度计算,确定相似度最高的所述样本事件向量对应的所述样本事件标签为目标事件标签。
根据所述目标事件标签,确定目标文件中的目标事件类型。
可选的,通过以下方式确定训练好的目标多语言事件要素抽取模型:
根据样本文件,确定所述样本文件对应的各个样本事件类型、各个所述样本事件类型对应的样本事件标签以及各个所述样本事件类型对应的样本事件要素标签。
将所述样本文件、所述样本事件标签以及所述的样本事件要素标签输入初始多语言事件要素抽取模型进行分步迭代训练,直到分步迭代后的损失值小于预设损失阈值,确定训练好的目标多语言事件要素抽取模型。
可选的,所述预设损失阈值包括第一预设损失阈值和第二预设损失阈值,所述将所述样本文件、所述样本事件标签以及所述的样本事件要素标签输入初始多语言事件要素抽取模型进行分步迭代训练,直到分步迭代后的损失值小于预设损失阈值,确定训练好的目标多语言事件要素抽取模型,包括:
将样本文件和各个样本事件类型对应的各个样本事件要素标签输入初始多语言事件要素抽取模型进行分步迭代训练,确定各个所述样本事件类型对应的各个样本要素预设类型,其中,所述样本事件要素标签用于表征样本要素真实类型。
当各个所述样本要素预设类型与各个所述样本要素真实类型之间的损失值小于所述第一预设损失阈值,训练截止,确定训练好的中间多语言事件要素抽取模型。
将所述样本文件和各个所述样本事件类型对应各个所述样本事件标签输入训练好的所述中间多语言事件要素抽取模型进行分步迭代训练,确定各个所述样本事件类型对应的各个样本事件预设类型,其中,所述样本事件标签用于表征样本事件真实类型。
当各个所述样本事件真实类型与各个所述样本事件预设类型之间的损失值小于第二预设阈值,训练截止,确定训练好的目标多语言事件要素抽取模型。
可选的,通过以下方式确定预设事件标签数据库:
获取各个样本事件类型对应各个所述样本事件标签以及各个所述样本事件标签的样本事件词向量。
针对各个所述样本事件词向量进行平均值计算,并将各个所述样本事件词向量的平均值确定为各个所述样本事件标签的键,以及将各个所述样本事件词向量确定为各个所述样本事件标签的值。
根据不同的样本事件类型对应的不同所述样本事件标签,建立不同的所述样本事件标签对应的键值对。
根据不同的所述键值对,确定预设事件标签数据库。
可选的,所述将查询标签对应的查询向量与预设事件标签数据库中的各个样本事件标签对应的样本事件向量进行相似度计算,确定相似度最高的所述样本事件向量对应的所述样本事件标签为目标事件标签,包括:
将查询标签对应的查询向量与预设事件标签数据库中的各个样本事件标签对应的键进行余弦相似度计算,确定所述预设事件标签数据库中余弦相似度最大的键所对应的样本事件标签为目标事件标签。
本申请实施例提供的事件要素的确定装置300,与现有技术中的事件要素抽取装置相比,本申请提供的实施例是通过将目标文件入训练好的目标多语言事件要素抽取模型,确定所述目标文件对应的目标事件要素以及所述目标事件要素对应的目标事件类型,在能够提取目标文件中目标事件要素的同时,还可以确定各个目标事件要素对应的目标事件类型,进而提高目标事件要素与对应事件类型的相关性和匹配度,进而提高事件要素的抽取效率。
请参阅图4,图4为本申请实施例所提供的一种电子设备的结构示意图。如图4中所示,所述电子设备400包括处理器410、存储器420和总线430。
所述存储器420存储有所述处理器410可执行的机器可读指令,当电子设备400运行时,所述处理器410与所述存储器420之间通过总线430通信,所述机器可读指令被所述处理器410执行时,可以执行如上述图1以及图2所示方法实施例中的事件要素的确定方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1以及图2所示方法实施例中的事件要素的确定方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (6)
1.一种事件要素的确定方法,其特征在于,所述事件要素的确定方法包括:
获取目标文件的目标事件要素抽取请求,其中,所述目标事件要素抽取请求中包括针对所述目标文件中目标事件类型的查询标签;
基于所述目标事件要素抽取请求,将所述目标文件输入训练好的目标多语言事件要素抽取模型,确定所述目标文件对应的目标事件要素以及所述目标事件要素对应的目标事件类型;其中,所述目标事件类型是基于所述查询标签从预设事件标签数据库中确定的,所述预设事件标签数据库是基于训练好的目标多语言事件要素抽取模型确定的;
通过以下方式确定目标事件类型:
将查询标签对应的查询向量与预设事件标签数据库中的各个样本事件标签对应的样本事件向量进行相似度计算,确定相似度最高的所述样本事件向量对应的所述样本事件标签为目标事件标签;
根据所述目标事件标签,确定目标文件中的目标事件类型;
通过以下方式确定训练好的目标多语言事件要素抽取模型:
根据样本文件,确定所述样本文件对应的各个样本事件类型、各个所述样本事件类型对应的样本事件标签以及各个所述样本事件类型对应的样本事件要素标签;
将所述样本文件、所述样本事件标签以及所述的样本事件要素标签输入初始多语言事件要素抽取模型进行分步迭代训练,直到分步迭代后的损失值小于预设损失阈值,确定训练好的目标多语言事件要素抽取模型;
所述预设损失阈值包括第一预设损失阈值和第二预设损失阈值,所述将所述样本文件、所述样本事件标签以及所述的样本事件要素标签输入初始多语言事件要素抽取模型进行分步迭代训练,直到分步迭代后的损失值小于预设损失阈值,确定训练好的目标多语言事件要素抽取模型,包括:
将样本文件和各个样本事件类型对应的各个样本事件要素标签输入初始多语言事件要素抽取模型进行分步迭代训练,确定各个所述样本事件类型对应的各个样本要素预设类型,其中,所述样本事件要素标签用于表征样本要素真实类型;
当各个所述样本要素预设类型与各个所述样本要素真实类型之间的损失值小于所述第一预设损失阈值,训练截止,确定训练好的中间多语言事件要素抽取模型;
将所述样本文件和各个所述样本事件类型对应各个所述样本事件标签输入训练好的所述中间多语言事件要素抽取模型进行分步迭代训练,确定各个所述样本事件类型对应的各个样本事件预设类型,其中,所述样本事件标签用于表征样本事件真实类型;
当各个所述样本事件真实类型与各个所述样本事件预设类型之间的损失值小于第二预设阈值,训练截止,确定训练好的目标多语言事件要素抽取模型。
2.根据权利要求1所述的事件要素的确定方法,其特征在于,通过以下方式确定预设事件标签数据库:
获取各个样本事件类型对应各个所述样本事件标签以及各个所述样本事件标签的样本事件词向量;
针对各个所述样本事件词向量进行平均值计算,并将各个所述样本事件词向量的平均值确定为各个所述样本事件标签的键,以及将各个所述样本事件词向量确定为各个所述样本事件标签的值;
根据不同的样本事件类型对应的不同所述样本事件标签,建立不同的所述样本事件标签对应的键值对;
根据不同的所述键值对,确定预设事件标签数据库。
3.根据权利要求2所述的事件要素的确定方法,其特征在于,所述将查询标签对应的查询向量与预设事件标签数据库中的各个样本事件标签对应的样本事件向量进行相似度计算,确定相似度最高的所述样本事件向量对应的所述样本事件标签为目标事件标签,包括:
将查询标签对应的查询向量与预设事件标签数据库中的各个样本事件标签对应的键进行余弦相似度计算,确定所述预设事件标签数据库中余弦相似度最大的键所对应的样本事件标签为目标事件标签。
4.一种事件要素的确定装置,其特征在于,所述事件要素的确定装置,包括:
获取模块,用于获取目标文件的目标事件要素抽取请求,其中,所述目标事件要素抽取请求中包括针对所述目标文件中目标事件类型的查询标签;
确定模块,用于基于所述目标事件要素抽取请求,将所述目标文件输入训练好的目标多语言事件要素抽取模型,确定所述目标文件对应的目标事件要素以及所述目标事件要素对应的目标事件类型;其中,所述目标事件类型是基于所述查询标签从预设事件标签数据库中确定的,所述预设事件标签数据库是基于训练好的目标多语言事件要素抽取模型确定的;
通过以下方式确定目标事件类型:
将查询标签对应的查询向量与预设事件标签数据库中的各个样本事件标签对应的样本事件向量进行相似度计算,确定相似度最高的所述样本事件向量对应的所述样本事件标签为目标事件标签;
根据所述目标事件标签,确定目标文件中的目标事件类型;
通过以下方式确定训练好的目标多语言事件要素抽取模型:
根据样本文件,确定所述样本文件对应的各个样本事件类型、各个所述样本事件类型对应的样本事件标签以及各个所述样本事件类型对应的样本事件要素标签;
将所述样本文件、所述样本事件标签以及所述的样本事件要素标签输入初始多语言事件要素抽取模型进行分步迭代训练,直到分步迭代后的损失值小于预设损失阈值,确定训练好的目标多语言事件要素抽取模型;
所述预设损失阈值包括第一预设损失阈值和第二预设损失阈值,所述将所述样本文件、所述样本事件标签以及所述的样本事件要素标签输入初始多语言事件要素抽取模型进行分步迭代训练,直到分步迭代后的损失值小于预设损失阈值,确定训练好的目标多语言事件要素抽取模型,包括:
将样本文件和各个样本事件类型对应的各个样本事件要素标签输入初始多语言事件要素抽取模型进行分步迭代训练,确定各个所述样本事件类型对应的各个样本要素预设类型,其中,所述样本事件要素标签用于表征样本要素真实类型;
当各个所述样本要素预设类型与各个所述样本要素真实类型之间的损失值小于所述第一预设损失阈值,训练截止,确定训练好的中间多语言事件要素抽取模型;
将所述样本文件和各个所述样本事件类型对应各个所述样本事件标签输入训练好的所述中间多语言事件要素抽取模型进行分步迭代训练,确定各个所述样本事件类型对应的各个样本事件预设类型,其中,所述样本事件标签用于表征样本事件真实类型;
当各个所述样本事件真实类型与各个所述样本事件预设类型之间的损失值小于第二预设阈值,训练截止,确定训练好的目标多语言事件要素抽取模型。
5.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器运行时执行如上述权利要求1至3中任一所述的事件要素的确定方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如上述权利要求1至3中任一所述的事件要素的确定方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310031992.3A CN115701862B (zh) | 2023-01-10 | 2023-01-10 | 一种事件要素的确定方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310031992.3A CN115701862B (zh) | 2023-01-10 | 2023-01-10 | 一种事件要素的确定方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115701862A CN115701862A (zh) | 2023-02-14 |
CN115701862B true CN115701862B (zh) | 2023-04-18 |
Family
ID=85162822
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310031992.3A Active CN115701862B (zh) | 2023-01-10 | 2023-01-10 | 一种事件要素的确定方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115701862B (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11531824B2 (en) * | 2019-05-17 | 2022-12-20 | Raytheon Bbn Technologies Corp. | Cross-lingual information retrieval and information extraction |
CN112861527A (zh) * | 2021-03-17 | 2021-05-28 | 合肥讯飞数码科技有限公司 | 一种事件抽取方法、装置、设备及存储介质 |
CN112905868A (zh) * | 2021-03-22 | 2021-06-04 | 京东方科技集团股份有限公司 | 事件抽取方法、装置、设备及存储介质 |
CN114330354B (zh) * | 2022-03-02 | 2022-12-23 | 杭州海康威视数字技术股份有限公司 | 一种基于词汇增强的事件抽取方法、装置及存储介质 |
CN115048486A (zh) * | 2022-05-24 | 2022-09-13 | 支付宝(杭州)信息技术有限公司 | 事件抽取方法、装置、计算机程序产品、存储介质及设备 |
-
2023
- 2023-01-10 CN CN202310031992.3A patent/CN115701862B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115701862A (zh) | 2023-02-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110287480B (zh) | 一种命名实体识别方法、装置、存储介质及终端设备 | |
WO2019184217A1 (zh) | 热点事件分类方法、装置及存储介质 | |
US20210124876A1 (en) | Evaluating the Factual Consistency of Abstractive Text Summarization | |
CN112101041B (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN110162786B (zh) | 构建配置文件以及抽取结构化信息的方法、装置 | |
CN112699686B (zh) | 基于任务型对话系统的语义理解方法、装置、设备及介质 | |
CN110427612B (zh) | 基于多语言的实体消歧方法、装置、设备和存储介质 | |
CN111460131A (zh) | 公文摘要提取方法、装置、设备及计算机可读存储介质 | |
CN116108857B (zh) | 信息抽取方法、装置、电子设备以及存储介质 | |
CN111143571B (zh) | 实体标注模型的训练方法、实体标注方法以及装置 | |
CN111783471A (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN109815481B (zh) | 对文本进行事件抽取的方法、装置、设备和计算机存储介质 | |
CN111966792B (zh) | 一种文本处理方法、装置、电子设备及可读存储介质 | |
CN112069498A (zh) | 一种sql注入检测模型构建方法及检测方法 | |
Stamatatos et al. | Automatic extraction of rules for sentence boundary disambiguation | |
CN112581297B (zh) | 基于人工智能的信息推送方法、装置及计算机设备 | |
CN111191446B (zh) | 交互信息处理方法、装置、计算机设备和存储介质 | |
CN115701862B (zh) | 一种事件要素的确定方法、装置、电子设备及存储介质 | |
CN116629228A (zh) | 一种基于文本挖掘的标准要素查重方法 | |
CN113240322B (zh) | 气候风险披露质量方法、装置、电子设备及存储介质 | |
CN112989043B (zh) | 指代消解方法、装置、电子设备及可读存储介质 | |
CN112507388B (zh) | 基于隐私保护的word2vec模型训练方法、装置及系统 | |
CN113268588A (zh) | 文本摘要提取方法、装置、设备、存储介质及程序产品 | |
Obrocka et al. | Prevalence of code mixing in semi-formal patient communication in low resource languages of South Africa | |
Stanko et al. | Whose book is it anyway? using machine learning to identify the author of unknown texts |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |