CN116561326B

CN116561326B - 基于标签增强的图像文本事件抽取方法、系统、设备

Info

Publication number: CN116561326B
Application number: CN202310834247.2A
Authority: CN
Inventors: 许诺
Original assignee: Communication University of China
Current assignee: Communication University of China
Filing date: 2023-07-10
Publication date: 2023-10-13
Anticipated expiration: 2043-07-10

Abstract

本发明提供一种基于标签增强的图像文本事件抽取方法、系统、设备，涉及人工智能领域，首先获取输入数据的目标文本，并对目标文本进行编码以获取目标文本中每个单字的文本序列表示矩阵；其中，输入数据包括输入文本、输入图像，因此，事件抽取不仅可以针对文本内容，还可以针对图像，如此实现多模态事件抽取，再将确定为首触发词和尾触发词的目标文本字符所在的语句作为抽取事件，整个过程利用预训练的文本表示模型和标签模型对文本和标签分别进行语义表示，通过设计标签注意力模块来捕捉事件标签对待抽取语句中的触发词和要素之间的依赖关系，能够实现在标注数据量少的情况下提高事件抽取的效果，提高事件抽取的准确度。

Description

基于标签增强的图像文本事件抽取方法、系统、设备

技术领域

本发明涉及人工智能技术领域，更为具体地，涉及一种基于标签增强的图像文本事件抽取方法、系统、电子设备。

背景技术

在事件抽取任务中，现有的方法主要依赖于监督学习，并需要大规模的标记事件数据集，然而，这些数据集在实际应用中并不容易获得。ACE05数据是现有的为数不多的有标签事件数据之一，通过在新闻、博客等数据上进行人工标注得到。ACE数据的标注质量不高以及规模较小的问题，也在很大程度上影响了事件抽取任务的发展。

为了解决数据稀少导致训练效果不佳的问题，研究者们尝试从已有的知识库中提取更多带标签的信息用于训练数据的自动生成，利用知识库Freebase、Wikipedia和语言知识库FrameNet，基于Soft Distant Supervision（DS）和神经网络模型自动构建大规模训练数据。但现有的技术方案进行事件抽取时，没有考虑引入事件类型和要素角色类型标签的语义信息，往往将事件和要素角色类型标签视为没有语义信息的符号。然而，事件类型标签是包含语义信息的词语，事件类型标签的语义信息能够帮助事件类型和事件要素类型的识别，尤其是在标注样本量较少的情况下，因此现有的事件抽取缺少对语义信息的重视，导致事件抽取缺少准确性，并且现有的事件抽取多针对于纯文本样本，缺乏事件抽取的多样性。

因此，亟需一种能够同时应用在图像和文本上，且能够捕捉事件标签对待抽取语句中的触发词和要素之间的依赖关系，能够实现在标注数据量少的情况下提高事件抽取的效果的基于标签增强的图像文本事件抽取方法、系统、电子设备。

发明内容

鉴于上述问题，本发明的目的是提供一种基于标签增强的图像文本事件抽取方法，以解决现有方法在进行事件抽取时，没有考虑引入事件类型和要素角色类型标签的语义信息，往往将事件和要素角色类型标签视为没有语义信息的符号，导致事件抽取与事件类型依赖关系较差，并且现有技术多仅针对文本进行事件抽取，导致事件抽取多样性较差的问题。

本发明提供的一种基于标签增强的图像文本事件抽取方法，其中，包括：

通过预设的文本序列表示模型获取输入数据的目标文本，并对所述目标文本进行编码以获取所述目标文本中每个单字的文本序列表示矩阵；其中，所述输入数据包括输入文本、输入图像；若所述输入数据为输入文本，则直接将所述输入文本作为所述输入数据的目标文本；若所述输入数据为输入图像，则通过所述文本序列表示模型中的图像判定单元判定所述输入图像为纯文本图像还是非纯文本图像，若所述输入图像为纯文本图像，则通过所述文本序列表示模型中的文字提取单元对所述纯文本图像进行文本识别以获取提取文本，并将所述提取文本作为所述输入数据的目标文本；若所述输入图像为非纯文本图像，则通过所述文本序列表示模型中的图像特征提取模块获取所述非纯文本图像的文本向量表示、视觉实体向量表示和视觉特征向量表示，将所述视觉实体向量表示和所述视觉特征向量表示转换为与所述文本向量表示相同大小的表示向量，并对所述表示向量和所述文本向量表示进行按位相加以获取语义信息，并将所述语义信息作为所述输入数据的目标文本；

通过预设的标签模型获取已知的与所述目标文本对应的标签，并对所述标签进行语义编码以获取标签表示矩阵；

通过预设的标签注意力模块基于所述标签表示矩阵和所述文本序列表示矩阵捕获所述标签和所述目标文本中单字的相关性数据，基于所述相关性数据获取所有标签下对各个单字的最大权重值，以根据所述最大权重值为每一标签匹配单字，并对所有匹配的标签和单字进行向量表示以形成预测向量；

将所述预测向量输入至预设的模型分类器中，以使所述模型分类器根据所述预测向量获取与所述预测向量对应的标签下，与所述预测向量对应的目标文本字符为首触发词和尾触发词的首触发概率和尾触发概率，并根据所述首触发概率和所述尾触发概率判断所述目标文本字符是否为首触发词和尾触发词；其中，所述目标文本字符为所述目标文本中单字或单词对应的字符；

将确定为首触发词和尾触发词的目标文本字符所在的语句作为抽取事件。

优选地，对所述目标文本进行编码以获取所述目标文本中每个单字的文本序列表示矩阵的步骤，包括：

获取所述目标文本的文本序列；

获取所述文本序列的单字的稀疏向量；

将所述稀疏向量映射到稠密的向量空间中以获取稠密向量；

将所述稠密向量作为文本序列表示矩阵。

优选地，基于所述标签表示矩阵和所述文本序列表示矩阵捕获所述标签和所述目标文本中单字的相关性数据，基于所述相关性数据获取所有标签下对各个单字的最大权重值的步骤，包括：

计算第k个标签表示矩阵和第l个单字的单字向量的范数乘积以获取归一化矩阵；

通过所述标签表示矩阵的转置与所述文本序列表示矩阵的乘积、所述归一化矩阵获取第l个单字所属短语的相关性数据；所述单字所属短语为第l个单字向前数m个单字至第l个单字向后数m个单字所构成的短语；

通过所述相关性数据和预设的权重矩阵、偏置向量计算第l个单字的权重向量；

对所述权重向量进行最大池化计算以获取最大权重，并对所述最大权重进行归一化计算以获取标签对所述第l个单字的最大权重值。

优选地，对所有匹配的标签和单字进行向量表示以形成预测向量为：

；其中，为第l个单字的预测向量，为所述第l个单字的最大权重值；为第l个单字的文本序列表示矩阵。

优选地，在根据所述预测向量获取与所述预测向量对应的标签下，与所述预测向量对应的目标文本字符为首触发词和尾触发词的首触发概率和尾触发概率的步骤中，包括：

利用预设的sigmoid分类器基于sigmiod激活函数判定在与所述预测向量对应的标签的类别r上识别与所述预测向量对应的目标文本字符为首触发词和尾触发词的首触发概率和尾触发概率为：

其中，上标表示类别r，和分别表示通过反复学习确定的识别触发词首权重矩阵和识别触发词尾权重矩阵，和分别表示预设的首触发偏置向量和尾触发偏置向量，表示预设的sigmiod激活函数。

优选地，根据所述首触发概率和所述尾触发概率判断所述目标文本字符是否为首触发词和尾触发词的步骤，包括：

设定识别触发词阈值；其中，和分别表示在类别r上识别为首触发词的词首阈值和识别为尾触发词的词尾阈值；若，则判定目标文本字符为类别r的首触发词，若，则判定目标文本字符为类别r的尾触发词。

优选地，将确定为首触发词和尾触发词的目标文本字符所在的语句作为抽取事件的步骤，包括：

若将目标文本字符判定为首触发词，将另一目标文本字符判定为尾触发词，则锁定首触发词和所述尾触发词所在的词语或短语；

按照预设的规则对所述词语或短语进行清洗，以将清洗剩余的词语或短语作为抽取事件。

本发明还提供一种基于标签增强的图像文本事件抽取系统，实现如前所述的基于标签增强的图像文本事件抽取方法，包括：

文本序列表示模型，用于获取输入数据的目标文本，并对目标文本进行编码以获取所述目标文本中每个单字的文本序列表示矩阵；其中，所述输入数据包括输入文本、输入图像；若所述输入数据为输入文本，则直接将所述输入文本作为所述输入数据的目标文本；若所述输入数据为输入图像，则通过所述文本序列表示模型中的图像判定单元判定所述输入图像为纯文本图像还是非纯文本图像，若所述输入图像为纯文本图像，则通过所述文本序列表示模型中的文字提取单元对所述纯文本图像进行文本识别以获取提取文本，并将所述提取文本作为所述输入数据的目标文本；若所述输入图像为非纯文本图像，则通过所述文本序列表示模型中的图像特征提取模块获取所述非纯文本图像的文本向量表示、视觉实体向量表示和视觉特征向量表示，将所述视觉实体向量表示和所述视觉特征向量表示转换为与所述文本向量表示相同大小的表示向量，并对所述表示向量和所述文本向量表示进行按位相加以获取语义信息，并将所述语义信息作为所述输入数据的目标文本；

标签模型，用于获取已知的与所述目标文本对应的标签，并对所述标签进行语义编码以获取标签表示矩阵；

标签注意力模块，用于基于所述标签表示矩阵和所述文本序列表示矩阵捕获所述标签和所述目标文本中单字的相关性数据，基于所述相关性数据获取所有标签下对各个单字的最大权重值，以根据所述最大权重值为每一标签匹配单字，并对所有匹配的标签和单字进行向量表示以形成预测向量；

模型分类器，用于根据所述预测向量获取与所述预测向量对应的标签下，与所述预测向量对应的目标文本字符为首触发词和尾触发词的首触发概率和尾触发概率，并根据所述首触发概率和所述尾触发概率判断所述目标文本字符是否为首触发词和尾触发词；

抽取单元，用于将确定为首触发词和尾触发词的目标文本字符所在的语句作为抽取事件。

优选地，所述模型分类器包括sigmoid分类器，

所述sigmoid分类器基于sigmiod激活函数判定在与所述预测向量对应的标签的类别r上识别与所述预测向量对应的目标文本字符为首触发词和尾触发词的首触发概率和尾触发概率为：

其中，上标其中，上标表示类别r，和分别表示通过反复学习确定的识别触发词首权重矩阵和识别触发词尾权重矩阵，和分别表示预设的首触发偏置向量和尾触发偏置向量，表示预设的sigmiod激活函数。

本发明还提供一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如前所述的基于标签增强的图像文本事件抽取方法中的步骤。

从上面的技术方案可知，本发明提供的基于标签增强的图像文本事件抽取方法，首先通过预设的文本序列表示模型获取所述输入数据的目标文本，并对目标文本进行编码以获取目标文本中每个单字的文本序列表示矩阵；其中，输入数据包括输入文本、输入图像，因此，事件抽取不仅可以针对文本内容，还可以针对图像，如此实现多模态事件抽取，再通过预设的标签模型获取已知的与目标文本对应的标签，并对标签进行语义编码以获取标签表示矩阵，再基于标签表示矩阵和所述文本序列表示矩阵捕获标签和目标文本中单字的相关性数据，基于相关性数据获取所有标签下对各个单字的最大权重值，以根据最大权重值为每一标签匹配单字，并对所有匹配的标签和单字进行向量表示以形成预测向量，然后将预测向量输入至预设的模型分类器中，以使模型分类器根据预测向量获取与预测向量对应的标签下，与所述预测向量对应的目标文本字符为首触发词和尾触发词的首触发概率和尾触发概率，并根据首触发概率和所述尾触发概率判断所述目标文本字符是否为首触发词和尾触发词，以将确定为首触发词和尾触发词的目标文本字符所在的语句作为抽取事件，整个过程利用预训练的文本表示模型和标签模型对文本和标签分别进行语义表示，通过设计标签注意力模块来捕捉事件标签对待抽取语句中的触发词和要素之间的依赖关系，能够实现在标注数据量少的情况下提高事件抽取的效果，提高事件抽取的准确度。

附图说明

通过参考以下结合附图的说明书内容，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1为根据本发明实施例的基于标签增强的图像文本事件抽取方法的流程图；

图2为根据本发明实施例的基于标签增强的图像文本事件抽取方法中输入数据为输入文本时的流程示意图；

图3为根据本发明实施例的基于标签增强的图像文本事件抽取方法中标签注意力模块的示意图；

图4为根据本发明实施例的基于标签增强的图像文本事件抽取系统的示意图；

图5为根据本发明实施例的电子设备的示意图。

具体实施方式

现有方法在进行事件抽取时，没有考虑引入事件类型和要素角色类型标签的语义信息，往往将事件和要素角色类型标签视为没有语义信息的符号，导致事件抽取与事件类型依赖关系较差。

针对上述问题，本发明提供一种基于标签增强的图像文本事件抽取方法、系统、电子设备，以下将结合附图对本发明的具体实施例进行详细描述。

为了说明本发明提供的基于标签增强的图像文本事件抽取方法、系统、电子设备，图1、图2、图3、图4、图5对本发明实施例的进行了示例性标示。

以下示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术和设备可能不作详细讨论，但在适当情况下，所述技术和设备应当被视为说明书的一部分。

如图1所示，本发明实施例的基于标签增强的图像文本事件抽取方法，包括：

S1：通过预设的文本序列表示模型获取输入数据的目标文本，并对所述目标文本进行编码以获取所述目标文本中每个单字的文本序列表示矩阵；其中，所述输入数据包括输入文本、输入图像；若所述输入数据为输入文本，则直接将所述输入文本作为所述输入数据的目标文本；若所述输入数据为输入图像，则通过所述文本序列表示模型中的图像判定单元判定所述输入图像为纯文本图像还是非纯文本图像，若所述输入图像为纯文本图像，则通过所述文本序列表示模型中的文字提取单元对所述纯文本图像进行文本识别以获取提取文本，并将所述提取文本作为所述输入数据的目标文本；若所述输入图像为非纯文本图像，则通过所述文本序列表示模型中的图像特征提取模块获取所述非纯文本图像的文本向量表示、视觉实体向量表示和视觉特征向量表示，将所述视觉实体向量表示和所述视觉特征向量表示转换为与所述文本向量表示相同大小的表示向量，并对所述表示向量和所述文本向量表示进行按位相加以获取语义信息，并将所述语义信息作为所述输入数据的目标文本；

S2：通过预设的标签注意力模块基于所述标签表示矩阵和所述文本序列表示矩阵捕获标签和目标文本中单字的相关性数据，基于所述相关性数据获取所有标签下对各个单字的最大权重值，以根据所述最大权重值为每一标签匹配单字，并对所有匹配的标签和单字进行向量表示以形成预测向量；

S3：将所述预测向量输入至预设的模型分类器中，以使所述模型分类器根据所述预测向量获取与所述预测向量对应的标签下，与所述预测向量对应的目标文本字符为首触发词和尾触发词的首触发概率和尾触发概率，并根据所述首触发概率和所述尾触发概率判断所述目标文本字符是否为首触发词和尾触发词；其中，所述目标文本字符为所述目标文本中单字或单词对应的字符；

S4：将确定为首触发词和尾触发词的目标文本字符所在的语句作为抽取事件。

在图1所示的实施例中，步骤S1为通过预设的文本序列表示模型获取所述输入数据的目标文本，并对所述目标文本进行编码以获取所述目标文本中每个单字的文本序列表示矩阵的过程，其中，所述输入数据包括输入文本、输入图像。

图2示出了输入数据为输入文本时的流程，若所述输入数据为输入文本，则直接将所述输入文本作为所述输入数据的目标文本；即若输入数据为输入文本（纯文本），则直接将该文本作为目标文本，而后对该目标文本中的单字进行编码以获取文本序列表示矩阵。

若所述输入数据为输入图像，则通过所述文本序列表示模型中的图像判定单元判定所述输入图像为纯文本图像还是非纯文本图像；

若所述输入图像为纯文本图像，则通过所述文本序列表示模型中的文字提取单元对所述纯文本图像进行文本识别以获取提取文本，并将所述提取文本作为所述输入数据的目标文本；即若输入数据为纯文本图像，则基于卷积神经网络的文字提取单元直接对该纯文本图像进行图像识别即可以获取提取文本，而后将提取文本作为目标文本，之后再对该目标文本进行编码以形成文本序列表示矩阵；具体的文字提取单元的样式在本实施例中不做具体限制，可以为任意成熟的具有文本识别功能的单元对纯文本图像进行文字识别（文本识别）。

若所述输入图像为非纯文本图像，则通过所述文本序列表示模型中的图像特征提取模块获取所述非纯文本图像的文本向量表示、视觉实体向量表示和视觉特征向量表示，将所述视觉实体向量表示和所述视觉特征向量表示转换为与所述文本向量表示相同大小的表示向量，并对所述表示向量和所述文本向量表示进行按位相加以获取语义信息，并将所述语义信息作为所述输入数据的目标文本；具体的，在非纯文本图像中往往包括图片和与图片对应的文字描述，比如新闻截图，报纸截图等，其通常包含一些极具新闻性的视觉实体，包括名人、地标、标志以及一些敏感目标等，准确识别这些实体有助于充分理解多模态新闻的语义，捕捉虚假新闻的线索，本实施例中针对非文本图像的处理方式一方面提取图片的视觉特征向量建模其质量及风格特性，另一方面需引入外部模型显式提取图片中的视觉实体建模其深层语义，故在本实施例中选用Faster R-CNN作为图像特征提取模块的一部分，用于提取非纯文本图像中每个区域的视觉信息特征、空间位置特征以及区域类别信息，并将所提取的各个特征作为该非纯文本图像的视觉特征向量；为准确识别该非纯文本图像中人名、地名等命名实体，本实施例将AI平台提供的接口与本实施例中的文本序列表示模型进行连接，以将外接的AI平台作为图像特征提取模块的一部分进行视觉实体识别，除了能够识别基本的命名实体，AI平台包含的标志检测模型还可以识别徽章、民族服饰以及各类反动组织的标志等，如此能够全面的通过对输入图盘进行实体识别得到对应的实体名称列表，再将实体名称列表输入到图像特征提取模块的ERNIE网络中，充分理解实体的潜在的语义信息，得到对应的视觉实体向量；再通过图像特征提取模块的另一部分获取该非纯文本图像的文本向量（图像中的文字部分识别出文字）；从而在具备了非纯文本图像的文本向量、视觉实体向量和视觉特征向量之后通过图像特征提取模块中的transformer层对该文本向量、视觉实体向量和视觉特征向量进行融合，以分别得到最终的文本向量表示、视觉实体向量表示以及视觉特征向量表示；这些特征分别从不同维度建模了多模态信息不同层次的语义信息，再通过线性连接层将视觉实体向量表示和视觉特征向量表示转换为与所述文本向量表示相同大小的表示向量，并对表示向量和文本向量表示进行按位相加以获取语义信息，并将所述语义信息作为所述输入数据的目标文本，而后再对该多模态表示的描述数据所形成的目标文本进行编码形成文本序列表示矩阵；需要说明的是，若该非纯文本图像仅仅为包含图片且不包含文字的图像，则将文本向量表示记作0，而后和表示向量按位相加获取语义信息即可。

如此，本实施例引入了多模态信息融合，使得事件抽取不仅可以针对文本，还可以针对图像，不仅可以针对纯文本图像，还可以针对普通的非纯文本图像，从而提高事件抽取的多样性，克服现有技术中事件抽取单一的弊端。

在本实施例中，对目标文本进行编码以获取所述目标文本中每个单字的文本序列表示矩阵的步骤，包括：

S11：获取所述目标文本的文本序列；

S12：获取所述文本序列的单字的稀疏向量；

S13：将所述稀疏向量映射到稠密的向量空间中以获取稠密向量；

S14：将所述稠密向量作为文本序列表示矩阵。

在本实施例中，目标文本由条语句和对应的事件类型标签组成。ACE2005（含有事件抽取任务的评测会议）定义了8种事件类别以及33种子类别，中文事件抽取数据集DuEE，定义了65个事件类型，包含结婚、辞职、地震等事件类型。例如语句“据甘达拉估计，警员向他发射了80发胡椒弹”，该语句中触发词分别是“发射”，事件类型为“袭击”事件。对于事件抽取任务，长度为的目标文本序列由单字token组成，即，事件类型标签集合表示为，其中为标签数量。

在本实施例中，通过预设的标签模型获取已知的与所述目标文本对应的标签，并对所述标签进行语义编码以获取标签表示矩阵的过程，即利用预训练的语言模型BERT作为标签模型，使该标签模型BERT对标签进行语义编码（不参与下游任务微调），该标签是和目标文本所对应的输入数据相对应的，若输入数据为输入文本，则该标签为输入文本的标签，若输入数据为输入图像，则该标签为与该输入图像相对应的标签；对所述标签进行语义编码以获取标签表示矩阵的过程中，首先取出标签编码序列的[CLS]表示，即作为整个标签的语义表示，并形成相应的标签表示矩阵（标签向量矩阵），该标签表示矩阵可表示为，其中。

如图1、图2、图3共同所示，在通过预设的文本序列表示模型对目标文本进行编码以获取所述目标文本中每个单字的文本序列表示矩阵时，利用预训练的语言模型BERT作为文本序列表示模型（参与到下游任务微调的BERT模型）对文本序列进行编码，使每个单字token被编码到稠密的向量空间（在输入BERT模型前会为每个单字随机初始化一个维度确定的稀疏的向量，经过BERT模型编码后，得到了稠密的向量），其中为向量表示的维度，P=768，经BERT模型编码得到的单字token向量表示（通过BERT模型可以将单子的稀疏向量表示映射到稠密的向量空间，表示BERT模型编码操作），因此，文本序列是由每个单字token经过BERT模型编码后得到文本序列表示矩阵：

，其中，。

如图1、图2、图3共同所示，在本实施例中，步骤S2为通过预设的标签注意力模块基于所述标签表示矩阵和所述文本序列表示矩阵捕获标签和所述目标文本中单字的相关性数据，基于所述相关性数据获取所有标签下对各个单字的最大权重值，以根据所述最大权重值为每一标签匹配单字，并对所有匹配的标签和单字进行向量表示以形成预测向量的过程；在该过程中，基于所述标签表示矩阵和所述文本序列表示矩阵捕获标签和所述目标文本中单字的相关性数据，基于所述相关性数据获取所有标签下对各个单字的最大权重值的步骤，包括：

S21：计算第k个标签表示矩阵和第l个单字的单字向量的范数乘积以获取归一化矩阵；

S22：通过所述标签表示矩阵的转置与所述文本序列表示矩阵的乘积、所述归一化矩阵获取第l个单字所属短语的相关性数据；所述单字所属短语为第l个单字向前数m个单字至第l个单字向后数m个单字所构成的短语；

S23：通过所述相关性数据和预设的权重矩阵、偏置向量计算第l个单字的权重向量；

S24：对所述权重向量进行最大池化计算以获取最大权重，并对所述最大权重进行归一化计算以获取标签对所述第l个单字的最大权重值。

具体地，为了捕获标签和文本序列token相关性，首先设计基于标签语义信息的注意力机制获得每个单字的重要性，即将重要性数据定义为：

其中，是大小为的归一化矩阵，其元素通过计算第个标签向量和第个单字向量范数的乘积获得，即；而后获取当前单字token的上下文语义信息，定义来计算标签和token之间的相关性，即针对文本序列中第个单字token，考虑其前后m个单字token，也就是长度为的短语。我们利用短语来获得当前单字token对应的注意力权重，标签对第个token的权重向量：

；

其中，是模型要学习的参数，（表示实数空间，所有的都是一样的），表示要学习的权重矩阵，表示偏置向量；再通过最大池化得到标签对第个token的最大权重值：

；

在或区域最大权重值之后，对注意力权重进行归一化:

；

为归一化后的所有标签对第个token的注意力权重值，因此，通过比较所有标签的最大权重值为第个单字锁定标签，以依次为每一标签匹配单字，也即是从注意力权重可以获得每个标签针对文本序列中更为关注的单字部分。

而后，对所有匹配的标签和单字进行向量表示以形成预测向量为：；其中，为第个单字的预测向量，为所述第个单字的最大权重值；为第个单字的文本序列表示矩阵。

步骤S4为将所述预测向量输入至预设的模型分类器中，以使所述模型分类器根据所述预测向量获取与所述预测向量对应的标签下，与所述预测向量对应的目标文本字符为首触发词和尾触发词的首触发概率和尾触发概率，并根据所述首触发概率和所述尾触发概率判断所述目标文本字符是否为首触发词和尾触发词的过程；其中，在根据所述预测向量获取与所述预测向量对应的标签下，与所述预测向量对应的目标文本字符为首触发词和尾触发词的首触发概率和尾触发概率的步骤中，包括：

根据所述首触发概率和所述尾触发概率判断所述目标文本字符是否为首触发词和尾触发词的步骤，包括：

设定识别触发词阈值；其中，和分别表示在类别r上识别为首触发词的词首阈值和识别为尾触发词的词尾阈值；

若，则判定目标文本字符为类别r的首触发词，若，则判定目标文本字符为类别r的尾触发词。

将确定为首触发词和尾触发词的目标文本字符所在的语句作为抽取事件的步骤，包括：

具体地，即标签的预测分别通过一个正则化层和一个全连接层，在触发词识别上，利用sigmoid分类器判定在类别r上识别字符为触发词的首和尾的公式分别为：

其中，上标表示类别标签，和分别表示需要学习的识别触发词首和尾的权重矩阵，和分别表示对应的偏置向量，表示sigmiod激活函数，和分别表示在类别r上字符被识别为触发词的词首和尾的概率。设定识别触发词首和尾的阈值和分别表示在类别r上识别为触发词的词首和词尾的阈值。若，则判定字符为类别标签为r的触发词的首，若，则判定字符为类别标签为r的触发词的尾，从而完成事件的抽取。

如此，通过本实施例中的基于标签增强的图像文本事件抽取方法，第一可以使得事件抽取不仅可以针对文本内容，还可以针对图像，如此实现多模态事件抽取，提高事件抽取的多样性；第二整个过程利用预训练的文本表示模型和标签模型对文本和标签分别进行语义表示，通过设计标签注意力模块来捕捉事件标签对待抽取语句中的触发词和要素之间的依赖关系，能够实现在标注数据量少的情况下提高事件抽取的效果，提高事件抽取的准确度。

如上所述，本发明提供的基于标签增强的图像文本事件抽取方法，基于标签增强的图像文本事件抽取方法，首先通过预设的文本序列表示模型获取所述输入数据的目标文本，并对目标文本进行编码以获取目标文本中每个单字的文本序列表示矩阵；其中，输入数据包括输入文本、输入图像，因此，事件抽取不仅可以针对文本内容，还可以针对图像，如此实现多模态事件抽取，再通过预设的标签模型获取已知的与目标文本对应的标签，并对标签进行语义编码以获取标签表示矩阵，再基于标签表示矩阵和所述文本序列表示矩阵捕获标签和目标文本中单字的相关性数据，基于相关性数据获取所有标签下对各个单字的最大权重值，以根据最大权重值为每一标签匹配单字，并对所有匹配的标签和单字进行向量表示以形成预测向量，然后将预测向量输入至预设的模型分类器中，以使模型分类器根据预测向量获取与预测向量对应的标签下，与所述预测向量对应的目标文本字符为首触发词和尾触发词的首触发概率和尾触发概率，并根据首触发概率和所述尾触发概率判断所述目标文本字符是否为首触发词和尾触发词，以将确定为首触发词和尾触发词的目标文本字符所在的语句作为抽取事件，整个过程利用预训练的文本表示模型和标签模型对文本和标签分别进行语义表示，通过设计标签注意力模块来捕捉事件标签对待抽取语句中的触发词和要素之间的依赖关系，能够实现在标注数据量少的情况下提高事件抽取的效果，提高事件抽取的准确度。

如图4所示，本发明还提供一种基于标签增强的图像文本事件抽取系统100，实现如前所述的基于标签增强的图像文本事件抽取方法，包括：

文本序列表示模型101，用于获取所述输入数据的目标文本，并对所述目标文本进行编码以获取所述目标文本中每个单字的文本序列表示矩阵；其中，所述输入数据包括输入文本、输入图像；若所述输入数据为输入文本，则直接将所述输入文本作为所述输入数据的目标文本；若所述输入数据为输入图像，则通过所述文本序列表示模型中的图像判定单元判定所述输入图像为纯文本图像还是非纯文本图像，若所述输入图像为纯文本图像，则通过所述文本序列表示模型中的文字提取单元对所述纯文本图像进行文本识别以获取提取文本，并将所述提取文本作为所述输入数据的目标文本；若所述输入图像为非纯文本图像，则通过所述文本序列表示模型中的图像特征提取模块获取所述非纯文本图像的文本向量表示、视觉实体向量表示和视觉特征向量表示，将所述视觉实体向量表示和所述视觉特征向量表示转换为与所述文本向量表示相同大小的表示向量，并对所述表示向量和所述文本向量表示进行按位相加以获取语义信息，并将所述语义信息作为所述输入数据的目标文本；

标签模型102，用于获取已知的与所述目标文本对应的标签，并对所述标签进行语义编码以获取标签表示矩阵；

标签注意力模块103，用于基于所述标签表示矩阵和所述文本序列表示矩阵捕获所述标签和所述目标文本中单字的相关性数据，基于所述相关性数据获取所有标签下对各个单字的最大权重值，以根据所述最大权重值为每一标签匹配单字，并对所有匹配的标签和单字进行向量表示以形成预测向量；

模型分类器104，用于根据所述预测向量获取与所述预测向量对应的标签下，与所述预测向量对应的目标文本字符为首触发词和尾触发词的首触发概率和尾触发概率，并根据所述首触发概率和所述尾触发概率判断所述目标文本字符是否为首触发词和尾触发词；其中，所述目标文本字符为所述目标文本中单字或单词对应的字符；

抽取单元105，用于将确定为首触发词和尾触发词的目标文本字符所在的语句作为抽取事件。

其中，该模型分类器104包括sigmoid分类器，该sigmoid分类器基于sigmiod激活函数判定在与所述预测向量对应的标签的类别r上识别与所述预测向量对应的目标文本字符为首触发词和尾触发词的首触发概率和尾触发概率为：

该基于标签增强的图像文本事件抽取系统的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不作赘述。

本发明提供的基于标签增强的图像文本事件抽取系统100，首先通过文本序列表示模型101通过预设的文本序列表示模型获取所述输入数据的目标文本，并对目标文本进行编码以获取目标文本中每个单字的文本序列表示矩阵；其中，输入数据包括输入文本、输入图像，因此，事件抽取不仅可以针对文本内容，还可以针对图像，如此实现多模态事件抽取，再通过预设的标签模型获取已知的与目标文本对应的标签，并对标签进行语义编码以获取标签表示矩阵，再通过预设的标签模型102模型获取已知的与所述目标文本对应的标签，并对所述标签进行语义编码以获取标签表示矩阵，再通过标签注意力模块103基于标签表示矩阵和所述文本序列表示矩阵捕获标签和目标文本中单字的相关性数据，基于相关性数据获取所有标签下对各个单字的最大权重值，以根据最大权重值为每一标签匹配单字，并对所有匹配的标签和单字进行向量表示以形成预测向量，然后将预测向量输入至预设的模型分类器104中，以使模型分类器根据预测向量获取与预测向量对应的标签下，与所述预测向量对应的目标文本字符为首触发词和尾触发词的首触发概率和尾触发概率，并根据首触发概率和所述尾触发概率判断所述目标文本字符是否为首触发词和尾触发词，以通过抽取单元105将确定为首触发词和尾触发词的目标文本字符所在的语句作为抽取事件，整个过程利用预训练语言模型学习标签类型文本的语义表示，通过设计标签注意力模块来捕捉事件标签对待抽取语句中的触发词和要素之间的依赖关系，能够实现在标注数据量少的情况下提高事件抽取的效果。

如图5所示，本发明还提供一种电子设备，该电子设备包括：

至少一个处理器；以及，

与至少一个处理器通信连接的存储器；其中，

该存储器存储有可被至少一个处理器执行的计算机程序，该计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述的基于标签增强的图像文本事件抽取方法中的步骤。

本领域技术人员可以理解的是，图5示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源（比如电池），优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口（如WI-FI接口、蓝牙接口等），通常用于在该电子设备1与其他电子设备之间建立通信连接。

可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器（Display）、输入单元（比如键盘（Keyboard）），可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED（Organic Light-Emitting Diode，有机发光二极管）触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。

所述电子设备1中的所述存储器11存储的基于标签增强的图像文本事件抽取程序12是多个指令的组合，在所述处理器10中运行时，可以实现：

具体地，所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。

进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器（ROM，Read-Only Memory）。

如上参照附图以示例的方式描述了根据本发明提出的基于标签增强的图像文本事件抽取方法、系统、电子设备。但是，本领域技术人员应当理解，对于上述本发明所提出的基于标签增强的图像文本事件抽取方法、系统、电子设备，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种基于标签增强的图像文本事件抽取方法，其特征在于，包括：

2.如权利要求1所述的基于标签增强的图像文本事件抽取方法，其特征在于，对所述目标文本进行编码以获取所述目标文本中每个单字的文本序列表示矩阵的步骤，包括：

获取所述目标文本的文本序列；

获取所述文本序列的单字的稀疏向量；

将所述稀疏向量映射到稠密的向量空间中以获取稠密向量；

将所述稠密向量作为文本序列表示矩阵。

3.如权利要求2所述的基于标签增强的图像文本事件抽取方法，其特征在于，基于所述标签表示矩阵和所述文本序列表示矩阵捕获所述标签和所述目标文本中单字的相关性数据，基于所述相关性数据获取所有标签下对各个单字的最大权重值的步骤，包括：

4.如权利要求3所述的基于标签增强的图像文本事件抽取方法，其特征在于，对所有匹配的标签和单字进行向量表示以形成预测向量为：

5.如权利要求4所述的基于标签增强的图像文本事件抽取方法，其特征在于，在根据所述预测向量获取与所述预测向量对应的标签下，与所述预测向量对应的目标文本字符为首触发词和尾触发词的首触发概率和尾触发概率的步骤中，包括：

6.如权利要求5所述的基于标签增强的图像文本事件抽取方法，其特征在于，根据所述首触发概率和所述尾触发概率判断所述目标文本字符是否为首触发词和尾触发词的步骤，包括：

7.如权利要求6所述的基于标签增强的图像文本事件抽取方法，其特征在于，将确定为首触发词和尾触发词的目标文本字符所在的语句作为抽取事件的步骤，包括：

8.一种基于标签增强的图像文本事件抽取系统，实现如权利要求1-7任一所述的基于标签增强的图像文本事件抽取方法，包括；

9.如权利要求8所述的基于标签增强的图像文本事件抽取系统，其特征在于，所述模型分类器包括sigmoid分类器，

10.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的基于标签增强的图像文本事件抽取方法中的步骤。