CN115905598B - 一种社会事件摘要生成的方法、装置、终端设备及介质 - Google Patents
一种社会事件摘要生成的方法、装置、终端设备及介质 Download PDFInfo
- Publication number
- CN115905598B CN115905598B CN202310161728.1A CN202310161728A CN115905598B CN 115905598 B CN115905598 B CN 115905598B CN 202310161728 A CN202310161728 A CN 202310161728A CN 115905598 B CN115905598 B CN 115905598B
- Authority
- CN
- China
- Prior art keywords
- information
- event
- gist
- abstract
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Abstract
本申请适用于人工智能技术领域,提供了一种社会事件摘要生成的方法、装置、终端设备及介质,所述方法包括:获取目标事件的图文信息;根据图文信息确定目标事件的事件类型;根据事件类型和预设的事件本体schema,确定目标事件的摘要要点标签;根据摘要要点标签确定目标事件的事件要点信息和知识图谱信息;将图文信息、事件要点信息以及知识图谱信息输入至已训练的摘要生成模型,并将摘要要点标签输入至摘要生成模型,以使摘要生成模型生成摘要要点标签对应的摘要内容,进而得到目标事件对应的摘要。采用该方法需要在摘要要点标签的引导下生成事件的摘要,不仅提高了最终生成的摘要的准确率,还使得生成的摘要更具多样性和可控性。
Description
技术领域
本申请属于人工智能技术领域,尤其涉及一种社会事件摘要生成的方法、装置、终端设备及介质。
背景技术
社会事件摘要生成是从对社会事件的相关描述中提取重要信息,并融合形成短摘要的过程。好的摘要应该包含与事件主题相关的重要信息和该事件的差异化内容。通过摘要,决策者可以快速了解到事件反映的内容,同时,摘要生成算法也是实现社会事件全自动化处理的重要模块,它的准确率对整个事件处理流程的效果起着关键作用。
现有技术通常采用经典的编码-解码(encoder-decoder)生成式模型生成社会事件的摘要,然后,在实际应用过程中,上述生成式模型生成的内容不受约束,可能会得到与社会事件完全不相关的结果,而且经常出现某些字和句子重复生成的问题,从而导致生成的事件摘要的准确率较低。
发明内容
本申请实施例提供了一种社会事件摘要生成的方法、装置、终端设备及介质,提高了生成的事件摘要的准确率。
第一方面,本申请实施例提供了一种社会事件摘要生成的方法,包括:
获取目标事件的图文信息;
根据所述图文信息确定所述目标事件的事件类型;
根据所述事件类型和预设的事件本体schema,确定所述目标事件的摘要要点标签;其中,所述事件本体schema是指描述所有社会事件的元信息体系,包括每个所述社会事件的所属领域、事件类型、子类型以及对应的摘要要点标签集合;
根据所述摘要要点标签确定所述目标事件的事件要点信息和知识图谱信息;
将所述图文信息、所述事件要点信息以及所述知识图谱信息输入至已训练的摘要生成模型,并将所述摘要要点标签输入至所述摘要生成模型,以使所述摘要生成模型基于所述摘要要点标签对所述图文信息、所述事件要点信息以及所述知识图谱信息进行处理,得到所述目标事件的摘要。
可选的,所述根据所述图文信息确定所述目标事件的事件类型,包括:
将所述图文信息输入至已训练的事件分类模型进行处理,得到所述目标事件的事件类型;
所述图文信息包括第一文本信息和图片信息;所述事件分类模型包括特征编码层、特征融合层及事件分类层;相应的,所述将所述图文信息输入至已训练的事件分类模型进行处理,得到所述目标事件的事件类型,包括:
将所述第一文本信息和所述图片信息分别输入至所述特征编码层进行特征编码,得到所述第一文本信息对应的文本特征向量以及所述图片信息对应的图片特征向量;
将所述文本特征向量和所述图片特征向量输入至所述特征融合层进行特征融合,以使所述特征融合层基于交叉注意力机制对所述文本特征向量和所述图片特征向量进行特征融合,得到第一特征向量;
将所述第一特征向量输入至所述事件分类模型进行处理,得到所述目标事件的事件类型。
可选的,所述图文信息包括第一文本信息和图片信息;所述根据所述摘要要点标签确定所述目标事件的事件要点信息和知识图谱信息,包括:
根据预构建的信息抽取模型和所述第一文本信息,确定与所述摘要要点标签对应的第一内容;
根据预构建的视觉问答模型和所述图片信息,确定与所述摘要要点标签对应的第二内容;
根据所述摘要要点标签从设定的知识图谱中获取与所述摘要要点标签关联的第三内容;
将所述第一内容和所述第二内容确定为所述事件要点信息;
将所述第三内容确定为所述知识图谱信息。
可选的,所述摘要生成模型包括特征编码层、特征融合层和摘要生成层;所述将所述图文信息、所述事件要点信息以及所述知识图谱信息输入至已训练的摘要生成模型,并将所述摘要要点标签输入至所述摘要生成模型,以使所述摘要生成模型基于所述摘要要点标签对所述图文信息、所述事件要点信息以及所述知识图谱信息进行处理,得到所述目标事件的摘要,包括:
将所述图文信息、所述事件要点信息以及所述知识图谱信息分别输入至所述特征编码层进行特征编码,得到所述图文信息对应的第一特征向量,所述事件要点信息对应的第二特征向量,以及所述知识图谱信息对应的第三特征向量;
从设定的摘要要点特征向量表中获取所述摘要要点标签对应的要点特征向量;
将所述要点特征向量、所述第一特征向量、所述第二特征向量以及所述第三特征向量输入至所述特征融合层进行处理,得到第一融合特征向量;
将所述第一融合特征向量输入至所述摘要生成层,以使所述摘要生成层生成与所述摘要要点标签对应的内容,以得到所述目标事件的摘要。
可选的,所述将所述要点特征向量、所述第一特征向量、所述第二特征向量以及所述第三特征向量输入至所述特征融合层进行处理,得到第一融合特征向量,包括:
根据所述要点特征向量确定所述摘要生成模型当前的内部表征状态;
计算所述图文信息中所有词语各自对应的第四特征向量的第一加权和,得到第一上下文向量;其中,所述第一加权和的权重系数根据所述内部表征状态和所述第一特征向量确定;
计算所述事件要点信息中所有词语各自对应的第五特征向量的第二加权和,得到第二上下文向量;其中,所述第二加权和的权重系数根据所述内部表征状态和所述第二特征向量确定;
计算所述知识图谱信息中所有词语各自对应的第六特征向量的第三加权和,得到第三上下文向量;其中,所述第三加权和的权重系数根据所述内部表征状态和所述第三特征向量确定;
对所述内部表征状态、所述第一上下文向量、所述第二上下文向量以及所述第三上下文向量进行融合,得到所述第一融合特征向量。
可选的,所述摘要要点标签包括多个;所述将所述第一融合特征向量输入至所述摘要生成层,以使所述摘要生成层生成与所述摘要要点标签对应的内容,以得到所述目标事件的摘要,包括:
根据所述第一融合特征向量和所述要点特征向量,计算得到预设的词语表中记录的每个词语各自对应的第一概率值;
针对任意一个词语,对所述任意一个词语对应的第一概率值以及所述任意一个词语在所述图文信息中的第二概率值、在所述事件要点信息中的第三概率值、在所述知识图谱信息中的第四概率值进行加权求和,得到所述任意一个词语的目标概率值;其中,所述第一概率值的权重系数根据所述第一融合特征向量确定,所述第二概率值的权重系数根据所述第一上下文向量确定,所述第三概率值的权重系数根据所述第二上下文向量确定,所述第四概率值的权重系数根据所述第三上下文向量确定;
将所述目标概率值最大的词语,确定为当前摘要要点标签对应的目标词语,并返回执行所述根据所述要点特征向量确定所述摘要生成模型当前的内部表征状态的步骤以及后续步骤,直至检测到所述摘要生成模型输出设定终止符,或者所述当前摘要要点标签对应的内容的长度等于设定长度,以得到所述当前摘要要点标签对应的内容;
将不同摘要要点标签各自对应的内容确定为所述目标事件的摘要。
可选的,所述摘要要点标签包括多个;将所述图文信息、所述事件要点信息以及所述知识图谱信息输入至已训练的摘要生成模型,并将所述摘要要点标签输入至所述摘要生成模型,以使所述摘要生成模型基于所述摘要要点标签对所述图文信息、所述事件要点信息以及所述知识图谱信息进行处理,得到所述目标事件的摘要,包括:
将所述图文信息和多个所述摘要要点标签输入至已训练好的摘要要点规划器进行处理,得到所述目标事件对应的摘要要点生成序列;其中,所述摘要要点规划器用于根据所述图文信息,从多个所述摘要要点标签中确定所述目标事件待生成的要点标签集合,并对所述要点标签集合中的要点生成顺序进行规划,以输出所述摘要要点生成序列;
控制所述摘要生成模型基于多个所述摘要要点标签和所述摘要要点生成序列,对所述图文信息、所述事件要点信息以及所述知识图谱信息进行处理,得到所述目标事件的摘要。
第二方面,本申请实施例提供了一种社会事件摘要生成的装置,包括:
第一获取单元,用于获取目标事件的图文信息;
第一类型确定单元,用于根据所述图文信息确定所述目标事件的事件类型;
标签确定单元,用于根据所述事件类型和预设的事件本体schema,确定所述目标事件的摘要要点标签;其中,所述事件本体schema是指描述所有社会事件的元信息体系,包括每个所述社会事件的所属领域、事件类型、子类型以及对应的摘要要点标签集合;
第一信息确定单元,用于根据所述摘要要点标签确定所述目标事件的事件要点信息和知识图谱信息;
第一输入单元,用于将所述图文信息、所述事件要点信息以及所述知识图谱信息输入至已训练的摘要生成模型,并将所述摘要要点标签输入至所述摘要生成模型,以使所述摘要生成模型基于所述摘要要点标签对所述图文信息、所述事件要点信息以及所述知识图谱信息进行处理,得到所述目标事件的摘要。
第三方面,本申请实施例提供了一种终端设备,包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,上述处理器执行所述计算机程序时实现如上述第一方面中任一项所述的社会事件摘要生成的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面中任一项所述的社会事件摘要生成的方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备可执行上述第一方面中任一项所述的社会事件摘要生成的方法。
本申请实施例与现有技术相比存在的有益效果是:
本申请实施例提供的一种社会事件摘要生成的方法,通过获取目标事件的图文信息;根据图文信息确定目标事件的事件类型;根据事件类型和预设的事件本体schema,确定目标事件的摘要要点标签;根据摘要要点标签确定目标事件的事件要点信息和知识图谱信息;将图文信息、事件要点信息以及知识图谱信息输入至已训练的摘要生成模型,并将摘要要点标签输入至摘要生成模型,以使摘要生成模型生成摘要要点标签对应的摘要内容,进而得到目标事件对应的摘要。与现有技术相比,本申请的方法需要结合社会事件的图文信息、事件要点信息以及知识图谱信息,并在摘要要点标签的引导下生成社会事件的摘要,不仅提高了最终生成的社会事件摘要的准确率,还使得生成的摘要更具多样性和可控性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的社会事件摘要生成的方法的实现流程图;
图2是本申请实施例提供的事件本体schema的示意图;
图3是本申请实施例提供的事件分类模型的工作原理示意图;
图4是本申请另一实施例提供的社会事件摘要生成的方法的实现流程图;
图5是本申请实施例提供的信息抽取模型的工作原理示意图;
图6是本申请实施例提供的视觉问答模型的工作原理示意图;
图7是本申请再一实施例提供的社会事件摘要生成的方法的实现流程图;
图8是本申请实施例提供的摘要生成模型的工作流程图;
图9是本申请又一实施例提供的社会事件摘要生成的方法的实现流程图;
图10是本申请又一实施例提供的社会事件摘要生成的方法的实现流程图;
图11是本申请另一实施例提供的摘要生成模型的工作流程图;
图12是本申请一实施例提供的社会事件摘要生成的装置的结构示意图;
图13是本申请一实施例提供的终端设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
请参阅图1,图1是本申请一实施例提供的一种社会事件摘要生成的方法的实现流程图。本申请实施例中,该社会事件摘要生成的方法的执行主体为终端设备。其中,终端设备可以是笔记本、台式电脑或者计算机等设备。
如图1所示,本申请一实施例提供的社会事件摘要生成的方法可以包括S101~S105,详述如下:
在S101中,获取目标事件的图文信息。
在实际应用中,随着流媒体应用的快速发展,互联网中的信息量呈现爆炸式增长,人们利用流媒体应用获取信息的同时,也往往因为信息量的庞大和繁杂,无法准确了解不同信息反映的内容。而事件摘要则是从所有相关的事件描述中提取重要信息,并融合形成短摘要,以帮助用户快速了解到事件反映的内容。因此,当用户需要针对某一事件(如社会事件)生成事件摘要时,可以向终端设备发送摘要生成请求。
在本申请实施例中,终端设备检测到用户发送的摘要生成请求可以是:检测到针对终端设备的预设操作。其中,预设操作可以根据实际需要设置,此处不作限制。示例性的,预设操作看可以是点击终端设备的预设控件,即终端设备若检测到用户点击了预设控件,则认为检测到了针对终端设备的预设操作;当然,该预设操作也可以是一个时间触发操作,终端设备在运行时可以配置有相应的工作流程,该工作流程包含有多个关键事件的触发节点,上述关键事件包括摘要生成事件,在该情况下,若终端设备检测到到达摘要生成事件关联的触发节点,则执行S101~S105的操作,以执行对事件的摘要生成操作。
基于此,终端设备在检测到摘要生成请求时,可以获取目标事件的图文信息。其中,目标事件指终端接收到摘要生成请求时,需要生成摘要的事件。
其中,图文信息包括图片信息和第一文本信息。
在S102中,根据所述图文信息确定所述目标事件的事件类型。
本申请实施例中,终端设备在得到目标事件的图文信息后,终端设备可以对上述图文信息进行语义分析,确定该目标事件的所属领域,进而继续结合上述图文信息在与该所属领域相关联的事件类型集合中确定该目标事件的事件类型。
示例性的,请参阅图2,如图2所示,图2是本申请提供的事件本体schema,该事件本体schema中包含事件的所属领域,与每个所属领域相关联的事件类型集合,以及每个事件类型包含的多个摘要要点标签。
在本申请的一个实施例中,终端设备还可以将目标事件的图文信息输入至已训练的事件分类模型进行处理,以确定目标事件的事件类型。其中,该事件分类模型可以根据现有的神经网络模型训练得到。
本实施例中,图文信息包括第一文本信息和图片信息,事件分类模型包括特征编码层和事件分类层,基于此,终端设备具体可以根据以下步骤确定目标事件的事件类型,详述如下:
将所述第一文本信息和所述图片信息分别输入至所述特征编码层进行特征编码,得到所述第一文本信息对应的文本特征向量以及所述图片信息对应的图片特征向量;
将所述文本特征向量和所述图片特征向量输入至所述特征融合层进行特征融合,以使所述特征融合层基于交叉注意力机制对所述文本特征向量和所述图片特征向量进行特征融合,得到第一特征向量;
将所述第一特征向量输入至所述事件分类模型进行处理,得到所述目标事件的事件类型。
本实施例中,终端设备将第一文本信息和图片信息输入至已训练的事件分类模型后,可以在该事件分类模型的特征编码层对第一文本信息和图片信息进行特征编码,以得到第一文本信息对应的文本特征向量以及图片信息对应的图片特征向量。
之后,终端设备可以将得到的文本特征向量和图片特征向量输入至特征融合层进行特征融合,得到第一特征向量。具体地,终端设备可以在特征融合层中通过交叉注意力(cross-attention)机制对文本特征向量和图片特征向量进行特征融合,从而得到图片增强的文本表示,即第一特征向量。
终端设备在得到上述第一特征向量后,可以将该第一特征向量输入至事件分类层进行处理,以得到目标事件的事件类型。
请参阅图3,图3是本申请实施例提供的事件分类模型的工作原理示意图。如图3所示,事件分类模型1包括特征编码层11,特征融合层12及事件分类层13。
在S103中,根据所述事件类型和预设的事件本体schema,确定所述目标事件的摘要要点标签;其中,所述事件本体schema是指描述所有社会事件的元信息体系,包括每个所述社会事件的所属领域、事件类型、子类型以及对应的摘要要点标签集合。
本申请实施例中,终端设备预先设置有如图2所示的事件本体schema。其中,事件本体schema是指描述所有社会事件的元信息体系,包括每个社会事件的所属领域、事件类型、子类型以及对应的摘要要点标签集合。
因此,终端设备在确定目标事件的事件类型后,可以根据该目标事件的事件类型和上述预设的事件本体schema,确定该目标事件对应的摘要要点标签。其中,摘要要点标签用于描述摘要中不同要点内容对应的要点属性。
在实际应用中,摘要要点标签为多个。
在S104中,根据所述摘要要点标签确定所述目标事件的事件要点信息和知识图谱信息。
事件要点信息和知识图谱信息均指目标事件中的多个摘要要点标签各自对应的实际信息。例如,假设目标事件为污染治理事件,则其事件要点信息和知识图谱信息包括但不限于摘要要点标签为污染来源对应的实际信息、摘要要点标签为污染影响对应的实际信息、摘要要点标签为治理方式对应的实际信息、摘要要点标签为治理结果对应的实际信息及摘要要点标签为居民满意度的实际信息。
在本申请的一个实施例中,由于事件要点信息和知识图谱信息均指目标事件中的多个摘要要点标签各自对应的实际信息,因此,终端设备具体可以通过如图4所示的S201~S205得到事件要点信息和知识图谱信息,详述如下:
在S201中,根据预构建的信息抽取模型和所述第一文本信息,确定与所述摘要要点标签对应的第一内容。
本实施例中,终端设备可以根据预构建的信息抽取模型从目标事件的第一文本信息中获取到与摘要要点标签对应的第一内容。
其中,信息抽取模型可以是机器阅读理解(machine reading comprehension,MRC)模型。
具体地,终端设备可以将摘要要点标签作为question,第一文本信息作为answer,并将上述二者拼接后输入至机器阅读理解模型,机器阅读理解模型可以对与该摘要要点标签对应的要点内容在第一文本信息中的位置进行预测,最后将概率值最大的位置对应的内容确定为该摘要要点标签对应的第一内容。
示例性的,请参阅图5,图5是本申请实施例提供的信息抽取模型的工作原理示意图。
在S202中,根据预构建的视觉问答模型和所述图片信息,确定与所述摘要要点标签对应的第二内容。
本实施例中,终端设备可以根据预构建的视觉问答(visual question answer,VQA)模型从目标事件的图片信息中获取到与摘要要点标签对应的第二内容。其中,该视觉问答模型可以通过现有的序列到序列(seq2seq)模型得到。
在实际应用中,seq2seq模型是一种循环神经网络的变种,包括编码器(Encoder)和解码器(Decoder)两部分。
具体地,终端设备可以将目标事件的图片信息和摘要要点标签输入至视觉问答模型中的编码器中进行处理,之后解码器可以得到该摘要要点标签对应的第二内容。
示例性的,请参阅图6,图6是本申请实施例提供的视觉问答模型的工作原理示意图。
在S203中,根据所述摘要要点标签从设定的知识图谱中获取与所述摘要要点标签关联的第三内容。
本实施例中,由于知识图谱包含多个实体的三元组信息,因此,终端设备可以从该知识图谱中确定与摘要要点标签相同的实体,并根据该实体的三元组信息确定与摘要要点标签关联的第三内容。
在S204中,将所述第一内容和所述第二内容确定为所述事件要点信息。
在S205中,将所述第三内容确定为所述知识图谱信息。
本实施例中,终端设备可以直接将上述得到的第一内容、第二内容确定为目标事件的事件要点信息,将上述第三内容确定为目标事件的知识图谱信息。
在S105中,将所述图文信息、所述事件要点信息以及所述知识图谱信息输入至已训练的摘要生成模型,并将所述摘要要点标签输入至所述摘要生成模型,以使所述摘要生成模型基于所述摘要要点标签对所述图文信息、所述事件要点信息以及所述知识图谱信息进行处理,得到所述目标事件的摘要。
本申请实施例中,为了保证生成的摘要的可控性,终端设备可以将目标事件的图文信息、事件要点信息以及知识图谱信息输入至已训练的摘要生成模型,并将上述摘要要点标签也输入至该摘要生成模型,以使摘要生成模型基于摘要要点标签对目标事件的图文信息、事件要点信息以及知识图谱信息进行处理,即摘要生成模型在摘要要点标签的引导下,对目标事件的图文信息、事件要点信息以及知识图谱信息进行处理,从而得到目标事件的摘要。其中,上述摘要内容模型是对循环神经网络模型进行训练得到的。
需要说明的是,目标事件的图文信息可以为摘要生成模型提供该目标事件的全局信息,知识图谱信息为摘要生成模型提供该目标事件的扩展信息,事件要点信息可以强化摘要生成模型生成特定要点的能力。
以上可以看出,本申请实施例提供的一种社会事件摘要生成的方法,通过获取目标事件的图文信息;根据图文信息确定目标事件的事件类型;根据事件类型和预设的事件本体schema,确定目标事件的摘要要点标签;根据摘要要点标签确定目标事件的事件要点信息和知识图谱信息;将图文信息、事件要点信息以及知识图谱信息输入至已训练的摘要生成模型,并将摘要要点标签输入至摘要生成模型,以使摘要生成模型生成摘要要点标签对应的摘要内容,进而得到目标事件对应的摘要。与现有技术相比,本申请的方法需要结合社会事件的图文信息、事件要点信息以及知识图谱信息,并在摘要要点标签的引导下生成社会事件的摘要,不仅提高了最终生成的社会事件摘要的准确率,还使得生成的摘要更具多样性和可控性。
请参阅图7和图8,图7是本申请另一实施例提供的社会事件摘要生成的方法,图8是本申请实施例提供的摘要生成模型的工作流程图。
相对于图1对应的实施例,由于已训练的摘要生成模型包括特征编码层、特征融合层和摘要要点标签生成层,因此,本实施例中的步骤S105具体可以包括S301~S304,详述如下:
在S301中,将所述图文信息、所述事件要点信息以及所述知识图谱信息分别输入至所述特征编码层进行特征编码,得到所述图文信息对应的第一特征向量,所述事件要点信息对应的第二特征向量,以及所述知识图谱信息对应的第三特征向量。
需要说明的是,图文信息包括图片信息和第一文本信息。
本实施例中,为了提高摘要的生成效率,终端设备可以将图文信息、事件要点信息以及知识图谱信息分别输入至特征编码层进行特征编码,以得到图文信息对应的第一特征向量,事件要点信息对应的第二特征向量,以及知识图谱信息对应的第三特征向量。
在本申请的一个实施例中,由于图文信息包括图片信息和第一文本信息,因此,终端设备具体可以根据以下步骤实现S301,详述如下:
对所述知识图谱信息进行文本转化,得到所述知识图谱信息对应的第二文本信息;
将所述第一文本信息和所述图片信息分别输入至所述特征编码层进行特征编码,得到所述第一文本信息对应的文本特征向量以及所述图片信息对应的图片特征向量;
基于交叉注意力机制对所述文本特征向量和所述图片特征向量进行特征融合,得到所述第一特征向量;
基于双向编码器对所述事件要点信息进行特征编码,得到所述第二特征向量;
基于所述双向编码器对所述第二文本信息进行特征编码,得到所述第三特征向量。
本实施例中,为了方便对知识图谱信息进行特征编码,终端设备可以将知识图谱信息中包含的实体关系三元组转化为文本形式,即对知识图谱信息进行文本转化,以得到该知识图谱信息对应的第二文本信息。
本实施例中,终端设备可以分别对第一文本信息和图片信息进行特征编码,以得到第一文本信息对应的文本特征向量以及图片信息对应的图片特征向量,之后再通过交叉注意力(cross-attention)机制对文本特征向量和图片特征向量进行特征融合,从而得到图片增强的文本表示,即图文信息对应的第一特征向量。
终端设备可以通过双向编码器对事件要点信息进行特征编码,从而得到该事件要点信息对应的第二特征向量。
终端设备可以通过双向编码器对第二文本信息进行特征编码,从而得到知识图谱信息对应的第三特征向量。
在一些可能的实施例中,双向编码器可以是(Bidirectional EncoderRepresentations fromTransformer,Bert)模型。
在S302中,从设定的摘要要点特征向量表中获取所述摘要要点标签对应的要点特征向量。
本实施例中,设定的摘要要点特征向量表可以根据现有的神经网络模型训练得到。
在S303中,将所述要点特征向量、所述第一特征向量、所述第二特征向量以及所述第三特征向量输入至所述特征融合层进行处理,得到第一融合特征向量。
本实施例中,为了进一步提高生成的要点内容的准确率,终端设备具体可以通过如图9所示的S401~S405得到第一融合特征向量,详述如下:
在S401中,根据所述要点特征向量确定所述摘要生成模型当前的内部表征状态。
本实施例中,终端设备可以根据摘要要点标签对应的要点特征向量,确定摘要生成模型当前的内部表征状态。
在本实施例的一种实现方式中,由于摘要要点标签包括多个,因此,终端设备在需要得到摘要生成模型当前的内部表征状态时,可以获取到在这之前已生成的至少一个摘要要点标签各自对应的要点内容的要点特征向量,即当前已得到的所有要点内容对应的特征向量。其中,当前指需要得到此时摘要要点标签对应的要点内容的时刻。
在S402中,计算所述图文信息中所有词语各自对应的第四特征向量的第一加权和,得到第一上下文向量;其中,所述第一加权和的权重系数根据所述内部表征状态和所述第一特征向量确定。
需要说明的是,第一上下文向量包括图文信息中所有词语各自对应的第四特征向量,以及每个第四特征向量各自对应的权重系数。
其中,每个第四特征向量各自对应的权重系数可以根据内部特征向量和第一特征向量确定。
本实施例中,终端设备具体可以根据以下公式计算得到图文信息的第一上下文向量:
;
其中,表示图文信息的第一上下文向量,表示对图文信息中所有词语进行softmax概率归一化,表示图文信息中第i个词语编码后的特征向量,表示图文信息中第i个词语与内部表征状态交互计算后的特征表示,、、及均为摘要生成模型的模型参数,表示内部表征状态。
在S403中,计算所述事件要点信息中所有词语各自对应的第五特征向量的第二加权和,得到第二上下文向量;其中,所述第二加权和的权重系数根据所述内部表征状态和所述第二特征向量确定。
需要说明的是,第二上下文向量包括事件要点信息中所有词语各自对应的第五特征向量,以及每个第五特征向量各自对应的权重系数。
其中,每个第五特征向量各自对应的权重系数可以根据内部表征状态和第二特征向量确定。
本实施例中,终端设备具体可以根据以下公式计算得到事件要点信息的第二上下文向量:
;
其中,表示事件要点信息的第二上下文向量,表示对事件要点信息中所有词语进行softmax概率归一化,表示事件要点信息中第i个词语编码后的特征向量,表示事件要点信息中第i个词语与内部表征状态交互计算后的特征表示,、、及均为摘要生成模型的模型参数,表示内部表征状态。
在S404中,计算所述知识图谱信息中所有词语各自对应的第六特征向量的第三加权和,得到第三上下文向量;其中,所述第三加权和的权重系数根据所述内部表征状态和所述第三特征向量确定。
需要说明的是,第三上下文向量包括知识图谱信息中所有词语各自对应的第六特征向量,以及每个第六特征向量各自对应的权重系数。
其中,每个第六特征向量各自对应的权重系数可以根据内部表征状态和第三特征向量确定。
本实施例中,终端设备具体可以根据以下公式计算得到知识图谱信息的第三上下文向量:
;
其中,表示知识图谱信息的第三上下文向量,表示对知识图谱信息中所有词语进行softmax概率归一化,表示知识图谱信息中第i个词语编码后的特征向量,表示知识图谱信息中第i个词语与内部表征状态交互计算后的特征表示,、、及均为摘要生成模型的模型参数,表示内部表征状态。
在S405中,对所述内部表征状态、所述第一上下文向量、所述第二上下文向量以及所述第三上下文向量进行融合,得到所述第一融合特征向量。
本实施例中,终端设备在得到图文信息的第一上下文向量、事件要点信息的第二上下文向量以及知识图谱信息的第三上下文向量后,可以对内部表征状态、该第一上下文向量、该第二上下文向量以及该第三上下文向量进行融合,从而得到第一融合特征向量。
在S304中,将所述第一融合特征向量输入至所述摘要生成层,以使所述摘要生成层生成与所述摘要要点标签对应的内容,以得到所述目标事件的摘要。
本实施例中,由于第一融合特征向量中包含摘要生成模型当前的内部表征状态,因此,终端设备可以直接将第一融合特征向量输入至已训练的摘要生成模型,以使摘要生成模型对目标事件的第一融合特征向量进行处理,生成与摘要要点标签对应的内容,从而得到目标事件的摘要。
在本申请的一个实施例中,摘要要点标签包括多个,终端设备具体可以通过以下步骤得到目标事件的摘要,详述如下:
根据所述第一融合特征向量和所述要点特征向量,计算得到预设的词语表中记录的每个词语各自对应的第一概率值;
针对任意一个词语,对所述任意一个词语对应的第一概率值以及所述任意一个词语在所述图文信息中的第二概率值、在所述事件要点信息中的第三概率值、在所述知识图谱信息中的第四概率值进行加权求和,得到所述任意一个词语的目标概率值;其中,所述第一概率值的权重系数根据所述第一融合特征向量确定,所述第二概率值的权重系数根据所述第一上下文向量确定,所述第三概率值的权重系数根据所述第二上下文向量确定,所述第四概率值的权重系数根据所述第三上下文向量确定;
将所述目标概率值最大的词语,确定为当前摘要要点标签对应的目标词语,并返回执行所述根据所述要点特征向量确定所述摘要生成模型当前的内部表征状态的步骤以及后续步骤,直至检测到所述摘要生成模型输出设定终止符,或者所述当前摘要要点标签对应的内容的长度等于设定长度,以得到所述当前摘要要点标签对应的内容;
将不同摘要要点标签各自对应的内容确定为所述目标事件的摘要。
本实施例中,预设的词语表可以根据实际需要设置,此处不作限制。
针对任意一个摘要要点标签,终端设备具体可以根据以下公式计算得到预设的词语表中记录的所有词语对应的概率矩阵:
;
其中,表示预设的词语表中记录的所有词语对应的概率矩阵,表示第一融合特征向量,表示第一上下文向量,表示第二上下文向量,表示第三上下文向量,、、及均为摘要生成模型的模型参数,表示内部表征状态。
基于此,终端设备可以根据上述概率矩阵确定预设的词语表中记录的每个词语各自对应的第一概率值。
需要说明的是,第一上下文向量包括图文信息中所有词语各自对应的第四特征向量,以及每个第四特征向量各自对应的权重系数。其中,每个第四特征向量各自对应的权重系数即为图文信息中所有词语各自对应的概率值。
第二上下文向量包括事件要点信息中所有词语各自对应的第五特征向量,以及每个第五特征向量各自对应的权重系数。其中,每个第五特征向量各自对应的权重系数即为事件要点信息中所有词语各自对应的概率值。
第三上下文向量包括知识图谱信息中所有词语各自对应的第六特征向量,以及每个第六特征向量各自对应的权重系数。其中,每个第六特征向量各自对应的权重系数即为知识图谱信息中所有词语各自对应的概率值。
基于此,任意一个词语,可以对该词语对应的第一概率值以及该词语在图文信息中的第二概率值、在事件要点信息中的第三概率值、在知识图谱信息中的第四概率值进行加权求和,从而得到该词语的目标概率值。其中,第一概率值的权重系数根据第一融合特征向量确定,第二概率值的权重系数根据第一上下文向量确定,第三概率值的权重系数根据第二上下文向量确定,第四概率值的权重系数根据第三上下文向量确定。
在本申请的一个实施例中,终端设备具体可以根据以下公式计算得到任意一个词语的目标概率值:
;
其中,表示第i个词语的目标概率值,表示source数据源贡献的权重,表示第i个词语在各个source数据源中的概率值,source数据源包括图文信息的第一上下文向量、事件要点信息的第二上下文向量、知识图谱信息的第三上下文向量以及第一融合特征向量,、、及均为摘要生成模型的模型参数,表示内部表征状态,表示摘要要点标签对应的要点特征向量。
终端设备在得到任意一个词语的目标概率值后,可以将该目标概率值最大的词语,确定为当前摘要要点标签对应的目标词语,并返回执行步骤S401~S405以及后续步骤,直至检测到摘要生成模型输出设定终止符,或者当前摘要要点标签对应的内容的长度等于设定长度,以得到当前摘要要点标签对应的内容。其中,设定终止符和设定长度均可以根据实际需要设置,此处不作限制。
本实施例中,由于摘要要点标签包括多个,因此,针对每个摘要要点标签,终端设备在根据上述步骤得到该摘要要点标签对应的要点内容之后,可以将不同摘要要点标签各自对应的内容确定为目标事件的摘要。
以上可以看出,本实施例提供的社会事件摘要生成的方法,通过将图文信息、事件要点信息以及知识图谱信息分别输入至特征编码层进行特征编码,得到图文信息对应的第一特征向量,事件要点信息对应的第二特征向量,以及知识图谱信息对应的第三特征向量;从设定的摘要要点特征向量表中获取摘要要点标签对应的要点特征向量;将要点特征向量、第一特征向量、第二特征向量以及第三特征向量输入至特征融合层进行处理,得到第一融合特征向量;将第一融合特征向量输入至摘要生成层,以使摘要生成层生成与摘要要点标签对应的内容,以得到目标事件的摘要。本实施例提供的方法,可以灵活融合多种不同类型的数据特征,如图文信息对应的第一特征向量、事件要点信息对应的第二特征向量以及知识图谱信息对应的第三特征向量,从而提高了生成的内容的准确率,也使得生成的内容更具差异化和多样性。
请参阅图10,图10是本申请再一实施例提供的社会事件摘要生成的方法。相对于图1对应的实施例,由于摘要要点标签包括多个,且摘要生成模型包括摘要要点规划器,因此,本实施例中,步骤S105具体可以包括S501~S502,详述如下:
在S501中,将所述图文信息和多个所述摘要要点标签输入至已训练好的摘要要点规划器进行处理,得到所述目标事件对应的摘要要点生成序列;其中,所述摘要要点规划器用于根据所述图文信息,从多个所述摘要要点标签中确定所述目标事件待生成的要点标签集合,并对所述要点标签集合中的要点生成顺序进行规划,以输出所述摘要要点生成序列。
在S502中,控制所述摘要生成模型基于多个所述摘要要点标签和所述摘要要点生成序列,对所述图文信息、所述事件要点信息以及所述知识图谱信息进行处理,得到所述目标事件的摘要。
需要说明的是,本实施例中,摘要要点规划器是一个seq2seq的架构,是根据历史要点内容生成顺序训练得到。
本实施例中,终端设备可以将目标事件的图文信息和多个摘要要点标签输入至已训练的摘要要点规划器进行处理,从而得到目标事件对应的要点内容生成顺序。
在一些可能的实施例中,结合S201~S205,终端设备可以将目标事件的事件类型,以及经过摘要生成模型中的特征编码层处理的第一特征向量,输入至摘要要点规划器中进行处理,从而得到该目标事件的要点内容生成顺序。
需要说明的是,摘要要点规划器还可以基于摘要的生成需求,对上述摘要要点生成序列进行动态干预。
基于此,终端设备在确定要点内容生成顺序后,可以控制摘要生成模型基于摘要要点标签和要点内容生成顺序,对目标事件的图文信息、事件要点信息以及知识图谱信息进行处理,从而得到目标事件的摘要。
示例性的,请参阅图11,图11是本申请另一实施例提供的摘要生成模型的工作流程图。
以上可以看出,本实施例提供的社会事件摘要生成的方法,通过将图文信息和多个摘要要点标签输入至已训练好的摘要要点规划器进行处理,得到目标事件对应的摘要要点生成序列;其中,摘要要点规划器用于根据图文信息,从多个摘要要点标签中确定目标事件待生成的要点标签集合,并对要点标签集合中的要点生成顺序进行规划,以输出摘要要点生成序列;控制摘要生成模型基于多个摘要要点标签和所述摘要要点生成序列,对图文信息、事件要点信息以及知识图谱信息进行处理,得到目标事件的摘要。采用该方法,提高了生成的摘要的有序性和可控性,保证生成的摘要内容通顺易懂。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
对应于上文实施例所述的一种社会事件摘要生成的方法,图12示出了本申请实施例提供的一种社会事件摘要生成的装置的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。参照图12,该社会事件摘要生成的装置200包括:第一获取单元21、第一类型确定单元22、标签确定单元23、第一信息确定单元24及第一输入单元25。其中:
第一获取单元21用于获取目标事件的图文信息。
第一类型确定单元22用于根据所述图文信息确定所述目标事件的事件类型。
标签确定单元23用于根据所述事件类型和预设的事件本体schema,确定所述目标事件的摘要要点标签;其中,所述事件本体schema是指描述所有社会事件的元信息体系,包括每个所述社会事件的所属领域、事件类型、子类型以及对应的摘要要点标签集合。
第一信息确定单元24用于根据所述摘要要点标签确定所述目标事件的事件要点信息和知识图谱信息。
第一输入单元25用于将所述图文信息、所述事件要点信息以及所述知识图谱信息输入至已训练的摘要生成模型,并将所述摘要要点标签输入至所述摘要生成模型,以使所述摘要生成模型基于所述摘要要点标签对所述图文信息、所述事件要点信息以及所述知识图谱信息进行处理,得到所述目标事件的摘要。
在本申请的一个实施例中,第一类型确定单元22具体包括:第一处理单元。其中:
第一处理单元用于将所述图文信息输入至已训练的事件分类模型进行处理,得到所述目标事件的事件类型。
所述图文信息包括第一文本信息和图片信息;所述事件分类模型包括特征编码层、特征融合层及事件分类层;相应的,第一处理单元具体包括:第二输出单元、第三输入单元及第二类型确定单元。其中:
第二输入单元用于将所述第一文本信息和所述图片信息分别输入至所述特征编码层进行特征编码,得到所述第一文本信息对应的文本特征向量以及所述图片信息对应的图片特征向量。
第三输入单元用于将所述文本特征向量和所述图片特征向量输入至所述特征融合层进行特征融合,以使所述特征融合层基于交叉注意力机制对所述文本特征向量和所述图片特征向量进行特征融合,得到第一特征向量。
第二类型确定单元用于将所述第一特征向量输入至所述事件分类模型进行处理,得到所述目标事件的事件类型。
在本申请的一个实施例中,所述图文信息包括第一文本信息和图片信息;第一信息确定单元24具体包括:第一内容确定单元、第二内容确定单元、第三内容确定单元、第二信息确定单元及第三信息确定单元。其中:
第一内容确定单元用于根据预构建的信息抽取模型和所述第一文本信息,确定与所述摘要要点标签对应的第一内容。
第二内容确定单元用于根据预构建的视觉问答模型和所述图片信息,确定与所述摘要要点标签对应的第二内容。
第三内容确定单元用于根据所述摘要要点标签从设定的知识图谱中获取与所述摘要要点标签关联的第三内容。
第二信息确定单元用于将所述第一内容和所述第二内容确定为所述事件要点信息。
第三信息确定单元用于将所述第三内容确定为所述知识图谱信息。
在本申请的一个实施例中,所述摘要生成模型包括特征编码层、特征融合层和摘要要点标签生成层;第一输入单元25具体包括:编码单元、第二获取单元、第一融合单元及生成单元。其中:
编码单元用于将所述图文信息、所述事件要点信息以及所述知识图谱信息分别输入至所述特征编码层进行特征编码,得到所述图文信息对应的第一特征向量,所述事件要点信息对应的第二特征向量,以及所述知识图谱信息对应的第三特征向量。
第二获取单元用于从设定的摘要要点特征向量表中获取所述摘要要点标签对应的要点特征向量。
第一融合单元用于将所述要点特征向量、所述第一特征向量、所述第二特征向量以及所述第三特征向量输入至所述特征融合层进行处理,得到第一融合特征向量。
生成单元用于将所述第一融合特征向量输入至所述摘要生成层,以使所述摘要生成层生成与所述摘要要点标签对应的内容,以得到所述目标事件的摘要。
在本申请的一个实施例中,第一融合单元具体包括:状态确定单元、第一计算单元、第二计算单元、第三计算单元及第二融合单元。其中:
状态确定单元用于根据所述要点特征向量确定所述摘要生成模型当前的内部表征状态。
第一计算单元用于计算所述图文信息中所有词语各自对应的第四特征向量的第一加权和,得到第一上下文向量;其中,所述第一加权和的权重系数根据所述内部表征状态和所述第一特征向量确定。
第二计算单元用于计算所述事件要点信息中所有词语各自对应的第五特征向量的第二加权和,得到第二上下文向量;其中,所述第二加权和的权重系数根据所述内部表征状态和所述第二特征向量确定。
第三计算单元用于计算所述知识图谱信息中所有词语各自对应的第六特征向量的第三加权和,得到第三上下文向量;其中,所述第三加权和的权重系数根据所述内部表征状态和所述第三特征向量确定。
第二融合单元用于对所述内部表征状态、所述第一上下文向量、所述第二上下文向量以及所述第三上下文向量进行融合,得到所述第一融合特征向量。
在本申请的一个实施例中,所述摘要要点标签包含多个,所述生成单元具体包括:第四计算单元、求和单元、词语确定单元及摘要确定单元。其中:
第四计算单元用于根据所述第一融合特征向量和所述要点特征向量,计算得到预设的词语表中记录的每个词语各自对应的第一概率值。
求和单元用于针对任意一个词语,对所述任意一个词语对应的第一概率值以及所述任意一个词语在所述图文信息中的第二概率值、在所述事件要点信息中的第三概率值、在所述知识图谱信息中的第四概率值进行加权求和,得到所述任意一个词语的目标概率值;其中,所述第一概率值的权重系数根据所述第一融合特征向量确定,所述第二概率值的权重系数根据所述第一上下文向量确定,所述第三概率值的权重系数根据所述第二上下文向量确定,所述第四概率值的权重系数根据所述第三上下文向量确定。
词语确定单元用于将所述目标概率值最大的词语,确定为当前摘要要点标签对应的目标词语,并返回执行所述根据所述要点特征向量确定所述摘要生成模型当前的内部表征状态的步骤以及后续步骤,直至检测到所述摘要生成模型输出设定终止符,或者所述当前摘要要点标签对应的内容的长度等于设定长度,以得到所述当前摘要要点标签对应的内容。
摘要确定单元用于将不同摘要要点标签各自对应的内容确定为所述目标事件的摘要。
在本申请的一个实施例中,所述摘要要点标签包括多个;第一输入单元25具体包括:第二处理单元和控制单元。其中:
第二处理单元用于将所述图文信息和多个所述摘要要点标签输入至已训练好的摘要要点规划器进行处理,得到所述目标事件对应的摘要要点生成序列;其中,所述摘要要点规划器用于根据所述图文信息,从多个所述摘要要点标签中确定所述目标事件待生成的要点标签集合,并对所述要点标签集合中的要点生成顺序进行规划,以输出所述摘要要点生成序列。
控制单元用于控制所述摘要生成模型基于多个所述摘要要点标签和所述摘要要点生成序列,对所述图文信息、所述事件要点信息以及所述知识图谱信息进行处理,得到所述目标事件的摘要。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图13为本申请一实施例提供的终端设备的结构示意图。如图13所示,该实施例的终端设备3包括:至少一个处理器30(图13中仅示出一个)处理器、存储器31以及存储在所述存储器31中并可在所述至少一个处理器30上运行的计算机程序32,所述处理器30执行所述计算机程序32时实现上述任意各个社会事件摘要生成的方法实施例中的步骤。
该终端设备可包括,但不仅限于,处理器30、存储器31。本领域技术人员可以理解,图13仅仅是终端设备3的举例,并不构成对终端设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如还可以包括输入输出设备、网络接入设备等。
所称处理器30可以是中央处理单元(CentralProcessing Unit,CPU),该处理器30还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器31在一些实施例中可以是所述终端设备3的内部存储单元,例如终端设备3的内存。所述存储器31在另一些实施例中也可以是所述终端设备3的外部存储设备,例如所述终端设备3上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(FlashCard)等。进一步地,所述存储器31还可以既包括所述终端设备3的内部存储单元也包括外部存储设备。所述存储器31用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器31还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random AccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (8)
1.一种社会事件摘要生成的方法,其特征在于,包括:
获取目标事件的图文信息;
根据所述图文信息确定所述目标事件的事件类型;
根据所述事件类型和预设的事件本体schema,确定所述目标事件的摘要要点标签;其中,所述事件本体schema是指描述所有社会事件的元信息体系,包括每个所述社会事件的所属领域、事件类型、子类型以及对应的摘要要点标签集合;
根据所述摘要要点标签确定所述目标事件的事件要点信息和知识图谱信息;
将所述图文信息、所述事件要点信息以及所述知识图谱信息输入至已训练的摘要生成模型,并将所述摘要要点标签输入至所述摘要生成模型,以使所述摘要生成模型基于所述摘要要点标签对所述图文信息、所述事件要点信息以及所述知识图谱信息进行处理,得到所述目标事件的摘要;
所述图文信息包括第一文本信息和图片信息;所述根据所述摘要要点标签确定所述目标事件的事件要点信息和知识图谱信息,包括:
根据预构建的信息抽取模型和所述第一文本信息,确定与所述摘要要点标签对应的第一内容;
根据预构建的视觉问答模型和所述图片信息,确定与所述摘要要点标签对应的第二内容;
根据所述摘要要点标签从设定的知识图谱中获取与所述摘要要点标签关联的第三内容;
将所述第一内容和所述第二内容确定为所述事件要点信息;
将所述第三内容确定为所述知识图谱信息;
所述摘要生成模型包括特征编码层、特征融合层和摘要生成层;所述将所述图文信息、所述事件要点信息以及所述知识图谱信息输入至已训练的摘要生成模型,并将所述摘要要点标签输入至所述摘要生成模型,以使所述摘要生成模型基于所述摘要要点标签对所述图文信息、所述事件要点信息以及所述知识图谱信息进行处理,得到所述目标事件的摘要,包括:
将所述图文信息、所述事件要点信息以及所述知识图谱信息分别输入至所述特征编码层进行特征编码,得到所述图文信息对应的第一特征向量,所述事件要点信息对应的第二特征向量,以及所述知识图谱信息对应的第三特征向量;
从设定的摘要要点特征向量表中获取所述摘要要点标签对应的要点特征向量;
将所述要点特征向量、所述第一特征向量、所述第二特征向量以及所述第三特征向量输入至所述特征融合层进行处理,得到第一融合特征向量;
将所述第一融合特征向量输入至所述摘要生成层,以使所述摘要生成层生成与所述摘要要点标签对应的内容,以得到所述目标事件的摘要。
2.如权利要求1所述的社会事件摘要生成的方法,其特征在于,所述根据所述图文信息确定所述目标事件的事件类型,包括:
将所述图文信息输入至已训练的事件分类模型进行处理,得到所述目标事件的事件类型;
所述图文信息包括第一文本信息和图片信息;所述事件分类模型包括特征编码层、特征融合层及事件分类层;相应的,所述将所述图文信息输入至已训练的事件分类模型进行处理,得到所述目标事件的事件类型,包括:
将所述第一文本信息和所述图片信息分别输入至所述特征编码层进行特征编码,得到所述第一文本信息对应的文本特征向量以及所述图片信息对应的图片特征向量;
将所述文本特征向量和所述图片特征向量输入至所述特征融合层进行特征融合,以使所述特征融合层基于交叉注意力机制对所述文本特征向量和所述图片特征向量进行特征融合,得到第一特征向量;
将所述第一特征向量输入至所述事件分类模型进行处理,得到所述目标事件的事件类型。
3.如权利要求1所述的社会事件摘要生成的方法,其特征在于,所述将所述要点特征向量、所述第一特征向量、所述第二特征向量以及所述第三特征向量输入至所述特征融合层进行处理,得到第一融合特征向量,包括:
根据所述要点特征向量确定所述摘要生成模型当前的内部表征状态;
计算所述图文信息中所有词语各自对应的第四特征向量的第一加权和,得到第一上下文向量;其中,所述第一加权和的权重系数根据所述内部表征状态和所述第一特征向量确定;
计算所述事件要点信息中所有词语各自对应的第五特征向量的第二加权和,得到第二上下文向量;其中,所述第二加权和的权重系数根据所述内部表征状态和所述第二特征向量确定;
计算所述知识图谱信息中所有词语各自对应的第六特征向量的第三加权和,得到第三上下文向量;其中,所述第三加权和的权重系数根据所述内部表征状态和所述第三特征向量确定;
对所述内部表征状态、所述第一上下文向量、所述第二上下文向量以及所述第三上下文向量进行融合,得到所述第一融合特征向量。
4.如权利要求3所述的社会事件摘要生成的方法,其特征在于,所述摘要要点标签包括多个;所述将所述第一融合特征向量输入至所述摘要生成层,以使所述摘要生成层生成与所述摘要要点标签对应的内容,以得到所述目标事件的摘要,包括:
根据所述第一融合特征向量和所述要点特征向量,计算得到预设的词语表中记录的每个词语各自对应的第一概率值;
针对任意一个词语,对所述任意一个词语对应的第一概率值以及所述任意一个词语在所述图文信息中的第二概率值、在所述事件要点信息中的第三概率值、在所述知识图谱信息中的第四概率值进行加权求和,得到所述任意一个词语的目标概率值;其中,所述第一概率值的权重系数根据所述第一融合特征向量确定,所述第二概率值的权重系数根据所述第一上下文向量确定,所述第三概率值的权重系数根据所述第二上下文向量确定,所述第四概率值的权重系数根据所述第三上下文向量确定;
将所述目标概率值最大的词语,确定为当前摘要要点标签对应的目标词语,并返回执行所述根据所述要点特征向量确定所述摘要生成模型当前的内部表征状态的步骤以及后续步骤,直至检测到所述摘要生成模型输出设定终止符,或者所述当前摘要要点标签对应的内容的长度等于设定长度,以得到所述当前摘要要点标签对应的内容;
将不同摘要要点标签各自对应的内容确定为所述目标事件的摘要。
5.如权利要求1所述的社会事件摘要生成的方法,其特征在于,所述摘要要点标签包括多个;将所述图文信息、所述事件要点信息以及所述知识图谱信息输入至已训练的摘要生成模型,并将所述摘要要点标签输入至所述摘要生成模型,以使所述摘要生成模型基于所述摘要要点标签对所述图文信息、所述事件要点信息以及所述知识图谱信息进行处理,得到所述目标事件的摘要,包括:
将所述图文信息和多个所述摘要要点标签输入至已训练好的摘要要点规划器进行处理,得到所述目标事件对应的摘要要点生成序列;其中,所述摘要要点规划器用于根据所述图文信息,从多个所述摘要要点标签中确定所述目标事件待生成的要点标签集合,并对所述要点标签集合中的要点生成顺序进行规划,以输出所述摘要要点生成序列;
控制所述摘要生成模型基于多个所述摘要要点标签和所述摘要要点生成序列,对所述图文信息、所述事件要点信息以及所述知识图谱信息进行处理,得到所述目标事件的摘要。
6.一种社会事件摘要生成的装置,包括:
第一获取单元,用于获取目标事件的图文信息;
第一类型确定单元,用于根据所述图文信息确定所述目标事件的事件类型;
标签确定单元,用于根据所述事件类型和预设的事件本体schema,确定所述目标事件的摘要要点标签;其中,所述事件本体schema是指描述所有社会事件的元信息体系,包括每个所述社会事件的所属领域、事件类型、子类型以及对应的摘要要点标签集合;
第一信息确定单元,用于根据所述摘要要点标签确定所述目标事件的事件要点信息和知识图谱信息;
第一输入单元,用于将所述图文信息、所述事件要点信息以及所述知识图谱信息输入至已训练的摘要生成模型,并将所述摘要要点标签输入至所述摘要生成模型,以使所述摘要生成模型基于所述摘要要点标签对所述图文信息、所述事件要点信息以及所述知识图谱信息进行处理,得到所述目标事件的摘要;
所述图文信息包括第一文本信息和图片信息;所述第一信息确定单元具体包括:
第一内容确定单元,用于根据预构建的信息抽取模型和所述第一文本信息,确定与所述摘要要点标签对应的第一内容;
第二内容确定单元,用于根据预构建的视觉问答模型和所述图片信息,确定与所述摘要要点标签对应的第二内容;
第三内容确定单元,用于根据所述摘要要点标签从设定的知识图谱中获取与所述摘要要点标签关联的第三内容;
第二信息确定单元,用于将所述第一内容和所述第二内容确定为所述事件要点信息;
第三信息确定单元,用于将所述第三内容确定为所述知识图谱信息;
所述摘要生成模型包括特征编码层、特征融合层和摘要要点标签生成层;所述第一输入单元具体包括:
编码单元,用于将所述图文信息、所述事件要点信息以及所述知识图谱信息分别输入至所述特征编码层进行特征编码,得到所述图文信息对应的第一特征向量,所述事件要点信息对应的第二特征向量,以及所述知识图谱信息对应的第三特征向量;
第二获取单元,用于从设定的摘要要点特征向量表中获取所述摘要要点标签对应的要点特征向量;
第一融合单元,用于将所述要点特征向量、所述第一特征向量、所述第二特征向量以及所述第三特征向量输入至所述特征融合层进行处理,得到第一融合特征向量;
生成单元,用于将所述第一融合特征向量输入至所述摘要生成层,以使所述摘要生成层生成与所述摘要要点标签对应的内容,以得到所述目标事件的摘要。
7.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的社会事件摘要生成的方法。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的社会事件摘要生成的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310161728.1A CN115905598B (zh) | 2023-02-24 | 2023-02-24 | 一种社会事件摘要生成的方法、装置、终端设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310161728.1A CN115905598B (zh) | 2023-02-24 | 2023-02-24 | 一种社会事件摘要生成的方法、装置、终端设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115905598A CN115905598A (zh) | 2023-04-04 |
CN115905598B true CN115905598B (zh) | 2023-05-16 |
Family
ID=85730195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310161728.1A Active CN115905598B (zh) | 2023-02-24 | 2023-02-24 | 一种社会事件摘要生成的方法、装置、终端设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115905598B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508400A (zh) * | 2018-10-09 | 2019-03-22 | 中国科学院自动化研究所 | 图文摘要生成方法 |
CN111324728A (zh) * | 2020-01-22 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 文本事件摘要的生成方法、装置、电子设备及存储介质 |
CN111797242A (zh) * | 2020-06-29 | 2020-10-20 | 哈尔滨工业大学 | 一种基于代码知识图谱和知识迁移的代码摘要生成方法 |
CN113722471A (zh) * | 2021-08-30 | 2021-11-30 | 上海明略人工智能(集团)有限公司 | 一种文本摘要生成方法、系统、电子设备及介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112148871B (zh) * | 2020-09-21 | 2024-04-12 | 北京百度网讯科技有限公司 | 摘要生成方法、装置、电子设备及存储介质 |
US11954436B2 (en) * | 2021-07-26 | 2024-04-09 | Freshworks Inc. | Automatic extraction of situations |
-
2023
- 2023-02-24 CN CN202310161728.1A patent/CN115905598B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508400A (zh) * | 2018-10-09 | 2019-03-22 | 中国科学院自动化研究所 | 图文摘要生成方法 |
CN111324728A (zh) * | 2020-01-22 | 2020-06-23 | 腾讯科技(深圳)有限公司 | 文本事件摘要的生成方法、装置、电子设备及存储介质 |
CN111797242A (zh) * | 2020-06-29 | 2020-10-20 | 哈尔滨工业大学 | 一种基于代码知识图谱和知识迁移的代码摘要生成方法 |
CN113722471A (zh) * | 2021-08-30 | 2021-11-30 | 上海明略人工智能(集团)有限公司 | 一种文本摘要生成方法、系统、电子设备及介质 |
Non-Patent Citations (1)
Title |
---|
基于事理图谱的多维特征网络舆情事件可视化摘要生成研究;夏立新;陈健瑶;余华娟;;情报理论与实践;第43卷(第10期);第157-164页 * |
Also Published As
Publication number | Publication date |
---|---|
CN115905598A (zh) | 2023-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109582956B (zh) | 应用于句子嵌入的文本表示方法和装置 | |
US20200012953A1 (en) | Method and apparatus for generating model | |
US20240143700A1 (en) | Multimodal Image Classifier using Textual and Visual Embeddings | |
CN111985229B (zh) | 一种序列标注方法、装置及计算机设备 | |
CN111666766B (zh) | 数据处理方法、装置和设备 | |
Cheng et al. | From rumor to genetic mutation detection with explanations: a GAN approach | |
CN112084301B (zh) | 文本修正模型的训练方法及装置、文本修正方法及装置 | |
CN114648032B (zh) | 语义理解模型的训练方法、装置和计算机设备 | |
CN113204698B (zh) | 新闻主题词生成方法、装置、设备及介质 | |
Yang et al. | Prototype-guided pseudo labeling for semi-supervised text classification | |
CN116861258B (zh) | 模型处理方法、装置、设备及存储介质 | |
CN116306663B (zh) | 语义角色标注方法、装置、设备以及介质 | |
CN115905598B (zh) | 一种社会事件摘要生成的方法、装置、终端设备及介质 | |
CN116662538A (zh) | 基于多任务学习的文本摘要生成方法、装置、设备及介质 | |
CN116308551A (zh) | 基于数字金融ai平台的内容推荐方法及系统 | |
CN112818688B (zh) | 文本处理方法、装置、设备及存储介质 | |
CN114282528A (zh) | 一种关键词提取方法、装置、设备及存储介质 | |
CN113254635B (zh) | 数据处理方法、装置及存储介质 | |
CN113627197B (zh) | 文本的意图识别方法、装置、设备及存储介质 | |
CN115114904B (zh) | 语言模型的优化方法、装置以及电子设备 | |
CN114385903B (zh) | 应用账号的识别方法、装置、电子设备及可读存储介质 | |
CN116976976A (zh) | 广告处理方法、装置、设备及存储介质 | |
Dangol et al. | Short Updates-Machine Learning Based News Summarizer | |
CN117473951A (zh) | 文本处理方法、装置及存储介质 | |
CN116881548A (zh) | 代理感知的跨域序列推荐方法、设备、介质和产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |