CN116756676A - 一种摘要生成方法及相关装置 - Google Patents
一种摘要生成方法及相关装置 Download PDFInfo
- Publication number
- CN116756676A CN116756676A CN202210201450.1A CN202210201450A CN116756676A CN 116756676 A CN116756676 A CN 116756676A CN 202210201450 A CN202210201450 A CN 202210201450A CN 116756676 A CN116756676 A CN 116756676A
- Authority
- CN
- China
- Prior art keywords
- node
- candidate
- modal
- target
- modality
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000008569 process Effects 0.000 claims abstract description 24
- 238000004590 computer program Methods 0.000 claims description 21
- 238000003860 storage Methods 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 11
- 238000010276 construction Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 abstract description 11
- 230000003993 interaction Effects 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 description 29
- 238000010586 diagram Methods 0.000 description 16
- 238000013473 artificial intelligence Methods 0.000 description 11
- 238000012545 processing Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 235000004280 healthy diet Nutrition 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及计算机技术领域,提供一种摘要生成方法及相关装置,用以提高摘要生成的准确率,其中,该方法包括:基于获取的多种模态信息,分别获得每个模态信息对应的至少一个候选模态节点之后,构建相应的目标节点关联关系,然后,基于目标节点关联关系,采用双向迭代更新方式,获得每个候选模态节点对应的目标特征表示,在每轮迭代过程中,基于相邻候选模态节点的候选特征表示,进行候选特征表示的更新,进而基于获得的各个目标特征表示,确定目标模态节点,并基于目标模态节点,生成目标摘要信息。这样,通过双向迭代更新方式,可以增强多种模态信息之间的交互,提高特征表示的准确性,进而实现对目标摘要信息的精准推荐。
Description
技术领域
本申请涉及计算机技术领域,提供一种摘要生成方法及相关装置。
背景技术
随着计算机技术的不断发展,网络中存在着大量的多模态数据,多模态信息中通常包括文本、音频、图像、视频等多项信息,因此,对多模态信息进行概况总结显得非常必要,多模态摘要生成便是其中一种重要的手段。多模态摘要生成是指输入多模态信息,输出一段综合考虑多模态信息后的核心概括。
相关技术中,考虑到多模态信息中包含的各种模态信息之间存在语义相关关系,通常针对每两种模态信息,进行一对一的语义相关关系的学习,然后基于学习到的语义相关关系,生成各种模态信息各自对应的特征表示,进而基于各种模态信息各自对应的特征表示,输出多模态信息对应的摘要。
然而,由于不同模态的信息之间存在比较大的语义鸿沟,采用上述方法难以弥补不同模态信息之间的语义鸿沟,导致生成的特征表示中无法同时包含各种模态信息之间的语义相关关系,造成特征表示的准确率较低,进而影响摘要生成的准确率。以文本和图像为例,由于图像属于视觉特征,因此,难以直接获取图像与文本之间的语义相关关系,从而导致特征表达的准确率较低。
发明内容
本申请实施例提供一种摘要生成方法及相关装置,用以提高特征表示的准确率,进而提高摘要生成的准确率。
第一方面,本申请实施例提供一种摘要生成方法,包括:
基于获取的多种模态信息,分别获得每种所述模态信息对应的至少一个候选模态节点;每个候选模态节点用于表征相应模态信息包含的一种关键数据;
基于获得的各个候选模态节点,构建相应的目标节点关联关系;
基于所述目标节点关联关系,采用迭代更新方式分别获得每个所述候选模态节点对应的目标特征表示,其中,在每轮迭代过程中,依次针对每个候选模态节点执行以下操作:基于一个候选模态节点的候选特征表示,对关联的下一个候选模态节点在上一轮中的候选特征表示进行更新,以及,相邻两次迭代的节点更新方向相反;
基于获得的各个目标特征表示,从所述各个候选模态节点中确定至少一个目标模态节点,并基于所述至少一个目标模态节点,生成目标摘要信息。
第二方面,本申请实施例提供一种摘要生成装置,包括:
节点获取单元,用于基于获取的多种模态信息,分别获得每种所述模态信息对应的至少一个候选模态节点;每个候选模态节点用于表征相应模态信息包含的一种关键数据;
关系构建单元,用于基于获得的各个候选模态节点,构建相应的目标节点关联关系;
特征表示单元,用于基于所述目标节点关联关系,采用迭代更新方式分别获得每个所述候选模态节点对应的目标特征表示,其中,在每轮迭代过程中,依次针对每个候选模态节点执行以下操作:基于一个候选模态节点的候选特征表示,对关联的下一个候选模态节点在上一轮中的候选特征表示进行更新,以及,相邻两次迭代的节点更新方向相反;
摘要生成单元,用于基于获得的各个目标特征表示,从所述各个候选模态节点中确定至少一个目标模态节点,并基于所述至少一个目标模态节点,生成目标摘要信息。
作为一种可能的实现方式,所述基于所述节点相关度,对所述下一个候选模态节点在上一轮中的候选特征表示进行更新时,所述特征表示单元具体用于:
基于所述目标节点关联关系,从所述各个候选模态节点中,筛选出除所述一个候选模态节点外,与所述下一个候选模态节点关联的至少一个其他候选模态节点;
基于所述至少一个其他候选模态节点各自对应的候选特征表示,以及所述下一个候选模态节点在上一轮中的候选特征表示,获得所述下一个候选模态分别与所述至少一个其他候选模态节点之间的节点相关度;
基于获得的各个节点相关度,对所述下一个候选模态节点在上一轮中的候选特征表示进行更新。
作为一种可能的实现方式,所述基于获取的多种模态信息,分别获得每种所述模态信息对应的至少一个候选模态节点时,节点获取单元具体用于:
若所述多种模态信息中的一种模态信息的模态类型为视频,则从所述一种模态信息中,提取出音频和至少一个候选视频帧,并基于所述音频和所述至少一个候选视频帧,确定所述一种模态信息对应的至少一种关键数据,以及基于至少一种关键数据,获得所述一种模态信息对应的至少一个候选模态节点;
若所述多种模态信息中的一种模态信息的模态类型为文本,则从所述一种模态信息中,提取出至少一个文本关键信息,并将所述至少一个文本关键信息作为所述一种模态信息对应的至少一种关键数据,以及基于至少一种关键数据,获得所述一种模态信息对应的至少一个候选模态节点。
作为一种可能的实现方式,所述基于所述音频和所述至少一个候选视频帧,确定所述一种模态信息对应的至少一种关键数据时,所述节点获取单元具体用于执行以下操作中的至少一种:
按照预设的抽取间隔,从所述至少一个候选视频帧中,抽取出至少一个目标视频帧,并将得到的各个目标视频帧,作为对应的各种关键数据;
基于所述音频,获得至少一个音频文字信息,并将获得的各个音频文字信息,作为对应的各种关键数据。
作为一种可能的实现方式,所述基于获得的各个候选模态节点,构建相应的目标节点关联关系时,所述关系构建单元具体用于:
基于所述多种模态信息各自对应的模态类型,确定所述各个候选模态节点之间的节点层级关系,所述节点层级关系中,每个模态信息对应的至少一个候选模态节点位于同一层级;
基于所述各个候选模态节点各自表征的关键数据,确定所述各个候选模态节点之间的节点连接关系;
基于所述节点层级关系和所述节点连接关系,得到所述目标节点关联关系。
作为一种可能的实现方式,所述关系构建单元还用于:
基于所述目标节点关联关系中包含的所述节点层级关系,确定所述各个候选模态节点的节点更新顺序。
作为一种可能的实现方式,所述基于所述各个候选模态节点各自表征的关键数据,确定所述各个候选模态节点之间的节点连接关系时,所述关系构建单元具体用于:
基于所述各个候选模态节点各自表征的关键数据,提取出至少一个目标关键词,并将所述至少一个目标关键词,作为各个连接节点;
基于所述各个连接节点,获得所述各个候选模态节点之间的节点连接关系,所述节点连接关系中,位于不同层级的候选模态节点之间通过所述各个连接节点连接。
作为一种可能的实现方式,所述目标节点关联关系中还包含有所述各个连接节点与所述各个候选模态节点之间的各个边权重;
则所述基于一个候选模态节点的候选特征表示,对关联的下一个候选模态节点在上一轮中的候选特征表示进行更新所述特征表示单元具体用于:
基于所述各个边权重,以及基于一个候选模态节点的候选特征表示,对关联的下一个候选模态节点在上一轮中的候选特征表示进行更新。
作为一种可能的实现方式,所述基于获得的各个目标特征表示,从所述各个候选模态节点中确定至少一个目标模态节点时,摘要生成单元具体用于:
基于获得的各个目标特征表示,从所述多种模态信息各自对应的至少一个候选模态节点中,分别确定所述多种模态信息各自对应的至少一个目标模态节点;
所述基于所述至少一个目标模态节点,生成目标摘要信息时,所述摘要生成单元具体用于:
基于所述多种模态信息各自对应的至少一个目标模态节点,获得所述多种模态信息各自对应的摘要子信息;
基于获得的各个摘要子信息,生成目标摘要信息。
第三方面,本申请实施例提供一种电子设备,包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行上述摘要生成方法的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行上述摘要生成方法的步骤。
第五方面,本申请实施例提供一种计算机程序产品,所述程序产品包括计算机程序,所述计算机程序存储在计算机可读存储介质中,电子设备的处理器从所述计算机可读存储介质中读取并执行所述计算机程序,使得电子设备执行上述摘要生成方法的步骤。
本申请实施例中,基于获取的多种模态信息,分别获得每个模态信息对应的至少一个候选模态节点之后,构建相应的目标节点关联关系,然后,基于目标节点关联关系,采用双向迭代更新方式,获得每个候选模态节点对应的目标特征表示,在每轮迭代过程中,基于相邻候选模态节点的候选特征表示,进行候选特征表示的更新,进而基于获得的各个目标特征表示,确定目标模态节点,并基于目标模态节点,生成目标摘要信息。
这样,通过相邻候选模态节点的候选特征表示,进行候选特征表示的更新,可以使得每种模态信息对应的候选模态节点,学习到其他模态信息对应的候选模态节点中包含的信息,提高摘要生成的准确性,此外,通过双向迭代更新方式,可以增强多种模态信息之间的交互,增强信息流动,使得每种模态信息对应的候选模态节点,可以更好的学习到其他模态信息对应的候选模态节点中包含的信息,弥补不同模态信息之间的语义鸿沟,从而学习到更好的特征表示,提高特征表示的准确性,进一步提高摘要的生成准确性。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例中提供的一种应用场景的示意图;
图2为本申请实施例中提供的一种摘要生成方法的流程示意图;
图3为本申请实施例中提供的一种获取视频对应的候选模态节点的逻辑示意图;
图4为本申请实施例中提供的一种抽取目标视频帧的逻辑示意图;
图5为本申请实施例中提供的一种构建目标节点关联关系的流程示意图;
图6为本申请实施例中提供的一种目标节点关联关系的示意图;
图7为本申请实施例中提供的一种确定节点连接关系的示意图;
图8A为本申请实施例中提供的第一种信息流动方向的示意图;
图8B为本申请实施例中提供的第二种信息流动方向的示意图;
图9为本申请实施例中提供的一种摘要生成方法的逻辑示意图;
图10为本申请实施例中提供的一种摘要生成装置的结构示意图;
图11为本申请实施例中提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请技术方案的一部分实施例,而不是全部的实施例。基于本申请文件中记载的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请技术方案保护的范围。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
云技术(Cloud technology)基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
随着计算机技术的不断发展,网络中存在着大量的多模态数据,多模态信息中通常包括文本、音频、图像、视频等多项信息,因此,对多模态信息进行概况总结显得非常必要,多模态摘要生成便是其中一种重要的手段。多模态摘要生成是指输入多模态信息,输出一段综合考虑多模态信息后的核心概括。
相关技术中,考虑到多模态信息中包含的各种模态信息之间存在语义相关关系,通常针对每两种模态信息,进行一对一的语义相关关系的学习,然后基于学习到的语义相关关系,生成各种模态信息各自对应的特征表示,进而基于各种模态信息各自对应的特征表示,输出多模态信息对应的摘要。
然而,由于不同模态的信息之间存在比较大的语义鸿沟,采用上述方法难以弥补不同模态信息之间的语义鸿沟,导致生成的特征表示中无法同时包含各种模态信息之间的语义相关关系,造成特征表达的准确率较低,进而影响摘要生成的准确率。以文本和图像为例,由于图像属于视觉特征,因此,难以直接获取图像与文本之间的语义相关关系,从而导致特征表达的准确率较低。
本申请实施例中,基于获取的多种模态信息,分别获得每个模态信息对应的至少一个候选模态节点之后,构建相应的目标节点关联关系,然后,基于目标节点关联关系,采用双向迭代更新方式,获得每个候选模态节点对应的目标特征表示,在每轮迭代过程中,基于相邻候选模态节点的候选特征表示,进行候选特征表示的更新,进而基于获得的各个目标特征表示,确定目标模态节点,并基于目标模态节点,生成目标摘要信息。
这样,通过相邻候选模态节点的候选特征表示,进行候选特征表示的更新,可以使得每种模态信息对应的候选模态节点,学习到其他模态信息对应的候选模态节点中包含的信息,提高摘要生成的准确性,此外,通过双向迭代更新方式,可以增强多种模态信息之间的交互,增强信息流动,使得每种模态信息对应的候选模态节点,可以更好的学习到其他模态信息对应的候选模态节点中包含的信息,弥补不同模态信息之间的语义鸿沟,从而学习到更好的特征表示,提高特征表示的准确性,进一步提高摘要的生成准确性。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的机器学习技术,示例性的,在基于目标节点关联关系,采用双向迭代更新方式,获得每个候选模态节点对应的目标特征表示时,可以基于图神经网络和前馈神经网络,进行双向迭代更新。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请实施例及实施例中的特征可以相互组合。
参阅图1所示,其为本申请实施例中提供的一种应用场景的示意图。该应用场景中至少包括终端设备110以及服务器120。终端设备110的数量可以是一个或多个,服务器120的数量也可以是一个或多个,本申请对终端设备110和服务器120的数量不做具体限定。
本申请实施例中,终端设备110可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、物联网设备、智能家电、车载终端等,但并不局限于此。
服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备110与服务器120可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
示例性的,终端设备110中安装有摘要生成软件对应的客户端,每个终端设备110均可以通过客户端获取目标对象输入的多种模态信息,并将多种模态信息发送给服务器120。相应的,服务器120接收到来自终端设备110的多种模态信息之后,将目标摘要信息发送给终端设备110,使得终端设备110获取并呈现目标摘要信息。
参阅图2所示,其为本申请实施例中提供的一种摘要生成方法的流程示意图,该方法的流程由可以由电子设备执行,电子设备可以是终端设备或服务器,具体流程如下:
S201、基于获取的多种模态信息,分别获得每种模态信息对应的至少一个候选模态节点,每个候选模态节点用于表征相应模态信息包含的一种关键数据。
其中,模态信息的模态类型包括但不限于视频、文本、音频、图像等类型。
为了便于描述,以模态信息i为例进行说明,模态信息i为多种模态信息中的任意一种模态信息。
具体的,根据模态信息i的类型,存在但不限于以下几种可能的情况:
情况1:参阅图3所示,若模态信息i的类型为视频,则从模态信息i中,提取出音频和至少一个候选视频帧,并基于音频和至少一个候选视频帧,确定模态信息i对应的至少一种关键数据,以及基于至少一种关键数据,获得模态信息i对应的至少一个候选模态节点。
需要说明是,本申请实施例中,视频帧也可以称为图像,候选视频帧可以是采用自然图片识别网络从模态信息i中提取出的,自然图片识别网络可以采用但不限于卷积神经网络,该卷积神经网络可以利用具有残差网格的结构进行训练。示例性的,可以采用ImageNet数据库训练自然图片识别网络,ImageNet数据库是一种用于视觉对象识别软件研究的大型可视化数据库,由于ImageNet数据库具有1000种类别的图片,因此,在实际应用过程中,可以选取出需要的类别的图片进行训练。
通过上述实现方式,当多种模态信息中包含视频时,可以从视频中提取出音频和若干图像,进而根据视频中包含的音频和若干图像,确定视频对应的关键数据,从而使得生成的摘要能够精准表达视频所要表达的内容,提高摘要的准确性。
具体的,基于音频和至少一个候选视频帧,确定模态信息i对应的至少一种关键数据时,可以采用但不限于以下操作:
操作1-a:按照预设的抽取间隔,从至少一个候选视频帧中,抽取出至少一个目标视频帧,并将得到的各个目标视频帧,作为对应的各种关键数据。
例如,参阅图4所示,从视频1中,提取出相应的音频和各个候选视频帧,其中,视频1为美食推荐类视频,假设,预设的抽取间隔为每隔24帧抽取一帧,各个候选视频帧包括视频帧1、视频帧2、视频帧3等,首先,从各个候选视频帧中,抽取视频帧1,作为一个目标视频帧,然后,按照每隔24帧抽取一帧的抽取间隔,抽取视频帧26,作为一个目标视频帧,类似的,按照抽取间隔,依次抽取出视频帧51、视频帧76等作为目标视频帧。之后,将提取出的各个目标视频帧作为视频1对应的各种关键数据,进而基于得到的各种关键数据,获得视频1对应的各个候选模态节点。
通过上述操作,可以有效减少候选模态节点的数目,从而降低目标节点关联关系的复杂程度,进而减少后续摘要生成过程中的计算量,进一步提高了摘要生成效率。
操作1-b:基于音频,获得至少一个音频文字信息,并将获得的各个音频文字信息,作为对应的各种关键数据。
需要说明的是,本申请实施例中,音频文字信息也可以称为台词,台词以文本形式呈现。音频文字信息可以是采用语音识别技术获得的。
仍以视频1为例,在从视频1中,提取出音频和各个候选视频帧之后,基于音频,获得台词1和台词2,其中,台词1为“比火锅更好吃”,台词2为“口感丰富且简单快速低脂”,将获得的台词1和台词2,作为视频1对应的两种关键数据,之后,基于得到的两种关键数据,获得视频1对应的两个候选模态节点。
通过上述操作,可以从视频中获取相应的文本形式的信息,即可以获取视频对应的台词,这样,后续可以根据台词,连接句子和图像,从而提高摘要生成的准确率。
操作1-c:按照预设的抽取间隔,从至少一个候选视频帧中,抽取出至少一个目标视频帧,并基于音频,获得至少一个音频文字信息,以及将至少一个目标视频帧和至少一个音频文字信息,作为对应的各种关键数据。
仍以视频1为例,首先,从视频1中,提取出音频和各个候选视频帧,各个候选视频帧包括视频帧1、视频帧2、视频帧3等,假设,预设的抽取间隔为每隔24帧抽取一帧,之后,按照预设的抽取间隔,依次抽取出视频帧1、视频帧26、视频帧51、视频帧76等作为目标视频帧,并基于音频,获得台词1、和台词2,然后,将抽取出的视频帧1、视频帧26、视频帧51、视频帧76等目标视频帧,以及台词1和台词2,分别作为视频1对应的各种关键数据,之后,基于得到的各种关键数据,获得视频1对应的各个候选模态节点。
情况2:若模态信息i的类型为文本,则从模态信息i中,提取出至少一个文本关键信息,并将至少一个文本关键信息作为模态信息i对应的至少一种关键数据,以及基于至少一种关键数据,获得模态信息i对应的至少一个候选模态节点。
需要说明的是,本申请实施例中,文本关键信息也可以称为句子。
以模态信息i为文本1为例,文本1为美食推荐文章,从文本1中,提取出句子1、句子2和句子3,其中,句子1为“制作方式简单”,句子2为“符合健康饮食的观念”,句子3“吃起来口感丰富”,并将句子1、句子2和句子3,作为文本1对应的三种关键数据,进而,基于三种关键数据,获得文本1对应的三个候选模态节点。
通过上述操作,可以从文本中提取出部分关键数据,从而减少计算量,进而提高摘要生成效率。且本申请实施例中,还可以从视频中提取出音频,通过语音识别技术将音频转化为台词,同时,从视频里面还提取出多个图像,这样,当获取的多种模态信息分别为视频和文本时,可以通过文本、以及视频中提取的句子和图片,输出与文本和视频的语义较为一致的摘要,从而提高生成的摘要的准确性。
S202、基于获得的各个候选模态节点,构建相应的目标节点关联关系。
考虑到随着候选模态节点的数目的增多,构建的目标节点关联关系随着变得较为复杂,本申请实施例中,针对各个候选模态节点,通过构建节点层级关系和节点连接关系,从而简化目标节点关联关系,提高特征表示的更新效率,具体的,参阅图5所示,执行S202时,可以采用以下步骤:
S2021、基于多种模态信息各自对应的模态类型,确定各个候选模态节点之间的节点层级关系,节点层级关系中,每个模态信息对应的至少一个候选模态节点位于同一层级。
考虑到某一个模态信息中可能包含多种类型的信息,因此,本申请实施例中,可以将模态信息i对应的至少一个候选模态节点,细分至多个层级。
参阅图6所示,其为本申请实施例中提供的一种目标节点关联关系的示意图,在该目标节点关联关系中,视频1对应的候选模态节点包括:节点1、节点2、节点3、节点4和节点5,其中,节点1、节点2和节点3是基于视频1中提取出的图像得到的,节点4和节点5是基于视频1中提取出的音频中包含的句子得到。节点1、节点2和节点3位于第1层,节点4和节点5位于第2层。该目标节点关联关系中还包含有节点6至节点11,其中,节点11是基于文本1中包含的句子得到的,节点6、节点7、节点8和节点9位于第3层,节点10和节点11位于第4层。
S2022、基于各个候选模态节点各自表征的关键数据,确定各个候选模态节点之间的节点连接关系。
为更好的学习其他模态信息,提高特征表示的准确性,本申请实施例中,可以采用根据各种关键信息的细粒度,确定连接节点的细粒度。例如,由于台词和文本里面的句子都可以由词语组成,因此,可以词语作为连接节点,连接台词对应的选模态节点和句子对应的选模态节点。本申请实施例中,仅以目标关键词的类型为词语为例进行说明。
具体的,参阅图7所示,执行S2022时,可以执行以下步骤:
S20221、基于各个候选模态节点各自表征的关键数据,提取出至少一个目标关键词,并将至少一个目标关键词,作为各个连接节点。
例如,参阅图6所示,假设,各个候选模态节点中,节点4表征的关键数据为台词1,节点5表征的关键数据为台词2,台词1中包含目标关键词“A”和目标关键词“C”,台词2中包含目标关键词“B”和目标关键词“D”,节点10表征的关键数据为句子1,节点11表征的关键数据为句子2,句子1中包含目标关键词“A”和目标关键词“B”,句子2中包含目标关键词“B”、目标关键词“C”和目标关键词“D”。基于各个候选模态节点,提取出目标关键词“A”、目标关键词“B”、目标关键词“C”和目标关键词“D”,并将目标关键词“A”、目标关键词“B”、目标关键词“C”和目标关键词“D”,作为4个连接节点,其中,节点6、节点7、节点8和节点9均为连接节点,节点6用于表征目标关键词“A”,节点7用于表征目标关键词“B”,节点8用于表征目标关键词“C”,节点9用于表征目标关键词“D”。
S20222、基于各个连接节点,获得各个候选模态节点之间的节点连接关系,节点连接关系中,位于不同层级的候选模态节点之间通过各个连接节点连接。
本申请实施例中,考虑到每一帧图像都可能与每一句台词有联系,可以使用稠密连接的形式来连接图像和句子,此外,通过词语作为中间节点来建立台词和句子之间的关系。
具体的,在连接台词和词语时,不采用全连接,即每一个台词与每一个词语均存在连接关系,而是将每个台词与该台词包含的词语进行相连。类似的,在连接句子和词语时,将每一个句子与该句子包含的词语进行连接。
例如,参阅图6所示,基于各个连接节点,获得各个候选模态节点之间的节点连接关系,其中,节点4连接节点6和节点8,节点5连接节点7和节点9,节点10连接节点6和节点7,节点11连接节点7、节点8和节点9。
S2023、基于节点层级关系和节点连接关系,得到目标节点关联关系。
S203、基于目标节点关联关系,采用迭代更新方式分别获得每个候选模态节点对应的目标特征表示,其中,在每轮迭代过程中,依次针对每个候选模态节点执行以下操作:基于一个候选模态节点的候选特征表示,对关联的下一个候选模态节点在上一轮中的候选特征表示进行更新,以及,相邻两次迭代的节点更新方向相反。
本申请实施例中,在执行S203之前,对目标节点关联关系中包含的各个候选模态节点各自表征的关键信息进行编码。
由于关键数据的数据类型包括图像、台词、词语和句子等,本申请实施例中,仅以编码对象包括图像、台词、词语和句子为例进行说明。
采用Xw、Xs、Xt、Xv分别表示词语、句子、台词、图像的特征表示,其中,其中,|*|表示对应的模态信息的候选模态节点的数目,d|*|表示对应的候选模态节点的特征表示的维度。
对于词语的编码Xw,可以采用但不限于Glove嵌入,得到词语的特征表示。
对于台词的编码Xt和句子的编码Xs,由于台词和句子都是由词语组成,以句子的编码Xs为例,可以采用词语级别和句子级别的双向长短记忆网络(BiLTSM)得到台词的编码Xt和句子的编码Xs,其中,词语级别的双向长短记忆网络用于提取句子内部的细粒度信息,句子级别的双向长短记忆网络用于提取句子之间的上下文信息。具体的,句子的编码Xs可以表示为:
Wi=BiLTSM(wi1,wi2,…,win) 公式(1)
hi=∑jWij 公式(2)
Xs=BiLTSM(h1,h2,…,h|S|) 公式(3)
其中,wij表示第i个句子中第j个词语的嵌入表示,n表示第i个句子中包含的词语的数目,Wij为词语级别的双向长短记忆网络对第i个句子中第j个词语的输出表示,hi为第i个句子的隐变量表示,Xs表示句子级别的双向长短记忆网络对句子之间的上下文信息进行建模。由于台词的编码Xt的编码过程与句子的编码Xs的编码过程类似,在此不再赘述。
对于图像的编码Xv,可以采用预训练的ResNet-101卷积神经网络对图像进行特征提取,示例性的,对图像进行特征提取的维度可以是2048,也就是说,dv的取值为2048。
需要说明的是,本申请实施例中,可以在获得各个候选模态节点之后,构建目标节点关联关系之前,分别对各个候选模态节点进行编码,也可以在构建目标节点关联关系之后,对各个候选模态节点进行编码,对比不做限制。本申请实施例中仅以构建目标节点关联关系之前,分别对各个候选模态节点进行编码为例进行说明,因此,目标节点关联关系中包含的各个候选模态节点均已进行编码。
为了进一步增强各种模态信息之间的交互,从而弥补不同模态信息之间的语义鸿沟,本申请实施例中,通过采用双向消息传播机制,来增强不同模态信息之间的信息流动,使得每个模态信息均可以学习到其他模态信息的特征。
具体的,本申请实施例中,可以基于目标节点关联关系中包含的节点层级关系,确定各个候选模态节点的节点更新顺序,也就是说,在每轮迭代过程中,可以按照目标节点关联关系中包含的节点层级关系,依次针对每个候选模态节点进行更新。
参阅图8A所示,图8A为本申请实施例中提供的第一种信息流动方向的示意图,图8A中的信息流动方向为:图像→台词→词语→句子,其中,节点1关联的下一个候选模态节点为节点4和节点5,节点2关联的下一个候选模态节点为节点4和节点5,节点3关联的下一个候选模态节点为节点4和节点5,节点4关联的下一个候选模态节点为节点6和节点8,节点5关联的下一个候选模态节点为节点7和节点9,节点6关联的下一个候选模态节点为节点10,节点7关联的下一个候选模态节点为节点10和节点11,节点8关联的下一个候选模态节点为节点11,节点9关联的下一个候选模态节点为节点11。
参阅图8B所示,图8B为本申请实施例中提供的第二种信息流动方向的示意图,图8B中的信息流动方向为:句子→词语→台词→图像,其中,节点10关联的下一个候选模态节点为节点6和节点7,节点11关联的下一个候选模态节点为节点7、节点8和节点9,节点6关联的下一个候选模态节点为节点4,节点7关联的下一个候选模态节点为节点5,节点8关联的下一个候选模态节点为节点4,节点9关联的下一个候选模态节点为节点5,节点4关联的下一个候选模态节点为节点1、节点2和节点3,节点5关联的下一个候选模态节点为节点1、节点2和节点3。
以第一轮迭代的信息流动方向为第一种信息流动方向为例进行说明。
在第一轮迭代过程中,基于图像对应的候选模态节点的候选特征表示,对台词对应的候选模态节点的候选特征表示进行更新的过程可以描述为:
/>
基于台词对应的候选模态节点的候选特征表示,对词语对应的候选模态节点的候选特征表示进行更新的过程可以描述为:
基于词语对应的候选模态节点的候选特征表示,对句子对应的候选模态节点的候选特征表示进行更新的过程可以描述为:
其中,GAT(Q,K,V)中,Q,K,V分别表示查询(query)、键(key)和值(value),的取值为Xw,/>的取值为Xs,/>的取值为Xt,/>的取值为Xv。
的上标1表示第一轮迭代,/>表示第一轮迭代中图注意力层输出的台词对应的候选模态节点的特征表示,/>表示在第一轮迭代中前馈网络层输出的台词对应的候选模态节点的新的候选特征表示。
类似的,表示第一轮迭代中图注意力层输出的词语对应的候选模态节点的特征表示,/>表示在第一轮中前馈网络层输出的词语对应的候选模态节点的新的候选特征表示,/>表示第一轮迭代中图注意力层输出的句子对应的候选模态节点的特征表示,表示在第一轮中前馈网络层输出的句子对应的候选模态节点的新的候选特征表示。
相应的,第二轮迭代的信息流动方向为第二种信息流动方向。
在第二轮迭代过程中,基于句子对应的候选模态节点的候选特征表示,对词语对应的候选模态节点的候选特征表示进行更新的过程可以描述为:
基于词语对应的候选模态节点的候选特征表示,对台词对应的候选模态节点的候选特征表示进行更新的过程可以描述为:
基于台词对应的候选模态节点的候选特征表示,对图像对应的候选模态节点的候选特征表示进行更新的过程可以描述为:
具体的,在采用图注意力层进行特征学习时,可以采用图像、台词、词语、句子各自对应的候选模态节点的并集表示图的节点V,即V=VI∪VT∪VW∪VS,其中,VI表示图像对应的候选模态节点集合,VT表示台词对应的候选模态节点集合,VW表示词语对应的候选模态节点集合,VS表示句子对应的候选模态节点集合。
采用表示各个候选模态节点各自对应的候选特征表示。为例便于描述,下文中,将候选模态节点简称为节点。
作为一种可能的实现方式,在图注意力层中,首先,可以采用公式(16),对于一个节点i,计算节点j对节点i的重要性,本申请实施例中,节点j对节点i的重要性也可以称为节点i与节点j之间的节点相关度:
zij=f(Wa[Wqhi|Wkhj]) 公式(16)
其中,Wa、Wq、Wk为3个转换矩阵,可以通过训练得到其参数,“|”表示串联操作,f()表示激活函数,该激活函数可以采用但不限于LeakyReLU。
实际上,对于一个节点而言,并不需要计算所有的其他节点对其影响,只需要计算其邻接节点对其影响即可,为提高特征表示的更新效率,本申请实施例中,基于一个候选模态节点的候选特征表示,对关联的下一个候选模态节点在上一轮中的候选特征表示进行更新的过程中,可以采用但不限于以下方式:
基于一个候选模态节点的候选特征表示,以及基于下一个候选模态节点在上一轮中的候选特征表示,获得一个候选模态节点和下一个候选模态节点之间的节点相关度;基于节点相关度,对下一个候选模态节点在上一轮中的候选特征表示进行更新。
例如,参阅图6所示,节点1关联的下一个候选模态节点为节点4,基于节点1的候选特征表示,以及基于节点4在上一轮中的候选特征表示,采用上述公式(16),可以获得节点1和节点4之间的节点相关度。
考虑到一个节点的所有邻接节点对其影响,本申请实施例中,为了提高生成的特征表示的准确率,基于节点相关度,对下一个候选模态节点在上一轮中的候选特征表示进行更新,可以采用以下方式:
基于目标节点关联关系,从各个候选模态节点中,筛选出除一个候选模态节点外,与下一个候选模态节点关联的至少一个其他候选模态节点;
基于至少一个其他候选模态节点各自对应的候选特征表示,以及下一个候选模态节点在上一轮中的候选特征表示,获得下一个候选模态分别与至少一个其他候选模态节点之间的节点相关度;
基于获得的各个节点相关度,对下一个候选模态节点在上一轮中的候选特征表示进行更新。
具体的,可以采用以下公式(17)计算节点i的邻接节点集合N中包含的各个邻接节点,对节点i的影响,并进行归一化:
计算得到αij之后,采用公式(18)可以计算得到节点i的新的特征表示ui:
ui=σ(∑j∈NαijWVhj) 公式(18)
其中,WV为1个转换矩阵,可以通过训练得到其参数,σ表示一个非线性变化函数。
例如,针对节点1和节点4,基于目标节点关联关系,从各个候选模态节点中,筛选出除节点1外,与节点4关联的其他候选模态节点,其他候选模态节点包括节点2和节点3,然后,基于节点2和节点3各自对应的候选特征表示,以及节点4在上一轮中的候选特征表示,采用公式(16),可以获得节点4分别与节点2和节点3之间的节点相关度,然后,基于节点4分别与节点1、节点2和节点3之间的节点相关度,对节点4在上一轮中的候选特征表示进行更新。
基于获得的各个节点相关度,对下一个候选模态节点在上一轮中的候选特征表示进行更新时,采用上述公式(18)可以获得ui,在得到ui之后,通过前馈网络层,对ui进行特征变换,得到新的候选特征表示,以实现对候选模态节点的候选特征表示的更新,获得相应的目标特征表示。
S204、基于获得的各个目标特征表示,从各个候选模态节点中确定至少一个目标模态节点。
具体的,从各个候选模态节点中确定至少一个目标模态节点时,可以采用以下方式:基于获得的各个目标特征表示,从多种模态信息各自对应的至少一个候选模态节点中,分别确定多种模态信息各自对应的至少一个目标模态节点。
例如,基于获得的各个目标特征表示,从视频1对应的各个候选模态节点中,确定视频1对应的目标模态节点为节点1,节点1表征的关键数据为视频帧1,视频帧1中包含食物展示画面,同时,从文本1对应的各个候选模态节点中,确定文本1对应的目标模态节点为节点10,节点10表征的关键数据为句子1,句子1为“符合大部分人的口味”。
作为一种可能的实现方式,本申请实施例中,可以将获得的各个目标特征表示,输入至多种模态信息各自对应的分类层,直接输出至少一个目标模态节点。分类层用于基于各个目标特征表示,判断候选模态节点是否为目标模态节点。
其中,每种模态信息对应的分类层,可以通过但不限于二分类的交叉熵损失进行监督,在此不再赘述。
需要说明的是,在将获得的各个目标特征表示,输入至对应的分类层之前,可以采用以下公式,将不同模态信息投射到一个共同空间中,以句子和图像为例,分别采用公式(19)、公式(20),将句子和图像投射到一个共同空间:
p=W2*f(W1*Hs+bS) 公式(19)
q=V2*f(V1*Hi+bi) 公式(20)
其中,W1,W2,V1,V2分别为投射矩阵,可以通过训练获取,bS和bi为偏置项,f()为任意一种激活函数。
S205、基于至少一个目标模态节点,生成目标摘要信息。
具体的,执行S205时,可以采用以下方式:
基于多种模态信息各自对应的至少一个目标模态节点,获得多种模态信息各自对应的摘要子信息;基于获得的各个摘要子信息,生成目标摘要信息。
例如,视频1对应的目标模态节点为节点1,节点1表征的关键数据为视频帧1,视频帧1中包含食物展示画面,文本1对应的目标模态节点为节点10,节点10表征的关键数据为句子1,句子1为“符合大部分人的口味”,基于视频1对应的目标模态节点,获得视频1对应的摘要子信息,视频1对应的摘要子信息为视频帧1,基于文本1对应的目标模态节点,获得文本1对应的摘要子信息,文本1对应的摘要子信息为句子1,基于视频1对应的摘要子信息和文本1对应的摘要子信息,生成包含视频帧1和句子1的目标摘要信息。
通过上述实现方式,当获取的多种模态信息分别为视频和文本时,可以获得由文本中包含的若干个句子和视频中包含的若干张图像组成的多模态摘要,丰富了摘要的呈现形式,使得目标对象可以快速、便捷地获知多种模态信息所要表达的含义,提升目标对象的使用感受。
为了避免梯度消失问题,本申请实施例中,可以通过残差机制对图注意力层进行训练,具体的,采用公式(21),计算得到残差h′i:
h′i=ui+hi 公式(21)
基于残差机制的模型收敛条件可以采用但不限于:所有节点的残差均不大于预设残差阈值、连续M次所有节点的残差不大于预设残差阈值、连续M次相邻两轮的残差之间差值不大于预设残差阈值等,但不局限于此。
在一些实施例中,为了进一步增强词语与句子之间的内在联系,以及增强词语与台词之间的内在联系。目标节点关联关系中还包含有各个连接节点与各个候选模态节点之间的各个边权重。
以词语与句子为例,可以引入词频-逆文档频率(TF-IDF),作为词语对应的候选模态节点与句子对应的候选模态节点之间的边权重。其中,TF表示某一词语在某一句子中的出现次数,IDF表示出现该词语的句子和词语的数目的倒数。
例如,节点6表征的目标关键词“A”,在节点10表征的句子1中的出现次数为1,由于节点4表征的台词1和节点10表征的句子1中均包含目标关键词“A”,因此,出现目标关键词“A”的句子和词语的数目为2,那么,节点6与节点10之间的边权重为0.5。
相应的,基于一个候选模态节点的候选特征表示,对关联的下一个候选模态节点在上一轮中的候选特征表示进行更新时,可以基于各个边权重,以及基于一个候选模态节点的候选特征表示,对关联的下一个候选模态节点在上一轮中的候选特征表示进行更新。
具体的,采用以下公式(22),计算节点i与节点j之间的节点相关度:
zij=f(Wa[Wqhi|Wkhj|eij]) 公式(22)
其中,Wa、Wq、Wk为3个转换矩阵,可以通过训练得到其参数,“|”表示串联操作,f()表示激活函数,该激活函数可以采用但不限于LeakyReLU,eij表示节点i与节点j之间的边权重,eij也可以称为权重因子。
需要说明的是,本申请实施例中,也可以针对各个候选模态节点,设置相应的边权重,例如,为增强图像与台词之间的关联性,可以针对图像和台词对应的候选模态节点设置相应的边权重。
下面,结合一个具体实施例进行说明。
应用场景:视频播放场景。
参阅图9所示,获取视频2和文本2,其中,视频2为某电视剧,文本2为电视剧对应的影评。
基于获取的视频2和文本2之后,针对视频2,从视频2中提取出多个图像和相应的音频,并基于音频,得到多个台词,针对文本2,从文本2中得到多个句子,句子与台词之间采用词语连接,分别对图像、台词、词语、句子进行编码,以及获得图像、台词、词语、句子各自对应的各个节点。
基于获得的各个节点,构建相应的目标节点关联关系,目标节点关联关系也可以称为异质图神经网络,进而,基于目标节点关联关系,采用双向迭代更新方式,分别获得每个节点对应的目标特征表示。
然后,基于获得的各个目标特征表示,从图像对应的各个节点中,确定图像对应的多个目标模态节点,从句子对应的各个节点中,确定句子对应的多个目标模态节点,并基于各个目标模态节点,生成目标摘要信息。
基于相同的发明构思,本申请实施例提供一种摘要生成装置。如图10所示,其为摘要生成装置1000的结构示意图,可以包括:
节点获取单元1001,用于基于获取的多种模态信息,分别获得每种所述模态信息对应的至少一个候选模态节点;每个候选模态节点用于表征相应模态信息包含的一种关键数据;
关系构建单元1002,用于基于获得的各个候选模态节点,构建相应的目标节点关联关系;
特征表示单元1003,用于基于所述目标节点关联关系,采用迭代更新方式分别获得每个所述候选模态节点对应的目标特征表示,其中,在每轮迭代过程中,依次针对每个候选模态节点执行以下操作:基于一个候选模态节点的候选特征表示,对关联的下一个候选模态节点在上一轮中的候选特征表示进行更新,以及,相邻两次迭代的节点更新方向相反;
摘要生成单元1004,用于基于获得的各个目标特征表示,从所述各个候选模态节点中确定至少一个目标模态节点,并基于所述至少一个目标模态节点,生成目标摘要信息。
作为一种可能的实现方式,所述基于一个候选模态节点的候选特征表示,对关联的下一个候选模态节点在上一轮中的候选特征表示进行更新时,所述特征表示单元1003具体用于:
基于所述一个候选模态节点的候选特征表示,以及基于所述下一个候选模态节点在上一轮中的候选特征表示,获得所述一个候选模态节点和所述下一个候选模态节点之间的节点相关度;
基于所述节点相关度,对所述下一个候选模态节点在上一轮中的候选特征表示进行更新。
作为一种可能的实现方式,所述基于所述节点相关度,对所述下一个候选模态节点在上一轮中的候选特征表示进行更新时,所述特征表示单元1003具体用于:
基于所述目标节点关联关系,从所述各个候选模态节点中,筛选出除所述一个候选模态节点外,与所述下一个候选模态节点关联的至少一个其他候选模态节点;
基于所述至少一个其他候选模态节点各自对应的候选特征表示,以及所述下一个候选模态节点在上一轮中的候选特征表示,获得所述下一个候选模态分别与所述至少一个其他候选模态节点之间的节点相关度;
基于获得的各个节点相关度,对所述下一个候选模态节点在上一轮中的候选特征表示进行更新。
作为一种可能的实现方式,所述基于获取的多种模态信息,分别获得每种所述模态信息对应的至少一个候选模态节点时,节点获取单元1001具体用于:
若所述多种模态信息中的一种模态信息的模态类型为视频,则从所述一种模态信息中,提取出音频和至少一个候选视频帧,并基于所述音频和所述至少一个候选视频帧,确定所述一种模态信息对应的至少一种关键数据,以及基于至少一种关键数据,获得所述一种模态信息对应的至少一个候选模态节点;
若所述多种模态信息中的一种模态信息的模态类型为文本,则从所述一种模态信息中,提取出至少一个文本关键信息,并将所述至少一个文本关键信息作为所述一种模态信息对应的至少一种关键数据,以及基于至少一种关键数据,获得所述一种模态信息对应的至少一个候选模态节点。
作为一种可能的实现方式,所述基于所述音频和所述至少一个候选视频帧,确定所述一种模态信息对应的至少一种关键数据时,所述节点获取单元1001具体用于执行以下操作中的至少一种:
按照预设的抽取间隔,从所述至少一个候选视频帧中,抽取出至少一个目标视频帧,并将得到的各个目标视频帧,作为对应的各种关键数据;
基于所述音频,获得至少一个音频文字信息,并将获得的各个音频文字信息,作为对应的各种关键数据。
作为一种可能的实现方式,所述基于获得的各个候选模态节点,构建相应的目标节点关联关系时,所述关系构建单元1002具体用于:
基于所述多种模态信息各自对应的模态类型,确定所述各个候选模态节点之间的节点层级关系,所述节点层级关系中,每个模态信息对应的至少一个候选模态节点位于同一层级;
基于所述各个候选模态节点各自表征的关键数据,确定所述各个候选模态节点之间的节点连接关系;
基于所述节点层级关系和所述节点连接关系,得到所述目标节点关联关系。
作为一种可能的实现方式,所述关系构建单元1002还用于:
基于所述目标节点关联关系中包含的所述节点层级关系,确定所述各个候选模态节点的节点更新顺序。
作为一种可能的实现方式,所述基于所述各个候选模态节点各自表征的关键数据,确定所述各个候选模态节点之间的节点连接关系时,所述关系构建单元1002具体用于:
基于所述各个候选模态节点各自表征的关键数据,提取出至少一个目标关键词,并将所述至少一个目标关键词,作为各个连接节点;
基于所述各个连接节点,获得所述各个候选模态节点之间的节点连接关系,所述节点连接关系中,位于不同层级的候选模态节点之间通过所述各个连接节点连接。
作为一种可能的实现方式,所述目标节点关联关系中还包含有所述各个连接节点与所述各个候选模态节点之间的各个边权重;
则所述基于一个候选模态节点的候选特征表示,对关联的下一个候选模态节点在上一轮中的候选特征表示进行更新所述特征表示单元1003具体用于:
基于所述各个边权重,以及基于一个候选模态节点的候选特征表示,对关联的下一个候选模态节点在上一轮中的候选特征表示进行更新。
作为一种可能的实现方式,所述基于获得的各个目标特征表示,从所述各个候选模态节点中确定至少一个目标模态节点时,摘要生成单元1004具体用于:
基于获得的各个目标特征表示,从所述多种模态信息各自对应的至少一个候选模态节点中,分别确定所述多种模态信息各自对应的至少一个目标模态节点;
所述基于所述至少一个目标模态节点,生成目标摘要信息时,所述摘要生成单元1004具体用于:
基于所述多种模态信息各自对应的至少一个目标模态节点,获得所述多种模态信息各自对应的摘要子信息;
基于获得的各个摘要子信息,生成目标摘要信息。
为了描述的方便,以上各部分按照功能划分为各模块(或单元)分别描述。当然,在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。
关于上述实施例中的装置,其中各个单元执行请求的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本申请实施例中,通过上通过相邻候选模态节点的候选特征表示,进行候选特征表示的更新,可以使得每种模态信息对应的候选模态节点,学习到其他模态信息对应的候选模态节点中包含的信息,提高摘要生成的准确性,此外,通过双向迭代更新方式,可以增强多种模态信息之间的交互,增强信息流动,使得每种模态信息对应的候选模态节点,可以更好的学习到其他模态信息对应的候选模态节点中包含的信息,弥补不同模态信息之间的语义鸿沟,从而学习到更好的特征表示,提高特征表示的准确性,进一步提高摘要的生成准确性。
所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
基于相同的发明构思,本申请实施例还提供一种电子设备。在一种实施例中,该电子设备可以是服务器,也可以是终端设备。参阅图11所示,其为本申请实施例中提供的一种可能的电子设备的结构示意图,图11中,电子设备1100包括:处理器1110和存储器1120。
其中,存储器1120存储有可被处理器1110执行的计算机程序,处理器1110通过执行存储器1120存储的指令,可以执行上述摘要生成方法的步骤。
存储器1120可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器1120也可以是非易失性存储器(non-volatilememory),例如只读存储器(Read-Only Memory,ROM),快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD);或者存储器1120是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器1120也可以是上述存储器的组合。
处理器1110可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器1110,用于执行存储器1120中存储的计算机程序时实现上述摘要生成方法。
在一些实施例中,处理器1110和存储器1120可以在同一芯片上实现,在一些实施例中,它们也可以在独立的芯片上分别实现。
本申请实施例中不限定上述处理器1110和存储器1120之间的具体连接介质。本申请实施例中以处理器1110和存储器1120之间通过总线连接为例,总线在图11中以粗线描述,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线可以分为地址总线、数据总线、控制总线等。为便于描述,图11中仅用一条粗线描述,但并不描述仅有一根总线或一种类型的总线。
基于同一发明构思,本申请实施例提供了一种计算机可读存储介质,其包括计算机程序,当计算机程序在电子设备上运行时,计算机程序用于使电子设备执行上述摘要生成方法的步骤。在一些可能的实施方式中,本申请提供的摘要生成方法的各个方面还可以实现为一种程序产品的形式,其包括计算机程序,当程序产品在电子设备上运行时,计算机程序用于使电子设备执行上述摘要生成方法中的步骤,例如,电子设备可以执行如图2中所示的步骤。
程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(Compact Disk Read Only Memory,CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
本申请的实施方式的程序产品可以采用CD-ROM并包括计算机程序,并可以在电子设备上运行。然而,本申请的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储计算机程序的有形介质,该计算机程序可以被命令执行系统、装置或者器件使用或者与其结合使用。
可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的计算机程序。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (15)
1.一种摘要生成方法,其特征在于,所述方法包括:
基于获取的多种模态信息,分别获得每种所述模态信息对应的至少一个候选模态节点;每个候选模态节点用于表征相应模态信息包含的一种关键数据;
基于获得的各个候选模态节点,构建相应的目标节点关联关系;
基于所述目标节点关联关系,采用迭代更新方式分别获得每个所述候选模态节点对应的目标特征表示,其中,在每轮迭代过程中,依次针对每个候选模态节点执行以下操作:基于一个候选模态节点的候选特征表示,对关联的下一个候选模态节点在上一轮中的候选特征表示进行更新,以及,相邻两次迭代的节点更新方向相反;
基于获得的各个目标特征表示,从所述各个候选模态节点中确定至少一个目标模态节点,并基于所述至少一个目标模态节点,生成目标摘要信息。
2.如权利要求1所述的方法,其特征在于,所述基于一个候选模态节点的候选特征表示,对关联的下一个候选模态节点在上一轮中的候选特征表示进行更新,包括:
基于所述一个候选模态节点的候选特征表示,以及基于所述下一个候选模态节点在上一轮中的候选特征表示,获得所述一个候选模态节点和所述下一个候选模态节点之间的节点相关度;
基于所述节点相关度,对所述下一个候选模态节点在上一轮中的候选特征表示进行更新。
3.如权利要求2所述的方法,其特征在于,所述基于所述节点相关度,对所述下一个候选模态节点在上一轮中的候选特征表示进行更新,包括:
基于所述目标节点关联关系,从所述各个候选模态节点中,筛选出除所述一个候选模态节点外,与所述下一个候选模态节点关联的至少一个其他候选模态节点;
基于所述至少一个其他候选模态节点各自对应的候选特征表示,以及所述下一个候选模态节点在上一轮中的候选特征表示,获得所述下一个候选模态分别与所述至少一个其他候选模态节点之间的节点相关度;
基于获得的各个节点相关度,对所述下一个候选模态节点在上一轮中的候选特征表示进行更新。
4.如权利要求1所述的方法,其特征在于,所述基于获取的多种模态信息,分别获得每种所述模态信息对应的至少一个候选模态节点,包括:
若所述多种模态信息中的一种模态信息的模态类型为视频,则从所述一种模态信息中,提取出音频和至少一个候选视频帧,并基于所述音频和所述至少一个候选视频帧,确定所述一种模态信息对应的至少一种关键数据,以及基于至少一种关键数据,获得所述一种模态信息对应的至少一个候选模态节点;
若所述多种模态信息中的一种模态信息的模态类型为文本,则从所述一种模态信息中,提取出至少一个文本关键信息,并将所述至少一个文本关键信息作为所述一种模态信息对应的至少一种关键数据,以及基于至少一种关键数据,获得所述一种模态信息对应的至少一个候选模态节点。
5.如权利要求4所述的方法,其特征在于,所述基于所述音频和所述至少一个候选视频帧,确定所述一种模态信息对应的至少一种关键数据时,执行以下操作中的至少一种:
按照预设的抽取间隔,从所述至少一个候选视频帧中,抽取出至少一个目标视频帧,并将得到的各个目标视频帧,作为对应的各种关键数据;
基于所述音频,获得至少一个音频文字信息,并将获得的各个音频文字信息,作为对应的各种关键数据。
6.如权利要求1-5中任一项所述的方法,其特征在于,所述基于获得的各个候选模态节点,构建相应的目标节点关联关系,包括:
基于所述多种模态信息各自对应的模态类型,确定所述各个候选模态节点之间的节点层级关系,所述节点层级关系中,每个模态信息对应的至少一个候选模态节点位于同一层级;
基于所述各个候选模态节点各自表征的关键数据,确定所述各个候选模态节点之间的节点连接关系;
基于所述节点层级关系和所述节点连接关系,得到所述目标节点关联关系。
7.如权利要求6所述的方法,其特征在于,所述基于所述节点层级关系和所述节点连接关系,得到所述目标节点关联关系之后,所述基于所述目标节点关联关系,采用迭代更新方式分别获得每个所述候选模态节点对应的目标特征表示之前,还包括:
基于所述目标节点关联关系中包含的所述节点层级关系,确定所述各个候选模态节点的节点更新顺序。
8.如权利要求6所述的方法,其特征在于,所述基于所述各个候选模态节点各自表征的关键数据,确定所述各个候选模态节点之间的节点连接关系,包括:
基于所述各个候选模态节点各自表征的关键数据,提取出至少一个目标关键词,并将所述至少一个目标关键词,作为各个连接节点;
基于所述各个连接节点,获得所述各个候选模态节点之间的节点连接关系,所述节点连接关系中,位于不同层级的候选模态节点之间通过所述各个连接节点连接。
9.如权利要求8所述的方法,其特征在于,所述目标节点关联关系中还包含有所述各个连接节点与所述各个候选模态节点之间的各个边权重;
则所述基于一个候选模态节点的候选特征表示,对关联的下一个候选模态节点在上一轮中的候选特征表示进行更新,包括:
基于所述各个边权重,以及基于一个候选模态节点的候选特征表示,对关联的下一个候选模态节点在上一轮中的候选特征表示进行更新。
10.如权利要求1-5中任一项所述的方法,其特征在于,所述基于获得的各个目标特征表示,从所述各个候选模态节点中确定至少一个目标模态节点,包括:
基于获得的各个目标特征表示,从所述多种模态信息各自对应的至少一个候选模态节点中,分别确定所述多种模态信息各自对应的至少一个目标模态节点;
所述基于所述至少一个目标模态节点,生成目标摘要信息,包括:
基于所述多种模态信息各自对应的至少一个目标模态节点,获得所述多种模态信息各自对应的摘要子信息;
基于获得的各个摘要子信息,生成目标摘要信息。
11.一种摘要生成装置,其特征在于,包括:
节点获取单元,用于基于获取的多种模态信息,分别获得每种所述模态信息对应的至少一个候选模态节点;每个候选模态节点用于表征相应模态信息包含的一种关键数据;
关系构建单元,用于基于获得的各个候选模态节点,构建相应的目标节点关联关系;
特征表示单元,用于基于所述目标节点关联关系,采用迭代更新方式分别获得每个所述候选模态节点对应的目标特征表示,其中,在每轮迭代过程中,依次针对每个候选模态节点执行以下操作:基于一个候选模态节点的候选特征表示,对关联的下一个候选模态节点在上一轮中的候选特征表示进行更新,以及,相邻两次迭代的节点更新方向相反;
摘要生成单元,用于基于获得的各个目标特征表示,从所述各个候选模态节点中确定至少一个目标模态节点,并基于所述至少一个目标模态节点,生成目标摘要信息。
12.如权利要求11所述的装置,其特征在于,所述基于一个候选模态节点的候选特征表示,对关联的下一个候选模态节点在上一轮中的候选特征表示进行更新时,所述特征表示单元具体用于:
基于所述一个候选模态节点的候选特征表示,以及基于所述下一个候选模态节点在上一轮中的候选特征表示,获得所述一个候选模态节点和所述下一个候选模态节点之间的节点相关度;
基于所述节点相关度,对所述下一个候选模态节点在上一轮中的候选特征表示进行更新。
13.一种电子设备,其特征在于,其包括处理器和存储器,其中,所述存储器存储有计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器执行权利要求1~10中任一所述方法的步骤。
14.一种计算机可读存储介质,其特征在于,其包括计算机程序,当所述计算机程序在电子设备上运行时,所述计算机程序用于使所述电子设备执行权利要求1~10中任一所述方法的步骤。
15.一种计算机程序产品,其特征在于,其包括计算机程序,所述计算机程序存储在计算机可读存储介质中,电子设备的处理器从所述计算机可读存储介质读取并执行所述计算机程序,使得所述电子设备执行权利要求1~10中任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210201450.1A CN116756676A (zh) | 2022-03-03 | 2022-03-03 | 一种摘要生成方法及相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210201450.1A CN116756676A (zh) | 2022-03-03 | 2022-03-03 | 一种摘要生成方法及相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116756676A true CN116756676A (zh) | 2023-09-15 |
Family
ID=87950184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210201450.1A Pending CN116756676A (zh) | 2022-03-03 | 2022-03-03 | 一种摘要生成方法及相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116756676A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116958997A (zh) * | 2023-09-19 | 2023-10-27 | 南京大数据集团有限公司 | 一种基于异质图神经网络的图文摘要方法及系统 |
-
2022
- 2022-03-03 CN CN202210201450.1A patent/CN116756676A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116958997A (zh) * | 2023-09-19 | 2023-10-27 | 南京大数据集团有限公司 | 一种基于异质图神经网络的图文摘要方法及系统 |
CN116958997B (zh) * | 2023-09-19 | 2024-01-23 | 南京大数据集团有限公司 | 一种基于异质图神经网络的图文摘要方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Federated learning meets natural language processing: A survey | |
Ertugrul et al. | Movie genre classification from plot summaries using bidirectional LSTM | |
CN106973244A (zh) | 使用弱监督为图像配字幕 | |
CN110234018B (zh) | 多媒体内容描述生成方法、训练方法、装置、设备及介质 | |
CN112580352B (zh) | 关键词提取方法、装置和设备及计算机存储介质 | |
CN112883731A (zh) | 内容分类方法和装置 | |
CN113704460A (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
US20230237093A1 (en) | Video recommender system by knowledge based multi-modal graph neural networks | |
Aziguli et al. | A robust text classifier based on denoising deep neural network in the analysis of big data | |
CN115238126A (zh) | 搜索结果重排序方法、装置、设备及计算机存储介质 | |
Amara et al. | Cross-network representation learning for anchor users on multiplex heterogeneous social network | |
Zhou | Research on sentiment analysis model of short text based on deep learning | |
CN115269781A (zh) | 模态关联度预测方法、装置、设备、存储介质及程序产品 | |
CN114329051A (zh) | 数据信息识别方法、装置、设备、存储介质及程序产品 | |
US20200050677A1 (en) | Joint understanding of actors, literary characters, and movies | |
CN116756676A (zh) | 一种摘要生成方法及相关装置 | |
CN116628345B (zh) | 一种内容推荐方法、装置、电子设备和存储介质 | |
CN113065027A (zh) | 视频推荐的方法、装置、电子设备和存储介质 | |
Duan et al. | Sentiment classification algorithm based on the cascade of BERT model and adaptive sentiment dictionary | |
CN114741587A (zh) | 一种物品推荐方法、装置、介质及设备 | |
Fan et al. | Movie recommendation based on visual features of trailers | |
CN116975347A (zh) | 图像生成模型训练方法及相关装置 | |
CN112861474B (zh) | 一种信息标注方法、装置、设备及计算机可读存储介质 | |
Wang et al. | [Retracted] Application of Improved Machine Learning and Fuzzy Algorithm in Educational Information Technology | |
CN114330296A (zh) | 新词发现方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40091961 Country of ref document: HK |