CN117807995B - 一种情绪引导的摘要生成方法、系统、装置及介质 - Google Patents

一种情绪引导的摘要生成方法、系统、装置及介质 Download PDF

Info

Publication number
CN117807995B
CN117807995B CN202410224873.4A CN202410224873A CN117807995B CN 117807995 B CN117807995 B CN 117807995B CN 202410224873 A CN202410224873 A CN 202410224873A CN 117807995 B CN117807995 B CN 117807995B
Authority
CN
China
Prior art keywords
emotion
feature
abstract
visual
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410224873.4A
Other languages
English (en)
Other versions
CN117807995A (zh
Inventor
李晓川
赵雅倩
范宝余
李仁刚
郭振华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Electronic Information Industry Co Ltd
Original Assignee
Inspur Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Electronic Information Industry Co Ltd filed Critical Inspur Electronic Information Industry Co Ltd
Priority to CN202410224873.4A priority Critical patent/CN117807995B/zh
Publication of CN117807995A publication Critical patent/CN117807995A/zh
Application granted granted Critical
Publication of CN117807995B publication Critical patent/CN117807995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种情绪引导的摘要生成方法、系统、装置及介质,涉及人工智能技术领域,用于解决当前生成的摘要不包含情绪信息的问题。该方案利用用户输入的视觉模态信息和目标情绪信息,提取对应的第一视觉特征和目标情绪特征;利用预训练语言模型对第一视觉特征编码得到第一摘要特征;对第一摘要特征及目标情绪特征整合编码得到目标情绪摘要特征;根据目标情绪摘要特征生成与视觉模态信息对应的目标情绪摘要。本发明能够在摘要生成过程中将情绪信息融入到摘要文本中,满足用户对含有情绪信息的摘要的需求,通过结合视觉模态信息和情绪信息,能够提供更丰富、更具情绪色彩的摘要内容,从而满足用户的情绪需求。

Description

一种情绪引导的摘要生成方法、系统、装置及介质
技术领域
本发明涉及人工智能技术领域,特别涉及一种情绪引导的摘要生成方法、系统、装置及介质。
背景技术
随着互联网内容生成的爆炸式发展,特别是人工智能生成内容(AIGC,ArtificialIntelligence Generated Content)技术的不断成熟,人们在海量信息中快速找到关键内容的需求变得愈发强烈。近年来,图像摘要、视频摘要等领域也迎来了快速发展。
然而,目前基于图像或视频的摘要生成技术得到的摘要文本中仅包括图像或视频中的语义信息,而不包括任何感情色彩(如悲观、乐观、气愤等)。换句话说,这些技术在提取摘要时无法根据情绪对摘要文本进行调整,无法将情绪信息融入到摘要文本中,无法满足用户对于包含情绪信息的摘要的需求。
发明内容
本发明的目的是提供一种情绪引导的摘要生成方法、系统、装置及介质,能够在摘要生成过程中将情绪信息融入到摘要文本中,满足用户对含有情绪信息的摘要的需求,通过结合视觉模态信息和情绪信息,能够提供更丰富、更具情绪色彩的摘要内容,从而满足用户的情绪需求。
第一方面,本发明提供了一种情绪引导的摘要生成方法,包括:
获取用户输入的视觉模态信息和目标情绪信息,所述视觉模态信息包括图像信息或视频信息;
对所述视觉模态信息进行编码得到第一摘要特征,以及提取所述目标情绪信息的目标情绪特征;
对所述第一摘要特征及所述目标情绪特征进行整合并编码,得到目标情绪摘要特征;
根据所述目标情绪摘要特征生成与所述视觉模态信息对应的目标情绪摘要。
在一种实现方式中,对所述视觉模态信息进行编码得到第一摘要特征,包括:
提取所述视觉模态信息的第一视觉特征;
利用预训练语言模型对所述第一视觉特征进行编码,得到第一摘要特征。
在一种实现方式中,提取所述视觉模态信息的第一视觉特征之后,还包括:
获取用户输入的提示文本信息,提取所述提示文本信息对应的提示文本特征,所述提示文本信息用于提示所述预训练语言模型生成所述第一摘要特征;
将所述第一视觉特征和所述提示文本特征进行整合,得到第一整合特征;
利用预训练语言模型对所述第一视觉特征进行编码,得到第一摘要特征,包括:
利用所述预训练语言模型对所述第一整合特征进行编码,得到所述第一摘要特征。
在一种实现方式中,对所述第一摘要特征及所述目标情绪特征进行整合并编码,得到目标情绪摘要特征,包括:
根据所述第一摘要特征生成候选摘要集,所述候选摘要集中包括多个文本摘要;
从所述候选摘要集中筛选与所述目标情绪特征最匹配的文本摘要,将所述最匹配的文本摘要确定为候选文本摘要;
提取所述候选文本摘要的候选文本摘要特征,对所述第一摘要特征和所述候选文本摘要特征进行整合及编码,得到所述目标情绪摘要特征。
在一种实现方式中,从所述候选摘要集中筛选与所述目标情绪特征最匹配的文本摘要,将所述最匹配的文本摘要确定为候选文本摘要,包括:
遍历所述候选摘要集中的各所述文本摘要,提取各所述文本摘要对应的文本摘要特征;
提取各个所述文本摘要特征中用于表征情绪的待比较情绪特征;
根据各所述待比较情绪特征和所述目标情绪特征的相似度将相似度最大的待比较情绪特征对应的文本摘要确定为所述候选文本摘要。
在一种实现方式中,提取所述目标情绪信息的目标情绪特征,包括:
对所述目标情绪信息进行二值编码,得到目标情绪向量;
提取各个所述文本摘要特征中用于表征情绪的待比较情绪特征,包括:
将初始化的情绪查询向量和各个所述文本摘要特征输入至预设编码模型中,得到与各所述文本摘要特征对应的情绪分布向量,所述情绪分布向量为所述文本摘要特征中用于表征情绪的向量;
根据各所述待比较情绪特征和所述目标情绪特征的相似度将相似度最大的待比较情绪特征对应的文本摘要确定为所述候选文本摘要,包括:
根据各个所述情绪分布向量与所述目标情绪向量的相似度将相似度最大的情绪分布向量对应的文本摘要确定为所述候选文本摘要。
在一种实现方式中,所述预设编码模型的表达式为:
;其中,f e 为所述情绪分布向量,f eq 为所述情绪查询向量,f cap 为所述文本摘要特征,size(·)表示矩阵的维度,w k 为所述预设编码模型中的键学习参数,w q 为所述预设编码模型中的查询学习参数,w v 为所述预设编码模型中的值学习参数。
在一种实现方式中,将初始化的情绪查询向量和各个所述文本摘要特征输入至预设编码模型中,得到与各所述文本摘要特征对应的情绪分布向量之后,还包括:
将各个所述情绪分布向量进行转换,得到与所述目标情绪向量的维度相同的情绪判别向量;
根据各个所述情绪分布向量与所述目标情绪向量的相似度将相似度最大的情绪分布向量对应的文本摘要确定为所述候选文本摘要,包括:
根据各个所述情绪判别向量与所述目标情绪向量的相似度将相似度最大的情绪判别向量对应的文本摘要确定为所述候选文本摘要。
在一种实现方式中,根据各个所述情绪判别向量与所述目标情绪向量的相似度将相似度最大的情绪判别向量对应的文本摘要确定为所述候选文本摘要,包括:
计算各个所述情绪判别向量与所述目标情绪向量之间的欧氏距离;
将与所述目标情绪向量之间的欧氏距离最小的情绪判别向量对应的文本摘要确定为所述候选文本摘要。
在一种实现方式中,提取所述候选文本摘要的候选文本摘要特征之后,还包括:
根据所述候选文本摘要特征对所述第一视觉特征进行特征增强,得到第二视觉特征;
对所述第一摘要特征和所述候选文本摘要特征进行整合及编码,得到所述目标情绪摘要特征,包括:
对所述第二视觉特征和所述候选文本摘要特征进行整合及编码,得到所述目标情绪摘要特征。
在一种实现方式中,根据所述候选文本摘要特征对所述第一视觉特征进行特征增强,得到第二视觉特征,包括:
将所述候选文本摘要特征和所述第一视觉特征进行整合,得到第二整合特征;
将所述第二整合特征输入至所述预训练语言模型中,得到特征增强后的第二整合特征;
对所述特征增强后的第二整合特征进行特征拆分提取,得到与所述视觉模态信息对应的所述第二视觉特征。
在一种实现方式中,对所述特征增强后的第二整合特征进行特征拆分提取之后,还包括:
根据拆分提取得到的图像交互特征确定图像摘要热度权重,所述图像交互特征为对特征增强后的第二整合特征中与所述视觉模态信息对应的特征;
根据所述候选文本摘要特征对所述第一视觉特征进行特征增强,得到第二视觉特征,包括:
将所述图像摘要热度权重与所述第一视觉特征相乘,得到所述第二视觉特征。
在一种实现方式中,所述图像交互特征为二维向量,根据拆分提取得到的图像交互特征确定图像摘要热度权重,包括:
对所述图像交互特征进行向量维度转换,以将所述二维向量转换为一维向量,得到所述图像摘要热度权重。
在一种实现方式中,根据所述候选文本摘要特征对所述第一视觉特征进行特征增强,得到第二视觉特征之后,还包括:
根据所述候选文本摘要特征对所述第二视觉特征进行优化,得到第三视觉特征;
对所述第一摘要特征和所述候选文本摘要特征进行整合及编码,得到所述目标情绪摘要特征,包括:
对所述第三视觉特征和所述候选文本摘要特征进行整合及编码,得到所述目标情绪摘要特征。
在一种实现方式中,提取所述候选文本摘要的候选文本摘要特征,包括:
利用所述预训练语言模型对所述候选文本摘要进行编码,得到所述候选文本摘要特征;
利用所述预训练语言模型对所述第二视觉特征进行编码,得到视觉转换特征;
根据所述候选文本摘要特征对所述第二视觉特征进行优化,得到第三视觉特征,包括:
根据所述视觉转换特征和所述候选文本摘要特征对所述第二视觉特征进行优化,得到所述第三视觉特征;
其中,对所述第二视觉特征进行优化的过程中所述预训练语言模型的模型参数不变。
在一种实现方式中,根据所述视觉转换特征和所述候选文本摘要特征对所述第二视觉特征进行优化,得到所述第三视觉特征,包括:
根据所述视觉转换特征和所述候选文本摘要特征计算语义损失函数;
根据所述语义损失函数对所述第二视觉特征进行优化,得到所述第三视觉特征。
在一种实现方式中,根据所述视觉转换特征和所述候选文本摘要特征对所述第二视觉特征进行优化之前,还包括:
根据所述目标情绪信息从情绪文本摘要池中随机挑选一个与所述目标情绪信息的情绪相同的情绪参考文本摘要;
利用所述预训练语言模型对所述情绪参考文本摘要进行编码,得到情绪参考文本摘要特征;
根据所述视觉转换特征和所述候选文本摘要特征对所述第二视觉特征进行优化,得到所述第三视觉特征,包括:
根据所述视觉转换特征、所述候选文本摘要特征及所述情绪参考文本摘要特征对所述第二视觉特征进行优化,得到所述第三视觉特征。
在一种实现方式中,根据所述视觉转换特征、所述候选文本摘要特征及所述情绪参考文本摘要特征对所述第二视觉特征进行优化,得到所述第三视觉特征,包括:
根据所述视觉转换特征和所述候选文本摘要特征计算语义损失函数;
根据所述视觉转换特征和所述情绪参考文本摘要特征计算情绪损失函数;
根据所述语义损失函数和所述情绪损失函数对所述第二视觉特征进行优化,得到所述第三视觉特征。
在一种实现方式中,根据所述语义损失函数和所述情绪损失函数对所述第二视觉特征进行优化,得到所述第三视觉特征,包括:
将所述语义损失函数和所述情绪损失函数按照预设权重进行求和,得到整体损失函数;
根据所述整体损失函数对所述视觉转换特征的梯度对所述第二视觉特征进行优化,得到所述第三视觉特征。
第二方面,本发明还提供了一种情绪引导的摘要生成系统,包括:
获取单元,用于获取用户输入的视觉模态信息和目标情绪信息,所述视觉模态信息包括图像信息或视频信息;
特征提取单元,用于对所述视觉模态信息进行编码得到第一摘要特征,以及提取所述目标情绪信息的目标情绪特征;
编码单元,用于对所述第一摘要特征及所述目标情绪特征进行整合并编码,得到目标情绪摘要特征;
摘要生成单元,用于根据所述目标情绪摘要特征生成与所述视觉模态信息对应的目标情绪摘要。
第三方面,本发明还提供了一种情绪引导的摘要生成装置,包括:
存储器,用于存储计算机程序;
处理器,用于在存储计算机程序时,实现上述所述的情绪引导的摘要生成方法的步骤。
第四方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的情绪引导的摘要生成方法的步骤。
本发明提供了一种情绪引导的摘要生成方法、系统、装置及介质,涉及人工智能技术领域,用于解决当前生成的摘要不包含情绪信息的问题。该方案利用用户输入的视觉模态信息和目标情绪信息,提取对应的第一视觉特征和目标情绪特征;利用预训练语言模型对第一视觉特征编码得到第一摘要特征;对第一摘要特征及目标情绪特征整合编码得到目标情绪摘要特征;根据目标情绪摘要特征生成与视觉模态信息对应的目标情绪摘要。本发明能够在摘要生成过程中将情绪信息融入到摘要文本中,满足用户对含有情绪信息的摘要的需求,通过结合视觉模态信息和情绪信息,能够提供更丰富、更具情绪色彩的摘要内容,从而满足用户的情绪需求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对现有技术和实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种情绪引导的摘要生成方法的流程图;
图2为本发明提供的一种确定目标情绪摘要特征的流程图;
图3为本发明提供的一种确定候选文本摘要的流程图;
图4为本发明提供的一种对第一视觉特征进行特征增强得到第二视觉特征的流程图;
图5为本发明提供的一种对第二视觉特征进行优化得到第三视觉特征的流程图。
具体实施方式
本发明的核心是提供一种情绪引导的摘要生成方法、系统、装置及介质,能够在摘要生成过程中将情绪信息融入到摘要文本中,满足用户对含有情绪信息的摘要的需求,通过结合视觉模态信息和情绪信息,能够提供更丰富、更具情绪色彩的摘要内容,从而满足用户的情绪需求。
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
第一方面,如图1所示,本发明提供了一种情绪引导的摘要生成方法,包括:
S11:获取用户输入的视觉模态信息和目标情绪信息,视觉模态信息包括图像信息或视频信息;
具体地,在情绪引导的摘要生成方法中,首先需要获取用户输入的视觉模态信息和目标情绪信息。视觉模态信息可以是图像信息或视频信息,即用户希望对其进行摘要生成的视觉内容。同时,用户还需要输入目标情绪信息,即希望在摘要中表达的情绪色彩,比如悲伤、愤怒、欢乐等。这些信息将作为生成摘要的基础,用来指导生成的摘要内容。
S12:对视觉模态信息进行编码得到第一摘要特征,以及提取目标情绪信息的目标情绪特征;
在这一步骤中,在获取用户输入的视觉模态信息(图像信息或视频信息)之后,对于图像信息,可以使用图像处理算法将其转换为计算机可以处理的格式,例如将图像信息转换为矩阵表示。对于视频信息,则可以将视频分解为一系列图像帧,并对每一帧进行相同的处理。接下来,对转换后的视觉模态信息进行编码,得到第一摘要特征;编码的目的是将视觉模态信息转化为数值特征表示,以便后续处理和分析;编码可以使用各种深度学习模型,如卷积神经网络或循环神经网络,这些深度学习模型可以提取视觉模态信息中的语义和结构特征,将其转化为向量表示或其他数值特征。同时,还需要提取目标情绪信息的特征,目标情绪信息可以是用户提供的,也可以通过情感词典、情感分类器或其他情感分析方法得到,以识别和提取视觉模态信息中所表达的情绪色彩,例如悲伤、快乐、愤怒等;提取出来的目标情绪特征可以是离散的情感标签,也可以是连续的情感维度值,具体的表示形式取决于情感分析的方法和模型。
在一种实现方式中,对视觉模态信息进行编码得到第一摘要特征,包括:提取视觉模态信息的第一视觉特征;利用预训练语言模型对第一视觉特征进行编码,得到第一摘要特征。
具体地,获取第一摘要特征的具体方式为:先提取视觉模态信息的第一视觉特征(如大小为[k,d],其中d为每一个特征的维度,k可表示视觉模态信息中提取出的不同实体,因此该特征可用来表示视觉模态信息中可以被检测到的k个元素,每个元素的d维特征可用来表示它的属性等信息),这可以包括对图像信息或视频信息进行特征提取,例如颜色、纹理、形状等方面的特征。然后利用预训练语言模型对这些第一视觉特征进行编码,以获取第一摘要特征。在这个过程中,预训练语言模型可以是一种经过大规模文本数据预训练的模型,例如BERT(Bidirectional Encoder Representations from Transformers,双向编码器表示转换)、GPT(Generative Pre-trained Transformer,生成式预训练模型)等,这些模型可以将视觉特征映射到一个语义空间中,从而获得对视觉信息更具有表征能力的编码表示,最终通过这种编码方式可以得到第一摘要特征,用于后续的情绪摘要生成过程中。综上,本实施例可以有效地帮助系统理解和利用视觉信息,从而更准确地生成与目标情绪相关的摘要信息。
如图2所示,在一种实现方式中,提取视觉模态信息的第一视觉特征之后,还包括:获取用户输入的提示文本信息,提取提示文本信息对应的提示文本特征,提示文本信息用于提示预训练语言模型生成第一摘要特征;将第一视觉特征和提示文本特征进行整合,得到第一整合特征;利用预训练语言模型对第一整合特征进行编码,得到第一摘要特征。
本实施例提供了在实现情绪引导的摘要生成方法时,对视觉模态信息进行编码的一种实现方式。具体地,用户通过输入提示文本信息来指导预训练语言模型生成第一摘要特征;如视觉模态信息为图像信息时,提示文本信息可以为“图像中发生了什么”,用于告诉预训练语言模型关注图像中发生的事件或内容。具体而言,使用文本处理技术,将提示文本信息转化为提示文本特征(如大小为[p,d],其中p为提示文本信息的长度(字数),d表示提示文本特征的维度),这可以包括将文本进行分词、词嵌入等处理,以便能够与视觉模态信息进行整合。此外,还对输入的图像信息或视频信息进行特征提取,以获取与视觉内容相关的特征表示。再将第一视觉特征和提示文本特征进行融合或连接,得到第一整合特征(如被拼接成大小为[k+t,d]的向量);这一步旨在将视觉信息和提示文本信息整合在一起,以便更好地指导预训练语言模型的生成过程。使用预训练语言模型(如BERT、GPT等)对第一整合特征进行编码,得到第一摘要特征(如大小为[k+t,d])。预训练语言模型可以理解上下文信息,并能够生成与输入特征相匹配的摘要。通过以上步骤生成的第一摘要特征能够更准确地反映图像中发生的内容,并为后续的目标情绪摘要生成提供更有针对性的指导。
S13:对第一摘要特征及目标情绪特征进行整合并编码,得到目标情绪摘要特征;
在上述得到第一摘要特征和目标情绪特征之后,将视觉模态信息的第一摘要特征和目标情绪信息的特征进行整合,如可以通过将两者的特征向量拼接在一起,或者使用其他融合策略来实现,整合后的特征被称为目标情绪摘要特征,它包含了视觉模态信息对应的第一摘要特征和目标情绪信息的目标情绪特征。
S14:根据目标情绪摘要特征生成与视觉模态信息对应的目标情绪摘要。
具体而言,这一步骤将通过整合并编码得到的目标情绪摘要特征,结合用户输入的视觉模态信息,利用相关算法和模型生成具有目标情绪的摘要文本。这样生成的摘要文本不仅包含了视觉模态信息的语义内容,还能根据用户输入的目标情绪信息进行调整,将情绪信息融入到摘要文本中,满足用户对包含情绪信息的摘要的需求。也即,本步骤实现了情绪引导的摘要生成,使得生成的摘要文本能够更准确地传达图像或视频所表达的情感色彩,这个目标情绪摘要可以用来帮助用户更好地理解和表达情绪状态,也可以用来作为情绪识别和情绪理解的基础,例如在情感识别技术中应用于情感分析、情感推荐等方面。此外,还可以用于个性化推荐系统,根据用户的目标情绪信息给出个性化的推荐内容。总的来说,这个目标情绪摘要可以为用户提供更加准确且个性化的情绪信息和服务。
在上述实施例的基础上:
在一种实现方式中,对第一摘要特征及目标情绪特征进行整合并编码,得到目标情绪摘要特征,包括:根据第一摘要特征生成候选摘要集,候选摘要集中包括多个文本摘要;从候选摘要集中筛选与目标情绪特征最匹配的文本摘要,将最匹配的文本摘要确定为候选文本摘要;提取候选文本摘要的候选文本摘要特征,对第一摘要特征和候选文本摘要特征进行整合及编码,得到目标情绪摘要特征。
本实施例描述了对第一摘要特征及目标情绪特征进行整合并编码的具体方式。具体而言,首先利用提取的第一摘要特征生成一个包括多个文本摘要的候选摘要集;接下来根据目标情绪特征,即用户输入的情绪信息,对候选摘要集中的文本摘要进行筛选,选择与目标情绪特征最匹配的文本摘要,并将其确定为候选文本摘要;再对所选定的候选文本摘要进行特征提取,得到候选文本摘要特征(如大小为[l,d],l为该候选文本摘要特征的长度,d为维度);然后将第一摘要特征和候选文本摘要特征整合并编码,得到最终的目标情绪摘要特征;这一目标情绪摘要特征反映用户输入的视觉模态信息在用户指定的目标情绪信息下所生成的摘要的特征,为生成与该目标情绪信息相符的摘要提供重要线索。
如图3所示,在一种实现方式中,从候选摘要集中筛选与目标情绪特征最匹配的文本摘要,将最匹配的文本摘要确定为候选文本摘要,包括:遍历候选摘要集中的各文本摘要,提取各文本摘要对应的文本摘要特征;提取各个文本摘要特征中用于表征情绪的待比较情绪特征;根据各待比较情绪特征和目标情绪特征的相似度将相似度最大的待比较情绪特征对应的文本摘要确定为候选文本摘要。
本实施例描述了一种从候选摘要集中筛选与目标情绪特征最匹配的文本摘要的方式,首先对于上述生成的候选摘要集,逐个遍历其中的文本摘要,针对每个文本摘要,提取文本摘要特征,以捕捉文本摘要中的语义和句法信息;从每个文本摘要特征中提取用于表征情绪的待比较情绪特征,其中,待比较情绪特征可以包括与情绪相关的词、短语或其他情感指示符;针对每个待比较情绪特征,计算其与目标情绪特征之间的相似度,相似度可以使用各种度量方法,如余弦相似度、欧氏距离等,以衡量待比较情绪特征与目标情绪特征之间的匹配程度;根据各待比较情绪特征与目标情绪特征的相似度,选择相似度最大的待比较情绪特征所对应的文本摘要作为候选文本摘要,其中,相似度最大的待比较情绪特征所对应的文本摘要被认为是与目标情绪特征最匹配的文本摘要。综上,本实施例能够从候选摘要集中筛选出与目标情绪特征最匹配的文本摘要,从而生成符合目标情绪的摘要内容。
在一种实现方式中,提取目标情绪信息的目标情绪特征,包括:对目标情绪信息进行二值编码,得到目标情绪向量;提取各个文本摘要特征中用于表征情绪的待比较情绪特征,包括:将初始化的情绪查询向量和各个文本摘要特征输入至预设编码模型中,得到与各文本摘要特征对应的情绪分布向量,情绪分布向量为文本摘要特征中用于表征情绪的向量;根据各待比较情绪特征和目标情绪特征的相似度将相似度最大的待比较情绪特征对应的文本摘要确定为候选文本摘要,包括:根据各个情绪分布向量与目标情绪向量的相似度将相似度最大的情绪分布向量对应的文本摘要确定为候选文本摘要。
具体地,提取目标情绪信息的目标情绪特征的方式为:对目标情绪信息进行二值编码,得到目标情绪向量(如按照8类二值编码成大小为[8,1]的目标情绪向量,包含对应情绪置1,否则置0;由于符合情绪的存在,向量中最多包含两个1);具体为将目标情绪信息转化为二进制编码形式,以便计算机能够处理和理解,此过程可以通过将目标情绪信息映射到一个二进制向量或矩阵来实现,其中每个元素代表一个情绪特征的存在或缺失。对于每个文本摘要特征,需要提取其中与情绪相关的特征,这可能涉及到使用情绪词汇列表、情感分析模型或其他相关方法来确定哪些特征与情绪相关。提取各个文本摘要特征中用于表征情绪的待比较情绪特征的具体方式为:使用一个预设编码模型,将初始化的情绪查询向量(如大小为[8,d]的情绪查询向量)与每个文本摘要特征进行输入,这个预设编码模型可以是一个神经网络、深度学习模型或其他机器学习模型,用于将输入映射到一个情绪分布向量,通过预设编码模型的处理,将每个文本摘要特征转化为一个情绪分布向量,这个情绪分布向量表示了文本摘要中不同情绪的概率分布,反映了该文本摘要所表达的情绪倾向(如图3所示,该预设编码模型包括跨注意力层、归一化层、相加层、丢弃层)。通过计算每个情绪分布向量与目标情绪向量之间的相似度,可以确定哪个情绪分布向量与目标情绪向量最匹配,根据相似度最大的情绪分布向量对应的文本摘要,可以确定为候选文本摘要,即与目标情绪最匹配的文本摘要。综上,本实施例通过二值编码目标情绪信息,提取待比较情绪特征并使用预设编码模型将其转化为情绪分布向量,最终确定与目标情绪最匹配的文本摘要,这种方法可以在情绪引导的摘要生成过程中起到关键作用,帮助生成与目标情绪相符合的摘要内容。
在一种实现方式中,预设编码模型的表达式为:
;其中,f e 为情绪分布向量,f eq 为情绪查询向量,f cap 为文本摘要特征,size(·)表示矩阵的维度,w k 为预设编码模型中的键学习参数,w q 为预设编码模型中的查询学习参数,w v 为预设编码模型中的值学习参数。预设编码模型中的三种学习参数经对编码模型训练后确定,训练方式采用监督学习,也即根据指定损失函数的梯度反向传播算法优化,指定损失函数为语义损失函数和情绪损失函数。
在一种实现方式中,将初始化的情绪查询向量和各个文本摘要特征输入至预设编码模型中,得到与各文本摘要特征对应的情绪分布向量之后,还包括:将各个情绪分布向量进行转换,得到与目标情绪向量的维度相同的情绪判别向量;根据各个情绪分布向量与目标情绪向量的相似度将相似度最大的情绪分布向量对应的文本摘要确定为候选文本摘要,包括:根据各个情绪判别向量与目标情绪向量的相似度将相似度最大的情绪判别向量对应的文本摘要确定为候选文本摘要。
本实施例描述了在实现情绪引导的摘要生成方法中的一个具体实现方式。首先将初始化的情绪查询向量和各个文本摘要特征输入至预设编码模型中,得到与各文本摘要特征对应的情绪分布向量,情绪分布向量是文本摘要特征中用于表征情绪的向量。接着将各个情绪分布向量进行转换,得到与目标情绪向量的维度相同的情绪判别向量,这一步是为了将各个情绪分布向量转换成与目标情绪向量的维度相对应的向量(如将情绪分布向量经过全连接层后,得到[8,1]的向量,再经过非线性函数(如Sigmoid函数)后转化到0-1的空间内,记为情绪判别向量,大小为[8,1])。最后,根据各个情绪判别向量与目标情绪向量的相似度将相似度最大的情绪判别向量对应的文本摘要确定为候选文本摘要,也即是选择与目标情绪向量最相似的情绪判别向量所对应的文本摘要作为最终生成的目标情绪摘要。
需要理解的是,采用情感轮的方式对情绪进行分类,情感候选摘要筛选模块的作用是对候选摘要集中的每一条文本摘要进行情感分类,找出最符合指定情绪的(认为它更有潜力被改写成满足该情绪的语句)。根据情感轮理论,情绪可以分为“快乐”、“信任”、“害怕”、“惊奇”、“哀伤”、“嫌恶”、“气忿”、“预期”8种基础情绪,这8种情绪伴随程度的变化都会呈现出类似的情感,例如“快乐”的低程度情感为“宁静”,高程度情感为“狂喜”。上述情绪均为基础情绪,本发明对于这8类基础情绪不考虑程度的差异。此外,情感轮还定义了若干复合情绪,例如,“快乐”+“信任”=“爱”;“害怕”+“嫌恶”=“羞耻”等。因此,本发明构造(初始化)一个固定的、大小为[8,d]的向量,初始化方式采用随机高斯分布,记为情绪查询向量。
在一种实现方式中,根据各个情绪判别向量与目标情绪向量的相似度将相似度最大的情绪判别向量对应的文本摘要确定为候选文本摘要,包括:计算各个情绪判别向量与目标情绪向量之间的欧氏距离;将与目标情绪向量之间的欧氏距离最小的情绪判别向量对应的文本摘要确定为候选文本摘要。
本实施例描述了一种从候选摘要集中筛选与目标情绪特征最匹配的文本摘要的具体实现方式,具体而言,计算各个情绪判别向量与目标情绪向量之间的欧氏距离。通过比较欧氏距离,找到与目标情绪向量最相似的情绪判别向量,进而确定对应的文本摘要为候选文本摘要。通常情况下,欧氏距离与相似度呈负相关。这一实现方式可以帮助系统找到与用户目标情绪信息最匹配的文本摘要,并生成相应的目标情绪摘要,从而提高摘要生成的情绪导向能力和准确性。
综上,确定候选文本摘要的具体流程如图3所示,遍历候选摘要集中的各文本摘要,提取各文本摘要对应的文本摘要特征,将初始化的情绪查询向量和各个文本摘要特征输入至包括有跨注意力层、归一化层、相加层和丢弃层的预设编码模型中,得到与各文本摘要特征对应的情绪分布向量,情绪分布向量经过全连接层以及非线性函数(如Sigmoid函数),使得将各个情绪分布向量进行转换,得到与目标情绪向量的维度相同的情绪判别向量;根据用户输入的目标情绪信息,对目标情绪信息进行二值编码,得到目标情绪向量;根据各个情绪判别向量与目标情绪向量的相似度将相似度最大的情绪判别向量对应的文本摘要确定为候选文本摘要。
在一种实现方式中,提取候选文本摘要的候选文本摘要特征之后,还包括:根据候选文本摘要特征对第一视觉特征进行特征增强,得到第二视觉特征;对第一摘要特征和候选文本摘要特征进行整合及编码,得到目标情绪摘要特征,包括:对第二视觉特征和候选文本摘要特征进行整合及编码,得到目标情绪摘要特征。
本实施例描述了在摘要生成方法中对第一视觉特征进行特征增强的实现方式。在这个实现方式中,首先提取了候选文本摘要的候选文本摘要特征,然后根据这些特征对第一视觉特征进行增强,得到了第二视觉特征(如大小仍为[k,d])。接着,将第一摘要特征和候选文本摘要特征进行整合及编码,从而得到了目标情绪摘要特征。具体地,借助候选文本摘要的特征进行增强可以使得第一视觉特征更加全面和准确地表达视觉模态信息,可以提高目标情绪摘要特征的质量和表达能力,从而更好地生成与视觉模态信息对应的目标情绪摘要,特征增强的过程可以有效地利用候选文本摘要的信息,结合到视觉模态信息中,从而可以更加全面地理解和表达视觉信息的情感内容,为生成目标情绪摘要提供更为丰富和准确的特征信息。
在一种实现方式中,根据候选文本摘要特征对第一视觉特征进行特征增强,得到第二视觉特征,包括:将候选文本摘要特征和第一视觉特征进行整合,得到第二整合特征;将第二整合特征输入至预训练语言模型中,得到特征增强后的第二整合特征;对特征增强后的第二整合特征进行特征拆分提取,得到与视觉模态信息对应的第二视觉特征。
本实施例描述了对第一视觉特征进行特征增强的具体方式,可以提高对视觉模态信息的处理效率和准确性。具体而言,将候选文本摘要特征与第一视觉特征进行整合,可以是简单的拼接或加权求和等方式,得到第二整合特征;将第二整合特征输入预训练语言模型中,可以是BERT、GPT等模型,用于对特征进行增强;经过预训练语言模型处理后得到的特征已经进行了增强,将增强后的特征进行拆分提取,得到与视觉模态信息对应的第二视觉特征,这样做可以使得文本特征和图像特征更加融合,提高模型的性能和准确性。本实施例能够充分利用文本信息来增强图像特征,使得模型在处理视觉任务时更加全面和准确,可以提升第二视觉特征的表征能力和情绪信息传达的准确性,可以更加全面地考虑视觉模态信息和文本摘要信息,提高了情绪摘要的生成质量和效果。同时,特征增强后的第二整合特征的提取过程也增强了对情绪信息的刻画和表征,进一步提高了情绪摘要的准确性和情感传达的表现力。
在一种实现方式中,对特征增强后的第二整合特征进行特征拆分提取之后,还包括:根据拆分提取得到的图像交互特征确定图像摘要热度权重,图像交互特征为对特征增强后的第二整合特征中与视觉模态信息对应的特征;根据候选文本摘要特征对第一视觉特征进行特征增强,得到第二视觉特征,包括:将图像摘要热度权重与第一视觉特征相乘,得到第二视觉特征。
本实施例中,图像交互特征是指与视觉模态信息对应的特征,是通过特征增强后的第二整合特征中提取出来的,其目的是为了确定图像摘要的热度权重。图像摘要热度权重是指确定图像摘要在最终生成的目标情绪摘要中所占的权重比例,这个权重是由图像交互特征来确定的。本实施例中的图像交互特征确定了图像摘要的重要性,进而影响了最终目标情绪摘要的生成。通过图像摘要热度权重与第一视觉特征相乘,可以得到第二视觉特征。
本实施例中,通过确定图像摘要的热度权重,能够更好地将与目标情绪相关并且重要的图像信息纳入到目标情绪摘要中,提高了目标情绪摘要与输入的视觉模态信息的关联性,使生成的摘要更加准确,更贴近用户的实际情感需求;通过计算图像摘要的热度权重,可以根据不同的情绪需求确定不同图像摘要的重要程度,从而实现对目标情绪摘要的个性化生成,满足用户对不同情绪的个性化需求。
在一种实现方式中,图像交互特征为二维向量,根据拆分提取得到的图像交互特征确定图像摘要热度权重,包括:对图像交互特征进行向量维度转换,以将二维向量转换为一维向量,得到图像摘要热度权重。
具体地,上述图像交互特征可以是二维向量,其中每个元素代表了不同的视觉信息交互特征。为了确定图像摘要热度权重,首先需要对这些二维向量进行向量维度转换,将二维向量转换为一维向量,这样做的目的是将原本分散的视觉交互特征整合成一个整体,以便后续的计算。最终得到的图像摘要热度权重会与第一视觉特征相乘,以得到第二视觉特征,这些操作可以帮助系统更好地理解视觉模态信息,提高了摘要生成的准确性和情感表达的一致性。
本实施例通过引入图像交互特征和图像摘要热度权重的计算,系统能够更深入地理解视觉信息,并根据其重要性进行加权处理,从而提高了对视觉情绪的准确把握和表达;图像摘要热度权重的引入不仅能够突出重要的视觉特征,还可以在多个维度上进行权衡和平衡,使得生成的摘要更加全面和准确;通过对图像交互特征的处理和权重计算,系统能够更好地捕捉到视觉信息中的情感特征,从而提高了生成摘要时情绪表达的一致性和连贯性。
如:大小为[k,d]的第一视觉特征和大小为[l,d]的候选文本摘要特征拼接为大小为[k+l,d]的第二整合特征输入到预训练语言模型中提取特征,得到增强后的第二整合特征,并将增强后的第二整合特征对应位置的特征拆分并输出,得到大小为[k,d]的图像交互特征,转化为[d,1]的形式,记为图像摘要热图权重。
综上,对第一视觉特征进行特征增强得到第二视觉特征的流程如图4所示,首先,将候选文本摘要特征和第一视觉特征进行整合,得到第二整合特征,对特征增强后的第二整合特征进行特征拆分提取,得到的图像交互特征;对图像交互特征进行向量维度转换,以将二维向量转换为一维向量,得到图像摘要热度权重;将图像摘要热度权重与第一视觉特征相乘,得到第二视觉特征。
在一种实现方式中,根据候选文本摘要特征对第一视觉特征进行特征增强,得到第二视觉特征之后,还包括:根据候选文本摘要特征对第二视觉特征进行优化,得到第三视觉特征;对第一摘要特征和候选文本摘要特征进行整合及编码,得到目标情绪摘要特征,包括:对第三视觉特征和候选文本摘要特征进行整合及编码,得到目标情绪摘要特征。
本实施例中,在上述通过对第一视觉特征进行特征增强,得到第二视觉特征之后,再进一步对第二视觉特征进行优化,得到第三视觉特征(如大小为[k,d])。本实施例根据候选文本摘要特征对第二视觉特征进行优化,得到第三视觉特征可以进一步提升对目标情绪的精准度和准确度,可以更好地融合文本信息和视觉信息,从而得到更具表现力和准确性的目标情绪摘要特征。这一优化过程有助于提高情绪摘要生成的效果,使生成的摘要更能够准确地表达原始视觉信息中的目标情绪,从而提升用户体验和应用效果。
在一种实现方式中,提取候选文本摘要的候选文本摘要特征,包括:利用预训练语言模型对候选文本摘要进行编码,得到候选文本摘要特征;利用预训练语言模型对第二视觉特征进行编码,得到视觉转换特征;根据候选文本摘要特征对第二视觉特征进行优化,得到第三视觉特征,包括:根据视觉转换特征和候选文本摘要特征对第二视觉特征进行优化,得到第三视觉特征;其中,对第二视觉特征进行优化的过程中预训练语言模型的模型参数不变。
本实施例中,提取候选文本摘要的候选文本摘要特征的具体方式为:使用预训练语言模型对候选文本摘要进行编码,得到候选文本摘要特征;使用预训练语言模型对第二视觉特征进行编码,得到视觉转换特征。根据候选文本摘要特征对第二视觉特征进行优化,得到第三视觉特征的具体方式为:根据视觉转换特征和候选文本摘要特征对第二视觉特征进行优化,得到第三视觉特征。
需要注意的是,本实施例中在进行第二视觉特征优化的过程中,不需要重新训练预训练语言模型的参数,从而节省了重新训练模型的时间和计算资源。这样的设计可以提高系统的效率,加快目标情绪摘要生成的速度,并且能够更好地应对实时性要求较高的应用场景;同时,保持预训练语言模型的参数不变也有助于保持模型的稳定性和一致性,降低了系统出现意外错误的风险。
如图5所示,在一种实现方式中,根据视觉转换特征和候选文本摘要特征对第二视觉特征进行优化,得到第三视觉特征,包括:根据视觉转换特征和候选文本摘要特征计算语义损失函数;根据语义损失函数对第二视觉特征进行优化,得到第三视觉特征。
本实施例描述了根据视觉转换特征和候选文本摘要特征对第二视觉特征进行优化的具体过程,首先根据视觉转换特征和候选文本摘要特征计算语义损失函数;其次根据语义损失函数对第二视觉特征进行优化。具体地,通过计算语义损失函数,系统可以量化第二视觉特征与视觉转换特征和候选文本摘要特征之间的语义差异,可以帮助系统更准确地理解图像或视频信息以及相关的文本信息,从而更好地理解用户输入的情绪信息。根据语义损失函数对第二视觉特征进行优化,通过最小化语义损失函数,系统可以调整第二视觉特征,使其更好地反映用户输入的情绪信息,并与候选文本摘要特征和视觉转换特征相匹配,可以有效地提高生成的目标情绪摘要的准确性和情感表达能力。其中,语义损失函数的表达式为:loss semantic =1-cossimf cap f im ),其中,loss semantic 为语义损失函数,f cap 为候选文本摘要特征,f im 为视觉转换特征,表示余弦相似度计算函数。
综上,本实施例根据语义损失函数对第二视觉特征进行优化可以提高摘要生成的准确性和情感表达能力,使得生成的目标情绪摘要更加符合用户的期望和输入的情绪信息,可以提升用户体验,提高系统在情感化摘要生成领域的应用价值。
在一种实现方式中,根据视觉转换特征和候选文本摘要特征对第二视觉特征进行优化之前,还包括:根据目标情绪信息从情绪文本摘要池中随机挑选一个与目标情绪信息的情绪相同的情绪参考文本摘要;利用预训练语言模型对情绪参考文本摘要进行编码,得到情绪参考文本摘要特征;根据视觉转换特征和候选文本摘要特征对第二视觉特征进行优化,得到第三视觉特征,包括:根据视觉转换特征、候选文本摘要特征及情绪参考文本摘要特征对第二视觉特征进行优化,得到第三视觉特征。
本实施例中,通过使用与目标情绪相同的情绪参考文本摘要进行优化,可以有效地将情绪因素融入到摘要生成过程中,从而引导生成的摘要更加贴合目标情绪,提高生成摘要的情感表达能力;将情绪参考文本摘要特征与视觉转换特征和候选文本摘要特征进行整合及编码,可以使生成的摘要在文本和视觉信息之间保持一致性,提高摘要的可理解性和一致性,使用户更容易理解和接受生成的摘要;根据情绪参考文本摘要、视觉转换特征、候选文本摘要特征对第二视觉特征进行优化,能够使生成的摘要更加贴合用户的个性化需求和情绪偏好,增强了摘要内容的个性化定制程度,提升用户体验和满意度。总的来说,本实施例通过从情绪文本摘要池中随机挑选一个与目标情绪信息的情绪相同的情绪参考文本摘要,进而得到情绪参考文本摘要特征,利用情绪参考文本摘要、视觉转换特征、候选文本摘要特征进行第二视觉特征优化,可以使生成的摘要更加贴合目标情绪,保持文本-视觉一致性,同时满足个性化定制需求,从而提高了生成摘要的情感表达能力和用户体验。
在一种实现方式中,根据视觉转换特征、候选文本摘要特征及情绪参考文本摘要特征对第二视觉特征进行优化,得到所述第三视觉特征,包括:根据视觉转换特征和候选文本摘要特征计算语义损失函数;根据视觉转换特征和情绪参考文本摘要特征计算情绪损失函数;根据语义损失函数和情绪损失函数对第二视觉特征进行优化,得到所述第三视觉特征。
本实施例主要描述了对第二视觉特征进行优化的具体方式。具体来说,首先使用视觉转换特征、候选文本摘要特征以及情绪参考文本摘要特征进行计算,得到语义损失函数和情绪损失函数。语义损失函数用于衡量视觉转换特征和候选文本摘要特征之间的语义相关性,而情绪损失函数用于衡量视觉转换特征和情绪参考文本摘要特征所传达的情绪之间的一致性。在优化过程中,将这两个损失函数作为优化的目标,通过调整第二视觉特征的参数,使得语义损失函数和情绪损失函数尽可能地减小,从而达到优化第二视觉特征的目的。其中,情绪损失函数的表达式为:loss emo =1-cossimf ref f im ),其中,loss emo 为情绪损失函数,f ref 为情绪参考文本摘要特征,f im 为视觉转换特征,表示余弦相似度计算函数。
通过根据语义损失函数和情绪损失函数对第二视觉特征进行优化,使得生成的摘要与情绪参考文本的语义和情绪一致性更高,从而增强了摘要生成的准确性;具体而言,优化过程中考虑了情绪损失函数,可以使得生成的摘要更好地表达出目标情绪,从而提升了情感表达能力。
在一种实现方式中,根据语义损失函数和情绪损失函数对第二视觉特征进行优化,得到所述第三视觉特征,包括:将语义损失函数和情绪损失函数按照预设权重进行求和,得到整体损失函数;根据整体损失函数对视觉转换特征的梯度对第二视觉特征进行优化,得到所述第三视觉特征。
本实施例描述了根据语义损失函数和情绪损失函数对第二视觉特征进行优化的具体过程。将语义损失函数和情绪损失函数按照预设权重进行求和,得到整体损失函数,这一步是为了将语义损失和情绪损失综合起来,以整体损失函数的形式对待;计算公式为:,其中,α可设置的超参,取值(0,1],一种优选的实现方式中α设置为1。计算整体损失函数对于视觉转换特征的梯度值,以确定梯度的方向;最后,根据梯度值对第二视觉特征进行调整和优化,以使整体损失函数达到最小值,从而达到对第二视觉特征的优化(如优化过程重复10-50次)。本实施例可以有效地根据情绪和语义信息对视觉特征进行调整,以生成符合目标情绪的摘要内容。
综上,对第二视觉特征进行优化得到第三视觉特征的流程如图5所示,通过预训练语言模型将第二视觉特征、候选文本摘要及情绪参考文本摘要分别编码得到视觉转换特征、候选文本摘要特征及情绪参考文本摘要特征;通过视觉转换特征和候选文本摘要特征计算语义损失函数;根据视觉转换特征和情绪参考文本摘要特征计算情绪损失函数;根据语义损失函数和情绪损失函数计算整体损失函数,计算整体损失函数对视觉转换特征的梯度,根据梯度对第二视觉特征进行优化,得到第三视觉特征。
在上述各个实施例的基础上,一个具体的确定目标情绪摘要特征的流程如图2所示,(1)输入视觉模态信息、提示文本信息、目标情绪信息;(2)提取视觉模态信息的第一视觉特征、提取提示文本信息对应的提示文本特征、提取目标情绪信息对应的目标情绪特征;(3)将第一视觉特征和提示文本特征进行整合,得到第一整合特征,利用预训练语言模型对第一整合特征进行编码,得到第一摘要特征,根据第一摘要特征生成候选摘要集;(4)根据目标情绪特征,从候选摘要集中筛选与目标情绪特征最匹配的文本摘要,将目标情绪特征最匹配的文本摘要确定为候选文本摘要;(5)提取候选文本摘要的候选文本摘要特征;(6)根据候选文本摘要特征对第一视觉特征进行特征增强,得到第二视觉特征;(7)根据目标情绪特征,从情绪文本摘要池中筛选情绪参考文本摘要,得到情绪参考文本摘要特征;(8)根据视觉转换特征、候选文本摘要特征及情绪参考文本摘要特征对第二视觉特征进行优化,得到第三视觉特征;(9)对第三视觉特征和候选文本摘要特征进行整合及编码,得到目标情绪摘要特征。
第二方面,本发明还提供了一种情绪引导的摘要生成系统,包括:
获取单元,用于获取用户输入的视觉模态信息和目标情绪信息,视觉模态信息包括图像信息或视频信息;
特征提取单元,用于对视觉模态信息进行编码得到第一摘要特征,以及提取目标情绪信息的目标情绪特征;
编码单元,用于对第一摘要特征及目标情绪特征进行整合并编码,得到目标情绪摘要特征;
摘要生成单元,用于根据目标情绪摘要特征生成与视觉模态信息对应的目标情绪摘要。
对于情绪引导的摘要生成系统的介绍请参照上述实施例,本发明在此不再赘述。
第三方面,本发明还提供了一种情绪引导的摘要生成装置,包括:
存储器,用于存储计算机程序;
处理器,用于在存储计算机程序时,实现上述的情绪引导的摘要生成方法的步骤。对于情绪引导的摘要生成装置的介绍请参照上述实施例,本发明在此不再赘述。
第四方面,本发明还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述的情绪引导的摘要生成方法的步骤。对于计算机可读存储介质的介绍请参照上述实施例,本发明在此不再赘述。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的状况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (19)

1.一种情绪引导的摘要生成方法,其特征在于,包括:
获取用户输入的视觉模态信息和目标情绪信息,所述视觉模态信息包括图像信息或视频信息;
对所述视觉模态信息进行编码得到第一摘要特征,以及提取所述目标情绪信息的目标情绪特征;
对所述第一摘要特征及所述目标情绪特征进行整合并编码,得到目标情绪摘要特征;
根据所述目标情绪摘要特征生成与所述视觉模态信息对应的目标情绪摘要;
对所述视觉模态信息进行编码得到第一摘要特征,包括:
提取所述视觉模态信息的第一视觉特征;
利用预训练语言模型对所述第一视觉特征进行编码,以将所述第一视觉特征映射到语义空间中,得到第一摘要特征;
对所述第一摘要特征及所述目标情绪特征进行整合并编码,得到目标情绪摘要特征,包括:
根据所述第一摘要特征生成候选摘要集,所述候选摘要集中包括多个文本摘要;
遍历所述候选摘要集中的各所述文本摘要,提取各所述文本摘要对应的文本摘要特征;
提取各个所述文本摘要特征中用于表征情绪的待比较情绪特征;
根据各所述待比较情绪特征和所述目标情绪特征的相似度,将相似度最大的待比较情绪特征对应的文本摘要确定为候选文本摘要;
提取所述候选文本摘要的候选文本摘要特征,对所述第一摘要特征和所述候选文本摘要特征进行整合及编码,得到所述目标情绪摘要特征。
2.如权利要求1所述的情绪引导的摘要生成方法,其特征在于,提取所述视觉模态信息的第一视觉特征之后,还包括:
获取用户输入的提示文本信息,提取所述提示文本信息对应的提示文本特征,所述提示文本信息用于提示所述预训练语言模型关注所述第一视觉特征中发生的事件或内容,以生成所述第一摘要特征;
将所述第一视觉特征和所述提示文本特征进行整合,得到第一整合特征;
利用预训练语言模型对所述第一视觉特征进行编码,得到第一摘要特征,包括:
利用所述预训练语言模型对所述第一整合特征进行编码,得到所述第一摘要特征。
3.如权利要求1所述的情绪引导的摘要生成方法,其特征在于,提取所述目标情绪信息的目标情绪特征,包括:
对所述目标情绪信息进行二值编码,得到目标情绪向量;
提取各个所述文本摘要特征中用于表征情绪的待比较情绪特征,包括:
将初始化的情绪查询向量和各个所述文本摘要特征输入至预设编码模型中,得到与各所述文本摘要特征对应的情绪分布向量,所述情绪分布向量为所述文本摘要特征中用于表征情绪的向量;
根据各所述待比较情绪特征和所述目标情绪特征的相似度将相似度最大的待比较情绪特征对应的文本摘要确定为所述候选文本摘要,包括:
根据各个所述情绪分布向量与所述目标情绪向量的相似度将相似度最大的情绪分布向量对应的文本摘要确定为所述候选文本摘要。
4.如权利要求3所述的情绪引导的摘要生成方法,其特征在于,所述预设编码模型的表达式为:
;其中,f e 为所述情绪分布向量,f eq 为所述情绪查询向量,f cap 为所述文本摘要特征,size(·)表示矩阵的维度,w k 为所述预设编码模型中的键学习参数,w q 为所述预设编码模型中的查询学习参数,w v 为所述预设编码模型中的值学习参数。
5.如权利要求3所述的情绪引导的摘要生成方法,其特征在于,将初始化的情绪查询向量和各个所述文本摘要特征输入至预设编码模型中,得到与各所述文本摘要特征对应的情绪分布向量之后,还包括:
将各个所述情绪分布向量进行转换,得到与所述目标情绪向量的维度相同的情绪判别向量;
根据各个所述情绪分布向量与所述目标情绪向量的相似度将相似度最大的情绪分布向量对应的文本摘要确定为所述候选文本摘要,包括:
根据各个所述情绪判别向量与所述目标情绪向量的相似度将相似度最大的情绪判别向量对应的文本摘要确定为所述候选文本摘要。
6.如权利要求5所述的情绪引导的摘要生成方法,其特征在于,根据各个所述情绪判别向量与所述目标情绪向量的相似度将相似度最大的情绪判别向量对应的文本摘要确定为所述候选文本摘要,包括:
计算各个所述情绪判别向量与所述目标情绪向量之间的欧氏距离;
将与所述目标情绪向量之间的欧氏距离最小的情绪判别向量对应的文本摘要确定为所述候选文本摘要。
7.如权利要求1-6任一项所述的情绪引导的摘要生成方法,其特征在于,提取所述候选文本摘要的候选文本摘要特征之后,还包括:
根据所述候选文本摘要特征对所述第一视觉特征进行特征增强,得到第二视觉特征;
对所述第一摘要特征和所述候选文本摘要特征进行整合及编码,得到所述目标情绪摘要特征,包括:
对所述第二视觉特征和所述候选文本摘要特征进行整合及编码,得到所述目标情绪摘要特征。
8.如权利要求7所述的情绪引导的摘要生成方法,其特征在于,根据所述候选文本摘要特征对所述第一视觉特征进行特征增强,得到第二视觉特征,包括:
将所述候选文本摘要特征和所述第一视觉特征进行整合,得到第二整合特征;
将所述第二整合特征输入至所述预训练语言模型中,得到特征增强后的第二整合特征;
对所述特征增强后的第二整合特征进行特征拆分提取,得到与所述视觉模态信息对应的所述第二视觉特征。
9.如权利要求8所述的情绪引导的摘要生成方法,其特征在于,对所述特征增强后的第二整合特征进行特征拆分提取之后,还包括:
根据拆分提取得到的图像交互特征确定图像摘要热度权重,所述图像交互特征为特征增强后的第二整合特征中与所述视觉模态信息对应的特征;
根据所述候选文本摘要特征对所述第一视觉特征进行特征增强,得到第二视觉特征,包括:
将所述图像摘要热度权重与所述第一视觉特征相乘,得到所述第二视觉特征。
10.如权利要求9所述的情绪引导的摘要生成方法,其特征在于,所述图像交互特征为二维向量,根据拆分提取得到的图像交互特征确定图像摘要热度权重,包括:
对所述图像交互特征进行向量维度转换,以将所述二维向量转换为一维向量,得到所述图像摘要热度权重。
11.如权利要求7所述的情绪引导的摘要生成方法,其特征在于,根据所述候选文本摘要特征对所述第一视觉特征进行特征增强,得到第二视觉特征之后,还包括:
根据所述候选文本摘要特征对所述第二视觉特征进行优化,得到第三视觉特征;
对所述第一摘要特征和所述候选文本摘要特征进行整合及编码,得到所述目标情绪摘要特征,包括:
对所述第三视觉特征和所述候选文本摘要特征进行整合及编码,得到所述目标情绪摘要特征。
12.如权利要求11所述的情绪引导的摘要生成方法,其特征在于,提取所述候选文本摘要的候选文本摘要特征,包括:
利用所述预训练语言模型对所述候选文本摘要进行编码,得到所述候选文本摘要特征;
利用所述预训练语言模型对所述第二视觉特征进行编码,得到视觉转换特征;
根据所述候选文本摘要特征对所述第二视觉特征进行优化,得到第三视觉特征,包括:
根据所述视觉转换特征和所述候选文本摘要特征对所述第二视觉特征进行优化,得到所述第三视觉特征;
其中,对所述第二视觉特征进行优化的过程中所述预训练语言模型的模型参数不变。
13.如权利要求12所述的情绪引导的摘要生成方法,其特征在于,根据所述视觉转换特征和所述候选文本摘要特征对所述第二视觉特征进行优化,得到所述第三视觉特征,包括:
根据所述视觉转换特征和所述候选文本摘要特征计算语义损失函数;
根据所述语义损失函数对所述第二视觉特征进行优化,得到所述第三视觉特征。
14.如权利要求12所述的情绪引导的摘要生成方法,其特征在于,根据所述视觉转换特征和所述候选文本摘要特征对所述第二视觉特征进行优化之前,还包括:
根据所述目标情绪信息从情绪文本摘要池中随机挑选一个与所述目标情绪信息的情绪相同的情绪参考文本摘要;
利用所述预训练语言模型对所述情绪参考文本摘要进行编码,得到情绪参考文本摘要特征;
根据所述视觉转换特征和所述候选文本摘要特征对所述第二视觉特征进行优化,得到所述第三视觉特征,包括:
根据所述视觉转换特征、所述候选文本摘要特征及所述情绪参考文本摘要特征对所述第二视觉特征进行优化,得到所述第三视觉特征。
15.如权利要求14所述的情绪引导的摘要生成方法,其特征在于,根据所述视觉转换特征、所述候选文本摘要特征及所述情绪参考文本摘要特征对所述第二视觉特征进行优化,得到所述第三视觉特征,包括:
根据所述视觉转换特征和所述候选文本摘要特征计算语义损失函数;
根据所述视觉转换特征和所述情绪参考文本摘要特征计算情绪损失函数;
根据所述语义损失函数和所述情绪损失函数对所述第二视觉特征进行优化,得到所述第三视觉特征。
16.如权利要求15所述的情绪引导的摘要生成方法,其特征在于,根据所述语义损失函数和所述情绪损失函数对所述第二视觉特征进行优化,得到所述第三视觉特征,包括:
将所述语义损失函数和所述情绪损失函数按照预设权重进行求和,得到整体损失函数;
根据所述整体损失函数对所述视觉转换特征的梯度对所述第二视觉特征进行优化,得到所述第三视觉特征。
17.一种情绪引导的摘要生成系统,其特征在于,包括:
获取单元,用于获取用户输入的视觉模态信息和目标情绪信息,所述视觉模态信息包括图像信息或视频信息;
特征提取单元,用于对所述视觉模态信息进行编码得到第一摘要特征,以及提取所述目标情绪信息的目标情绪特征;
编码单元,用于对所述第一摘要特征及所述目标情绪特征进行整合并编码,得到目标情绪摘要特征;
摘要生成单元,用于根据所述目标情绪摘要特征生成与所述视觉模态信息对应的目标情绪摘要;
所述特征提取单元,具体用于提取所述视觉模态信息的第一视觉特征;利用预训练语言模型对所述第一视觉特征进行编码,以将所述第一视觉特征映射到语义空间中,得到第一摘要特征,以及提取所述目标情绪信息的目标情绪特征;
所述编码单元,用于根据所述第一摘要特征生成候选摘要集,所述候选摘要集中包括多个文本摘要;遍历所述候选摘要集中的各所述文本摘要,提取各所述文本摘要对应的文本摘要特征;提取各个所述文本摘要特征中用于表征情绪的待比较情绪特征;根据各所述待比较情绪特征和所述目标情绪特征的相似度,将相似度最大的待比较情绪特征对应的文本摘要确定为候选文本摘要;提取所述候选文本摘要的候选文本摘要特征,对所述第一摘要特征和所述候选文本摘要特征进行整合及编码,得到所述目标情绪摘要特征。
18.一种情绪引导的摘要生成装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于在存储计算机程序时,实现权利要求1-16任一项所述的情绪引导的摘要生成方法的步骤。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-16任一项所述的情绪引导的摘要生成方法的步骤。
CN202410224873.4A 2024-02-29 2024-02-29 一种情绪引导的摘要生成方法、系统、装置及介质 Active CN117807995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410224873.4A CN117807995B (zh) 2024-02-29 2024-02-29 一种情绪引导的摘要生成方法、系统、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410224873.4A CN117807995B (zh) 2024-02-29 2024-02-29 一种情绪引导的摘要生成方法、系统、装置及介质

Publications (2)

Publication Number Publication Date
CN117807995A CN117807995A (zh) 2024-04-02
CN117807995B true CN117807995B (zh) 2024-06-04

Family

ID=90428201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410224873.4A Active CN117807995B (zh) 2024-02-29 2024-02-29 一种情绪引导的摘要生成方法、系统、装置及介质

Country Status (1)

Country Link
CN (1) CN117807995B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180025690A (ko) * 2016-09-01 2018-03-09 성균관대학교산학협력단 리뷰 데이터의 감성을 분류하기 위한 방법 및 장치
CN110325982A (zh) * 2017-11-24 2019-10-11 微软技术许可有限责任公司 在会话中提供多媒体文档的摘要
CN113795882A (zh) * 2019-09-27 2021-12-14 华为技术有限公司 基于情绪的多媒体内容概括
CN114503100A (zh) * 2020-01-30 2022-05-13 华为技术有限公司 将情绪相关元数据标注到多媒体文件的方法和装置
CN114639139A (zh) * 2022-02-16 2022-06-17 南京邮电大学 一种基于强化学习的情绪化图像描述方法及系统
CN116740691A (zh) * 2023-05-31 2023-09-12 清华大学 基于图像的情绪识别方法、装置、设备和存储介质
WO2024000867A1 (zh) * 2022-06-30 2024-01-04 浪潮电子信息产业股份有限公司 情绪识别方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220006926A (ko) * 2020-07-09 2022-01-18 삼성전자주식회사 요약 비디오를 생성하는 디바이스 및 방법
CN112417139B (zh) * 2020-11-19 2023-07-25 深圳大学 一种基于预训练语言模型的摘要生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180025690A (ko) * 2016-09-01 2018-03-09 성균관대학교산학협력단 리뷰 데이터의 감성을 분류하기 위한 방법 및 장치
CN110325982A (zh) * 2017-11-24 2019-10-11 微软技术许可有限责任公司 在会话中提供多媒体文档的摘要
CN113795882A (zh) * 2019-09-27 2021-12-14 华为技术有限公司 基于情绪的多媒体内容概括
CN114503100A (zh) * 2020-01-30 2022-05-13 华为技术有限公司 将情绪相关元数据标注到多媒体文件的方法和装置
CN114639139A (zh) * 2022-02-16 2022-06-17 南京邮电大学 一种基于强化学习的情绪化图像描述方法及系统
WO2024000867A1 (zh) * 2022-06-30 2024-01-04 浪潮电子信息产业股份有限公司 情绪识别方法、装置、设备及存储介质
CN116740691A (zh) * 2023-05-31 2023-09-12 清华大学 基于图像的情绪识别方法、装置、设备和存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation;Huaishao Luo 等;《arXiv》;20200915;第2020年卷;全文 *
基于双模态的视频非接触式情绪识别技术研究;粟立威;《万方》;20240122;第2024年卷;全文 *
基于语义感知的中文短文本摘要生成模型;倪海清;刘丹;史梦雨;;计算机科学;20200630;47(第6期);全文 *

Also Published As

Publication number Publication date
CN117807995A (zh) 2024-04-02

Similar Documents

Publication Publication Date Title
CN110119765B (zh) 一种基于Seq2seq框架的关键词提取方法
CN111339305B (zh) 文本分类方法、装置、电子设备及存储介质
CN106650813A (zh) 一种基于深度残差网络和lstm的图像理解方法
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN117493491A (zh) 一种基于机器学习的自然语言处理方法及系统
CN111666400B (zh) 消息获取方法、装置、计算机设备及存储介质
CN113837229B (zh) 一种知识驱动型的文本到图像生成方法
CN113705315B (zh) 视频处理方法、装置、设备及存储介质
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN113392265A (zh) 多媒体处理方法、装置及设备
CN116564338B (zh) 语音动画生成方法、装置、电子设备和介质
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN113407663B (zh) 基于人工智能的图文内容质量识别方法和装置
CN115858756A (zh) 基于感知情绪倾向的共情人机对话系统
CN116542817A (zh) 一种智能数字人律师咨询方法及系统
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN117807232A (zh) 商品分类方法、商品分类模型构建方法及装置
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN117807995B (zh) 一种情绪引导的摘要生成方法、系统、装置及介质
CN115203206A (zh) 数据内容搜索方法、装置、计算机设备及可读存储介质
CN112328774A (zh) 基于多文档的任务型人机对话任务的实现方法
CN113129399A (zh) 纹样生成
CN110969187A (zh) 一种图谱迁移的语义分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant