CN117095441A - 情绪信息处理方法、装置、设备、存储介质及产品 - Google Patents

情绪信息处理方法、装置、设备、存储介质及产品 Download PDF

Info

Publication number
CN117095441A
CN117095441A CN202311043669.4A CN202311043669A CN117095441A CN 117095441 A CN117095441 A CN 117095441A CN 202311043669 A CN202311043669 A CN 202311043669A CN 117095441 A CN117095441 A CN 117095441A
Authority
CN
China
Prior art keywords
emotion
face
target
intensity
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311043669.4A
Other languages
English (en)
Inventor
曹秋琦
沈招益
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311043669.4A priority Critical patent/CN117095441A/zh
Publication of CN117095441A publication Critical patent/CN117095441A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种情绪信息处理方法、装置、设备、存储介质及产品,属于人工智能技术领域。该情绪信息处理方法充分考虑到相关技术仅仅识别单张图像而忽视上下文信息导致的情绪类别识别不准确的问题,以及缺少情绪强度信息识别能力的问题,提出基于连续的图像序列一并分析出情绪类别信息和情绪强度信息的技术方案。具体来说,本申请实施例可以从目标视频中提取目标图像序列,该目标图像序列中每个目标图像都包括人脸,基于所述目标图像序列中的各目标图像自身的人脸特征信息和所述目标图像序列中的上下文信息,分析每一所述目标图像对应的情绪类别和情绪强度,从而得到对所述目标视频中的人物情绪的分析结果。

Description

情绪信息处理方法、装置、设备、存储介质及产品
技术领域
本申请涉及人工智能技术领域,特别涉及一种情绪信息处理方法、装置、设备、存储介质及产品。
背景技术
相关技术中通常利用深度学习技术进行人物情绪识别,主要的人物情绪识别方案基本都还是基于单一图片的人脸情绪识别方案,根据人脸情绪的识别结果来确定人物情绪。但是,相关技术仅支持针对单张图像的人物情绪识别,而现实场景或者视频场景中人物的情绪往往是动态的,仅依靠单张静态图片无法准确识别人物情绪,会导致人物情绪识别准确度的降低,从而使得相关技术的针对单张图像的人物情绪识别方案在实际应用的时候可能难以取得理想的效果。
而且,相关技术中仅仅识别情绪类别,并不能全面地刻画情绪,这可能产生由于情绪信息不全而导致问题,比如,可能会使得基于人物情绪识别结果执行的下游任务难以落地,或者影响下游任务的执行效果。
发明内容
本申请实施例提供了一种情绪信息处理方法、装置、设备、存储介质及产品,能够基于连续的图像序列一并分析出情绪类别信息和情绪强度信息,利用了上下文信息进行建模,提升了情绪类别预测准确度的上限,还可以分析出情绪强度信息,从而全面刻画情绪。
根据本申请实施例的一个方面,提供了一种情绪信息处理方法,所述方法包括:
在目标视频中提取目标图像序列,所述目标图像序列包括至少两个目标图像,各所述目标图像均包含第一人脸;
将所述目标图像序列输入情绪信息分析模型,触发所述情绪信息分析模型基于所述目标图像序列中的上下文信息输出情绪信息分析结果,所述情绪信息分析结果包括每一所述目标图像中所述第一人脸对应的情绪类别,和,每一所述目标图像中所述第一人脸对应的情绪强度。
根据本申请实施例的一个方面,提供了一种情绪信息处理装置,所述装置包括:
视频处理模块,用于在目标视频中提取目标图像序列,所述目标图像序列包括至少两个目标图像,各所述目标图像均包含第一人脸;
模型分析模块,用于将所述目标图像序列输入情绪信息分析模型,触发所述情绪信息分析模型基于所述目标图像序列中的上下文信息输出情绪信息分析结果,所述情绪信息分析结果包括每一所述目标图像中所述第一人脸对应的情绪类别,和,每一所述目标图像中所述第一人脸对应的情绪强度。
根据本申请实施例的一个方面,提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述情绪信息处理方法。
根据本申请实施例的一个方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述情绪信息处理方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机指令,所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取所述计算机指令,所述处理器执行所述计算机指令,使得所述计算机设备执行以实现上述情绪信息处理方法。
本申请实施例提供的技术方案可以带来如下有益效果:
本申请实施例提供一种情绪信息处理方法,该情绪信息处理方法充分考虑到相关技术仅仅识别单张图像而忽视上下文信息导致的情绪类别识别不准确的问题,以及缺少情绪强度信息识别能力的问题,提出基于连续的图像序列一并分析出情绪类别信息和情绪强度信息的技术方案。具体来说,本申请实施例可以从目标视频中提取目标图像序列,该目标图像序列中每个目标图像都包括人脸,基于所述目标图像序列中的各目标图像自身的人脸特征信息和所述目标图像序列中的上下文信息,分析每一所述目标图像对应的情绪类别和情绪强度,从而得到对所述目标视频中的人物情绪的分析结果。
本申请实施例提出的情绪信息处理方法针对前文提及的相关技术存在的两个缺点进行了很大的改进。
第一点,本申请实施例可以通过提取视频内同一个人物的人脸轨迹信息,从而形成目标图像序列,其包括连续的人脸图像,将一段连续的人脸图像输入情绪信息分析模型预测其情绪类别。由于本申请实施例提供的技术方案是利用了上下文信息进行建模的,可以充分地包含人物的情绪变化信息,从而提升了情绪类别预测准确度的上限,因此可以准确地预测人物真实的情绪类别。
第二点,相关技术方案仅能够提供人物的情绪类别信息,不能预测人物的情绪强度,情绪的变化。本申请实施例还可以分析出人物情绪的强度信息,从而完整刻画情绪信息。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的应用程序运行环境的示意图;
图2是本申请一个实施例提供的情绪信息处理方法的流程图;
图3是本申请一个实施例提供的目标图像序列提取方法流程示意图;
图4是本申请一个实施例提供的“valence and arousal”体系示意图;
图5是本申请一个实施例提供的情绪分析模型执行的操作流程示意图;
图6是本申请一个实施例提供的情绪分析模型的训练方法示意图;
图7是本申请一个实施例提供的预设模型运行逻辑示意图;
图8是本申请一个实施例提供的情绪强度波动示意图;
图9是本申请一个实施例提供的情绪信息处理装置的框图;
图10是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
在介绍本申请提供的方法实施例之前,先对本申请方法实施例中可能涉及的相关术语或者名词进行简要介绍,以便于本申请领域技术人员理解。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
深度学习:深度学习的概念源于人工神经网络的研究。含多隐层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学,更进一步地说,就是指用摄影机和电脑代替。人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
Transformer:是一种神经网络,它通过提取序列数据中的关系来学习上下文并因此学习含义。Transformer模型应用了一组不断发展的数学技术,称为注意力或自我注意力,以检测甚至是系列中遥远的数据元素相互影响和相互依赖的微妙方式。Transformer在机器学习和深度学习领域被广泛应用,并且应用效果十分突出。
人脸识别:是基于人的脸部特征信息进行身份识别的一种技术。
人脸检测:人脸检测是一种特殊的目标检测,它只检测人脸。它的任务是从一张图片中找到人脸的位置。
人脸情绪识别:人脸情绪识别指的是基于人的面部特征信息进行人物情绪分析的技术,目前可以分析的情绪类别包括22类,业界常用的情绪类别仅7类。分别是开心、悲伤、愤怒、中性、恶心,恐惧、惊讶。
视频人脸情绪识别:相关技术中进行人脸情绪识别使用的大多是单一图像,本申请实施例提供的是一种基于视频的人脸情绪识别方案,区别于相关技术中一般的人脸情绪识别只对单一画面的识别人脸情绪类别的技术方案。本申请实施例提出,现实中人物的情绪往往是连续的,动态的,仅凭一个静态画面难以准确识别情绪类别,也就是说,基于单一静态画面识别人脸情绪的准确率上限是很低的,因此本申请实施例提出利用视频中的上下文信息共同预测人脸的情绪类别,也就是基于视频人脸情绪识别的方式提升人脸情绪识别准确度的上限。
人脸情绪强度预测:本申请实施例提出,相关技术中的人脸情绪识别仅仅是识别到离散的情绪类别,但是人类的情绪除去类型之外还有其他的度量方式,因此人脸情绪还具备强度信息,因此,本申请实施例提出额外设置一个指标度量人脸情绪的强度,就是人脸的情绪强度值,人脸的情绪强度值是连续数值,也就是通过连续的数值度量人脸情绪的强烈程度和兴奋度,从而更加丰满地刻画人脸情绪。
人脸关键点:人脸面部区域中核心部位的中心点坐标,本申请实施例并不限定人脸关键点的设置方式,通常来说人脸关键点可以包括下述五个点:左眼,右眼、左嘴角、右边嘴角、鼻子的坐标。通过提取人脸关键点的位置的相关信息可以实现人脸特征的提取。
在具体阐述本申请实施例之前,对与本申请实施例有关的相关技术背景进行介绍,以便于本申请领域技术人员理解。
相关技术中通常利用深度学习技术进行人物情绪识别,主要的人物情绪识别方案基本都还是基于单一图片的人脸情绪识别方案,根据人脸情绪的识别结果来确定人物情绪。如果需要分析视频内人物的情绪,首先需要进行视频抽帧,逐帧地将图片送入人脸检测模块,获得人脸区域位置后,将人脸区域进行裁剪后输入一个深度卷积神经网络获得人脸区域的表征特征,再将该表征特征进行分类,不同类别代表不同的情绪。但是,这一基于单一图片的人脸情绪识别方案存在一些缺点:
第一,相关技术仅支持针对单张图像的人物情绪识别,而现实场景或者视频场景中人物的情绪往往是动态的,仅依靠单张静态图片无法准确识别人物情绪,而无法充分利用上下文的信息也会导致人物情绪识别准确度的降低,从而使得相关技术的针对单张图像的人物情绪识别方案在实际应用的时候可能难以取得理想的效果。
举个例子,如果实际的应用场景是使用长视频智能生产精彩的视频片段,则使用相关技术可能会出现人物情绪识别不准确的现象,从而使得智能生产出来的精彩的视频片段并不精彩。再比如,如果实际的应用场景是利用已有的视频制作一个搞笑合集,使用相关技术可能会将某些视频中的开心的情绪误识别为惊恐的情绪,从而导致最终制作出来的搞笑合集混入了其他情绪类别的视频片段。
第二,人物的情绪往往是波动的,有起伏的,相关技术中仅仅识别情绪类别,并不能全面地刻画情绪。情绪不仅有类别这个维度的信息还包括强度信息,如果不能识别出强度信息,则会使得基于人物情绪识别结果执行的下游任务难以落地,或者影响下游任务的执行效果。
举个例子,如果下游任务的实际的场景是自动进行表情包制作,如果在进行人物情绪识别的时候并没有分析出情绪的强度信息,则可能在表情包制作的时候选取的图片中的表情平平无奇,缺乏表现力,从而使得制作出来的表情包表现力差,互动潜力弱,而被用户放弃。
有鉴于此,本申请实施例提供一种情绪信息处理方法,该情绪信息处理方法充分考虑到相关技术仅仅识别单张图像而忽视上下文信息导致的情绪类别识别不准确的问题,以及缺少情绪强度信息识别能力的问题,提出基于连续的图像序列一并分析出情绪类别信息和情绪强度信息的技术方案。具体来说,本申请实施例可以从目标视频中提取目标图像序列,该目标图像序列中每个目标图像都包括人脸,基于上述目标图像序列中的各目标图像自身的人脸特征信息和上述目标图像序列中的上下文信息,分析每一上述目标图像对应的情绪类别和情绪强度,从而得到对上述目标视频中的人物情绪的分析结果。
本申请实施例提出的情绪信息处理方法针对前文提及的相关技术存在的两个缺点进行了很大的改进。
第一点,本申请实施例可以通过提取视频内同一个人物的人脸轨迹信息,从而形成目标图像序列,其包括连续的人脸图像,将一段连续的人脸图像输入情绪信息分析模型预测其情绪类别。由于本申请实施例提供的技术方案是利用了上下文信息进行建模的,可以充分地包含人物的情绪变化信息,从而提升了情绪类别预测准确度的上限,因此可以准确地预测人物真实的情绪类别。
第二点,相关技术方案仅能够提供人物的情绪类别信息,不能预测人物的情绪强度,情绪的变化。本申请实施例还可以分析出人物情绪的强度信息,从而完整刻画情绪信息。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
请参考图1,其示出了本申请一个实施例提供的应用程序运行环境的示意图。该应用程序运行环境可以包括:终端10和服务器20。
终端10包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备等电子设备。终端10中可以安装应用程序的客户端。
在本申请实施例中,上述应用程序可以是任何能够提供情绪信息处理服务的应用程序。典型地,该应用程序为视频类应用程序。当然,除了视频类应用程序之外,其它类型的应用程序中也可以提供依赖情绪信息处理的其他服务。例如,新闻类应用程序、社交类应用程序、互动娱乐类应用程序、浏览器应用程序、购物类应用程序、内容分享类应用程序、虚拟现实(Virtual Reality,VR)类应用程序、增强现实(Augmented Reality,AR)类应用程序等,本申请实施例对此不作限定。本申请实施例对此不作限定。可选地,终端10中运行有上述应用程序的客户端。
服务器20用于为终端10中的应用程序的客户端提供后台服务。例如,服务器20可以是上述应用程序的后台服务器。服务器20可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。可选地,服务器20同时为多个终端10中的应用程序提供后台服务。
可选地,终端10和服务器20之间可通过网络30进行互相通信。终端10以及服务器20可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
请参考图2,其示出了本申请一个实施例提供的情绪信息处理方法的流程图。该方法可应用于计算机设备中,上述计算机设备是指具备数据计算和处理能力的电子设备,如各步骤的执行主体可以是图1所示的应用程序运行环境中的服务器20。该方法可以包括以下几个步骤:
步骤201,在目标视频中提取目标图像序列,上述目标图像序列包括至少两个目标图像,各上述目标图像均包含第一人脸。
本申请实施例并不对目标视频的来源进行限定,比如,其可以是终端10拍摄的一段视频,也可以是来自视频内容库或者某一视频网站的视频。目标视频中的目标图像序列中包括多个目标图像的目的在于,本申请实施例通过提取上下文信息来提升情绪信息处理的准确度。本申请实施例基于人脸特征来进行情绪识别,因此,每个目标图像均包括人脸。本申请实施例中并不限定每个目标图像中所包括的人脸个数,但是各个目标图像中可以包括相同人脸,从而可以基于相同人脸识别该人脸体现的情绪变化规律。
本申请实施例中各上述目标图像都可以包括至少一个人脸,以其包括的任一人脸为例,将该任一人脸表达为第一人脸,即各上述目标图像均包含第一人脸,由于各个目标图像都包括该第一人脸,因此可以对该第一人脸的情绪变化规律进行分析,进而分析该第一人脸在各个目标图像中的情绪类别和情绪强度。
本申请实施例并不限定从目标视频中提取目标图像序列的方法,可以通过人脸轨迹提取的方式选取连续的一段图像帧序列,这样可以使得该图像帧序列包括人脸轨迹信息,或者通过人脸轨迹提取的方式间隔选取一段图像帧序列,或者通过人脸轨迹提取的方式顺序选取关键帧得到一段图像帧序列,基于图像帧序列得到目标图像序列。本申请实施例中图像帧序列中图像帧的先后顺序应当与其在目标视频中一致,并且每个图像帧都包括人脸。
本申请实施例并不限定目标图像序列除了该第一人脸之外还可以包括哪些内容,可以直接将图像帧序列作为目标图像序列。在一个实施例中也可以仅仅保留目标视频中连续出现的各个人脸,对其他位置进行遮蔽,形成目标图像序列。以各目标视频中仅存在第一人脸而不存在其他人脸为例,在一个实施例中也可以仅仅裁剪出目标视频中连续出现的第一人脸,形成目标图像序列。
在一个实施例中,请参考图3,其示出目标图像序列提取方法流程示意图。该方法包括:
S301.在上述目标视频中顺序提取图像帧,得到图像帧序列;
图像帧序列获取方法前文有述,在此不做赘言。
S302.对上述图像帧序列中的每个图像帧进行人脸识别,得到人脸识别结果,上述人脸识别结果中包括每个上述图像帧中第一人脸的位置信息;
本申请实施例并不限定人脸识别的具体方法,可以使用相关技术中的人脸识别模型。该人脸识别模型可以基于卷积神经网络、深度神经网络或者Transformer构建。
S303.基于上述人脸识别结果对各上述图像帧进行裁剪,得到每一上述图像帧对应的目标图像,上述图像帧对应的目标图像中包括上述图像帧中的第一人脸;
可以裁剪出来图像帧中的各个人脸,得到目标图像。如果该图像帧仅仅包括一个第一人脸,可以将该第一人脸直接裁剪出来,将其作为图像帧对应的目标图像。
S304.基于各上述图像帧分别对应的目标图像,得到上述目标图像序列。
基于各上述图像帧分别对应的目标图像,得到上述目标图像序列,使得目标图像序列中目标图像的先后顺序与其对应的图像帧在图像帧序列中的先后顺序保持一致。
S202.将上述目标图像序列输入情绪信息分析模型,触发上述情绪信息分析模型基于上述目标图像序列中的上下文信息输出情绪信息分析结果,上述情绪信息分析结果包括每一上述目标图像中上述第一人脸对应的情绪类别,和,每一上述目标图像中上述第一人脸对应的情绪强度。
本申请实施例指出通过情绪类别和情绪强度相结合的方式可以更加全面地刻画情绪信息。本申请实施例提出情绪是一种整体的感觉结构,其中不同的情绪状态可以通过他们在两个基本维度上的位置来描述,这两个基本维度分别是arousal维度和valence维度,即“valence and arousal”体系。arousal表示唤起度,表现了情绪幅度或者情绪程度,值越高,表示感情越剧烈;valence字面上是评价值,表示的是pleasant(高兴,满意)的程度,值高说明是积极的感情,否则是消极的感情。请参考图4,其实本申请实施例提出的“valence and arousal”体系示意图。该“valence and arousal”体系中横坐标即为valence维度,越往右说明越pleasant,越往左说明越unpleasant(不高兴),纵坐标表示的是情绪幅值,越往上越high,表示情绪高昂,越往下越low,表示情绪低落。不同位置的情绪,其情绪高兴程度和幅度都不同,从而形成了不同的情绪表现,比如,十分低落有点不高兴时,情绪表现可能疲惫(Tired)或者困倦(Sleepy),非常高亢但是不高兴时,情绪表现可能是恐惧(Afraid)或者警觉(Alarmed)。图4中各种英文名称都是专有名词,表示一种特定的情绪,在此不一一赘述。
上述内容充分说明通过两个维度的信息即可全面地刻画情绪,而且情绪幅值即情绪强度对于情绪的刻画而言非常重要。因此,本申请实施例通过情绪类别和情绪强度两个要素刻画情绪,得到了较为完善的情绪刻画结果——情绪信息分析结果。
当然,如果各目标图像还包括第二人脸,上述第二人脸与上述第一人脸为不同人脸;上述情绪信息分析结果还包括每一上述目标图像中上述第二人脸对应的情绪类别,和,每一上述目标图像中上述第二人脸对应的情绪强度。也就是说,本申请实施例也可以一次性输出目标图像序列中不同的各个人脸分别对应的情绪信息,该情绪信息包括情绪类别和情绪强度。
请参考图5,其示出情绪分析模型执行的操作流程示意图。上述将上述目标图像序列输入情绪信息分析模型,触发上述情绪信息分析模型基于上述目标图像序列中的上下文信息输出情绪信息分析结果,包括:
S501.对上述目标图像序列进行特征提取,得到每一上述目标图像中第一人脸对应的人脸特征;
本申请实施例并不限定进行特征提取的具体方式,比如可以通过单层或多层卷积的方式进行特征提取,也可以基于Transformer来进行特征提取,或者使用循环神经网络、深度神经网络、卷积神经网络等来提取。
S502.基于各上述目标图像分别对应的人脸特征,以及上述目标图像序列中的上下文信息,预测每一上述目标图像中上述第一人脸对应的情绪类别;
本申请实施例并不限定基于各上述目标图像分别对应的人脸特征,以及上述目标图像序列中的上下文信息,预测每一上述目标图像中上述第一人脸对应的情绪类别的具体方式,比如,可以直接将各人脸特征形成的序列输入Transformer的结构,基于该Transformer的结构中的相关神经网络层完成基于各单一人脸特征,和,人脸特征形成的序列的上下文信息的再次特征提取,然后基于特征提取的结果进行情绪类别预测。
在一个实施例中,可以对各上述目标图像分别对应的人脸特征进行图像内特征融合,得到每一上述目标图像对应的人脸融合特征;对各上述人脸融合特征进行基于上下文的图像间特征融合,得到人脸目标融合特征;基于上述人脸目标融合特征拟合每一上述目标图像中上述第一人脸对应的情绪类别。
本申请实施例并不对特征融合的具体方式进行限定,比如,可以使用下述至少一个方式:卷积、相乘、相加、通道内融合,拼接、降维,其中通道内融合对不同通道的数据可以使用下述至少一个方式处理:卷积、相乘、相加、拼接、降维。图像内特征融合使用的特征都对应于相同图像。图像间特征融合使用的特征可以对应于不同图像。
本申请实施例并不对基于上下文的图像间特征融合的具体方式进行限定,比如,可以使用循环神经网络、序列神经网络、Transformer进行图像间特征融合。
S503.基于各上述目标图像分别对应的人脸特征,以及上述目标图像序列中的上下文信息,预测每一上述目标图像中上述第一人脸对应的情绪强度。
本申请实施例并不限定基于各上述目标图像分别对应的人脸特征,以及上述目标图像序列中的上下文信息预测每一上述目标图像中上述第一人脸对应的情绪强度的具体方式,比如,可以直接将各人脸特征形成的序列输入Transformer的结构,基于该Transformer的结构中的相关神经网络层完成基于各单一人脸特征,和,人脸特征形成的序列的上下文信息的再次特征提取,然后基于特征提取的结果进行情绪强度预测。
在一个实施例中,可以对各上述目标图像分别对应的人脸特征进行图像内特征融合,得到每一上述目标图像对应的人脸融合特征;对各上述人脸融合特征进行基于上下文的图像间特征融合,得到人脸目标融合特征;基于上述人脸目标融合特征拟合每一上述目标图像中上述第一人脸对应的情绪强度。
请参考图6,其示出情绪分析模型的训练方法示意图。该方法包括:
S601.获取样本图像序列,上述样本图像序列包括至少两个样本图像,各上述样本图像均包含同一样本人脸;
样本图像序列的获取方法与目标图像序列获取方法基于相同发明构思,在此不做赘述。
S602.将上述样本图像序列输入预设模型,触发上述预设模型输出每一上述样本图像对应的人脸情绪类别和人脸情绪强度值;
该预设模型所执行的操作与前文的情绪分析模型执行的操作基于相同发明构思,在此不做赘述。请参考图7,其示出本申请实施例提出的预设模型运行逻辑示意图。图7中的英文名词含义如下:
H、W:分别代表输入的样本图像的长和宽;
T:代表的是输入的样本图像序列的时长维度,对应于样本图像数量;
Partition:指的是将一个样本图像分成多个子图,例如分成3*3的格子的子图;
Linear embedding:指的是提取单个样本图像的特征,通常用一个全连接层。
Patch merging:指的是把6*6的子图变成3*3的子图,这样样本图像的子图数量降低,同时降低计算量;
中间的Video swin transformer block指的就是使用目前通用的Transformer网络结构的变体swin Transformer进行特征的提取(refine);
C:特征的通道数量;
FC:全连接层,即Full Connection。
基于该预设模型,对输入的样本图像序列进行特征提取和上下文信息的利用,输出情绪分析结果,该情绪分析结果包括每个样本图像的人脸情绪类别和人脸情绪强度值(人脸图表情强度值)。
S603.根据每一上述样本图像对应的人脸情绪类别与上述样本图像对应的情绪类别标注之间的差异,得到情绪类别预测损失;
本申请实施例对可以预测出的类别不做限定,比如,可以预测下述七个类别:开心、悲伤、恐惧、中性、恶心、愤怒、惊讶。
本申请实施例并不对情绪类别预测损失的度量方法进行限定,比如,使用交叉熵损失即可度量,情绪类别预测损失可以视作一种普通的类别损失,使用人工智能领域机器学习时常见的用于度量类别预测损失的损失函数即可度量该情绪类别预测损失,对此本申请实施例不做赘述。
S604.根据各上述样本图像分别对应的人脸情绪强度值,与,上述样本图像序列对应的情绪强度波动参考信息,确定情绪强度预测损失,上述情绪强度波动参考信息用于指示相邻样本图像的情绪强度波动真实情况;
上述情绪强度波动参考信息用于指示相邻样本图像的情绪强度波动真实情况。请参考图8,其示出情绪强度波动示意图。图8左图体现的是相邻样本图像中前一个样本图像的内容,图8右图体现的是相邻样本图像中后一个样本图像的内容。图8左图中的人脸是轻微愤怒的状态,图8右图中的人脸是重度愤怒的状态。则情绪强度波动参考信息中与该图8对应的两个样本图像有关的信息指示的就是“情绪强度值递增”这一信息。
本申请实施例中的情绪强度预测损失体现的是情绪强度变化规律的预测情况和情绪强度变化规律的真实情况之间的差异,对于这一类差异的度量方式本申请实施例不做限定。在一个可行的实施方案中,上述根据各上述样本图像分别对应的人脸情绪强度值,与,上述样本图像序列对应的情绪强度波动参考信息,确定情绪强度预测损失,包括:
S801.根据各上述样本图像分别对应的人脸情绪强度值,得到样本情绪波动信息,上述样本情绪波动信息用于指示相邻样本图像的情绪强度波动预测情况;
样本情绪波动信息可以与情绪强度波动参考信息具备相同的表现方式,对此,本申请实施例不做限定。样本情绪波动信息和情绪强度波动参考信息分别表达的是情绪强度变化规律的预测情况和真实情况。
S802.根据上述样本情绪波动信息和上述情绪强度波动参考信息之间的相对性差异,确定上述情绪强度预测损失,上述相对性差异指的是数据增量变化趋势差异。
在一个实施例中,上述样本情绪波动信息包括情绪强度对序列,上述情绪强度对由相邻样本图像对应的两个人脸情绪强度值形成;上述情绪强度波动参考信息指示相邻样本图像的情绪强度的变化规律;则上述根据上述样本情绪波动信息和上述情绪强度波动参考信息之间的相对性差异,确定上述情绪强度预测损失,包括:根据上述情绪强度对序列和上述情绪强度波动参考信息之间的相对性差异,确定上述情绪强度预测损失。其中,上述根据上述情绪强度对序列和上述情绪强度波动参考信息之间的相对性差异,确定上述情绪强度预测损失,包括:
S8021.确定上述目标强度对中的人脸情绪强度值所对应的预测变化规律,上述目标强度对为上述情绪强度对序列中的任一强度对;
举个例子,假设样本图像有三个,分别为图像1、图像2和图像3,则其分别对应的人脸情绪强度值为强度1、强度2和强度3,则情绪强度对序列包括两个强度对,强度对1:{强度1、强度2}、强度对2:{强度2、强度3},对每个强度对都可以使用相同的处理方式,以目标强度对为强度对1进行说明,其对应的预测变化规律为强度1->强度2,如果强度1大于强度2,则预测变化规律指示强度减弱,如果强度1等于强度2,则预测变化规律指示强度不变,如果强度1小于强度2,则预测变化规律指示强度增强。
S8022.根据上述情绪强度波动参考信息,确定上述目标强度对对应的真实变化规律;
相应的,上述情绪强度波动参考信息与该情绪强度对序列具备相同的表现形式,因此,可以在其中提取出目标强度对对应的真实变化规律;该真实变化规律指示强度减弱、不变或者增强。
S8023.根据上述预测变化规律和上述真实变化规律之间的差异,确定上述目标强度对对应的相对性损失;上述情绪强度预测损失包括上述相对性损失。
如果预测变化规律与真实变化规律一致,则损失为零,否则将产生损失,该损失即为上述目标强度对对应的相对性损失。可以求取各个强度对对应的相对性损失,加和各相对性损失得到情绪强度预测损失。
在一个实施例中,还可以基于预设的排序损失函数,并结合情绪强度波动参考信息以及各样本图像对应的人脸情绪强度值来计算情绪强度预测损失,对于这一情绪强度损失的计算方法,通过下述内容进行详述:
假设ra、rp,rn分别代表了三个不同的样本,如果以ra为参照样本,rp是真实情绪强度值高于ra的样本,rn是真实情绪强度值低于ra的样本。
如果rp对应的人脸情绪强度值预测结果高于ra对应的人脸情绪强度值预测结果,这个时候Loss=0,反之Loss增大。
如果rn对应的人脸情绪强度值预测结果小于ra对应的人脸情绪强度值预测结果,这个时候Loss=0,反之Loss增大。
Loss=-(min(0,rp–ra)+max(0,rn–ra)),该Loss所对应的函数即为排序损失函数,通过这样的排序损失函数,约束所有样本对应的人脸情绪强度值预测结果符合样本之间的真实的情绪强度相对变化情况趋势。
本申请实施例的预设模型主要就是提取时序的样本人脸中的特征,并期望这个特征可以表示每一张样本人脸的情绪强度。在一段包括样本人脸的样本图像序列中,情绪强度最高的那一张样本图像的情绪强度对应的分数是高于其他所有样本图像的情绪强度对应的分数的,同理情绪最平淡情绪强度最低的那一张样本图像的情绪强度对应的分数也是低于其他所有样本图像的情绪强度对应的分数的。配合上面提及的排序损失函数很好的提供了这样的监督信号,指导预设模型最后输出情绪强度分数,在一个实施方式中该情绪强度分数可以通过一个全连接层输出,体现人脸情绪强度值。
S605.根据上述情绪类别预测损失和上述情绪强度预测损失,计算训练损失;
本申请实施例并不限定根据上述情绪类别预测损失和上述情绪强度预测损失,计算训练损失的具体方法,比如,可以使用加权求和法,当然,权值可以自行设定,本申请不做赘述。
S606.根据上述训练损失调整上述预设模型的参数,得到上述情绪信息分析模型。
本申请实施例中可以基于梯度下降法对参数进行调整。梯度下降法是机器学习和深度学习领域中进行网络参数调整时经常使用的、通过梯度下降的方式对网络参数进行一阶最优化调整的方法。本申请实施例中梯度下降法可以引导上述参数向减少训练损失的方向进行调整。当调整次数达到预设的次数阈值,或者当损失小于预设的损失阈值的情况下,停止调参,得到上述情绪信息分析模型。
本申请实施例提供一种情绪信息处理方法,该情绪信息处理方法充分考虑到相关技术仅仅识别单张图像而忽视上下文信息导致的情绪类别识别不准确的问题,以及缺少情绪强度信息识别能力的问题,提出基于连续的图像序列一并分析出情绪类别信息和情绪强度信息的技术方案。具体来说,本申请实施例可以从目标视频中提取目标图像序列,该目标图像序列中每个目标图像都包括人脸,基于上述目标图像序列中的各目标图像自身的人脸特征信息和上述目标图像序列中的上下文信息,分析每一上述目标图像对应的情绪类别和情绪强度,从而得到对上述目标视频中的人物情绪的分析结果。
本申请实施例提出的情绪信息处理方法针对前文提及的相关技术存在的两个缺点进行了很大的改进。
第一点,本申请实施例提供的技术方案是利用了上下文信息进行建模的,可以充分的包含人物的情绪变化信息,从而提升了情绪类别预测准确度的上限,因此可以准确地预测人物真实的情绪类别。经过相关测试,本申请实施例比基于单张人脸图进行情绪识别的方案的准确度提高约10%。
第二点,相关技术方案仅能够提供人物的情绪类别信息,不能预测人物的情绪强度,情绪的变化。本申请实施例还可以分析出人物情绪的强度信息,从而完整刻画情绪信息。
本申请可以在各种需要进行情绪分析的场景中被广泛地使用。举个例子,可以基于本申请提及的情绪信息处理方法对长视频自动生产精彩的短视频片段,并将其投放至用户侧,从而为相关应用进行长视频引流和拉新。具体来说,使用本申请提及的情绪信息处理方法,可以自动分析出长视频中具备特定情绪的片段,通过投放该片段,或者基于这一类特定情绪片段进行二次创作,投放二次创作的结果,为相关应用进行长视频引流和拉新。比如,可以基于明星1主演的长视频自动制作出明星1的落泪合集,或者自动、高效地找到长视频内的悲伤片段,还可以制作悲伤混剪等。
再举个例子,可以基于本申请提及的情绪信息处理方法自动进行明星表情包制作,用于视频应用的社区、讨论区,为粉丝,观影者提供可以使用的素材,提高视频应用内社区和讨论区的活跃度。具体来说,可以自动且快速的找到视频应用内长视频中明星情绪爆点,表情夸张点的时间点,并将该视频素材进行裁剪得到可以用的明星素材,从而进行明星表情包的制作。本申请实施例可以对同一个情绪类别中不同时刻的人脸情绪进行打分,分数的高低代表了情绪的强度,分数越高情绪强度越强。这样就可以得到情绪最强烈,最高潮的时刻下的人脸图像,基于该人脸图像制作的表情包的接受度提高了至少20%。
下述为本申请装置实施例,可用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图9,其示出了本申请一个实施例提供的情绪信息处理装置的框图。该装置具有实现上述情绪信息处理方法的功能,上述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置在计算机设备中。该装置可以包括:
视频处理模块901,用于在目标视频中提取目标图像序列,上述目标图像序列包括至少两个目标图像,各上述目标图像均包含第一人脸;
模型分析模块902,用于将上述目标图像序列输入情绪信息分析模型,触发上述情绪信息分析模型基于上述目标图像序列中的上下文信息输出情绪信息分析结果,上述情绪信息分析结果包括每一上述目标图像中上述第一人脸对应的情绪类别,和,每一上述目标图像中上述第一人脸对应的情绪强度。
在一个实施例中,上述模型分析模块902,用于执行下述操作:
将上述目标图像序列输入上述情绪信息分析模型,触发上述情绪信息分析模型执行下述操作:
对上述目标图像序列进行特征提取,得到每一上述目标图像中第一人脸对应的人脸特征;
基于各上述目标图像分别对应的人脸特征,以及上述目标图像序列中的上下文信息,预测每一上述目标图像中上述第一人脸对应的情绪类别;
基于各上述目标图像分别对应的人脸特征,以及上述目标图像序列中的上下文信息,预测每一上述目标图像中上述第一人脸对应的情绪强度。
在一个实施例中,上述视频处理模块901,用于执行下述操作:
在上述目标视频中顺序提取图像帧,得到图像帧序列;
对上述图像帧序列中的每个图像帧进行人脸识别,得到人脸识别结果,上述人脸识别结果中包括每个上述图像帧中第一人脸的位置信息;
基于上述人脸识别结果对各上述图像帧进行裁剪,得到每一上述图像帧对应的目标图像,上述图像帧对应的目标图像中包括上述图像帧中的第一人脸;
基于各上述图像帧分别对应的目标图像,得到上述目标图像序列。
在一个实施例中,上述目标图像序列中各上述目标图像均包含第二人脸,上述第二人脸与上述第一人脸为不同人脸;
上述情绪信息分析结果还包括每一上述目标图像中上述第二人脸对应的情绪类别,和,每一上述目标图像中上述第二人脸对应的情绪强度。
在一个实施例中,上述模型分析模块902,用于执行下述操作:
对各上述目标图像分别对应的人脸特征进行图像内特征融合,得到每一上述目标图像对应的人脸融合特征;
对各上述人脸融合特征进行基于上下文的图像间特征融合,得到人脸目标融合特征;
基于上述人脸目标融合特征拟合每一上述目标图像中上述第一人脸对应的情绪类别;
上述基于各上述目标图像分别对应的人脸特征,以及上述目标图像序列中的上下文信息,预测每一上述目标图像中上述第一人脸对应的情绪强度,包括:
基于上述人脸目标融合特征拟合每一上述目标图像中上述第一人脸对应的情绪强度。
在一个实施例中,上述模型分析模块902,用于执行下述操作:
获取样本图像序列,上述样本图像序列包括至少两个样本图像,各上述样本图像均包含同一样本人脸;
将上述样本图像序列输入预设模型,触发上述预设模型输出每一上述样本图像对应的人脸情绪类别和人脸情绪强度值;
根据每一上述样本图像对应的人脸情绪类别与上述样本图像对应的情绪类别标注之间的差异,得到情绪类别预测损失;
根据各上述样本图像分别对应的人脸情绪强度值,与,上述样本图像序列对应的情绪强度波动参考信息,确定情绪强度预测损失,上述情绪强度波动参考信息用于指示相邻样本图像的情绪强度波动真实情况;
根据上述情绪类别预测损失和上述情绪强度预测损失,计算训练损失;
根据上述训练损失调整上述预设模型的参数,得到上述情绪信息分析模型。
在一个实施例中,上述模型分析模块902,用于执行下述操作:
根据各上述样本图像分别对应的人脸情绪强度值,得到样本情绪波动信息,上述样本情绪波动信息用于指示相邻样本图像的情绪强度波动预测情况;
根据上述样本情绪波动信息和上述情绪强度波动参考信息之间的相对性差异,确定上述情绪强度预测损失,上述相对性差异指的是数据增量变化趋势差异。
在一个实施例中,上述模型分析模块902,用于执行下述操作:
上述情绪强度波动参考信息指示相邻样本图像的情绪强度的变化规律;
上述根据上述样本情绪波动信息和上述情绪强度波动参考信息之间的相对性差异,确定上述情绪强度预测损失,包括:根据上述情绪强度对序列和上述情绪强度波动参考信息之间的相对性差异,确定上述情绪强度预测损失。
在一个实施例中,上述模型分析模块902,用于执行下述操作:
确定上述目标强度对中的人脸情绪强度值所对应的预测变化规律,上述目标强度对为上述情绪强度对序列中的任一强度对;
根据上述情绪强度波动参考信息,确定上述目标强度对对应的真实变化规律;
根据上述预测变化规律和上述真实变化规律之间的差异,确定上述目标强度对对应的相对性损失;上述情绪强度预测损失包括上述相对性损失。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图10,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可以是服务器,以用于执行上述情绪信息处理方法。具体来讲:
计算机设备1000包括中央处理单元(Central Processing Unit,CPU)1001、包括随机存取存储器(Random Access Memory,RAM)1002和只读存储器(Read Only Memory,ROM)1003的系统存储器1004,以及连接系统存储器1004和中央处理单元1001的系统总线1005。计算机设备1000还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O(Input/Output)系统)1006,和用于存储操作系统1013、应用程序1014和其他程序模块1015的大容量存储设备1007。
基本输入/输出系统1006包括有用于显示信息的显示器1008和用于用户输入信息的诸如鼠标、键盘之类的输入设备1009。其中显示器1008和输入设备1009都通过连接到系统总线1005的输入输出控制器1010连接到中央处理单元1001。基本输入/输出系统1006还可以包括输入输出控制器1010以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1010还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备1007通过连接到系统总线1005的大容量存储控制器(未示出)连接到中央处理单元1001。大容量存储设备1007及其相关联的计算机可读介质为计算机设备1000提供非易失性存储。也就是说,大容量存储设备1007可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory,电可擦可编程只读存储器)、闪存或其他固态存储其技术,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1004和大容量存储设备1007可以统称为存储器。
根据本申请的各种实施例,计算机设备1000还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1000可以通过连接在系统总线1005上的网络接口单元1011连接到网络1012,或者说,也可以使用网络接口单元1011来连接到其他类型的网络或远程计算机系统(未示出)。
上述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述情绪信息处理方法。
在示例性实施例中,还提供了一种计算机可读存储介质,上述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,上述至少一条指令、上述至少一段程序、上述代码集或上述指令集在被处理器执行时以实现上述情绪信息处理方法。
具体地,该情绪信息处理方法包括:
在目标视频中提取目标图像序列,上述目标图像序列包括至少两个目标图像,各上述目标图像均包含第一人脸;
将上述目标图像序列输入情绪信息分析模型,触发上述情绪信息分析模型基于上述目标图像序列中的上下文信息输出情绪信息分析结果,上述情绪信息分析结果包括每一上述目标图像中上述第一人脸对应的情绪类别,和,每一上述目标图像中上述第一人脸对应的情绪强度。
在一个实施例中,上述将上述目标图像序列输入情绪信息分析模型,触发上述情绪信息分析模型基于上述目标图像序列中的上下文信息输出情绪信息分析结果,包括:
将上述目标图像序列输入上述情绪信息分析模型,触发上述情绪信息分析模型执行下述操作:
对上述目标图像序列进行特征提取,得到每一上述目标图像中第一人脸对应的人脸特征;
基于各上述目标图像分别对应的人脸特征,以及上述目标图像序列中的上下文信息,预测每一上述目标图像中上述第一人脸对应的情绪类别;
基于各上述目标图像分别对应的人脸特征,以及上述目标图像序列中的上下文信息,预测每一上述目标图像中上述第一人脸对应的情绪强度。
在一个实施例中,上述在目标视频中提取目标图像序列,包括:
在上述目标视频中顺序提取图像帧,得到图像帧序列;
对上述图像帧序列中的每个图像帧进行人脸识别,得到人脸识别结果,上述人脸识别结果中包括每个上述图像帧中第一人脸的位置信息;
基于上述人脸识别结果对各上述图像帧进行裁剪,得到每一上述图像帧对应的目标图像,上述图像帧对应的目标图像中包括上述图像帧中的第一人脸;
基于各上述图像帧分别对应的目标图像,得到上述目标图像序列。
在一个实施例中,上述目标图像序列中各上述目标图像均包含第二人脸,上述第二人脸与上述第一人脸为不同人脸;
上述情绪信息分析结果还包括每一上述目标图像中上述第二人脸对应的情绪类别,和,每一上述目标图像中上述第二人脸对应的情绪强度。
在一个实施例中,上述基于各上述目标图像分别对应的人脸特征,以及上述目标图像序列中的上下文信息,预测每一上述目标图像中上述第一人脸对应的情绪类别,包括:
对各上述目标图像分别对应的人脸特征进行图像内特征融合,得到每一上述目标图像对应的人脸融合特征;
对各上述人脸融合特征进行基于上下文的图像间特征融合,得到人脸目标融合特征;
基于上述人脸目标融合特征拟合每一上述目标图像中上述第一人脸对应的情绪类别;
上述基于各上述目标图像分别对应的人脸特征,以及上述目标图像序列中的上下文信息,预测每一上述目标图像中上述第一人脸对应的情绪强度,包括:
基于上述人脸目标融合特征拟合每一上述目标图像中上述第一人脸对应的情绪强度。
在一个实施例中,上述情绪信息分析模型通过下述方法训练得到:
获取样本图像序列,上述样本图像序列包括至少两个样本图像,各上述样本图像均包含同一样本人脸;
将上述样本图像序列输入预设模型,触发上述预设模型输出每一上述样本图像对应的人脸情绪类别和人脸情绪强度值;
根据每一上述样本图像对应的人脸情绪类别与上述样本图像对应的情绪类别标注之间的差异,得到情绪类别预测损失;
根据各上述样本图像分别对应的人脸情绪强度值,与,上述样本图像序列对应的情绪强度波动参考信息,确定情绪强度预测损失,上述情绪强度波动参考信息用于指示相邻样本图像的情绪强度波动真实情况;
根据上述情绪类别预测损失和上述情绪强度预测损失,计算训练损失;
根据上述训练损失调整上述预设模型的参数,得到上述情绪信息分析模型。
在一个实施例中,上述根据各上述样本图像分别对应的人脸情绪强度值,与,上述样本图像序列对应的情绪强度波动参考信息,确定情绪强度预测损失,包括:
根据各上述样本图像分别对应的人脸情绪强度值,得到样本情绪波动信息,上述样本情绪波动信息用于指示相邻样本图像的情绪强度波动预测情况;
根据上述样本情绪波动信息和上述情绪强度波动参考信息之间的相对性差异,确定上述情绪强度预测损失,上述相对性差异指的是数据增量变化趋势差异。
在一个实施例中,上述样本情绪波动信息包括情绪强度对序列,上述情绪强度对由相邻样本图像对应的两个人脸情绪强度值形成;
上述情绪强度波动参考信息指示相邻样本图像的情绪强度的变化规律;
上述根据上述样本情绪波动信息和上述情绪强度波动参考信息之间的相对性差异,确定上述情绪强度预测损失,包括:根据上述情绪强度对序列和上述情绪强度波动参考信息之间的相对性差异,确定上述情绪强度预测损失。
在一个实施例中,上述根据上述情绪强度对序列和上述情绪强度波动参考信息之间的相对性差异,确定上述情绪强度预测损失,包括:
确定上述目标强度对中的人脸情绪强度值所对应的预测变化规律,上述目标强度对为上述情绪强度对序列中的任一强度对;
根据上述情绪强度波动参考信息,确定上述目标强度对对应的真实变化规律;
根据上述预测变化规律和上述真实变化规律之间的差异,确定上述目标强度对对应的相对性损失;上述情绪强度预测损失包括上述相对性损失。
可选地,该计算机可读存储介质可以包括:ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取记忆体)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述情绪信息处理方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
另外,在本申请的具体实施方式中,涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (12)

1.一种情绪信息处理方法,其特征在于,所述方法包括:
在目标视频中提取目标图像序列,所述目标图像序列包括至少两个目标图像,各所述目标图像均包含第一人脸;
将所述目标图像序列输入情绪信息分析模型,触发所述情绪信息分析模型基于所述目标图像序列中的上下文信息输出情绪信息分析结果,所述情绪信息分析结果包括每一所述目标图像中所述第一人脸对应的情绪类别,和,每一所述目标图像中所述第一人脸对应的情绪强度。
2.根据权利要求1所述的方法,其特征在于,所述将所述目标图像序列输入情绪信息分析模型,触发所述情绪信息分析模型基于所述目标图像序列中的上下文信息输出情绪信息分析结果,包括:
将所述目标图像序列输入所述情绪信息分析模型,触发所述情绪信息分析模型执行下述操作:
对所述目标图像序列进行特征提取,得到每一所述目标图像中第一人脸对应的人脸特征;
基于各所述目标图像分别对应的人脸特征,以及所述目标图像序列中的上下文信息,预测每一所述目标图像中所述第一人脸对应的情绪类别;
基于各所述目标图像分别对应的人脸特征,以及所述目标图像序列中的上下文信息,预测每一所述目标图像中所述第一人脸对应的情绪强度。
3.根据权利要求1或2所述的方法,其特征在于,所述在目标视频中提取目标图像序列,包括:
在所述目标视频中顺序提取图像帧,得到图像帧序列;
对所述图像帧序列中的每个图像帧进行人脸识别,得到人脸识别结果,所述人脸识别结果中包括每个所述图像帧中第一人脸的位置信息;
基于所述人脸识别结果对各所述图像帧进行裁剪,得到每一所述图像帧对应的目标图像,所述图像帧对应的目标图像中包括所述图像帧中的第一人脸;
基于各所述图像帧分别对应的目标图像,得到所述目标图像序列。
4.根据权利要求3所述的方法,其特征在于,所述目标图像序列中各所述目标图像均包含第二人脸,所述第二人脸与所述第一人脸为不同人脸;
所述情绪信息分析结果还包括每一所述目标图像中所述第二人脸对应的情绪类别,和,每一所述目标图像中所述第二人脸对应的情绪强度。
5.根据权利要求2所述的方法,其特征在于,所述基于各所述目标图像分别对应的人脸特征,以及所述目标图像序列中的上下文信息,预测每一所述目标图像中所述第一人脸对应的情绪类别,包括:
对各所述目标图像分别对应的人脸特征进行图像内特征融合,得到每一所述目标图像对应的人脸融合特征;
对各所述人脸融合特征进行基于上下文的图像间特征融合,得到人脸目标融合特征;
基于所述人脸目标融合特征拟合每一所述目标图像中所述第一人脸对应的情绪类别;
所述基于各所述目标图像分别对应的人脸特征,以及所述目标图像序列中的上下文信息,预测每一所述目标图像中所述第一人脸对应的情绪强度,包括:
基于所述人脸目标融合特征拟合每一所述目标图像中所述第一人脸对应的情绪强度。
6.根据权利要求1所述的方法,其特征在于,所述情绪信息分析模型通过下述方法训练得到:
获取样本图像序列,所述样本图像序列包括至少两个样本图像,各所述样本图像均包含同一样本人脸;
将所述样本图像序列输入预设模型,触发所述预设模型输出每一所述样本图像对应的人脸情绪类别和人脸情绪强度值;
根据每一所述样本图像对应的人脸情绪类别与所述样本图像对应的情绪类别标注之间的差异,得到情绪类别预测损失;
根据各所述样本图像分别对应的人脸情绪强度值,与,所述样本图像序列对应的情绪强度波动参考信息,确定情绪强度预测损失,所述情绪强度波动参考信息用于指示相邻样本图像的情绪强度波动真实情况;
根据所述情绪类别预测损失和所述情绪强度预测损失,计算训练损失;
根据所述训练损失调整所述预设模型的参数,得到所述情绪信息分析模型。
7.根据权利要求6所述的方法,其特征在于,所述根据各所述样本图像分别对应的人脸情绪强度值,与,所述样本图像序列对应的情绪强度波动参考信息,确定情绪强度预测损失,包括:
根据各所述样本图像分别对应的人脸情绪强度值,得到样本情绪波动信息,所述样本情绪波动信息用于指示相邻样本图像的情绪强度波动预测情况;
根据所述样本情绪波动信息和所述情绪强度波动参考信息之间的相对性差异,确定所述情绪强度预测损失,所述相对性差异指的是数据增量变化趋势差异。
8.根据权利要求7所述的方法,其特征在于,所述样本情绪波动信息包括情绪强度对序列,所述情绪强度对由相邻样本图像对应的两个人脸情绪强度值形成;所述情绪强度波动参考信息指示相邻样本图像的情绪强度的变化规律;
所述根据所述样本情绪波动信息和所述情绪强度波动参考信息之间的相对性差异,确定所述情绪强度预测损失,包括:根据所述情绪强度对序列和所述情绪强度波动参考信息之间的相对性差异,确定所述情绪强度预测损失。
9.根据权利要求8所述的方法,其特征在于,所述根据所述情绪强度对序列和所述情绪强度波动参考信息之间的相对性差异,确定所述情绪强度预测损失,包括:
确定所述目标强度对中的人脸情绪强度值所对应的预测变化规律,所述目标强度对为所述情绪强度对序列中的任一强度对;
根据所述情绪强度波动参考信息,确定所述目标强度对对应的真实变化规律;
根据所述预测变化规律和所述真实变化规律之间的差异,确定所述目标强度对对应的相对性损失;所述情绪强度预测损失包括所述相对性损失。
10.一种情绪信息处理装置,其特征在于,所述装置包括:
视频处理模块,用于在目标视频中提取目标图像序列,所述目标图像序列包括至少两个目标图像,各所述目标图像均包含第一人脸;
模型分析模块,用于将所述目标图像序列输入情绪信息分析模型,触发所述情绪信息分析模型基于所述目标图像序列中的上下文信息输出情绪信息分析结果,所述情绪信息分析结果包括每一所述目标图像中所述第一人脸对应的情绪类别,和,每一所述目标图像中所述第一人脸对应的情绪强度。
11.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至9任一项所述的情绪信息处理方法。
12.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至9任一项所述的情绪信息处理方法。
CN202311043669.4A 2023-08-18 2023-08-18 情绪信息处理方法、装置、设备、存储介质及产品 Pending CN117095441A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311043669.4A CN117095441A (zh) 2023-08-18 2023-08-18 情绪信息处理方法、装置、设备、存储介质及产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311043669.4A CN117095441A (zh) 2023-08-18 2023-08-18 情绪信息处理方法、装置、设备、存储介质及产品

Publications (1)

Publication Number Publication Date
CN117095441A true CN117095441A (zh) 2023-11-21

Family

ID=88772659

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311043669.4A Pending CN117095441A (zh) 2023-08-18 2023-08-18 情绪信息处理方法、装置、设备、存储介质及产品

Country Status (1)

Country Link
CN (1) CN117095441A (zh)

Similar Documents

Publication Publication Date Title
Gurari et al. Captioning images taken by people who are blind
US11409791B2 (en) Joint heterogeneous language-vision embeddings for video tagging and search
CN112131350B (zh) 文本标签确定方法、装置、终端及可读存储介质
CN116935169B (zh) 文生图模型训练方法以及文生图方法
CN110234018B (zh) 多媒体内容描述生成方法、训练方法、装置、设备及介质
CN111708941A (zh) 内容推荐方法、装置、计算机设备和存储介质
CN116824278B (zh) 图像内容分析方法、装置、设备和介质
CN111783903B (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN113722474A (zh) 文本分类方法、装置、设备及存储介质
CN110362663A (zh) 自适应多感知相似度检测和解析
CN111191041A (zh) 特征数据获取方法、数据存储方法、装置、设备及介质
CN116955707A (zh) 内容标签的确定方法、装置、设备、介质及程序产品
Fan Criminal psychology trend prediction based on deep learning algorithm and three-dimensional convolutional neural network
CN115269781A (zh) 模态关联度预测方法、装置、设备、存储介质及程序产品
CN110532562A (zh) 神经网络训练方法、成语误用检测方法、装置和电子设备
CN114329004A (zh) 数字指纹生成、数据推送方法、装置和存储介质
CN113705293A (zh) 图像场景的识别方法、装置、设备及可读存储介质
CN113573128A (zh) 一种音频处理方法、装置、终端以及存储介质
Gorokhovatskyi et al. Recursive division of image for explanation of shallow CNN models
CN117095441A (zh) 情绪信息处理方法、装置、设备、存储介质及产品
CN113821498A (zh) 数据的筛选方法、装置、设备及介质
CN112084331B (zh) 文本处理、模型训练方法、装置、计算机设备和存储介质
CN118227910B (zh) 一种媒体资源聚合方法、装置、设备及存储介质
CN113792871B (zh) 神经网络训练方法、目标识别方法、装置和电子设备
Rodrigues et al. Recognizing Emotions from Voice: A Prototype

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication