CN116257816A - 一种陪护机器人情绪识别方法、装置、存储介质及设备 - Google Patents

一种陪护机器人情绪识别方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN116257816A
CN116257816A CN202310018201.3A CN202310018201A CN116257816A CN 116257816 A CN116257816 A CN 116257816A CN 202310018201 A CN202310018201 A CN 202310018201A CN 116257816 A CN116257816 A CN 116257816A
Authority
CN
China
Prior art keywords
emotion
voice
emotion recognition
text
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310018201.3A
Other languages
English (en)
Inventor
王方
秦建军
李欣
张艳娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Civil Engineering and Architecture
Original Assignee
Beijing University of Civil Engineering and Architecture
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Civil Engineering and Architecture filed Critical Beijing University of Civil Engineering and Architecture
Priority to CN202310018201.3A priority Critical patent/CN116257816A/zh
Publication of CN116257816A publication Critical patent/CN116257816A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例公开一种陪护机器人情绪识别方法、装置、存储介质及设备,方法包括:基于图像情绪识别模型提取人脸图像中的人脸图像情绪特征;基于语音情绪识别模型提取语音信息和嘴巴图像中的语音情绪特征;基于文本情绪识别模型提取语音信息对应的文本信息进中的文本情绪特征;将上述三种情绪特征进行融合获得第一融合情绪特征;基于脉搏波情绪识别模型提取脉搏波中的脉搏波情绪特征,将脉搏波情绪特征与第一融合情绪特征进行融合获得第二融合情绪特征;根据图像情绪识别模型的图像情绪识别结果、语音情绪识别模型的语音情绪识别结果、文本情绪识别模型的文本情绪识别结果和脉搏波情绪识别模型的脉搏波情绪识别结果,确定目标情绪。

Description

一种陪护机器人情绪识别方法、装置、存储介质及设备
技术领域
本申请实施例属于人工智能技术领域,尤其涉及一种陪护机器人情绪识别方法、装置、存储介质及设备。
背景技术
情感计算是陪护机器人中用于识别人的情绪的关键技术之一。目前出现的方法包括通过人脸微表情的识别方法,通过语音语调的识别方法等非生理信号识别方法,但这些方法都是出现在陪护机器人场景中一个单一信号源的应用,如仅通过人脸微表情识别情绪,或者仅通过人说话的语音语调识别情绪,而人类是非常复杂的,其很有可能因为某种原因掩盖自己内心的实际情绪,从而导致情绪识别错误。
发明内容
本申请提供了一种陪护机器人情绪识别方法、装置、存储介质及设备,能够提高情绪识别的准确性。
具体的技术方案如下:
第一方面,本申请实施例提供了一种陪护机器人情绪识别方法,所述方法包括:
基于图像情绪识别模型对目标人物的人脸图像进行特征提取,获得人脸图像情绪特征;
基于语音情绪识别模型对所述目标人物的语音信息和嘴巴图像进行特征提取,获得语音情绪特征;
基于文本情绪识别模型对所述语音信息对应的文本信息进行特征提取,获得文本情绪特征;
将所述人脸图像情绪特征、所述语音情绪特征以及所述文本情绪特征进行融合,获得第一融合情绪特征;
基于脉搏波情绪识别模型对所述目标人物的脉搏波进行特征提取,获得脉搏波情绪特征,并将所述脉搏波情绪特征与所述第一融合情绪特征进行融合,获得第二融合情绪特征;
分别获取所述图像情绪识别模型对所述人脸图像情绪特征进行情绪识别得到的图像情绪识别结果、所述语音情绪识别模型对所述语音情绪特征进行情绪识别得到的语音情绪识别结果、所述文本情绪识别模型对所述文本情绪特征进行情绪识别得到的文本情绪识别结果以及所述脉搏波情绪识别模型对所述第二融合情绪特征进行情绪识别得到的脉搏波情绪识别结果,其中,所述图像情绪识别结果、所述语音情绪识别结果、所述文本情绪识别结果和所述脉搏波情绪识别结果均包括各个情绪类别的概率;
根据所述图像情绪识别结果、所述语音情绪识别结果、所述文本情绪识别结果和所述脉搏波情绪识别结果,确定所述目标人物的目标情绪。
在一种实施方式中,所述将所述人脸图像情绪特征、所述语音情绪特征以及所述文本情绪特征进行融合,获得第一融合情绪特征,包括:
根据预设卷积网络公式分别对所述人脸图像情绪特征、所述语音情绪特征、所述文本情绪特征进行处理,获得所述人脸图像情绪特征对应的第一卷积情绪特征、所述语音情绪特征对应的第二卷积情绪特征和所述文本情绪特征对应的第三卷积情绪特征;
将所述第一卷积情绪特征与所述第二卷积情绪特征进行拼接,获得第一拼接情绪特征,并根据所述预设卷积网络公式对拼接后的所述第一拼接情绪特征进行处理,获得第四卷积情绪特征;
将所述第三卷积情绪特征与所述第四卷积情绪特征进行拼接,获得第二拼接情绪特征,并根据所述预设卷积网络公式对所述第二拼接情绪特征进行处理,获得所述第一融合情绪特征;
其中,所述预设卷积网络公式包括:Y=F(X)+X,所述Y表示所述预设卷积网络公式的计算结果,所述X表示被计算的情绪特征,所述F(X)表示根据卷积网络中的权重层和线性整流Relu函数确定的函数。
在一种实施方式中,所述将所述脉搏波情绪特征与所述第一融合情绪特征进行融合,获得第二融合情绪特征,包括:
根据所述预设卷积网络公式对所述脉搏波情绪特征进行处理,获得第五卷积情绪特征;
将所述第五卷积情绪特征与所述第一融合情绪特征进行拼接,获得所述第二融合情绪特征。
在一种实施方式中,所述基于语音情绪识别模型对所述目标人物的语音信息和嘴巴图像进行特征提取,获得语音情绪特征,包括:
基于所述语音情绪识别模型分别对所述语音信息、所述嘴巴图像进行特征提取,获得所述语音信息对应的语音子情绪特征,以及所述嘴巴图像对应的嘴巴图像情绪特征;
基于所述语音情绪识别模型对拼接后的所述语音子情绪特征与所述嘴巴图像情绪特征进行卷积处理,获得所述语音情绪特征。
在一种实施方式中,所述根据所述图像情绪识别结果、所述语音情绪识别结果、所述文本情绪识别结果和所述脉搏波情绪识别结果,确定所述目标人物的目标情绪,包括:
根据预设概率处理公式确定所述目标人物的所述目标情绪w;
所述预设概率处理公式包括:
Figure BDA0004041412340000031
其中,
Figure BDA0004041412340000032
Figure BDA0004041412340000033
Figure BDA0004041412340000034
Figure BDA0004041412340000035
所述λ表示调整基于非生理信号模型情绪识别结果的权重,所述非生理信号模型包括所述图像情绪识别模型、所述语音情绪识别模型和所述文本情绪识别模型,所述
Figure BDA0004041412340000036
表示所述所述脉搏波情绪识别结果中第i种情绪的概率,所述n表示情绪类别的总数,所述Pimage表示所述图像情绪识别结果,所述/>
Figure BDA0004041412340000037
表示所述图像情绪识别结果中第一种情绪的概率至第n种情绪的概率,所述Pvoice表示所述语音情绪识别结果,所述
Figure BDA0004041412340000038
表示所述语音情绪识别结果中第一种情绪的概率至第n种情绪的概率,所述Ptext表示所述文本情绪识别结果,所述/>
Figure BDA0004041412340000039
表示所述文本情绪识别结果中第一种情绪的概率至第n种情绪的概率。
第二方面,本申请实施例提供了一种陪护机器人情绪识别装置,所述装置包括:
第一提取单元,用于基于图像情绪识别模型对目标人物的人脸图像进行特征提取,获得人脸图像情绪特征;
第二提取单元,用于基于语音情绪识别模型对所述目标人物的语音信息和嘴巴图像进行特征提取,获得语音情绪特征;
第三提取单元,用于基于文本情绪识别模型对所述语音信息对应的文本信息进行特征提取,获得文本情绪特征;
第一融合单元,用于将所述人脸图像情绪特征、所述语音情绪特征以及所述文本情绪特征进行融合,获得第一融合情绪特征;
第四提取单元,用于基于脉搏波情绪识别模型对所述目标人物的脉搏波进行特征提取,获得脉搏波情绪特征;
第二融合单元,用于将所述脉搏波情绪特征与所述第一融合情绪特征进行融合,获得第二融合情绪特征;
获取单元,用于分别获取所述图像情绪识别模型对所述人脸图像情绪特征进行情绪识别得到的图像情绪识别结果、所述语音情绪识别模型对所述语音情绪特征进行情绪识别得到的语音情绪识别结果、所述文本情绪识别模型对所述文本情绪特征进行情绪识别得到的文本情绪识别结果以及所述脉搏波情绪识别模型对所述第二融合情绪特征进行情绪识别得到的脉搏波情绪识别结果,其中,所述图像情绪识别结果、所述语音情绪识别结果、所述文本情绪识别结果和所述脉搏波情绪识别结果均包括各个情绪类别的概率;
确定单元,用于根据所述图像情绪识别结果、所述语音情绪识别结果、所述文本情绪识别结果和所述脉搏波情绪识别结果,确定所述目标人物的目标情绪。
在一种实施方式中,所述第一融合单元,包括:
第一计算模块,用于根据预设卷积网络公式分别对所述人脸图像情绪特征、所述语音情绪特征、所述文本情绪特征进行处理,获得所述人脸图像情绪特征对应的第一卷积情绪特征、所述语音情绪特征对应的第二卷积情绪特征和所述文本情绪特征对应的第三卷积情绪特征;
第一拼接模块,用于将所述第一卷积情绪特征与所述第二卷积情绪特征进行拼接,获得第一拼接情绪特征;
第二计算模块,用于根据所述预设卷积网络公式对拼接后的所述第一拼接情绪特征进行处理,获得第四卷积情绪特征;
第二拼接模块,用于将所述第三卷积情绪特征与所述第四卷积情绪特征进行拼接,获得第二拼接情绪特征;
第三计算模块,用于根据所述预设卷积网络公式对所述第二拼接情绪特征进行处理,获得所述第一融合情绪特征;
其中,所述预设卷积网络公式包括:Y=F(X)+X,所述Y表示所述预设卷积网络公式的计算结果,所述X表示被计算的情绪特征,所述F(X)表示根据卷积网络中的权重层和线性整流Relu函数确定的函数。
在一种实施方式中,所述第二融合单元,包括:
第四计算模块,用于根据所述预设卷积网络公式对所述脉搏波情绪特征进行处理,获得第五卷积情绪特征;
第三拼接模块,用于将所述第五卷积情绪特征与所述第一融合情绪特征进行拼接,获得所述第二融合情绪特征。
在一种实施方式中,所述第二提取单元,包括:
提取模块,用于基于所述语音情绪识别模型分别对所述语音信息、所述嘴巴图像进行特征提取,获得所述语音信息对应的语音子情绪特征,以及所述嘴巴图像对应的嘴巴图像情绪特征;
卷积模块,用于基于所述语音情绪识别模型对拼接后的所述语音子情绪特征与所述嘴巴图像情绪特征进行卷积处理,获得所述语音情绪特征。
在一种实施方式中,所述确定单元,用于根据预设概率处理公式确定所述目标人物的所述目标情绪w;
所述预设概率处理公式包括:
Figure BDA0004041412340000051
其中,
Figure BDA0004041412340000052
Figure BDA0004041412340000053
Figure BDA0004041412340000054
Figure BDA0004041412340000055
所述λ表示调整基于非生理信号模型情绪识别结果的权重,所述非生理信号模型包括所述图像情绪识别模型、所述语音情绪识别模型和所述文本情绪识别模型,所述
Figure BDA0004041412340000056
表示所述所述脉搏波情绪识别结果中第i种情绪的概率,所述n表示情绪类别的总数,所述Pimage表示所述图像情绪识别结果,所述/>
Figure BDA0004041412340000057
表示所述图像情绪识别结果中第一种情绪的概率至第n种情绪的概率,所述Pvoice表示所述语音情绪识别结果,所述
Figure BDA0004041412340000058
表示所述语音情绪识别结果中第一种情绪的概率至第n种情绪的概率,所述Ptext表示所述文本情绪识别结果,所述/>
Figure BDA0004041412340000059
表示所述文本情绪识别结果中第一种情绪的概率至第n种情绪的概率。
第三方面,本申请实施例提供了一种存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现第一方面任一实施方式所述的方法。
第四方面,本申请实施例提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现第一方面任一实施方式所述的方法。
由上述内容可知,本申请实施例提供的陪护机器人情绪识别方法、装置、存储介质及设备,不仅能够基于脉搏波情绪识别模型对非生理信号特征(包括人脸图像情绪特征、语音情绪特征、文本情绪特征)与生理信号特征(即脉搏波情绪特征)融合后的情绪特征进行情绪识别,获得脉搏波情绪识别结果,还可以根据图像情绪识别模型对人脸图像情绪特征进行情绪识别得到的图像情绪识别结果、语音情绪识别模型对语音情绪特征进行情绪识别得到的语音情绪识别结果、文本情绪识别模型对所述文本情绪特征进行情绪识别得到的文本情绪识别结果,以及脉搏波情绪识别结果,综合确定出最终的目标情绪。因此,与仅通过单一的非生理信号特征进行情绪识别相比,本申请实施例能够实现融合图像、语音、内容、脉搏波多路信号进行情绪识别,从而不仅可以识别出目标人物外表表现出的情绪,还可以识别出目标人物有意掩盖的情绪,进而可以提高情绪识别的准确性。当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
本申请实施例的创新点包括:
1、本申请实施例能够实现融合图像、语音、内容、脉搏波多路信号进行情绪识别,从而不仅可以识别出目标人物外表表现出的情绪,还可以识别出目标人物有意掩盖的情绪,进而可以提高情绪识别的准确性。
2、本申请实施例在将多种非生理信号特征与生理信号特征进行融合时,可以先按照不同特征表达的高低级别将多种非生理信号特征进行融合,再将融合后的非生理信号特征与生理信号特征进行融合,从而提高了情绪特征融合的准确性,进而提高了脉搏波情绪识别模型识别掩盖情绪的准确性。其中,在将多种非生理信号特征进行融合时,先利用预设卷积网络公式分别计算出人脸图像情绪特征对应的第一卷积情绪特征、语音情绪特征对应的第二卷积情绪特征和文本情绪特征对应的第三卷积情绪特征,再将第一卷积情绪特征与第二卷积情绪特征进行拼接,获得第一拼接情绪特征,并根据预设卷积网络公式对拼接后的第一拼接情绪特征进行处理,获得第四卷积情绪特征,最后在将第三卷积情绪特征与第四卷积情绪特征进行拼接,获得第二拼接情绪特征之后,根据预设卷积网络公式对第二拼接情绪特征进行处理,获得第一融合情绪特征;在将融合后的非生理信号特征与生理信号特征进行融合时,也可以先根据预设卷积网络公式对脉搏波情绪特征进行处理,获得第五卷积情绪特征,在将第五卷积情绪特征与第一融合情绪特征进行拼接,获得第三拼接情绪特征之后,获得第二融合情绪特征。由此可知,本申请实施例可以实现一种循序级联残差的特征融合方法。
3、本申请实施例在基于语音情绪识别模型提取语音情绪特征时,并非单一提取语音信息中的语音子情绪特征,而是将语音信息中的语音子情绪特征与嘴巴图像中的嘴巴图像情绪特征相融合,从而提高了语音情绪特征的准确性,进而提高了基于语音情绪识别模型识别语音情绪的准确性。
4、本申请实施例可以根据预设概率处理公式确定目标人物的目标情绪时,该预设概率处理公式结合了每种情绪识别结果对目标情绪的重要性,从而可以提高了目标情绪的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍。显而易见地,下面描述中的附图仅仅是本申请的一些实施例。对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种陪护机器人情绪识别方法的流程示意图;
图2为本申请实施例提供的一种F(X)的组成示例图;
图3为本申请实施例提供的一种情绪特征融合的示例图;
图4为本申请实施例提供的一种陪护机器人情绪识别装置的组成框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例及附图中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如包含的一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
图1为本申请实施例提供的一种陪护机器人情绪识别方法的流程示意图,该方法可以应用于终端,如陪护机器人,也可以应用于服务器,该方法可以包括如下步骤:
S110:基于图像情绪识别模型对目标人物的人脸图像进行特征提取,获得人脸图像情绪特征。
其中,图像情绪识别模型根据多张人脸样本图像和每张人脸样本图像的情绪类别标注信息训练而成。人脸样本图像的情绪类别标注信息可以通过人工标注,即人工通过查看每张人脸样本图像中的微表情确定该人脸样本图像所表征的情绪类别。人脸图像情绪特征的维数可以为N,人脸图像情绪特征可以用V1表示。
情绪类别包括多种离散的情绪状态,例如学术上通常分为8种情绪,包括快乐、信任、惊讶、期待这四种积极情绪,生气、悲伤、厌恶、恐惧这四种消极情绪。
S120:基于语音情绪识别模型对目标人物的语音信息和嘴巴图像进行特征提取,获得语音情绪特征。
其中,语音情绪识别模型根据多条语音样本信息、每条语音样本信息对应的嘴巴样本图像以及针对语音样本信息和嘴巴样本图像的情绪类别标注信息训练而成,针对语音样本信息和嘴巴样本图像的情绪类别标注信息可以通过人工标注,即人工通过结合每条语音样本信息及其对应的嘴巴图像,确定所表征的情绪类别。
无论是语音情绪识别模型的训练过程,还是训练完成之后的模型应用过程,基于语音情绪识别模型对目标人物的语音信息和嘴巴图像进行特征提取,获得语音情绪特征的具体实现方式可以包括:基于语音情绪识别模型分别对语音信息、嘴巴图像进行特征提取,获得语音信息对应的语音子情绪特征,以及嘴巴图像对应的嘴巴图像情绪特征;基于语音情绪识别模型对拼接后的语音子情绪特征与嘴巴图像情绪特征进行卷积处理,获得语音情绪特征。
目标人物的语音信息包括M个离散的语音波形点,即对原有连续的语音信息进行采样,获得M个离散的语音波形点。可以将M个离散的语音波形点作为输入送入一维卷积网络进行特征提取,获得N维的语音子情绪特征,语音子情绪特征可以用V2表示。在目标人物发出语音信息的同时,可以采集器嘴巴区域的图像,归一化后送入卷积网络提取得到维数为N的嘴巴图像情绪特征V3。将语音子情绪特征V2与嘴巴图像情绪特征V3进行拼接后,获得[V2,V3],将[V2,V3]送入卷积网络得到语音情绪识别模型的最顶层输出语音情绪特征V4。
S130:基于文本情绪识别模型对语音信息对应的文本信息进行特征提取,获得文本情绪特征。
其中,文本情绪识别模型根据多条文本样本信息和每条文本样本信息的情绪类别标注信息训练而成。文本样本信息的情绪类别标注信息可以通过人工标注。文本样本信息是语音样本信息对应的文本信息,即利用AI(Artificial Intelligence,人工智能)技术将语音样本信息转换成的文本信息作为文本样本信息。
在将文本信息输入文本情绪识别模型时,可以先通过bag of word或者word2vec等工具将文本信息转换为词向量,再将词向量输入文本情绪识别模型进行特征提取和情绪识别。此外,本步骤中的文本情绪特征的维数可以为N,文本情绪特征可以用V5表示。
S140:将人脸图像情绪特征、语音情绪特征以及文本情绪特征进行融合,获得第一融合情绪特征。
在将人脸图像情绪特征、语音情绪特征以及文本情绪特征融合时,可以按照不同特征表达的高低级别进行融合,人脸图像情绪特征和语音情绪特征的级别高于文本情绪特征,即人脸图像情绪特征和语音情绪特征更能体现目标人物所表现出的情绪,所以可以先将人脸图像情绪特征与语音情绪特征进行融合,再将融合后的特征与文本情绪特征进行融合,最后得到第一融合情绪特征。
具体实现方式包括步骤A1-步骤A3:
A1、根据预设卷积网络公式分别对人脸图像情绪特征、语音情绪特征、文本情绪特征进行处理,获得人脸图像情绪特征对应的第一卷积情绪特征、语音情绪特征对应的第二卷积情绪特征和文本情绪特征对应的第三卷积情绪特征。
其中,预设卷积网络公式包括:Y=F(X)+X,Y表示预设卷积网络公式的计算结果,X表示被计算的情绪特征,F(X)表示根据卷积网络中的权重层(weightlayer)和线性整流Relu函数确定的函数,如图2所示,F(X)为卷积网络中的一个weightlayer经过Relu函数后,再连接一个weightlayer。此外,在实际应用中,不同情绪特征在进行卷积计算时所使用的卷积参数可能存在差距,所以不同情绪特征在融合时,实际使用的F(X)可能存在差异,为了准确区分不同的F(X),下面使用Fi(X)的形式进行区分表示。
如图3所示,在人脸图像情绪特征、语音情绪特征、文本情绪特征分别用V1、V4和V5表示的情况下,第一卷积情绪特征V7=F1(V1)+V1,第二卷积情绪特征V8=F2(V4)+V4,第三卷积情绪特征V11=F4(V5)+V5。
A2、将第一卷积情绪特征与第二卷积情绪特征进行拼接,获得第一拼接情绪特征,并根据预设卷积网络公式对拼接后的第一拼接情绪特征进行处理,获得第四卷积情绪特征。
如图3所示,第一拼接情绪特征V9=[V7,V8]=[F1(V1)+V1,F2(V4)+V4],第四卷积情绪特征V10=F3(V9)+V9=F3([F1(V1)+V1,F2(V4)+V4])+[F1(V1)+V1,F2(V4)+V4]。
A3、将第三卷积情绪特征与第四卷积情绪特征进行拼接,获得第二拼接情绪特征,并根据预设卷积网络公式对第二拼接情绪特征进行处理,获得第一融合情绪特征。
如图3所示,在第二拼接情绪特征用V12表示,第一融合情绪特征用V13表示的情况下,
V12=[V10,V11]=[F3([F1(V1)+V1,F2(V4)+V4])+[F1(V1)+V1,F2(V4)+V4],F4(V5)+V5];
V13=F5(V12)+V12=F5([F3([F1(V1)+V1,F2(V4)+V4])+[F1(V1)+V1,F2(V4)+V4],F4(V5)+V5])+[F3([F1(V1)+V1,F2(V4)+V4])+[F1(V1)+V1,F2(V4)+V4],F4(V5)+V5]。
S150:基于脉搏波情绪识别模型对目标人物的脉搏波进行特征提取,获得脉搏波情绪特征,并将脉搏波情绪特征与第一融合情绪特征进行融合,获得第二融合情绪特征。
脉搏波属于生理信号,与情绪的真实表达息息相关,能够显著的区别真实情绪和虚假的表面情绪,本申请实施例的脉搏波情绪识别模型融合了脉搏波和前述所有非生理信号特征,从而提高了识别掩盖情绪的准确性。
前述图像情绪识别模型、语音情绪识别模型和文本情绪识别模型均可以独立训练,并在训练完成这三种模型后,再训练脉搏波情绪识别模型,在训练脉搏波情绪识别模型时,可以先将多个脉搏波样本、每个脉搏波样本的情绪类别标注信息、图像情绪识别模型从人脸样本图像中提取的人脸图像情绪特征、语音情绪识别模型从语音样本信息和嘴巴样本图像中提取的语音情绪特征、文本情绪识别模型从文本样本信息中提取的文本情绪特征作为脉搏波情绪识别模型的输入,脉搏波情绪识别模型先根据多个脉搏波样本和每个脉搏波样本的情绪类别标注信息进行学习,提取脉搏波样本的脉搏波情绪特征,再将该脉搏波情绪特征与其他三种非生理情绪特征进行融合,并基于融合后的情绪特征进行情绪识别。通过以上分阶段的训练可以达到同时识别表面情绪和掩盖情绪的目的。
将脉搏波情绪特征与第一融合情绪特征进行融合的方法包括:根据预设卷积网络公式对脉搏波情绪特征进行处理,获得第五卷积情绪特征;将第五卷积情绪特征与第一融合情绪特征进行拼接,获得第二融合情绪特征。
如图3所示,在脉搏波情绪特征用V6表示的情况下,第五卷积情绪特征V14=F6(V6)+V6,第二融合情绪特征V15=[V13,V14]=[F5([F3([F1(V1)+V1,F2(V4)+V4])+[F1(V1)+V1,F2(V4)+V4],F4(V5)+V5])+[F3([F1(V1)+V1,F2(V4)+V4])+[F1(V1)+V1,F2(V4)+V4],F4(V5)+V5],V14=F6(V6)+V6]。
需要补充的是,上述目标人物的人脸图像、语音信息、嘴巴图像、文本信息和脉搏波之间具有紧密联系,是目标人物在一段时间内说话时,陪护机器人采集到的人脸图像、语音信息、嘴巴图像、语音信息对应的文本信息和当时目标人物的脉搏波。其中,一条语音信息可能对应多张人脸图像和嘴巴图像。
S160:分别获取图像情绪识别模型对人脸图像情绪特征进行情绪识别得到的图像情绪识别结果、语音情绪识别模型对语音情绪特征进行情绪识别得到的语音情绪识别结果、文本情绪识别模型对文本情绪特征进行情绪识别得到的文本情绪识别结果以及脉搏波情绪识别模型对第二融合情绪特征进行情绪识别得到的脉搏波情绪识别结果。
其中,图像情绪识别结果、语音情绪识别结果、文本情绪识别结果和脉搏波情绪识别结果均包括各个情绪类别的概率。
各个情绪识别模型提取相应的情绪特征之后,还可以利用分类器对情绪特征进行分类识别,获得每种情绪类别的概率。其中,分类器可以采用softmax分类器,也可以采用其他分类器。
需要补充的是,上述各个情绪识别模型在进行特征提取时,可以采用CNN(Convolutional Neural Networks,卷积神经网络)或者transformer等网络,其中,文本情绪识别模型还可以使用RNN(Recurrent Neural Network,循环神经网络)或者LSTM(LongShort-Term Memory,长短期记忆网络)等网络进行特征提取。
S170:根据图像情绪识别结果、语音情绪识别结果、文本情绪识别结果和脉搏波情绪识别结果,确定目标人物的目标情绪。
根据图像情绪识别结果、语音情绪识别结果、文本情绪识别结果和脉搏波情绪识别结果,确定目标人物的目标情绪的方法包括但不限于以下两种:
第一种:先分别计算四种情绪识别结果中同一种情绪类别的概率平均值,再选取概率平均值最大的情绪类别作为目标情绪。
第二种:根据预设概率处理公式确定目标人物的目标情绪w;
预设概率处理公式包括:
Figure BDA0004041412340000111
其中,
Figure BDA0004041412340000112
Figure BDA0004041412340000113
Figure BDA0004041412340000114
Figure BDA0004041412340000115
λ表示调整基于非生理信号模型情绪识别结果的权重,非生理信号模型包括图像情绪识别模型、语音情绪识别模型和文本情绪识别模型,
Figure BDA0004041412340000116
表示脉搏波情绪识别结果中第i种情绪的概率,n表示情绪类别的总数,Pimage表示图像情绪识别结果,
Figure BDA0004041412340000117
表示图像情绪识别结果中第一种情绪的概率至第n种情绪的概率,Pvoice表示语音情绪识别结果,/>
Figure BDA0004041412340000118
表示语音情绪识别结果中第一种情绪的概率至第n种情绪的概率,Ptext表示文本情绪识别结果,/>
Figure BDA0004041412340000119
示文本情绪识别结果中第一种情绪的概率至第n种情绪的概率。
当λ=0时,独立的基于非生理信号的识别结果对最终结果不产生任何影响。因为脉搏波情绪识别模型中已经融合了非生理型号的特征,因此本申请实施例中的λ取值可以小于0.3。
第二种方法中的预设概率处理公式结合了每种情绪识别结果对目标情绪的重要性,从而相比于第一种方法,可以进一步提高目标情绪的准确性。
本申请实施例提供的陪护机器人情绪识别方法,不仅能够基于脉搏波情绪识别模型对非生理信号特征(包括人脸图像情绪特征、语音情绪特征、文本情绪特征)与生理信号特征(即脉搏波情绪特征)融合后的情绪特征进行情绪识别,获得脉搏波情绪识别结果,还可以根据图像情绪识别模型对人脸图像情绪特征进行情绪识别得到的图像情绪识别结果、语音情绪识别模型对语音情绪特征进行情绪识别得到的语音情绪识别结果、文本情绪识别模型对所述文本情绪特征进行情绪识别得到的文本情绪识别结果,以及脉搏波情绪识别结果,综合确定出最终的目标情绪。因此,与仅通过单一的非生理信号特征进行情绪识别相比,本申请实施例能够实现融合图像、语音、内容、脉搏波多路信号进行情绪识别,从而不仅可以识别出目标人物外表表现出的情绪,还可以识别出目标人物有意掩盖的情绪,进而可以提高情绪识别的准确性。
相应于上述方法实施例,本申请实施例提供了一种陪护机器人情绪识别装置,如图4所示,所述装置包括:
第一提取单元210,用于基于图像情绪识别模型对目标人物的人脸图像进行特征提取,获得人脸图像情绪特征;
第二提取单元220,用于基于语音情绪识别模型对所述目标人物的语音信息和嘴巴图像进行特征提取,获得语音情绪特征;
第三提取单元230,用于基于文本情绪识别模型对所述语音信息对应的文本信息进行特征提取,获得文本情绪特征;
第一融合单元240,用于将所述人脸图像情绪特征、所述语音情绪特征以及所述文本情绪特征进行融合,获得第一融合情绪特征;
第四提取单元250,用于基于脉搏波情绪识别模型对所述目标人物的脉搏波进行特征提取,获得脉搏波情绪特征;
第二融合单元260,用于将所述脉搏波情绪特征与所述第一融合情绪特征进行融合,获得第二融合情绪特征;
获取单元270,用于分别获取所述图像情绪识别模型对所述人脸图像情绪特征进行情绪识别得到的图像情绪识别结果、所述语音情绪识别模型对所述语音情绪特征进行情绪识别得到的语音情绪识别结果、所述文本情绪识别模型对所述文本情绪特征进行情绪识别得到的文本情绪识别结果以及所述脉搏波情绪识别模型对所述第二融合情绪特征进行情绪识别得到的脉搏波情绪识别结果,其中,所述图像情绪识别结果、所述语音情绪识别结果、所述文本情绪识别结果和所述脉搏波情绪识别结果均包括各个情绪类别的概率;
确定单元280,用于根据所述图像情绪识别结果、所述语音情绪识别结果、所述文本情绪识别结果和所述脉搏波情绪识别结果,确定所述目标人物的目标情绪。
在一种实施方式中,所述第一融合单元240,包括:
第一计算模块,用于根据预设卷积网络公式分别对所述人脸图像情绪特征、所述语音情绪特征、所述文本情绪特征进行处理,获得所述人脸图像情绪特征对应的第一卷积情绪特征、所述语音情绪特征对应的第二卷积情绪特征和所述文本情绪特征对应的第三卷积情绪特征;
第一拼接模块,用于将所述第一卷积情绪特征与所述第二卷积情绪特征进行拼接,获得第一拼接情绪特征;
第二计算模块,用于根据所述预设卷积网络公式对拼接后的所述第一拼接情绪特征进行处理,获得第四卷积情绪特征;
第二拼接模块,用于将所述第三卷积情绪特征与所述第四卷积情绪特征进行拼接,获得第二拼接情绪特征;
第三计算模块,用于根据所述预设卷积网络公式对所述第二拼接情绪特征进行处理,获得所述第一融合情绪特征;
其中,所述预设卷积网络公式包括:Y=F(X)+X,所述Y表示所述预设卷积网络公式的计算结果,所述X表示被计算的情绪特征,所述F(X)表示根据卷积网络中的权重层和线性整流Relu函数确定的函数。
在一种实施方式中,所述第二融合单元260,包括:
第四计算模块,用于根据所述预设卷积网络公式对所述脉搏波情绪特征进行处理,获得第五卷积情绪特征;
第三拼接模块,用于将所述第五卷积情绪特征与所述第一融合情绪特征进行拼接,获得所述第二融合情绪特征。
在一种实施方式中,所述第二提取单元220,包括:
提取模块,用于基于所述语音情绪识别模型分别对所述语音信息、所述嘴巴图像进行特征提取,获得所述语音信息对应的语音子情绪特征,以及所述嘴巴图像对应的嘴巴图像情绪特征;
卷积模块,用于基于所述语音情绪识别模型对拼接后的所述语音子情绪特征与所述嘴巴图像情绪特征进行卷积处理,获得所述语音情绪特征。
在一种实施方式中,所述确定单元280,用于根据预设概率处理公式确定所述目标人物的所述目标情绪w;
所述预设概率处理公式包括:
Figure BDA0004041412340000131
其中,
Figure BDA0004041412340000132
Figure BDA0004041412340000133
Figure BDA0004041412340000134
Figure BDA0004041412340000135
所述λ表示调整基于非生理信号模型情绪识别结果的权重,所述非生理信号模型包括所述图像情绪识别模型、所述语音情绪识别模型和所述文本情绪识别模型,所述
Figure BDA0004041412340000136
表示所述所述脉搏波情绪识别结果中第i种情绪的概率,所述n表示情绪类别的总数,所述Pimage表示所述图像情绪识别结果,所述/>
Figure BDA0004041412340000141
表示所述图像情绪识别结果中第一种情绪的概率至第n种情绪的概率,所述Pvoice表示所述语音情绪识别结果,所述
Figure BDA0004041412340000142
表示所述语音情绪识别结果中第一种情绪的概率至第n种情绪的概率,所述Ptext表示所述文本情绪识别结果,所述/>
Figure BDA0004041412340000143
表示所述文本情绪识别结果中第一种情绪的概率至第n种情绪的概率。
本申请实施例提供的陪护机器人情绪识别装置,不仅能够基于脉搏波情绪识别模型对非生理信号特征(包括人脸图像情绪特征、语音情绪特征、文本情绪特征)与生理信号特征(即脉搏波情绪特征)融合后的情绪特征进行情绪识别,获得脉搏波情绪识别结果,还可以根据图像情绪识别模型对人脸图像情绪特征进行情绪识别得到的图像情绪识别结果、语音情绪识别模型对语音情绪特征进行情绪识别得到的语音情绪识别结果、文本情绪识别模型对所述文本情绪特征进行情绪识别得到的文本情绪识别结果,以及脉搏波情绪识别结果,综合确定出最终的目标情绪。因此,与仅通过单一的非生理信号特征进行情绪识别相比,本申请实施例能够实现融合图像、语音、内容、脉搏波多路信号进行情绪识别,从而不仅可以识别出目标人物外表表现出的情绪,还可以识别出目标人物有意掩盖的情绪,进而可以提高情绪识别的准确性。
基于上述方法实施例,本申请的另一实施例提供了一种存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器实现如上所述的方法。
基于上述方法实施例,本申请的另一实施例提供了一种电子设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的方法。
上述装置实施例与方法实施例相对应,与该方法实施例具有同样的技术效果,具体说明参见方法实施例。装置实施例是基于方法实施例得到的,具体的说明可以参见方法实施例部分,此处不再赘述。本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。

Claims (10)

1.一种陪护机器人情绪识别方法,其特征在于,所述方法包括:
基于图像情绪识别模型对目标人物的人脸图像进行特征提取,获得人脸图像情绪特征;
基于语音情绪识别模型对所述目标人物的语音信息和嘴巴图像进行特征提取,获得语音情绪特征;
基于文本情绪识别模型对所述语音信息对应的文本信息进行特征提取,获得文本情绪特征;
将所述人脸图像情绪特征、所述语音情绪特征以及所述文本情绪特征进行融合,获得第一融合情绪特征;
基于脉搏波情绪识别模型对所述目标人物的脉搏波进行特征提取,获得脉搏波情绪特征,并将所述脉搏波情绪特征与所述第一融合情绪特征进行融合,获得第二融合情绪特征;
分别获取所述图像情绪识别模型对所述人脸图像情绪特征进行情绪识别得到的图像情绪识别结果、所述语音情绪识别模型对所述语音情绪特征进行情绪识别得到的语音情绪识别结果、所述文本情绪识别模型对所述文本情绪特征进行情绪识别得到的文本情绪识别结果以及所述脉搏波情绪识别模型对所述第二融合情绪特征进行情绪识别得到的脉搏波情绪识别结果,其中,所述图像情绪识别结果、所述语音情绪识别结果、所述文本情绪识别结果和所述脉搏波情绪识别结果均包括各个情绪类别的概率;
根据所述图像情绪识别结果、所述语音情绪识别结果、所述文本情绪识别结果和所述脉搏波情绪识别结果,确定所述目标人物的目标情绪。
2.根据权利要求1所述的方法,其特征在于,所述将所述人脸图像情绪特征、所述语音情绪特征以及所述文本情绪特征进行融合,获得第一融合情绪特征,包括:
根据预设卷积网络公式分别对所述人脸图像情绪特征、所述语音情绪特征、所述文本情绪特征进行处理,获得所述人脸图像情绪特征对应的第一卷积情绪特征、所述语音情绪特征对应的第二卷积情绪特征和所述文本情绪特征对应的第三卷积情绪特征;
将所述第一卷积情绪特征与所述第二卷积情绪特征进行拼接,获得第一拼接情绪特征,并根据所述预设卷积网络公式对拼接后的所述第一拼接情绪特征进行处理,获得第四卷积情绪特征;
将所述第三卷积情绪特征与所述第四卷积情绪特征进行拼接,获得第二拼接情绪特征,并根据所述预设卷积网络公式对所述第二拼接情绪特征进行处理,获得所述第一融合情绪特征;
其中,所述预设卷积网络公式包括:Y=F(X)+X,所述Y表示所述预设卷积网络公式的计算结果,所述X表示被计算的情绪特征,所述F(X)表示根据卷积网络中的权重层和线性整流Relu函数确定的函数。
3.根据权利要求2所述的方法,其特征在于,所述将所述脉搏波情绪特征与所述第一融合情绪特征进行融合,获得第二融合情绪特征,包括:
根据所述预设卷积网络公式对所述脉搏波情绪特征进行处理,获得第五卷积情绪特征;
将所述第五卷积情绪特征与所述第一融合情绪特征进行拼接,获得所述第二融合情绪特征。
4.根据权利要求1所述的方法,其特征在于,所述基于语音情绪识别模型对所述目标人物的语音信息和嘴巴图像进行特征提取,获得语音情绪特征,包括:
基于所述语音情绪识别模型分别对所述语音信息、所述嘴巴图像进行特征提取,获得所述语音信息对应的语音子情绪特征,以及所述嘴巴图像对应的嘴巴图像情绪特征;
基于所述语音情绪识别模型对拼接后的所述语音子情绪特征与所述嘴巴图像情绪特征进行卷积处理,获得所述语音情绪特征。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述根据所述图像情绪识别结果、所述语音情绪识别结果、所述文本情绪识别结果和所述脉搏波情绪识别结果,确定所述目标人物的目标情绪,包括:
根据预设概率处理公式确定所述目标人物的所述目标情绪w;
所述预设概率处理公式包括:
Figure FDA0004041412330000021
其中,
Figure FDA0004041412330000022
Figure FDA0004041412330000023
Figure FDA0004041412330000024
Figure FDA0004041412330000025
所述λ表示调整基于非生理信号模型情绪识别结果的权重,所述非生理信号模型包括所述图像情绪识别模型、所述语音情绪识别模型和所述文本情绪识别模型,所述
Figure FDA0004041412330000026
表示所述所述脉搏波情绪识别结果中第i种情绪的概率,所述n表示情绪类别的总数,所述Pimage表示所述图像情绪识别结果,所述/>
Figure FDA0004041412330000031
表示所述图像情绪识别结果中第一种情绪的概率至第n种情绪的概率,所述Pvoice表示所述语音情绪识别结果,所述
Figure FDA0004041412330000032
表示所述语音情绪识别结果中第一种情绪的概率至第n种情绪的概率,所述Ptext表示所述文本情绪识别结果,所述/>
Figure FDA0004041412330000033
表示所述文本情绪识别结果中第一种情绪的概率至第n种情绪的概率。
6.一种陪护机器人情绪识别装置,其特征在于,所述装置包括:
第一提取单元,用于基于图像情绪识别模型对目标人物的人脸图像进行特征提取,获得人脸图像情绪特征;
第二提取单元,用于基于语音情绪识别模型对所述目标人物的语音信息和嘴巴图像进行特征提取,获得语音情绪特征;
第三提取单元,用于基于文本情绪识别模型对所述语音信息对应的文本信息进行特征提取,获得文本情绪特征;
第一融合单元,用于将所述人脸图像情绪特征、所述语音情绪特征以及所述文本情绪特征进行融合,获得第一融合情绪特征;
第四提取单元,用于基于脉搏波情绪识别模型对所述目标人物的脉搏波进行特征提取,获得脉搏波情绪特征;
第二融合单元,用于将所述脉搏波情绪特征与所述第一融合情绪特征进行融合,获得第二融合情绪特征;
获取单元,用于分别获取所述图像情绪识别模型对所述人脸图像情绪特征进行情绪识别得到的图像情绪识别结果、所述语音情绪识别模型对所述语音情绪特征进行情绪识别得到的语音情绪识别结果、所述文本情绪识别模型对所述文本情绪特征进行情绪识别得到的文本情绪识别结果以及所述脉搏波情绪识别模型对所述第二融合情绪特征进行情绪识别得到的脉搏波情绪识别结果,其中,所述图像情绪识别结果、所述语音情绪识别结果、所述文本情绪识别结果和所述脉搏波情绪识别结果均包括各个情绪类别的概率;
确定单元,用于根据所述图像情绪识别结果、所述语音情绪识别结果、所述文本情绪识别结果和所述脉搏波情绪识别结果,确定所述目标人物的目标情绪。
7.根据权利要求6所述的装置,其特征在于,所述第一融合单元,包括:
第一计算模块,用于根据预设卷积网络公式分别对所述人脸图像情绪特征、所述语音情绪特征、所述文本情绪特征进行处理,获得所述人脸图像情绪特征对应的第一卷积情绪特征、所述语音情绪特征对应的第二卷积情绪特征和所述文本情绪特征对应的第三卷积情绪特征;
第一拼接模块,用于将所述第一卷积情绪特征与所述第二卷积情绪特征进行拼接,获得第一拼接情绪特征;
第二计算模块,用于根据所述预设卷积网络公式对拼接后的所述第一拼接情绪特征进行处理,获得第四卷积情绪特征;
第二拼接模块,用于将所述第三卷积情绪特征与所述第四卷积情绪特征进行拼接,获得第二拼接情绪特征;
第三计算模块,用于根据所述预设卷积网络公式对所述第二拼接情绪特征进行处理,获得所述第一融合情绪特征;
其中,所述预设卷积网络公式包括:Y=F(X)+X,所述Y表示所述预设卷积网络公式的计算结果,所述X表示被计算的情绪特征,所述F(X)表示根据卷积网络中的权重层和线性整流Relu函数确定的函数。
8.根据权利要求7所述的装置,其特征在于,所述第二融合单元,包括:
第四计算模块,用于根据所述预设卷积网络公式对所述脉搏波情绪特征进行处理,获得第五卷积情绪特征;
第三拼接模块,用于将所述第五卷积情绪特征与所述第一融合情绪特征进行拼接,获得所述第二融合情绪特征。
9.一种存储介质,其特征在于,其上存储有可执行指令,该指令被处理器执行时使处理器实现权利要求1-5中任一项的方法。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1-5中任一项的方法。
CN202310018201.3A 2023-01-06 2023-01-06 一种陪护机器人情绪识别方法、装置、存储介质及设备 Pending CN116257816A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310018201.3A CN116257816A (zh) 2023-01-06 2023-01-06 一种陪护机器人情绪识别方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310018201.3A CN116257816A (zh) 2023-01-06 2023-01-06 一种陪护机器人情绪识别方法、装置、存储介质及设备

Publications (1)

Publication Number Publication Date
CN116257816A true CN116257816A (zh) 2023-06-13

Family

ID=86683623

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310018201.3A Pending CN116257816A (zh) 2023-01-06 2023-01-06 一种陪护机器人情绪识别方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN116257816A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117371338A (zh) * 2023-12-07 2024-01-09 浙江宇宙奇点科技有限公司 一种基于用户画像的ai数字人建模方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117371338A (zh) * 2023-12-07 2024-01-09 浙江宇宙奇点科技有限公司 一种基于用户画像的ai数字人建模方法及系统
CN117371338B (zh) * 2023-12-07 2024-03-22 浙江宇宙奇点科技有限公司 一种基于用户画像的ai数字人建模方法及系统

Similar Documents

Publication Publication Date Title
CN109635676B (zh) 一种从视频中定位音源的方法
CN107609572B (zh) 基于神经网络和迁移学习的多模态情感识别方法、系统
CN111916111B (zh) 带情感的智能语音外呼方法及装置、服务器、存储介质
CN111164601A (zh) 情感识别方法、智能装置和计算机可读存储介质
CN111261162B (zh) 语音识别方法、语音识别装置及存储介质
CN107731228A (zh) 英文语音信息的文本转换方法和装置
CN113536999B (zh) 人物情绪识别方法、系统、介质及电子设备
CN111161715A (zh) 一种基于序列分类的特定声音事件检索与定位的方法
CN112466316A (zh) 一种基于生成对抗网络的零样本语音转换系统
CN112232276B (zh) 一种基于语音识别和图像识别的情绪检测方法和装置
JP2019200671A (ja) 学習装置、学習方法、プログラム、データ生成方法及び識別装置
CN112016271A (zh) 语言风格转换模型的训练方法、文本处理方法以及装置
CN116257816A (zh) 一种陪护机器人情绪识别方法、装置、存储介质及设备
CN110991515B (zh) 一种融合视觉上下文的图像描述方法
KR102429656B1 (ko) 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체
CN112597889A (zh) 一种基于人工智能的情绪处理方法和装置
CN112215136A (zh) 一种目标人物识别方法、装置、电子设备及存储介质
CN112786028A (zh) 声学模型处理方法、装置、设备和可读存储介质
CN112860870B (zh) 一种噪音数据的识别方法和设备
CN114242045A (zh) 一种自然语言对话系统意图深度学习方法
KR102429365B1 (ko) 음성감성 분석 시스템 및 방법
CN113111855A (zh) 一种多模态情感识别方法、装置、电子设备及存储介质
CN111429937A (zh) 语音分离方法、模型训练方法及电子设备
CN113889149B (zh) 语音情感识别方法及装置
JP7080277B2 (ja) 分類装置、分類方法、およびプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination