CN115982400A

CN115982400A - 基于多模态的情绪图像的生成方法和服务器

Info

Publication number: CN115982400A
Application number: CN202211573579.1A
Authority: CN
Inventors: 周科霖; 李健; 唐雄飞; 谢园园; 陈明; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2022-12-08
Filing date: 2022-12-08
Publication date: 2023-04-18

Abstract

本申请提供了一种基于多模态的情绪图像的生成方法和服务器。该方法包括：获取对话模板文本，对话模板文本是预先输入的用于与回答者对话的文本；根据对话模板文本生成提问音频数据，并控制音频播放设备播放提问音频数据；获取回答者说话过程中的视频数据和语音数据，并根据语音数据生成第一目标文本；根据视频数据、语音数据和第一目标文本确定回答者的情绪，并至少根据回答者的情绪生成目标图像。该方案中，通过对话模板文本可以与回答者进行交互，引导回答者将自身真实的情感体现出来，从而提高情绪检测的准确度，进而将多模态情绪检测与文本生成图像技术相结合，可以实现情绪的精准图像化展示，以对情绪进行具象化地表达。

Description

基于多模态的情绪图像的生成方法和服务器

技术领域

本申请涉及多模态信息处理技术领域，具体而言，涉及一种基于多模态的情绪图像的生成方法、服务器、计算机可读存储介质和情绪图像的生成系统。

背景技术

目前情绪的展示大多通过表情包之类的简单的图像进行展示，并没有通过多个维度对情绪进行检测，也无法多维度的展示情绪，进而导致生成的图像无法对情绪进行具象化地表达。

发明内容

本申请的主要目的在于提供一种基于多模态的情绪图像的生成方法、服务器、计算机可读存储介质和情绪图像的生成系统，以解决现有技术中生成的图像无法对情绪进行具象化地表达的问题。

根据本发明实施例的一个方面，提供了一种基于多模态的情绪图像的生成方法，包括：获取对话模板文本，所述对话模板文本是预先输入的用于与回答者对话的文本；根据所述对话模板文本生成提问音频数据，并控制音频播放设备播放所述提问音频数据；获取所述回答者说话过程中的视频数据和语音数据，并根据所述语音数据生成第一目标文本；根据所述视频数据、所述语音数据和所述第一目标文本确定所述回答者的情绪，并至少根据所述回答者的情绪生成目标图像。

可选地，获取所述回答者说话过程中的视频数据和语音数据，包括：提取所述对话模板文本中的多个问题；在所述回答者回答所述问题的过程中或者所述回答者倾听所述问题的过程中，获取所述视频数据和所述语音数据，其中，所述视频数据是通过视频采集设备采集到的，所述语音数据是通过音频采集设备采集到的。

可选地，根据所述视频数据、所述语音数据和所述第一目标文本确定所述回答者的情绪，包括：对所述视频数据进行特征提取，得到图像特征向量；对所述语音数据进行特征提取，得到音频特征向量；对所述第一目标文本进行特征提取，得到文本特征向量；根据所述图像特征向量、所述音频特征向量和所述文本特征向量确定所述回答者的情绪。

可选地，根据所述图像特征向量、所述音频特征向量和所述文本特征向量确定所述回答者的情绪，包括：获取所述图像特征向量对应的第一权重系数、所述音频特征向量对应的第二权重系数、所述文本特征向量对应的第三权重系数，所述第一权重系数是指所述图像特征向量在所述回答者的情绪中的重要程度，所述第二权重系数是指所述音频特征向量在所述回答者的情绪中的重要程度，所述第三权重系数是指所述文本特征向量在所述回答者的情绪中的重要程度；获取所述第一权重系数和所述图像特征向量的第一乘积，获取所述第二权重系数和所述音频特征向量的第二乘积，获取所述第三权重系数和所述文本特征向量的第三乘积；获取所述第一乘积、所述第二乘积和所述第三乘积的总和，得到目标计算结果，根据所述目标计算结果确定所述回答者的情绪。

可选地，至少根据所述回答者的情绪生成目标图像，包括：提取所述第一目标文本中的关键词；根据所述关键词生成第二目标文本，所述第二目标文本是用于参考生成所述目标图像的文本；根据所述回答者的情绪和所述第二目标文本生成所述目标图像。

可选地，根据所述关键词生成第二目标文本，包括：根据所述关键词进行组合得到组合后的关键词；补全组合后的关键词的相关描述，并进行结构化表达，得到所述第二目标文本。

可选地，根据所述回答者的情绪和所述第二目标文本生成所述目标图像，包括：采用生成式对抗网络模型对所述回答者的情绪和所述第二目标文本进行处理，得到所述目标图像。

根据本发明实施例的另一方面，还提供了一种服务器，包括：获取单元，用于获取对话模板文本，所述对话模板文本是预先输入的用于与回答者对话的文本；第一处理单元，用于根据所述对话模板文本生成提问音频数据，并控制音频播放设备播放所述提问音频数据；第二处理单元，用于获取所述回答者说话过程中的视频数据和语音数据，并根据所述语音数据生成第一目标文本；第三处理单元，用于根据所述视频数据、所述语音数据和所述第一目标文本确定所述回答者的情绪，并至少根据所述回答者的情绪生成目标图像。

根据本发明实施例的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质包括存储的程序，其中，所述程序执行任意一种所述的方法。

根据本发明实施例的另一方面，还提供了一种情绪图像的生成系统，包括：处理器、视频采集设备、音频采集设备，所述处理器分别与所述视频采集设备和所述音频采集设备通信，所述处理器用于执行任意一种所述的方法。

在本发明实施例中，首先获取对话模板文本，之后获取回答者说话过程中的视频数据和语音数据，并根据语音数据生成第一目标文本，之后根据视频数据、语音数据和第一目标文本确定回答者的情绪，并至少根据回答者的情绪生成目标图像，最后根据视频数据、语音数据和第一目标文本确定回答者的情绪，并至少根据回答者的情绪生成目标图像。该方案中，通过对话模板文本可以与回答者进行交互，引导回答者将自身真实的情感体现出来，从而提高情绪检测的准确度，进而将多模态情绪检测与文本生成图像技术相结合，可以实现情绪的精准图像化展示，以对情绪进行具象化地表达。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了根据本申请的实施例的一种基于多模态的情绪图像的生成的流程示意图；

图2示出了根据本申请的实施例的一种服务器的结构示意图；

图3示出了一种情绪图像的生成系统的处理流程示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应该理解的是，当元件(诸如层、膜、区域、或衬底)描述为在另一元件“上”时，该元件可直接在该另一元件上，或者也可存在中间元件。而且，在说明书以及权利要求书中，当描述有元件“连接”至另一元件时，该元件可“直接连接”至该另一元件，或者通过第三元件“连接”至该另一元件。

为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

多模态情绪检测：，通过对视频的图像、音频和文本分别进行特征提取、融合与识别，实现情绪类别的检测任务。

文本描述生成图像：是指输入一段文字描述产生对应的图像的任务。

目前多模态情绪检测已经具备了一定基础，已具备了包含视频、音频、文本等多模态的情绪检测方法，但目前并没有先例将情绪以图像的方式展现出来。

文本生成图像技术也在DALL·E、CLIP、GLIDE、DALL·E 2(unCLIP)等技术的演进过程中逐渐成熟。但受限于使用者对其作为模型输入的文本描述的专业度与完善度参差不齐，造成所生成的图像效果也不够稳定。

目前的一些情绪检测的方式中，都是用户非配合式的情绪检测，非配合式的情绪检测方式较为单一，仅通过视频、音频、文本其中一种维度的情绪检测，所检测出来的结果准确率不够高，而多模态的情绪检测虽然已经实现了图像、音频、文本等多种特征类型的融合，并以此进行情绪检测，但是在非引导的情况下，由于人们对自身情绪会潜意识进行隐藏，从而造成真实情绪的检测会有一定误差。

目前的文本描述生成图像技术，所呈现出来的图像效果有很大程度受限于描述文本的精准性与专业性，但普通用户并不具备此类技能，造成所生成的图像往往无法达到用户的预期。目前情绪的展示大多通过表情包之类的简单图像对其进行展示，并没有包含场景、人物、建筑、光影等复杂构图的情绪展示维度，情绪的表达欠缺具象化方式。

正如背景技术中所说的，现有技术中生成的图像无法对情绪进行具象化地表达，为了解决上述问题，本申请的一种典型的实施方式中，提供了一种基于多模态的情绪图像的生成方法、服务器、计算机可读存储介质和情绪图像的生成系统。

根据本申请的实施例，提供了一种基于多模态的情绪图像的生成方法。

图1是根据本申请实施例的基于多模态的情绪图像的生成方法的流程图。如图1所示，该方法包括以下步骤：

步骤S101，获取对话模板文本，上述对话模板文本是预先输入的用于与回答者对话的文本；

上述的步骤S101中，可以提前配置一套对话模板文本，进而后续可以采用对话模板文本与回答者进行交互，采用对话模板文本可以引导回答者将自身真实的情绪流露出来，从而提高情绪检测的准确度。

步骤S102，根据上述对话模板文本生成提问音频数据，并控制音频播放设备播放上述提问音频数据；

具体地，音频播放设备可以是音箱，还可以是其他任何可行的音频播放设备。

具体地，可以通过对话机器人基于专业知识库与特殊设计的情感交流场景对话流程，与回答者展开对话，通过多轮对话，可以引导回答者将自身真实的情感自然流露出来，并且在交互的过程中，可以引导回答者说出意识中的自己所身处的环境(例如是嘈杂的环境还是安静的环境)、场景(例如是办公场景还是闹市产经)、状态(例如情绪的状态，是焦虑还是平和)、明暗度(例如光照情况，是较强的光照，还是较弱的光照)等，这些都是对后续生成目标图像的所需要的关键性描述。

由虚拟机器人与回答者之间的交互，相较被动情绪检测的方式，可以让回答者的情绪展现更加直接与清晰，从而增强情绪检测结果的准确性。

上述的步骤S102中，可以采用对话模板文本生成提问音频数据，进而可以控制音频播放设备播放提问音频数据，以实现与回答者进行多轮交互，这样回答者可以听到对话模板文本中对应的音频，进而回答者回复对话模板中对应的音频，进而达到引导回答者流露真实的情绪。

步骤S103，获取上述回答者说话过程中的视频数据和语音数据，并根据上述语音数据生成第一目标文本；

上述的步骤S103中，如果回答者在回答的过程中刻意隐藏情绪，可能最后生成的第一目标文本检测到的情绪是没有问题的，但是回答者如果情绪较为消极或者较为愤怒，这样通过获取回答者说话过程中的视频数据和语音数据，就可以进一步准确地检测出回答者的情绪，进而进一步提高情绪检测的准确度。

例如，如果回答者情绪较为消极，或者较为低落，仅仅通过回答者回复的第一目标文本是会检测到回答者的情绪的是正常的情绪，但是再结合回答者的说话过程中的视频数据和语音数据，可以检测出回答者的声音是否发生了变化，或者面部表情是否发生了变化。

步骤S104，根据上述视频数据、上述语音数据和上述第一目标文本确定上述回答者的情绪，并至少根据上述回答者的情绪生成目标图像。

上述的步骤S104中，通过多模态的数据和文本进行结合，可以得到较为准确的回答者的情绪的类别，进而保证了生成的目标图像的精确度较高。

上述的方法中，首先获取对话模板文本，之后获取回答者说话过程中的视频数据和语音数据，并根据语音数据生成第一目标文本，之后根据视频数据、语音数据和第一目标文本确定回答者的情绪，并至少根据回答者的情绪生成目标图像，最后根据视频数据、语音数据和第一目标文本确定回答者的情绪，并至少根据回答者的情绪生成目标图像。该方案中，通过对话模板文本可以与回答者进行交互，引导回答者将自身真实的情感体现出来，从而提高情绪检测的准确度，进而将多模态情绪检测与文本生成图像技术相结合，可以实现情绪的精准图像化展示，以对情绪进行具象化地表达。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

为进一步保证可以更为准确地检测回答者的情绪，可以通过多种方式采集回答者的数据，不仅要采集回答者的第一目标文本，还可以采集回答者在交互过程中的视频数据和语音数据，本申请的一种实施例中，获取上述回答者说话过程中的视频数据和语音数据，具体包括如下步骤：

步骤S201，提取上述对话模板文本中的多个问题；

步骤S202，在上述回答者回答上述问题的过程中或者上述回答者倾听上述问题的过程中，获取上述视频数据和上述语音数据，其中，上述视频数据是通过视频采集设备采集到的，上述语音数据是通过音频采集设备采集到的。

具体地，视频采集设备可以是摄像机，音频采集设备可以是麦克风，当然，并不限于上述的情况，还可以根据其他任何可行的视频采集设备和音频采集设备。

上述的步骤S201至步骤S202中，通过采集回答者在交互过程中的视频数据和语音数据，后续可以与第一目标文本进行结合，以进一步实现基于多模态的情绪检测，进而进一步保证情绪检测的准确性较高。

为保证情绪检测的准确性，可以采用特征提取的方式以及特征向量来检测情绪，本申请的又一种实施例中，根据上述视频数据、上述语音数据和上述第一目标文本确定上述回答者的情绪，具体包括如下步骤：

步骤S301，对上述视频数据进行特征提取，得到图像特征向量；

步骤S302，对上述语音数据进行特征提取，得到音频特征向量；

步骤S303，对上述第一目标文本进行特征提取，得到文本特征向量；

步骤S304，根据上述图像特征向量、上述音频特征向量和上述文本特征向量确定上述回答者的情绪。

对于不同的特征向量，对于最终的识别的情绪类别的影响程度是不同的，本申请的一种具体的实施例中，根据上述图像特征向量、上述音频特征向量和上述文本特征向量确定上述回答者的情绪，具体包括如下步骤：

步骤S3041，获取上述图像特征向量对应的第一权重系数、上述音频特征向量对应的第二权重系数、上述文本特征向量对应的第三权重系数，上述第一权重系数是指上述图像特征向量在上述回答者的情绪中的重要程度，上述第二权重系数是指上述音频特征向量在上述回答者的情绪中的重要程度，上述第三权重系数是指上述文本特征向量在上述回答者的情绪中的重要程度；

步骤S3042，获取上述第一权重系数和上述图像特征向量的第一乘积，获取上述第二权重系数和上述音频特征向量的第二乘积，获取上述第三权重系数和上述文本特征向量的第三乘积；

步骤S3043，获取上述第一乘积、上述第二乘积和上述第三乘积的总和，得到目标计算结果，根据上述目标计算结果确定上述回答者的情绪。

一种可选地实施例中，可以预先定义[0.5,0.5]范围内的特征向量为悲伤，[0.8,0.7]范围内的特征向量为愤怒，当然，还可以定义其他范围，这样通过目标计算结果落入的范围，来确定回答者的情绪。

上述的步骤S3041至步骤S3043中，通过预先定义不同的特征向量对应的权重系数，可以较为明确地反应出不同的特征向量对于最终的识别的情绪类别的影响程度，进而可以进一步将多模态的特征向量进行结合，以进一步保证情绪检测的准确性较高。

上述的步骤S301至步骤S304中，通过对图像特征向量、音频特征向量、文本特征向量进行融合，可以得到融合后的特征向量，融合后的特征向量是基于多模态的特征向量得到的，进而可以进一步保证情绪检测的准确性较高。

本申请的另一种实施例中，至少根据上述回答者的情绪生成目标图像，具体包括如下步骤：

步骤S401，提取上述第一目标文本中的关键词；

步骤S402，根据上述关键词生成第二目标文本，上述第二目标文本是用于参考生成上述目标图像的文本；

对于大部分回答者来说，实际上是较难准确地描述出标准化的内容的，本申请的一种具体的实施例中，根据上述关键词生成第二目标文本，包括：根据上述关键词进行组合得到组合后的关键词；补全组合后的关键词的相关描述，并进行结构化表达，得到上述第二目标文本。该方案中，通过对回答者的描述的内容进行补全以及结构化表达，可以对回答者的描述的内容进行进一步完善，进而进一步保证得到的第二目标文本的准确性。

具体地，对于描述图像中的专业词语，附加参数值、高度渲染、分辨率、远景等等都是较为专业的，大部分回答者是较难直接描述出来的，这样可以通过补全以及结构化表达完善回答者的描述。还可以在回答者描述的不完整的情况下，对回答者进行引导，通过对话模板文本对回答者进行引导，这样可以引导回答者更为完整地描述内容。通过自然语言处理与文本续写技术，实现将回答者的语言描述与情绪类别描述进行标准化处理，补全一些关于文本生成图像模型所需要的专业化描述，从而增强所输出图像的精确度与完整度。

更为具体地，可以将确定的情绪类别、关键词、关键语句、回答者的场景描述等文本内容进行结合，基于自然语言和文本续写技术，将输入的语句构造为文本描述生成目标图像所需要的标准化描述语音，并自动补齐相关描述作为输出。

对于生成第二目标文本的方式可以有两种：

第一种实现方式：基于情绪类别、关键词、关键语句、回答者的场景描述，自动续写文本，生成一篇完整的文本，例如关键词包括“农夫”、“一条河”、“看”、“农场”、“一条河”，可以自动续写生成的文本为“一个农夫在一个农场旁边看到一条河”；

第二种实现方式：直接预先配置一个模板，回答者回复模板中空白的区域，然后根据模板和回答者的回复来生成文本，例如模板是“你在__看到了__，你的位置是__，你的职业是__”，回答者回复第一个空白是“农场旁边”，回答者回复第二个空白是“一条河”，回答者回复第三个空白是“农场”，回答者回复第四个空白是“农夫”，生成的文本为“一个农夫在一个农场旁边看到一条河”。

步骤S403，根据上述回答者的情绪和上述第二目标文本生成上述目标图像。

在已经确定回答者的情绪和对应的第二目标文本的情况下，可以生成情绪对应的目标图像，本申请的一种具体的实施例中，根据上述回答者的情绪和上述第二目标文本生成上述目标图像，包括：采用生成式对抗网络模型对上述回答者的情绪和上述第二目标文本进行处理，得到上述目标图像。该方案中，由于生成式对抗网络模型所生成的图像的质量较高，因此采用生成式对抗网络模型得到的目标图像的质量较高，进而可以实现复杂的情绪图像的展示。

具体地，采用生成式对抗网络模型生成的目标图像可以为“有一个农夫，站在农场旁边，观望着一条河”。因此，本方案生成的目标图像相比一些方案中生成的图像更为复杂，且细节更为丰富。

上述的步骤S401至步骤S403中，可以通过与回答者进行多轮交互，从而标准化回答者的语言表达，并且可以在回答者配合下完善描述内容，进而通过语义理解与文本续写(补全的功能)的方式，保障输入的有效性，并且将图像生成的领域范围限定在针对情绪内容的图像化表达，进而进一步降低所生成的图像的随机性所造成输出结果超出预期的可能。该方案中，通过将引导回答者流露真实情绪以及完善回答者的描述进行结合，可以进一步实现复杂的情绪图像的展示，可以在一定程度限定输出结果的领域范围的同时，进一步提升图像与用户意向的符合度。

本申请实施例还提供了一种服务器，需要说明的是，本申请实施例的服务器可以用于执行本申请实施例所提供的用于基于多模态的情绪图像的生成方法。以下对本申请实施例提供的服务器进行介绍。

图2是根据本申请实施例的服务器的示意图。如图2所示，该装置包括：

获取单元10，用于获取对话模板文本，上述对话模板文本是预先输入的用于与回答者对话的文本；

上述的获取单元，可以提前配置一套对话模板文本，进而后续可以采用对话模板文本与回答者进行交互，采用对话模板文本可以引导回答者将自身真实的情绪流露出来，从而提高情绪检测的准确度。

第一处理单元20，用于根据上述对话模板文本生成提问音频数据，并控制音频播放设备播放上述提问音频数据；

上述的第一处理单元，可以采用对话模板文本生成提问音频数据，进而可以控制音频播放设备播放提问音频数据，以实现与回答者进行多轮交互，这样回答者可以听到对话模板文本中对应的音频，进而回答者回复对话模板中对应的音频，进而达到引导回答者流露真实的情绪。

第二处理单元30，用于获取上述回答者说话过程中的视频数据和语音数据，并根据上述语音数据生成第一目标文本；

上述的第二处理单元，如果回答者在回答的过程中刻意隐藏情绪，可能最后生成的第一目标文本检测到的情绪是没有问题的，但是回答者如果情绪较为消极或者较为愤怒，这样通过获取回答者说话过程中的视频数据和语音数据，就可以进一步准确地检测出回答者的情绪，进而进一步提高情绪检测的准确度。

第三处理单元40，用于根据上述视频数据、上述语音数据和上述第一目标文本确定上述回答者的情绪，并至少根据上述回答者的情绪生成目标图像。

上述的第三处理单元，通过多模态的数据和文本进行结合，可以得到较为准确的回答者的情绪的类别，进而保证了生成的目标图像的精确度较高。

上述的服务器，获取单元获取对话模板文本，第一处理单元获取回答者说话过程中的视频数据和语音数据，并根据语音数据生成第一目标文本，第二处理单元根据视频数据、语音数据和第一目标文本确定回答者的情绪，并至少根据回答者的情绪生成目标图像，第三处理单元根据视频数据、语音数据和第一目标文本确定回答者的情绪，并至少根据回答者的情绪生成目标图像。该方案中，通过对话模板文本可以与回答者进行交互，引导回答者将自身真实的情感体现出来，从而提高情绪检测的准确度，进而将多模态情绪检测与文本生成图像技术相结合，可以实现情绪的精准图像化展示，以对情绪进行具象化地表达。

为进一步保证可以更为准确地检测回答者的情绪，可以通过多种方式采集回答者的数据，不仅要采集回答者的第一目标文本，还可以采集回答者在交互过程中的视频数据和语音数据，本申请的一种实施例中，获取单元包括第一提取模块和获取模块，各模块的功能如下：

第一提取模块，用于提取上述对话模板文本中的多个问题；

获取模块，用于在上述回答者回答上述问题的过程中或者上述回答者倾听上述问题的过程中，获取上述视频数据和上述语音数据，其中，上述视频数据是通过视频采集设备采集到的，上述语音数据是通过音频采集设备采集到的。

上述的第一提取模块和获取模块，通过采集回答者在交互过程中的视频数据和语音数据，后续可以与第一目标文本进行结合，以进一步实现基于多模态的情绪检测，进而进一步保证情绪检测的准确性较高。

为保证情绪检测的准确性，可以采用特征提取的方式以及特征向量来检测情绪，本申请的又一种实施例中，第三处理单元包括第二提取模块、第三提取模块、第四提取模块和确定模块，各模块的功能如下：

第二提取模块，用于对上述视频数据进行特征提取，得到图像特征向量；

第三提取模块，用于对上述语音数据进行特征提取，得到音频特征向量；

第四提取模块，用于对上述第一目标文本进行特征提取，得到文本特征向量；

确定模块，用于根据上述图像特征向量、上述音频特征向量和上述文本特征向量确定上述回答者的情绪。

对于不同的特征向量，对于最终的识别的情绪类别的影响程度是不同的，本申请的一种具体的实施例中，确定模块包括第一获取子模块、第二获取子模块和确定子模块，各子模块的功能如下：

第一获取子模块，用于获取上述图像特征向量对应的第一权重系数、上述音频特征向量对应的第二权重系数、上述文本特征向量对应的第三权重系数，上述第一权重系数是指上述图像特征向量在上述回答者的情绪中的重要程度，上述第二权重系数是指上述音频特征向量在上述回答者的情绪中的重要程度，上述第三权重系数是指上述文本特征向量在上述回答者的情绪中的重要程度；

第二获取子模块，用于获取上述第一权重系数和上述图像特征向量的第一乘积，获取上述第二权重系数和上述音频特征向量的第二乘积，获取上述第三权重系数和上述文本特征向量的第三乘积；

确定子模块，用于获取上述第一乘积、上述第二乘积和上述第三乘积的总和，得到目标计算结果，根据上述目标计算结果确定上述回答者的情绪。

上述的第一获取子模块、第二获取子模块和确定子模块，通过预先定义不同的特征向量对应的权重系数，可以较为明确地反应出不同的特征向量对于最终的识别的情绪类别的影响程度，进而可以进一步将多模态的特征向量进行结合，以进一步保证情绪检测的准确性较高。

上述的第二提取模块、第三提取模块、第四提取模块和确定模块，通过对图像特征向量、音频特征向量、文本特征向量进行融合，可以得到融合后的特征向量，融合后的特征向量是基于多模态的特征向量得到的，进而可以进一步保证情绪检测的准确性较高。

本申请的另一种实施例中，第三处理单元包括第五提取模块、第一生成模块和第二生成模块，各模块的功能如下：

第五提取模块，用于提取上述第一目标文本中的关键词；

第一生成模块，用于根据上述关键词生成第二目标文本，上述第二目标文本是用于参考生成上述目标图像的文本；

对于生成第二目标文本的方式可以有两种：

第二生成模块，用于根据上述回答者的情绪和上述第二目标文本生成上述目标图像。

上述的第五提取模块、第一生成模块和第二生成模块，可以通过与回答者进行多轮交互，从而标准化回答者的语言表达，并且可以在回答者配合下完善描述内容，进而通过语义理解与文本续写(补全的功能)的方式，保障输入的有效性，并且将图像生成的领域范围限定在针对情绪内容的图像化表达，进而进一步降低所生成的图像的随机性所造成输出结果超出预期的可能。该方案中，通过将引导回答者流露真实情绪以及完善回答者的描述进行结合，可以进一步实现复杂的情绪图像的展示，可以在一定程度限定输出结果的领域范围的同时，进一步提升图像与用户意向的符合度。

上述服务器包括处理器和存储器，上述获取单元、第一处理单元、第二处理单元和第三处理单元等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来对情绪进行具象化地表达。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现上述基于多模态的情绪图像的生成方法。

本发明实施例提供了一种处理器，上述处理器用于运行程序，其中，上述程序运行时执行上述基于多模态的情绪图像的生成方法。

本申请还提供了一种情绪图像的生成系统，包括处理器、视频采集设备、音频采集设备，上述处理器分别与上述视频采集设备和上述音频采集设备通信，上述处理器用于执行任意一种上述的方法。

上述的系统中，由于包括任一种上述的方法，该方法中首先获取对话模板文本，之后获取回答者说话过程中的视频数据和语音数据，并根据语音数据生成第一目标文本，之后根据视频数据、语音数据和第一目标文本确定回答者的情绪，并至少根据回答者的情绪生成目标图像，最后根据视频数据、语音数据和第一目标文本确定回答者的情绪，并至少根据回答者的情绪生成目标图像。该方案中，通过对话模板文本可以与回答者进行交互，引导回答者将自身真实的情感体现出来，从而提高情绪检测的准确度，进而将多模态情绪检测与文本生成图像技术相结合，可以实现情绪的精准图像化展示，以对情绪进行具象化地表达。

具体地，上述的情绪图像的生成系统还包括音频播放设备，处理器与音频播放设备通信。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现至少以下步骤：

本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有至少如下方法步骤的程序：

为了本领域技术人员能够更加清楚地了解本申请的技术方案，以下将结合具体的实施例来说明本申请的技术方案和技术效果。

实施例

本实施例涉及一种情绪图像的生成系统，如图3所示，包括多模态情绪检测模块、对话机器人模块、文本处理模块和文本描述生成图像模块，多模态情绪检测模块包括音视频采集子模块、图像特征提取子模块、音频特征提取子模块、语音识别子模块、文本特征提取子模块、特征融合子模块、情绪检测子模块；

第一步，通过对话机器人模块基于专业知识库与特殊设计的情感交流场景对话流程，与用户展开对话，通过多轮对话，引导用户将自身情感自然流露出来，并且在交互过程中，引导用户说出意识中的自己所身处的环境、场景、状态、明暗度等对后续文本生成图像所需要的关键性描述；

第二步，在虚拟机器人与用户交互过程中，通过音视频采集子模块采集用户的面部视频、交互语音音频；

第三步，将面部视频送入图像特征提取子模块，获取图像特征向量，送入特征融合子模块；将音频送入音频特征提取子模块，获取音频特征向量，送入特征融合子模块；同步将音频送入语音识别子模块，将用于语音转写为文本，送入文本特征提取子模块，获取文本特征向量，送入特征融合子模块；

第四步，将融合了图像特征、音频特征、文本特征的向量送入情绪检测子模块，从而识别出情绪类别；

第五步，将情绪类别、对话机器人输出的关键词、关键语句、场景描述等文本内容送入文本处理模块，文本处理模块基于自然语言处理与文本续写技术，将输入语句构造为文本描述生成图像模型所需要的标准化描述语音，并自动补齐相关描述作为输出；

第六步，将由文本处理模块输出的标准化文本输入文本描述生成图像模块，由生成图像模块生成复杂的、精细化的展示情绪的图像作为整个系统的最终输出。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

从以上的描述中，可以看出，本申请上述的实施例实现了如下技术效果：

1)、本申请的基于多模态的情绪图像的生成方法，首先获取对话模板文本，之后获取回答者说话过程中的视频数据和语音数据，并根据语音数据生成第一目标文本，之后根据视频数据、语音数据和第一目标文本确定回答者的情绪，并至少根据回答者的情绪生成目标图像，最后根据视频数据、语音数据和第一目标文本确定回答者的情绪，并至少根据回答者的情绪生成目标图像。该方案中，通过对话模板文本可以与回答者进行交互，引导回答者将自身真实的情感体现出来，从而提高情绪检测的准确度，进而将多模态情绪检测与文本生成图像技术相结合，可以实现情绪的精准图像化展示，以对情绪进行具象化地表达。

2)、本申请的服务器，获取单元获取对话模板文本，第一处理单元获取回答者说话过程中的视频数据和语音数据，并根据语音数据生成第一目标文本，第二处理单元根据视频数据、语音数据和第一目标文本确定回答者的情绪，并至少根据回答者的情绪生成目标图像，第三处理单元根据视频数据、语音数据和第一目标文本确定回答者的情绪，并至少根据回答者的情绪生成目标图像。该方案中，通过对话模板文本可以与回答者进行交互，引导回答者将自身真实的情感体现出来，从而提高情绪检测的准确度，进而将多模态情绪检测与文本生成图像技术相结合，可以实现情绪的精准图像化展示，以对情绪进行具象化地表达。

3)、本申请的情绪图像的生成系统，由于包括任一种上述的方法，该方法中首先获取对话模板文本，之后获取回答者说话过程中的视频数据和语音数据，并根据语音数据生成第一目标文本，之后根据视频数据、语音数据和第一目标文本确定回答者的情绪，并至少根据回答者的情绪生成目标图像，最后根据视频数据、语音数据和第一目标文本确定回答者的情绪，并至少根据回答者的情绪生成目标图像。该方案中，通过对话模板文本可以与回答者进行交互，引导回答者将自身真实的情感体现出来，从而提高情绪检测的准确度，进而将多模态情绪检测与文本生成图像技术相结合，可以实现情绪的精准图像化展示，以对情绪进行具象化地表达。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基于多模态的情绪图像的生成方法，其特征在于，包括：

获取对话模板文本，所述对话模板文本是预先输入的用于与回答者对话的文本；

根据所述对话模板文本生成提问音频数据，并控制音频播放设备播放所述提问音频数据；

获取所述回答者说话过程中的视频数据和语音数据，并根据所述语音数据生成第一目标文本；

根据所述视频数据、所述语音数据和所述第一目标文本确定所述回答者的情绪，并至少根据所述回答者的情绪生成目标图像。

2.根据权利要求1所述的方法，其特征在于，获取所述回答者说话过程中的视频数据和语音数据，包括：

提取所述对话模板文本中的多个问题；

在所述回答者回答所述问题的过程中或者所述回答者倾听所述问题的过程中，获取所述视频数据和所述语音数据，其中，所述视频数据是通过视频采集设备采集到的，所述语音数据是通过音频采集设备采集到的。

3.根据权利要求1所述的方法，其特征在于，根据所述视频数据、所述语音数据和所述第一目标文本确定所述回答者的情绪，包括：

对所述视频数据进行特征提取，得到图像特征向量；

对所述语音数据进行特征提取，得到音频特征向量；

对所述第一目标文本进行特征提取，得到文本特征向量；

根据所述图像特征向量、所述音频特征向量和所述文本特征向量确定所述回答者的情绪。

4.根据权利要求3所述的方法，其特征在于，根据所述图像特征向量、所述音频特征向量和所述文本特征向量确定所述回答者的情绪，包括：

获取所述图像特征向量对应的第一权重系数、所述音频特征向量对应的第二权重系数、所述文本特征向量对应的第三权重系数，所述第一权重系数是指所述图像特征向量在所述回答者的情绪中的重要程度，所述第二权重系数是指所述音频特征向量在所述回答者的情绪中的重要程度，所述第三权重系数是指所述文本特征向量在所述回答者的情绪中的重要程度；

获取所述第一权重系数和所述图像特征向量的第一乘积，获取所述第二权重系数和所述音频特征向量的第二乘积，获取所述第三权重系数和所述文本特征向量的第三乘积；

获取所述第一乘积、所述第二乘积和所述第三乘积的总和，得到目标计算结果，根据所述目标计算结果确定所述回答者的情绪。

5.根据权利要求1所述的方法，其特征在于，至少根据所述回答者的情绪生成目标图像，包括：

提取所述第一目标文本中的关键词；

根据所述关键词生成第二目标文本，所述第二目标文本是用于参考生成所述目标图像的文本；

根据所述回答者的情绪和所述第二目标文本生成所述目标图像。

6.根据权利要求5所述的方法，其特征在于，根据所述关键词生成第二目标文本，包括：

根据所述关键词进行组合得到组合后的关键词；

补全组合后的关键词的相关描述，并进行结构化表达，得到所述第二目标文本。

7.根据权利要求5所述的方法，其特征在于，根据所述回答者的情绪和所述第二目标文本生成所述目标图像，包括：

采用生成式对抗网络模型对所述回答者的情绪和所述第二目标文本进行处理，得到所述目标图像。

8.一种服务器，其特征在于，包括：

获取单元，用于获取对话模板文本，所述对话模板文本是预先输入的用于与回答者对话的文本；

第一处理单元，用于根据所述对话模板文本生成提问音频数据，并控制音频播放设备播放所述提问音频数据；

第二处理单元，用于获取所述回答者说话过程中的视频数据和语音数据，并根据所述语音数据生成第一目标文本；

第三处理单元，用于根据所述视频数据、所述语音数据和所述第一目标文本确定所述回答者的情绪，并至少根据所述回答者的情绪生成目标图像。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，所述程序执行权利要求1至7中任意一项所述的方法。

10.一种情绪图像的生成系统，其特征在于，包括：处理器、视频采集设备、音频采集设备，所述处理器分别与所述视频采集设备和所述音频采集设备通信，所述处理器用于执行权利要求1至7中任意一项所述的方法。