CN116401349A

CN116401349A - 一种多模态回复生成的方法、装置、电子设备及存储介质

Info

Publication number: CN116401349A
Application number: CN202310308398.4A
Authority: CN
Inventors: 赵晓朝
Original assignee: Faw Beijing Software Technology Co ltd; FAW Group Corp
Current assignee: Faw Beijing Software Technology Co ltd; FAW Group Corp
Priority date: 2023-03-27
Filing date: 2023-03-27
Publication date: 2023-07-07

Abstract

本申请公开了一种多模态回复生成方法，包括：获取对语音交互指令信息的执行信息；根据执行信息转换至少一种模态的回复信息；发送所述回复信息。与现有技术相比，本申请在语音对话系统中，根据应用场景和对话语义解析结果，利用人工智能内容生成技术(AIGC)，对复杂语义的执行信息进行智能合成，自动生成相应的形象化的图片、动画、视频等多模态物料，并在语音卡片的醒目区域向用户展示，既解决了语音对话的回复结果形式单一和信息表达低效问题(尤其对于复杂语义)，同时，通过结合用户画像(例如，年龄、性别、偏好等)，可以在回复物料生成中加入趣味性和用户个性化特征，极大提升用户对话交互体验。

Description

一种多模态回复生成的方法、装置、电子设备及存储介质

技术领域

本申请涉及智能汽车领域，且更为具体地，涉及一种多模态回复生成方法、装置、电子设备及存储介质。

背景技术

在车载场景，车机系统可以接收来自用户多模态的输入(包括语音、触控、按键、手势等)，经过系统的智能感知-融合-决策处理后，最后执行动作并进行结果反馈。其中，语音交互已经成为智能座舱的标配核心功能，作为车机系统的交互中控，涉及到多模感知-融合-决策-执行的全流程，达到高效和智能化的语音交互体验。

但是，相比于用户输入的多样性，目前语音对话交互系统的结果反馈形式则相对单一和低效，一般通过语音播报(例如播报tts回复话术)、文本展示(例如，asr识别文本显示到屏幕、搜索列表)、文本与图像组合(例如，页面展示音乐搜索列表+歌曲插图等)。首先，语音播报方式无法承载复杂语义结果，影响交互中的高效结果反馈，例如，当面对用户长段的指令(打开空调关闭车窗打开车灯播放一首歌)，语义复杂，导致执行结果很难通过简短的语音播报出来，虽然有些专利方法提出对复杂语义的结果进行组合播报，但这并未根本上解决语音播报信息承载不足的问题；文本展示方式，需要占用用户的视线来阅读，不够直观和高效，也容易引发驾驶安全问题；文本和图像组合方式，目前主要用于展现结构化数据(例如，歌单/POI地址等)，把歌曲或poi的文本标题、属性(歌手/码率等)、插图(专辑插图/poi照片等)，按照UIUE设计进行组合后，展示给用户，因此这种展现方式仅限于特定领域数据，不具备扩展性和通用性。

发明内容

为了解决上述技术问题，提出了本申请。本申请提供了一种多模态回复生成方法，包括：

获取对语音交互指令信息的执行信息；

根据执行信息转换至少一种模态的回复信息；

发送回复信息。

可选地，执行信息包括：用户语义信息及应用执行信息。

可选地，多模态回复生成方法还包括：

接收语音交互指令信息；

识别语音交互指令信息，并获得语义信息；

根据语义信息发送指令至应用程序；

应用程序发送执行信息。

可选地，根据执行信息转换至少一种模态的回复信息包括：

根据执行信息以及用户画像信息转换至少一种模态的回复信息。

可选地，根据执行信息转换至少一种模态的回复信息包括：建立多模态回复模型。

可选地，建立多模态回复模型包括：

训练数据构建，基于用户的语音交互历史数据，按照产品人工设计优选的回复图像，形成训练样本；

训练阶段，组装训练样本，生成目标图片的经过VQ-VAE图像编码器转换为图像表示＝VQ-VAE离线向量表示，经过处理后的训练样本＝[TXT]文本表示[IMG]图像表示，其中，文本表示＝输入信息的组合字符串[w_1,w_2,...,w_n]、图像表示＝生成目标图片的离散向量表示[z_1,z_2,...,z_h*w]，组合字符串的字符个数是n，生成目标图像的离散表示的由长h*宽w个离散向量组成，每个离散向量的纬度是d维向量，输入训练样本至生成模型中；

预测阶段，当收到语音交互指令信息后，实时组装用户语义信息和应用执行信息，转化为模型输入：文本表示＝“[domain]空调控制[intent]打开空调[slots]...”，经过文本->图像生成模型后，得到VQ-VAE图像离散向量，然后进行VQ-VAE图像解码，得到回复图像，返回给车机系统，进行相应展示。

可选地，多模态回复生成方法还包括：

根据用户属性和偏好进行用户画像。

根据本申请了另一方面，还提供了一种多模态回复生成装置，包括：

语音识别模块，配置为接收语音交互指令信息；

语义理解模块，配置为识别语音交互指令信息，并获得语义信息；

对话系统模块，配置为根据语义信息发送指令至应用程序；

车机应用模块，配置为应用程序发送执行信息；

多模态回复生成模块，配置为获取对语音交互指令信息的执行信息，根据执行信息转换至少一种模态的回复信息，并发送回复信息。

根据本申请了另一方面，还提供了一种多模态回复生成电子设备，包括外部存储卡，电子设备包括上述的多模态回复生成装置。

根据本申请了另一方面，还提供了一种存储介质，其内存储有计算机程序，计算机程序在由处理器执行时实现如上述任一项的方法。

与现有技术相比，本申请提供的一种多模态回复生成方法在语音对话系统中，根据应用场景和对话语义解析结果，利用人工智能内容生成技术(AIGC)，对复杂语义的执行信息进行智能合成，自动生成相应的形象化的图片、动画、视频等多模态物料，并在语音卡片的醒目区域向用户展示，既解决了语音对话的回复结果形式单一和信息表达低效问题(尤其对于复杂语义)，同时，通过结合用户画像(例如，年龄、性别、偏好等)，可以在回复物料生成中加入趣味性和用户个性化特征，极大提升用户对话交互体验。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和有益效果变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为根据本申请实施例的多模态回复生成方法的流程图；

图2为根据本申请实施例的多模态回复生成系统的整体架构图；

图3为本申请一实施例中多模态回复生成系统的具体事例示意图；

图4为根据本申请实施例的多模态回复生成模块的训练示意图；

图5为根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

传统的对话系统介绍：包括五部分——语音识别、语义理解、对话管理、回复生成、TTS。语音识别将用户声音信号识别成文本query；语义解析将文本理解为结构化信息(领域domain、意图intention、槽位值对slots)，例如，打开副驾驶车窗-->(domain＝‘车辆控制’,intention＝‘车窗控制’，slots＝{位置＝<副驾驶，FRONT_LEFT>})。对话管理对结构化语义信息进行处理，经过对话状态追踪和对话策略模块，维护当前对话状态states(当前轮数、意图、槽位值对等)，同时输出系统下一步需要采取的动作action(包括：执行、询问、引导等)，例如，对于上例的query的语义结果，action＝‘执行’，表示可以直接执行用户指令；又如对于query＝‘我要导航’，action＝(‘询问’，slot＝‘目的地’)，表示系统需要询问用户目的地。回复生成基于对话管理模块的结果，生成回复tts，例如，对于上例的query＝打开副驾驶车窗，tts＝‘好的’；query＝我要导航，tts＝‘您要导航去哪里’。最后语音合成模块将回复转化为声音信号，通过扬声器播报给用户。播报完毕之后，对话系统开始等待用户下一轮的指令。

请参照图1-图3，图1为本申请一实施例中多模态回复生成方法的流程图，图2为本申请一实施例中多模态回复生成系统的整体架构图。图3为本申请一实施例中多模态回复生成系统的具体事例示意图。

本申请一实施例中，多模态回复生成方法包括：

S1：接收语音交互指令信息；

S2：识别语音交互指令信息，并获得语义信息；

S3：根据语义信息发送指令至应用程序；

S4：应用程序发送执行信息。

S5：获取对语音交互指令信息的执行信息；

S6：根据执行信息转换至少一种模态的回复信息；

S7：发送回复信息。

模块输入：1.用户语义：领域(domain)、意图(intent)、槽位(slots)；2.应用执行信息：执行结果(result)，执行分支条件(condition)，执行内容(content)。3.用户风格偏好：根据用户画像提取风格偏好(style)，例如：童趣、古风、二次元、写实、水彩画、油画、水墨画、手绘、极简线条画等。

例如，对于用户query＝“打开空调关闭车窗打开近光灯然后给我播放一首摇滚歌”，1.对应一个用户语义的列表，[{domain＝"空调控制",intent＝open_ac,slots＝{}}，{domain＝"车窗控制",intent＝close_win,slots＝{}}，{domain＝"车灯控制",intent＝open_low_beam,slots＝{}}，{domain＝"娱乐",intent＝search_song,slots＝{genre＝摇滚}]；2.对应的应用执行信息如下，对于“打开空调”，由于车辆状态是空调关闭状态，满足执行条件(即，condition＝open_success)，且执行成功，那么，综合执行信息为：{result＝执行成功，condition＝open_success,content＝{}}。对于“关闭车窗”，由于目前车辆状态是车窗关闭，车机检测不满足执行条件(condition＝already_open)，表示已经处于关闭状态了，无需重复操作，那么综合执行信息为：{result＝无效操作，condition＝already_open,content＝{}}。对于“打开近光灯”，由于车机不支持通过语音控制车灯，检测不满足执行条件(condition＝unsupported),表示不支持的操作，那么综合执行信息为：{result＝不支持语音控制，condition＝unsupported,content＝{}}。最后，对于“然后给我播放一首摇滚歌”，由于车机处于导航页面，会首先启动音乐app，同时利用语义信息调用内容提供方接口，拿到返回歌曲列表，并播放第一首歌曲“一无所有”，综合执行信息为：{result＝执行成功，condition＝music_search_success,content＝{song＝一无所有}}。3.根据用户画像提取图像的风格偏好style，例如，根据年龄/性别等用户属性提取图像风格偏好：儿童对应童趣风格{style＝童趣}，女生对应唯美主义风格{style＝唯美}，老人对应极简线条{style＝极简}，根据音乐偏好提取对应的图像风格偏好：二次元曲风对应二次元风格，古典曲风对应古风/水墨画风格，欧美曲风对应油画/写实风格，摇滚曲风对应暗黑/朋克风格。

在本申请其他实施例中，也可推广至其他模态(视频、动画等)的回复生成。具体流程如下图所示：

例如，驾驶员发出指令：“打开空调关闭车窗打开近光灯然后给我播放一首摇滚歌”。首先，对话系统进行语义理解，识别出意图序列：[open_ac，close_win，open_low_beam，search_song#genre＝摇滚]。然后，对话系统会将意图序列依次分发给下游业务应用进行处理。最后，对话系统将动作执行结果反馈给用户。目前市面上的车载对话系统，一般采用语音播报形式，将指令执行结果反馈给用户。显然对于以上这种复杂语义，回复话术会非常冗长，导致语音播报这种反馈形式对用户来说非常低效，即使加入组合播报逻辑对回复话术进行缩减，仍然会存在反馈信息缺失，无法从根本上解决对话系统的高效信息反馈问题。本发明旨在利用内容生成技术，根据用户指令的语义与执行结果，动态生成生动形象的多模态物料，示例的，生成的图片的中央是一台汽车内部，空调位置有吹风示意，车窗位置是关闭状态，车灯有灯光开启，同时驾驶仓内有音符示意表示正在播放音乐。进而，可以将生成的示意图片展现到语音卡片区域，便于用户高效直观了解动作执行状态。

提出在语音对话系统中，利用人工智能内容生成技术(AI GC)，对复杂语义的执行反馈信息进行智能合成，自动生成相应的形象化的图片、动画、视频等多模态物料，并在语音卡片的醒目区域向用户展示，解决了语音对话的回复结果形式单一和信息表达低效问题(尤其对于复杂语义)

同时可以在回复物料生成中加入趣味性和用户个性化特征，极大提升用户对话交互体验。

请参照图4，在本申请一实施例中，根据执行信息转换至少一种模态的回复信息包括：建立多模态回复模型。具体包括：

在训练阶段时，利用面向车载对话场景的样本数据，基于Transformer的图像-文本双向生成模型(参考论文ERNI E-VI LG:UNI FI ED GENERAT IVE PRE-TRAINI NG FORBIDIRECTIONAL VIS ION-LANGUAGE GENERAT ION中的ERNI E-ViLG模型结构)，可以实现由接受到的语义信息和执行结果信息到目标回复图片的双向转换，两个方向任务(文本->图像，图像->文本)的切换通过Transformer内部的注意力矩阵来控制，且两个方向的任务对应的模型参数是共享的。具体的，将接受到的语义信息、执行结果信息和风格偏好合并后转换为文本表示，将目标回复图片转换为图像表示，则双向生成模型的输入＝[TXT]文本表示[I MG]图像表示，其中，[TXT]和[IMG]为特殊符号，表示后续的内容类型(文本or图像)。对于文本->图像任务，Transformer的注意力矩阵的[IMG]部分采用上三角矩阵，表示图像生成第k+1个像素时，仅基于[TXT]的全部信息和[IMG]的已经生成部分(第1～k个像素)。同理，对于图像->文本任务，Transformer的注意力矩阵的[TXT]部分采用上三角矩阵，表示图像生成第k+1个单词时，仅基于[IMG]的全部信息和[TXT]的已经生成部分(第1～k个单词)。基于此，该模型可以将图形组织成具有通顺语义的文本，也能基于文本解读语义合成通达语义的图片示意图，具有双向翻译、解读的能力。

当预测阶段时，该生成模型可以在给定语义信息和执行结果条件下，生成目标回复图片，从而将复杂语义的回复整合到一个形象化的图片示意图中。此时，输入＝[TXT]文本信息[IMG](注，添加[IMG]符号是为了表示图像生成的开始位置)，Transformer模型将逐个像素生成图像。

训练数据构建，基于用户的语音交互历史数据，积累原始的输入样本(用户语音信息+应用执行信息)，提供给专业用户界面设计师，按照产品人工设计优选的回复图像，注，图示里图片仅用于示意，真实产品会更加生动和逼真；最后将输入样本与生成目标进行组合，形成训练样本。

训练阶段，首先将输入样本进行组装，文本表示＝“[domain]空调控制[intent]打开空调[slots]...”，其中，[domain]、[intent]、[slots]是特殊标记符，用来标是后面文本的来源，多意图语义信息直接进行拼接即可，由此，输入样本可形成一个长字符串。生成目标图片的会经过VQ-VAE图像编码器(这是一个常规图像生成模型所采用的模块，用来将图像元素进行向量化)，转换为图像表示＝VQ-VAE离线向量表示。经过处理后的训练样本＝[TXT]文本表示[IMG]图像表示(其中，文本表示＝输入信息的组合字符串[w_1,w_2,...,w_n]、图像表示＝生成目标图片的离散向量表示[z_1,z_2,...,z_h*w]，这里假设组合字符串的字符个数是n，生成目标图像的离散表示的由长h*宽w个离散向量组成，每个离散向量的纬度是d维向量)，训练样本会输入到生成模型中，本发明将采用常规的文本-图像双向生成架构(参考ERNIE-ViLG)，将48层Transformer叠加作为基础模型架构，模型输入为[TXT][w_1,w_2,...,w_n][IMG][z_1,z_2,...,z_h*w]，模型输出为图像生成结果or文本生成结果(对应文本->图像生成任务，图像->文本生成任务)，具体transformer的内部参数会在模型训练过程中进行优选，模型的优化目标是

即loss由两部分组成：由输入文本生成目标图片的概率+由输入目标图片生成文本的概率。利用梯度下降算法，对双向生成模型进行训练，直到loss收敛，完成训练过程。

预测阶段，当收到用户语音请求后，会实时组装用户语义信息和应用执行信息，转化为模型输入：文本表示＝“[domain]空调控制[intent]打开空调[slots]...”，经过文本->图像生成模型后，得到VQ-VAE图像离散向量，然后进行VQ-VAE图像解码，得到回复图像，返回给车机系统，进行相应展示。

本申请一实施例还提供了一种多模态回复生成装置，包括：

语音识别模块，配置为接收语音交互指令信息；

对话系统模块，配置为根据语义信息发送指令至应用程序；

车机应用模块，配置为应用程序发送执行信息；

本申请一实施例还提供了一种多模态回复生成电子设备，包括外部存储卡，电子设备包括上述的多模态回复生成装置。

本申请一实施例还提供了一种存储介质，其内存储有计算机程序，计算机程序在由处理器执行时实现上述任一项的方法。

与现有技术相比，本申请相对于传统对话系统，在回复生成阶段，增加多模态回复生成模块以及相应的展示模块，不仅生成待播报内容，同时生成形象化、示意性的图片、动画、视频等资源。这从技术上是可行的，利用人工智能内容生成技术(AIGC)，训练可控生成模型，对复杂语义的执行反馈信息进行智能合成，自动生成相应的形象化的图片、动画、视频等多模态物料，并在语音卡片的醒目区域向用户展示。通过结合用户画像(例如，年龄、性别、偏好等)，可以在回复物料生成中加入用户趣味性和个性化风格特征。

例如，假设当前车辆状态是空调关闭状态、车窗关闭状态、车灯关闭状态、车机前台应用是导航、车机播放器暂停状态。驾驶员发出语音指令：“打开空调关闭车窗打开近光灯然后给我播放一首摇滚歌”。首先，对话系统进行语义理解，识别出意图序列：[open_ac，close_win，open_low_beam，search_song#genre＝摇滚]。然后，对话系统会将意图序列分发给下游车机应用进行处理，车机应用处理后将执行结果反馈给对话系统(成功打开空调，车窗无操作(因为已经处于关闭状态)，车灯无操作(因为车灯不支持语音控制)，搜歌并播放第一首“一无所有”)。再然后，多模态回复生成模块综合用户画像、语义信息、执行信息，动态生成对应的示意回复图片。示例的，生成的图片的中央是一台汽车内部，空调位置有吹风示意，车窗位置是关闭状态，提示车灯不支持语音操作，同时驾驶仓内有音符示意表示正在播放音乐。此外，通过车机的驾乘感知能力，获取用户画像(性别/年龄/身份/偏好)，还可以根据用户画像，个性化生成不同风格的物料，例如，对于儿童生成童趣风格，对于老人生成简洁风格，对于女生生成唯美风格，对于音乐/有声节目收听偏好，生成对应的国风、科幻、二次元等等。最后，车机可以将生成的示意图片展现到语音卡片区域，便于用户高效直观了解动作执行状态。

又如，用户发出复杂的场景化语音指令“我要吸烟”。首先对话系统进行语义理解，识别用户需要打开“吸烟模式”[open_smoke_mode]，对话系统会将语义下发给下游车机业务应用进行处理。车机应用会根据车辆状态和外部环境，进行逻辑判断后执行不同的指令，例如，外部在下雨，则会执行：打开空调的外循环；如果未下雨且窗户关闭状态，则会执行：打开车窗到通风状态(假设通风状态为打开10％)；如果未下雨且窗户已经打开状态且打开幅度大于10％，则会执行：关闭车窗到通风状态；如果未下雨且窗户已经打开状态且打开幅度小于10％，则会执行：打开车窗到通风状态。针对车机不同的执行条件，系统会动态生成生动形象的多模态物料，示例的，生成动画，展现车窗的打开/关闭的动态效果。

因此，本发明提出在语音对话系统中，根据应用场景和对话语义解析结果，利用人工智能内容生成技术(AIGC)，对复杂语义的执行信息进行智能合成，自动生成相应的形象化的图片、动画、视频等多模态物料，并在语音卡片的醒目区域向用户展示，既解决了语音对话的回复结果形式单一和信息表达低效问题(尤其对于复杂语义)，同时，通过结合用户画像(例如，年龄、性别、偏好等)，可以在回复物料生成中加入趣味性和用户个性化特征，极大提升用户对话交互体验。

例如，驾驶员发出指令：“打开空调关闭车窗打开近光灯然后给我播放一首摇滚歌”。首先，对话系统进行语义理解，识别出意图序列：[open_ac，close_win，open_low_beam，search_song#genre＝摇滚]。然后，对话系统会将意图序列依次分发给下游业务应用进行处理。最后，对话系统将动作执行结果反馈给用户。目前市面上的车载对话系统，一般采用语音播报形式，将指令执行结果反馈给用户。显然对于以上这种复杂语义，回复话术会非常冗长，导致语音播报这种反馈形式对用户来说非常低效，即使加入组合播报逻辑对回复话术进行缩减，仍然会存在反馈信息缺失，无法从根本上解决对话系统的高效信息反馈问题。本发明旨在利用内容生成技术，根据用户指令的语义与执行结果，动态生成生动形象的多模态物料，示例的，生成的图片的中央是一台汽车内部，空调位置有吹风示意，车窗位置是关闭状态，车灯有灯光开启，同时驾驶仓内有音符示意表示正在播放音乐，同时还可以根据用户画像，个性化生成不同风格的物料，例如，对于儿童生成童趣风格，对于老人生成简洁风格，对于女生生成唯美风格，对于音乐/有声节目收听偏好，生成对应的国风、科幻、二次元等等。进而，可以将生成的示意图片展现到语音卡片区域，便于用户高效直观了解动作执行状态。

又如，用户发出复杂的场景化指令“我要吸烟”。首先对话系统进行语义理解，识别用户需要打开“吸烟模式”[open_smoke_mode]，对话系统会将语义下发给下游车机业务应用进行处理。车机应用会根据车辆状态和外部环境，进行逻辑判断后执行不同的指令，例如，外部在下雨，则会执行：打开空调的外循环；如果未下雨且窗户关闭状态，则会执行：打开车窗到通风状态(假设通风状态为打开10％)；如果未下雨且窗户已经打开状态且打开幅度大于10％，则会执行：关闭车窗到通风状态；如果未下雨且窗户已经打开状态且打开幅度小于10％，则会执行：打开车窗到通风状态。针对车机不同的执行条件，系统会动态生成生动形象的多模态物料，示例的，生成动画，展现车窗的打开/关闭的动态效果。

如上，根据本申请实施例的多模态回复生成系统可以实现在各种终端设备中。在一个示例中，根据本申请实施例的多模态回复生成系统300可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该多模态回复生成系统300可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该多模态回复生成系统300同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该多模态回复生成系统300与该终端设备也可以是分立的设备，并且该多模态回复生成系统300可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图5来描述根据本申请实施例的电子设备。

图5图示了根据本申请实施例的电子设备的框图。

如图5所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行程序指令，以实现上文的本申请的各个实施例的多模态回复生成方法中的功能以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如目标位置特征向量等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入装置13可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括解码值等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图5中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的多模态回复生成方法中的功能中的步骤。

计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，计算机程序指令在被处理器运行时使得处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的多模态回复生成方法的功能中的步骤。

计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种多模态回复生成方法，其特征在于，包括：

获取对语音交互指令信息的执行信息；

根据所述执行信息转换至少一种模态的回复信息；

发送所述回复信息。

2.根据权利要求1所述的多模态回复生成方法，其特征在于，所述执行信息包括：用户语义信息及应用执行信息。

3.根据权利要求1所述的多模态回复生成方法，其特征在于，多模态回复生成方法还包括：

接收所述语音交互指令信息；

识别所述语音交互指令信息，并获得语义信息；

根据所述语义信息发送指令至应用程序；

所述应用程序发送所述执行信息。

4.根据权利要求1所述的多模态回复生成方法，其特征在于，根据所述执行信息转换至少一种模态的回复信息包括：

根据所述执行信息以及用户画像信息转换至少一种模态的回复信息。

5.根据权利要求1所述的多模态回复生成方法，其特征在于，根据所述执行信息转换至少一种模态的回复信息包括：建立多模态回复模型。

6.根据权利要求5所述的多模态回复生成方法，其特征在于，建立多模态回复模型包括：

训练阶段，组装所述训练样本，生成目标图片的经过VQ-VAE图像编码器转换为图像表示＝VQ-VAE离线向量表示，经过处理后的所述训练样本＝[TXT]文本表示[IMG]图像表示，其中，文本表示＝输入信息的组合字符串[w_1,w_2,...,w_n]、图像表示＝生成目标图片的离散向量表示[z_1,z_2,...,z_h*w]，组合字符串的字符个数是n，生成目标图像的离散表示的由长h*宽w个离散向量组成，每个离散向量的纬度是d维向量，输入所述训练样本至生成模型中；

预测阶段，当收到所述语音交互指令信息后，实时组装用户语义信息和应用执行信息，转化为模型输入：文本表示＝“[domain]空调控制[intent]打开空调[slots]...”，经过文本->图像生成模型后，得到VQ-VAE图像离散向量，然后进行VQ-VAE图像解码，得到回复图像，返回给车机系统，进行相应展示。

7.根据权利要求4所述的多模态回复生成方法，其特征在于，多模态回复生成方法还包括：

根据用户属性和偏好进行用户画像。

8.一种多模态回复生成装置，其特征在于，包括：

语音识别模块，配置为接收所述语音交互指令信息；

语义理解模块，配置为识别所述语音交互指令信息，并获得语义信息；

对话系统模块，配置为根据所述语义信息发送指令至应用程序；

车机应用模块，配置为所述应用程序发送所述执行信息；

多模态回复生成模块，配置为获取对语音交互指令信息的执行信息，根据所述执行信息转换至少一种模态的回复信息，并发送所述回复信息。

9.一种多模态回复生成电子设备，包括外部存储卡，其特征在于，所述电子设备包括如权利要求8中所述的多模态回复生成装置。

10.一种存储介质，其特征在于，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如权利要求1-7中任一项所述的方法。