CN117669738B

CN117669738B - 引擎更新方法、处理方法、装置、设备、介质及机器人

Info

Publication number: CN117669738B
Application number: CN202311756801.6A
Authority: CN
Inventors: 王鹏飞
Original assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Current assignee: Suzhou Metabrain Intelligent Technology Co Ltd
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-04-26
Anticipated expiration: 2043-12-20
Also published as: CN117669738A

Abstract

本发明公开了计算机技术领域内的一种引擎更新方法、处理方法、装置、设备、介质及机器人。本发明可避免对引擎进行全参更新，在同一组件中与各模态对应的模态提取器之间相互独立，增加了模态之间的独立性，同时多个组件中与同一模态对应的能够增加对同一模态信息的处理耦合性，在一定程度上可以解决模态遗忘问题；非全参的更新方式在减少计算量和存储量的同时，并且在不降低引擎处理精度的情况下，能够对引擎进行精简，使引擎具备处理多种模态的信息的能力。

Description

引擎更新方法、处理方法、装置、设备、介质及机器人

技术领域

本发明涉及计算机技术领域，特别涉及一种引擎更新方法、处理方法、装置、设备、介质及机器人。

背景技术

目前，为了使自然语言处理引擎同时具备处理文字、图像、音频等模态的信息的处理能力，可以将视觉或者其它模态的信息先利用外部模型转化为文本信息，然后将文本信息插入到提示词，从而使自然语言处理引擎基于提示词执行翻译、问答等自然语言处理任务。此方案中，自然语言处理引擎本身并没有学会处理视觉信息或者其它模态的信息的能力，且此种方案极其依赖于外部模型的性能。如果外部模型的性能不佳，自然语言处理引擎无法有效综合处理多种模态的信息。

因此，如何使引擎具备处理多种模态的信息的能力，是本领域技术人员需要解决的问题。

发明内容

有鉴于此，本发明的目的在于提供一种引擎更新方法、处理方法、装置、设备、介质及机器人，以使引擎具备处理多种模态的信息的能力。其具体方案如下：

第一方面，本发明提供了一种引擎更新方法，包括：

获取目标模态的待处理数据；所述目标模态包括：文本、图像、点云和音频中的至少一种；

将所述待处理数据输入对话引擎，以使所述对话引擎中的按序排列的各组件利用基础提取器提取基础特征、利用与所述目标模态对应的模态提取器提取模态特征；

其中，所述对话引擎中的每一组件的输入数据包括：所述待处理数据、前一组件提取的基础特征和前一组件提取的模态特征中的至少一种；每一组件包括：基础提取器和至少一个模态提取器；

利用排列在末尾的尾部组件提取的基础特征和所述尾部组件提取的模态特征的综合损失，更新每一组件中的模态提取器的参数矩阵，同时使每一组件中的基础提取器的参数矩阵保持不变；

在每一组件中的模态提取器的参数矩阵更新后，调整更新后的参数矩阵的大小，以调整所述对话引擎中每一组件中的模态提取器的含参量。

可选地，所述目标模态中的任一种单一模态在单一组件中对应的模态提取器的数量的确定过程包括：

确定当前组件的排列位置；

判断所述排列位置是否符合部署模态提取器的条件；

若是，则根据所述排列位置计算当前单一模态在当前组件中对应的模态提取器的数量。

可选地，所述判断所述排列位置是否符合部署模态提取器的条件，包括：

判断所述排列位置是否不大于组件总数的1/N，N为自然数。

可选地，所述根据所述排列位置计算当前单一模态在当前组件中对应的模态提取器的数量，包括：

设定初始数量值；

根据当前组件的排列位置和所述初始数量值，计算当前单一模态在当前组件中对应的模态提取器的数量。

可选地，所述根据当前组件的排列位置和所述初始数量值，计算当前单一模态在当前组件中对应的模态提取器的数量，包括：

按照目标公式计算当前单一模态在当前组件中对应的模态提取器的数量；所述目标公式为：M(i)=A-ceil(A×i×(1/(ceil(1/N×X)))；M(i)为当前单一模态在当前组件i中对应的模态提取器的数量，A为所述初始数量值，ceil表示向上取整，N为自然数，X为组件总数。

可选地，所述综合损失的计算公式为：；X _t为当前时刻t的综合损失，/>为预设比例系数，θ为引擎参数，X _＜t表示当前时间t之前的历史时刻向量，/>为基于历史时刻向量和θ确定的当前时刻向量的概率值；/>为基于当前时刻模态输入信息I和历史时刻向量确定的当前时刻向量的概率值；v为词汇表V中任意词汇的概率值，V ^（k）表示基于argmax函数确定的词汇表V中与当前时刻向量相近的前k个词汇。

可选地，所述调整更新后的参数矩阵的大小之前，还包括：

判断当前更新次数是否达到预设调整条件；

若是，则执行所述调整更新后的参数矩阵的大小的步骤；

若否，则获取新的待处理数据，以利用新的待处理数据对对话引擎进行下一次更新。

可选地，更新后的参数矩阵的大小的调整过程包括：

计算当前单一模态在各个组件中对应的模态提取器的更新后的参数矩阵的秩；

根据各个秩选择需调整的目标参数矩阵，并调整所述目标参数矩阵的大小。

可选地，所述根据各个秩选择需调整的目标参数矩阵，并调整所述目标参数矩阵的大小，包括：

选择秩小于预设阈值的目标参数矩阵；

按照预设比例调小或调大所述目标参数矩阵；或预设固定值调小或调大所述目标参数矩阵。

可选地，还包括：

判断所述综合损失是否符合预设收敛条件；

若是，则将当前对话引擎部署于机器人系统。

第二方面，本发明提供了一种处理方法，包括：

接收至少一种模态的信息；

将所述至少一种模态的信息输入对话引擎，以使所述对话引擎输出相应的应答结果；所述应答结果包括：所述至少一种模态的信息对应的翻译结果、问答结果和/或关联文字的生成结果；所述对话引擎按照上述任一项所述的方法得到。

第三方面，本发明提供了一种引擎更新装置，包括：

获取模块，用于获取目标模态的待处理数据；所述目标模态包括：文本、图像、点云和音频中的至少一种；

提取模块，用于将所述待处理数据输入对话引擎，以使所述对话引擎中的按序排列的各组件利用基础提取器提取基础特征、利用与所述目标模态对应的模态提取器提取模态特征；

更新模块，用于利用排列在末尾的尾部组件提取的基础特征和所述尾部组件提取的模态特征的综合损失，更新每一组件中的模态提取器的参数矩阵，同时使每一组件中的基础提取器的参数矩阵保持不变；

调整模块，用于在每一组件中的模态提取器的参数矩阵更新后，调整更新后的参数矩阵的大小，以调整所述对话引擎中每一组件中的模态提取器的含参量。

第四方面，本发明提供了一种处理装置，包括：

接收模块，用于接收至少一种模态的信息；

应答模块，用于将所述至少一种模态的信息输入对话引擎，以使所述对话引擎输出相应的应答结果；所述应答结果包括：所述至少一种模态的信息对应的翻译结果、问答结果和/或关联文字的生成结果；所述对话引擎按照上述任一项所述的方法得到。

第五方面，本发明提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的相应方法。

第六方面，本发明提供了一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述公开的相应方法。

第七方面，本发明提供了一种机器人，包括：对话引擎，所述对话引擎按照上述任一项所述的方法得到。

通过以上方案可知，本发明提供了一种引擎更新方法，包括：获取目标模态的待处理数据；所述目标模态包括：文本、图像、点云和音频中的至少一种；将所述待处理数据输入对话引擎，以使所述对话引擎中的按序排列的各组件利用基础提取器提取基础特征、利用与所述目标模态对应的模态提取器提取模态特征；其中，所述对话引擎中的每一组件的输入数据包括：所述待处理数据、前一组件提取的基础特征和前一组件提取的模态特征中的至少一种；每一组件包括：基础提取器和至少一个模态提取器；利用排列在末尾的尾部组件提取的基础特征和所述尾部组件提取的模态特征的综合损失，更新每一组件中的模态提取器的参数矩阵，同时使每一组件中的基础提取器的参数矩阵保持不变；在每一组件中的模态提取器的参数矩阵更新后，调整更新后的参数矩阵的大小，以调整所述对话引擎中每一组件中的模态提取器的含参量。

可见，本发明的技术效果为：提供的对话引擎中包括有：按序排列的多个组件，每一组件中包括基础提取器和与文本、图像、点云和音频中的至少一种模态对应的模态提取器；其中，对话引擎能够利用基础提取器提取基础特征、利用与文本、图像、点云和音频中的至少一种模态对应的模态提取器提取模态特征，使引擎具备处理多种模态的信息的能力；并且，每一组件的输入数据包括：待处理数据、前一组件提取的基础特征和前一组件提取的模态特征中的至少一种，也即：前一组件的输出结果会输入至下一组件，同时需要被处理的待处理数据也会输入至每一组件中。在排列在末尾的尾部组件提取出基础特征和模态特征后，基于最后输出的基础特征和模态特征的综合损失，更新每一组件中的模态提取器的参数矩阵，同时使每一组件中的基础提取器的参数矩阵保持不变，由此可以减少需更新的参数量，提高引擎更新效率；在每一组件中的模态提取器的参数矩阵更新后，调整更新后的参数矩阵的大小，以调整所述对话引擎中每一组件中的模态提取器的含参量，由此可以减少或增加需更新的参数量，保证引擎的处理精度和性能。该方案可避免对引擎进行全参更新，在同一组件中与各模态对应的模态提取器之间相互独立，增加了模态之间的独立性，同时多个组件中与同一模态对应的能够增加对同一模态信息的处理耦合性，在一定程度上可以解决模态遗忘问题；非全参的更新方式在减少计算量和存储量的同时，并且在不降低引擎处理精度的情况下，能够对引擎进行精简。

相应地，本发明提供的一种引擎更新装置、设备及可读存储介质，也同样具有上述技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明公开的一种引擎更新方法流程图；

图2为本发明公开的一种对话引擎的结构示意图；

图3为本发明公开的一种处理方法流程图；

图4为本发明公开的一种transformer block的结构示意图；

图5为本发明公开的一种注意力头示意图；

图6为本发明公开的一种引擎更新装置示意图；

图7为本发明公开的一种处理装置示意图；

图8为本发明公开的一种电子设备示意图；

图9为本发明提供的一种服务器结构图；

图10为本发明提供的一种终端结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实例，都属于本发明保护的范围。

目前，为了使自然语言处理引擎同时具备处理文字、图像、音频等模态的信息的处理能力，可以将视觉或者其它模态的信息先利用外部模型转化为文本信息，然后将文本信息插入到提示词，从而使自然语言处理引擎基于提示词执行翻译、问答等自然语言处理任务。此方案中，自然语言处理引擎本身并没有学会处理视觉信息或者其它模态的信息的能力，且此种方案极其依赖于外部模型的性能。如果外部模型的性能不佳，自然语言处理引擎无法有效综合处理多种模态的信息。为此，本发明提供了一种引擎更新方案，能够避免对引擎进行全参更新，在同一组件中与各模态对应的模态提取器之间相互独立，增加了模态之间的独立性，同时多个组件中与同一模态对应的能够增加对同一模态信息的处理耦合性，在一定程度上可以解决模态遗忘问题；非全参的更新方式在减少计算量和存储量的同时，并且在不降低引擎处理精度的情况下，能够对引擎进行精简，使引擎具备处理多种模态的信息的能力。

参见图1所示，本发明实施例公开了一种引擎更新方法，包括：

S101、获取目标模态的待处理数据。

其中，目标模态包括：文本、图像、点云和音频中的至少一种，待处理数据中混合有各种模态的信息。

S102、将待处理数据输入对话引擎，以使对话引擎中的按序排列的各组件利用基础提取器提取基础特征、利用与目标模态对应的模态提取器提取模态特征。

其中，对话引擎中的每一组件的输入数据包括：待处理数据、前一组件提取的基础特征和前一组件提取的模态特征中的至少一种；每一组件包括：一个基础提取器和至少一个模态提取器。对话引擎的结构请参见图2，如图2所示，每一个模态提取器可基于注意力机制构建得到。在单一一个组件中，包括一个基础提取器和多个模态提取器，单一一个组件中的一个模态提取器与唯一一种模态相对应。同一种模态对应的模态提取器在单一一个组件中可以有多个。例如：组件1中包括2个图像对应的模态提取器、5个音频对应的模态提取器；组件2中包括6个图像对应的模态提取器、3个音频对应的模态提取器。

需要说明的是，单一模态在各个组件中对应的模态提取器的数量不等，例如：图像模态在组件1中对应的模态提取器的数量为10，图像模态在组件2中对应的模态提取器的数量为8，图像模态在组件3中对应的模态提取器的数量为6，由此依次递减。此方式根据组件的排列位置确定每一种模态的模态提取器的数量的，可根据需要来提取相应模态的关键信息，这种非对称表方式有助于使对话引擎在保持基础信息（如文本）的上下文理解能力的基础上，具备对其他模态的理解能力。

在一种示例中，目标模态中的任一种单一模态在单一组件中对应的模态提取器的数量的确定过程包括：确定当前组件的排列位置；判断排列位置是否符合部署模态提取器的条件；若是，则根据排列位置计算当前单一模态在当前组件中对应的模态提取器的数量。

在一种示例中，判断排列位置是否符合部署模态提取器的条件，包括：判断排列位置是否不大于组件总数的1/N，N为自然数。其中，组件总数的1/N一般不超过组件总数的一半。如果N取5，组件总数为50，那么对排列位置在前50×1/5=10的组件，进行某一模态的模态提取器的部署。具体的，针对单一一种模态A（模态A为：图像或音频等），按照公式40-40×n×1/10计算每一个组件中应该部署的模态提取器的数量，n为组件的排列位置，40为初始数量值。那么排列位置在第一的组件1中，部署40-40×1×1/10=36个模态A的模态提取器；排列位置在第二的组件2中，部署40-40×2×1/10=32个模态A的模态提取器；排列位置在第三的组件3中，部署40-40×3×1/10=28个模态A的模态提取器；以此类推，后续组件4~组件10中部署24、20、16、12、8、4、0个模态提取器，后续组件11~组件50中均部署0个模态A的模态提取器。由此，后一组件都会接受来自于前一组件的模态A模态提取器所带来的模态特征信息，剩余的更深层的组件则不再新提取模态A的模态特征信息，而直接使用前一组件提供的。应该注意的是，每一组件输出的序列长度为模态特征长度+基础特征长度，用来保持后续的序列长度一致。

在一种示例中，根据排列位置计算当前单一模态在当前组件中对应的模态提取器的数量，包括：设定初始数量值；根据当前组件的排列位置和初始数量值，计算当前单一模态在当前组件中对应的模态提取器的数量。

在一种示例中，根据当前组件的排列位置和初始数量值，计算当前单一模态在当前组件中对应的模态提取器的数量，包括：按照目标公式计算当前单一模态在当前组件中对应的模态提取器的数量；所述目标公式为：M(i)=A-ceil(A×i×(1/(ceil(1/N×X)))；M(i)为当前单一模态在当前组件i中对应的模态提取器的数量，A为所述初始数量值，ceil表示向上取整，N为自然数，X为组件总数。

S103、利用排列在末尾的尾部组件提取的基础特征和尾部组件提取的模态特征的综合损失，更新每一组件中的模态提取器的参数矩阵，同时使每一组件中的基础提取器的参数矩阵保持不变。

S104、在每一组件中的模态提取器的参数矩阵更新后，调整更新后的参数矩阵的大小，以调整对话引擎中每一组件中的模态提取器的含参量。

在一种示例中，综合损失的计算公式为：；X _t为当前时刻t的综合损失，/>为预设比例系数，θ为引擎参数，X _＜t表示当前时间t之前的历史时刻向量，/>为基于历史时刻向量和θ确定的当前时刻向量的概率值；/>为基于当前时刻模态输入信息I和历史时刻向量确定的当前时刻向量的概率值；v为词汇表V中任意词汇的概率值，V ^（k）表示基于argmax函数确定的词汇表V中与当前时刻向量相近的前k个词汇。当前时刻向量即：对话引擎在当前时刻输出的结果，历史时刻向量即：对话引擎在当前时刻之前的某些时刻输出的结果。

在一种示例中，调整更新后的参数矩阵的大小之前，还包括：判断当前更新次数是否达到预设调整条件；若是，则执行调整更新后的参数矩阵的大小的步骤；若否，则获取新的待处理数据，以利用新的待处理数据对对话引擎进行下一次更新。

需要说明的是。一个模态提取器对应一个参数矩阵，其参数矩阵的秩的大小表示该参数矩阵的大小，参数矩阵的秩越大参数矩阵就越大，参数矩阵越大模态提取器的参数就越多。因此通过调整参数矩阵的秩的大小可以调整模态提取器的参数量，也就调整了对话引擎中每一组件中的模态提取器的含参量。在一种示例中，目标模态中的任一种单一模态在各个组件中对应的模态提取器的更新后的参数矩阵的大小的调整过程包括：计算当前单一模态在各个组件中对应的模态提取器的更新后的参数矩阵的秩；根据各个秩选择需调整的目标参数矩阵，并调整目标参数矩阵的大小。其中，根据各个秩选择需调整的目标参数矩阵，并调整目标参数矩阵的大小，包括：选择秩小于预设阈值的目标参数矩阵；按照预设比例调小或调大目标参数矩阵；或预设固定值调小或调大目标参数矩阵。例如：对比单一模态在各个组件中对应的模态提取器的更新后的参数矩阵的秩，调整其中2%的秩最小的参数矩阵，将这些参数矩阵的秩调小为原来的一半。

在一种示例中，还包括：判断综合损失是否符合预设收敛条件；若是，则将当前对话引擎部署于机器人系统。

本实施例提供的对话引擎中包括有：按序排列的多个组件，每一组件中包括基础提取器和与文本、图像、点云和音频中的至少一种模态对应的模态提取器；其中，对话引擎能够利用基础提取器提取基础特征、利用与文本、图像、点云和音频中的至少一种模态对应的模态提取器提取模态特征，使引擎具备处理多种模态的信息的能力；并且，每一组件的输入数据包括：待处理数据、前一组件提取的基础特征和前一组件提取的模态特征中的至少一种，也即：前一组件的输出结果会输入至下一组件，同时需要被处理的待处理数据也会输入至每一组件中。在排列在末尾的尾部组件提取出基础特征和模态特征后，基于最后输出的基础特征和模态特征的综合损失，更新每一组件中的模态提取器的参数矩阵，同时使每一组件中的基础提取器的参数矩阵保持不变，由此可以减少需更新的参数量，提高引擎更新效率；在每一组件中的模态提取器的参数矩阵更新后，调整更新后的参数矩阵的大小，以调整所述对话引擎中每一组件中的模态提取器的含参量，由此可以减少或增加需更新的参数量，保证引擎的处理精度和性能。

可见，本实施例可避免对引擎进行全参更新，在同一组件中与各模态对应的模态提取器之间相互独立，增加了模态之间的独立性，同时多个组件中与同一模态对应的能够增加对同一模态信息的处理耦合性，在一定程度上可以解决模态遗忘问题；非全参的更新方式在减少计算量和存储量的同时，并且在不降低引擎处理精度的情况下，能够对引擎进行精简。

下面对本发明实施例提供的一种处理方法进行介绍，下文描述的一种处理方法与本文描述的其他实施例可以相互参照。

参见图3所示，本发明实施例公开了一种处理方法，包括：

S301、接收至少一种模态的信息。

S302、将至少一种模态的信息输入对话引擎，以使对话引擎输出相应的应答结果。

在本实施例中，应答结果包括：至少一种模态的信息对应的翻译结果、问答结果和/或关联文字的生成结果；对话引擎按照本发明提供的相关方法得到。

其中，关于本实施例中各步骤更加具体的工作过程可以参考其他实施例中公开的相应内容，在此不再进行赘述。

本实施例提供的对话引擎具备各种模态信息的处理能力，对各模态信息的处理相互独立，还能够对同一模态信息的处理进行耦合，在一定程度上可以解决模态遗忘问题，保证了引擎处理精度和效率。

需要说明的是，CNN（Convolutional Neural Networks，卷积神经网络）、transformer（一种深度神经网络结构）、MLP（Multi-Layer Perceptron，多层感知器）等模型均包含有多个特征抽取处理层（即对话引擎中的多个组件）。在transformer中，每一transformer-block即一个组件，其中的不同注意力头代表了用于提取不同角度或不同领域语义信息（如：图像、音频等）的模态提取器。在CNN-block中，模态提取器与不同的卷积核或通道chanel对应。在MLP-block中，模态提取器与不同神经元的连接对应。因此对话引擎可基于深度学习领域的各种模型架构构建得到。

在一种示例中，对话引擎可以基于LLM（Large Language Model，大语言模型）构建，下面以transformer架构为例进行具体技术细节的介绍。

本实施例主要介绍transformer中的decoder结构。decoder结构包含多层transformer block。每一个transformer block可看作一个组件。文本、音频等多模态综合信息输入到decoder结构，最终可得到一个综合的嵌入向量，多模态综合信息在输入decoder结构之前，先转换为初始嵌入向量，每一个transformer block可以整合transformer block输出的向量信息。

请参见图4，一个transformer block可以包括：掩码多头注意力及加和归一化、前馈神经网络及加和归一化，堆叠多层transformer block，可得到对话引擎；掩码多头注意力中包括以注意力头实现的基础提取器和以注意力头实现的模态提取器。由此训练得到的transformer结构的对话引擎的建模目标表示为:。式中，x=x ₁,x ₂,…,x _n，表示给定的待处理数据序列，k表示窗口大小，θ表示引擎中所有结构的全部参数，使用随机梯度下降方法来优化上述的似然函数，可得到最终对话引擎。

其中，一个transformer block中的多头注意力模块中的不同注意力头拥有平等的地位，它们对输入的嵌入式向量进行一系列处理，最终得到对应该注意力头的向量。一系列处理具体包括：q ⁱ=W ^q×X _i，k ⁱ=W ^k×X _i，v ⁱ=W ^v×X _i，；上式中，X _i代表输入的嵌入向量，W ^q、W ^k、W ^v代表一个注意力头中的映射参数，计算得到的q ⁱ、k ⁱ 、v ⁱ经过点乘及softmax计算之后得到当前注意力头输出的嵌入向量表示。其中，单一一个注意力头的结构如图5所示，每一个注意力头涉及的计算操作是一致的，但是不同注意力头处理的数据的模态可能并不一致。

其中，初始嵌入向量的维度除以多头注意力模块中的注意力头个数，等于一个注意力头输出的嵌入向量的维度，将多个注意力头输出的嵌入向量拼接，可映射成X _i代表对应的输出结果。

其中，一个transformer block中的多头注意力模块中的不同注意力头用于处理不同模态的信息，用于处理同模态信息的注意力头的不等或相等，注意力头可以是：基础提取器，也可以是与文本、图像、点云或音频等模态对应的模态提取器。在本实施例中，多头注意力模块采用一种不对称的机制部署注意力头。具体而言，针对单一一种模态，在浅层的transformer block中部署较多的注意力头，深层的transformer block中部署较少的注意力头，这样实现了对各种模态信息的独立注意力机制，有助于各种模态信息的解耦。为了实现信息融合，将前一transformer block中的多头注意力模块中的不同注意力头输出的信息融合后，输入到下一transformer block中的多头注意力模块，该种方式实现了多模态向量的融合。模态向量会在浅层的transformer block中逐层嵌入，随着transformer block变深注意力头的数量会减少，一直到设定的停止层，不再产生新的模态特征，直接使用前面transformer block层得到的向量。

其中，一个transformer block中的多头注意力模块中的注意力头的个数的确定方式：设总层数为N，每一层中注意力头的个数为A，则每一层中包括一个用作基础提取器的注意力头（用于处理文本信息），负责处理图像模态信息的注意力头个数为M(i)=A-ceil(A×i×(1/(ceil(0.2×N)))；其中0.2为比例参数，即1/N，该参数越大则模态插入的深度越深，可以根据实际效果来灵活取值；i代表第i层block。

本实施例为避免全量微调整个引擎的参数，使用自适应的lora（low-rankadaptation of large language models，大语言模型的一种高效微调方案）来进行引擎更新。如果直接确定每个注意力头的秩大小，那么同一transformer block中、不同transformer block中，每个注意力头的含参量相同。但由于模态不同，同一transformerblock中以及不同transformer block中各模态的注意力头需要学习的信息量并不一致，因此本实施例使用一种自适应的方式，固定微调步数来计算每个注意力头的秩来确定秩是否需要增加或者减少。例如：针对某一模态，确定不同transformer block中该模态对应的注意力头的参数矩阵的秩，一个transformer block中至少有该模态对应的一个注意力头；对比所有注意力头的参数矩阵的秩的大小，调整N%的秩最小的矩阵，调小这些矩阵的秩r为r/2。

进一步地，本实施例还设计了一种模态相关的损失函数来约束模态信息和输出向量之间的关系。由于需要处理各种模态的信息，因此单纯针对引擎输出结果（即最后一级transformer block输出的结果）进行交叉熵损失的计算不利于模态信息的约束。为此，本实施例提供了如下损失函数：，，式中，/>计算的是引擎输出结果（即当前时刻向量）的预测概率；/>为小于1的可学习的参数，用来约束引擎输出结果的比率和多模态对比之间的比率谁更高一些；/>能够关联第t次输入的图像模态信息与历史时刻下的引擎输出结果之间的关系，具体为基于当前时刻模态输入信息I和历史时刻向量确定的当前时刻向量的概率值；使用类似于softmax的函数来求取概率值；v为词汇表V中任意词汇的概率值，V ^（k）表示基于argmax函数确定的词汇表V中与当前时刻向量相近的前k个词汇。这里在原始的softmax函数基础上，在分母添加了1，这是为了避免参数过小，影响收敛。通过计算两个概率值，并且加权平均之后得到最终的概率，选择最大概率的候选单词，作为最终的预测结果。通过这样的预测方式增加了多模态信息的约束，有助于模型快速收敛。公式中的CLIP是指使用CLIP来计算文本和图像之间的相关性。θ表示引擎的所有结构的参数，X _＜t表示历史输入的文本模态信息。其中，通常选择topk=1来计算。

下面以具体的LLM开源大模型llama-13B为例进行介绍。

1、获取llama-13B模型及其相关的开源实现代码，llama模型为transformer结构，共有40层transformer block，第1层transformer block中注意力头个数为40。

2、使用非对称机制改造llama模型，首先使llama的前10层拥有图像模态信息的注意力头，10层的获取可以使用总层数的（1/4或1/5），不要超过总层数深度的一半。层数获取之后确定每一层中注意力头的个数，按照层数n的1/10递减获取，即40-40*n（1/10），则第一层中注意力头个数为36，后面层依次为32、28、24、20、16、12、8、4、0。

3、给每一层中的每个注意力头添加lora，lora的添加方式参见上文中具体实施例部分，初始lora中秩r的值为32；每次经过2000次迭代之后，将会对lora矩阵的秩进行求取，对于秩较低的矩阵将会按照2的幂次缩少其r的值，这样可以减少需要训练的参数，节省计算量。

4、改造llama模型后，将图像以及对应的文本描述作为输入，送入改造后的llama模型，图像以及对应的文本描述将逐层经过transformer block进行处理，最终得到相应的预测向量h，h向量包含了图像模态信息和文本信息，将h经过词表查询后得到与h相近的topK个向量，这里取5个候选token。token为向量的索引。

5、使用上述实施例中提到的损失函数，处理5个候选token，并计算损失函数，之后梯度反传，更新注意力头的lora参数，不更新llama模型的其他结构参数。避免全量微调整个模型参数，以免产生文本能力的灾难性遗忘，在减少计算量和存储的同时，可以自适应的调整矩阵秩。

按照上述方式训练得到的llama模型即可作为对话引擎，对图像和一定的说明文本有综合处理能力。

可见，本实施例可以将多模态信息的处理插入到引擎中，原引擎已经具备世界知识和逻辑推理能力，通过添加其他模态信息有助于其理解世界的图像、视频、音频信息，更好的充当大脑中枢。本实施例将视频、图像、音频等模态信息按照非对称的方式，并以不同数量插入到transformer block中，这样有助于引擎在保持文本上下文理解能力的基础上，具备其他模态理解的能力。

进一步地，本实施例使用了一种模态相关的token预测策略来得到最终的模型损失，使用这种模态相关的token预测方式有助于多模态信息的进一步融合。在transformerblock中已经融合了模态信息和文本信息用于生成下一个token，这里使用类似CLIP的方式得到文本和图像的语义相似性能在最后一步保证生成token与图像等模态信息的相关性。除CLIP之外，其它方式如Stabel Diffusion等也可以进行相似性和相关性计算。

此外，本实施例使用非对称的注意力模态信息融合机制改造llama模型，这种改造对于模型结构并没有根本性变化，只是约束了其中需学习的部分多模态信息，能够在几乎所有的LLM中来添加使用。增加模态之间的独立性，保证耦合性；在一定程度上可以解决模态遗忘问题。根据层的位置选择是否插入模态信息，根据层的位置选择插入的模态信息用多少注意力头来关注获取信息。

本实施例是以图像为例来说明图像模态信息与文本的融合，其它模态如视频、点云信息、音频信息等可以使用类似的方式。插入transformer block的层数以及注意力头的数量可以灵活调整。

下面对本发明实施例提供的一种引擎更新装置进行介绍，下文描述的一种引擎更新装置与本文描述的其他实施例可以相互参照。

参见图6所示，本发明实施例公开了一种引擎更新装置，包括：

获取模块，用于获取目标模态的待处理数据；目标模态包括：文本、图像、点云和音频中的至少一种；

提取模块，用于将待处理数据输入对话引擎，以使对话引擎中的按序排列的各组件利用基础提取器提取基础特征、利用与目标模态对应的模态提取器提取模态特征；

其中，对话引擎中的每一组件的输入数据包括：待处理数据、前一组件提取的基础特征和前一组件提取的模态特征中的至少一种；每一组件包括：基础提取器和模态提取器；

更新模块，用于利用排列在末尾的尾部组件提取的基础特征和尾部组件提取的模态特征的综合损失，更新每一组件中的模态提取器的参数矩阵，同时使每一组件中的基础提取器的参数矩阵保持不变；

调整模块，用于在每一组件中的模态提取器的参数矩阵更新后，调整更新后的参数矩阵的大小，以调整对话引擎中每一组件中的模态提取器的含参量。

在一种示例中，目标模态中的任一种单一模态在单一组件中对应的模态提取器的数量的确定过程包括：

确定当前组件的排列位置；

判断排列位置是否符合部署模态提取器的条件；

若是，则根据排列位置计算当前单一模态在当前组件中对应的模态提取器的数量。

在一种示例中，判断排列位置是否符合部署模态提取器的条件，包括：

判断排列位置是否不大于组件总数的1/N，N为自然数。

在一种示例中，根据排列位置计算当前单一模态在当前组件中对应的模态提取器的数量，包括：

设定初始数量值；

根据当前组件的排列位置和初始数量值，计算当前单一模态在当前组件中对应的模态提取器的数量。

在一种示例中，根据当前组件的排列位置和初始数量值，计算当前单一模态在当前组件中对应的模态提取器的数量，包括：

在一种示例中，所述综合损失的计算公式为：；X _t为当前时刻t的综合损失，/>为预设比例系数，θ为引擎参数，X _＜t表示当前时间t之前的历史时刻向量，/>为基于历史时刻向量和θ确定的当前时刻向量的概率值；/>为基于当前时刻模态输入信息I和历史时刻向量确定的当前时刻向量的概率值；v为词汇表V中任意词汇的概率值，V ^（k）表示基于argmax函数确定的词汇表V中与当前时刻向量相近的前k个词汇。

在一种示例中，还包括：

判断模块，用于在调整更新后的参数矩阵的大小之前，判断当前更新次数是否达到预设调整条件；若是，则执行调整更新后的参数矩阵的大小的步骤；若否，则获取新的待处理数据，以利用新的待处理数据对对话引擎进行下一次更新。

在一种示例中，目标模态中的任一种单一模态在各个组件中对应的模态提取器的更新后的参数矩阵的大小的调整过程包括：

根据各个秩选择需调整的目标参数矩阵，并调整目标参数矩阵的大小。

在一种示例中，根据各个秩选择需调整的目标参数矩阵，并调整目标参数矩阵的大小，包括：

选择秩小于预设阈值的目标参数矩阵；

按照预设比例调小或调大目标参数矩阵；或预设固定值调小或调大目标参数矩阵。

在一种示例中，还包括：

收敛检测模块，用于判断综合损失是否符合预设收敛条件；若是，则将当前对话引擎部署于机器人系统。

其中，关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本实施例提供了一种引擎更新装置，可避免对引擎进行全参更新，在同一组件中与各模态对应的模态提取器之间相互独立，增加了模态之间的独立性，同时多个组件中与同一模态对应的能够增加对同一模态信息的处理耦合性，在一定程度上可以解决模态遗忘问题；非全参的更新方式在减少计算量和存储量的同时，并且在不降低引擎处理精度的情况下，能够对引擎进行精简。

下面对本发明实施例提供的一种处理装置进行介绍，下文描述的一种处理装置与本文描述的其他实施例可以相互参照。

参见图7所示，本发明实施例公开了一种处理装置，包括：

接收模块，用于接收至少一种模态的信息；

应答模块，用于将至少一种模态的信息输入对话引擎，以使对话引擎输出相应的应答结果；应答结果包括：至少一种模态的信息对应的翻译结果、问答结果和/或关联文字的生成结果；对话引擎按照上述任一项的方法得到。

下面对本发明实施例提供的一种电子设备进行介绍，下文描述的一种电子设备与本文描述的其他实施例可以相互参照。

参见图8所示，本发明实施例公开了一种电子设备，包括：

存储器，用于保存计算机程序；

处理器，用于执行所述计算机程序，以实现上述任意实施例公开的方法。

进一步的，本发明实施例还提供了一种电子设备。其中，上述电子设备既可以是如图9所示的服务器，也可以是如图10所示的终端。图9和图10均是根据一示例性实施例示出的电子设备结构图，图中的内容不能被认为是对本发明的使用范围的任何限制。

图9为本发明实施例提供的一种服务器的结构示意图。该服务器具体可以包括：至少一个处理器、至少一个存储器、电源、通信接口、输入输出接口和通信总线。其中，所述存储器用于存储计算机程序，所述计算机程序由所述处理器加载并执行，以实现前述任一实施例公开的引擎更新中的相关步骤。

本实施例中，电源用于为服务器上的各硬件设备提供工作电压；通信接口能够为服务器创建与外界设备之间的数据传输通道，其所遵循的通信协议是能够适用于本发明技术方案的任意通信协议，在此不对其进行具体限定；输入输出接口，用于获取外界输入数据或向外界输出数据，其具体的接口类型可以根据具体应用需要进行选取，在此不进行具体限定。

另外，存储器作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统、计算机程序及数据等，存储方式可以是短暂存储或者永久存储。

其中，操作系统用于管理与控制服务器上的各硬件设备以及计算机程序，以实现处理器对存储器中数据的运算与处理，其可以是Windows Server、Netware、Unix、Linux等。计算机程序除了包括能够用于完成前述任一实施例公开的引擎更新方法的计算机程序之外，还可以进一步包括能够用于完成其他特定工作的计算机程序。数据除了可以包括应用程序的更新信息等数据外，还可以包括应用程序的开发商信息等数据。

图10为本发明实施例提供的一种终端的结构示意图，该终端具体可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。

通常，本实施例中的终端包括有：处理器和存储器。

其中，处理器可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器可以采用DSP（Digital Signal Processing，数字信号处理）、FPGA（Field－Programmable Gate Array，现场可编程门阵列）、PLA（Programmable Logic Array，可编程逻辑阵列）中的至少一种硬件形式来实现。处理器也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU（Central Processing Unit，中央处理器）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器可以在集成有GPU（Graphics Processing Unit，图像处理器），GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器还可以包括AI（ArtificialIntelligence，人工智能）处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。本实施例中，存储器至少用于存储以下计算机程序，其中，该计算机程序被处理器加载并执行之后，能够实现前述任一实施例公开的由终端侧执行的引擎更新方法中的相关步骤。另外，存储器所存储的资源还可以包括操作系统和数据等，存储方式可以是短暂存储或者永久存储。其中，操作系统可以包括Windows、Unix、Linux等。数据可以包括但不限于应用程序的更新信息。

在一些实施例中，终端还可包括有显示屏、输入输出接口、通信接口、传感器、电源以及通信总线。

本领域技术人员可以理解，图10中示出的结构并不构成对终端的限定，可以包括比图示更多或更少的组件。

下面对本发明实施例提供的一种可读存储介质进行介绍，下文描述的一种可读存储介质与本文描述的其他实施例可以相互参照。

一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述实施例公开的引擎更新方法。其中，可读存储介质为计算机可读存储介质，其作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统、计算机程序及数据等，存储方式可以是短暂存储或者永久存储。

下面对本发明实施例提供的一种机器人进行介绍，下文描述的一种机器人与本文描述的其他实施例可以相互参照。

一种机器人，包括：对话引擎，所述对话引擎按照上述任一实施例所述的方法得到。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的可读存储介质中。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种引擎更新方法，其特征在于，包括：

利用排列在末尾的尾部组件提取的基础特征和所述尾部组件提取的模态特征的综合损失，更新每一组件中的模态提取器的参数矩阵，同时使每一组件中的基础提取器的参数矩阵保持不变；所述综合损失的计算公式为：

件中的基础提取器的参数矩阵保持不变；所述综合损失的计算公式为：；X _t为当前时刻t的综合损失，为预设比例系数，θ为引擎参数，X _＜t表示当前时间t之前的历史时刻向量，/>为基于历史时刻向量和θ确定的当前时刻向量的概率值；/>为基于当前时刻模态输入信息I和历史时刻向量确定的当前时刻向量的概率值；v为词汇表V中任意词汇的概率值，V ^（k）表示基于argmax函数确定的词汇表V中与当前时刻向量相近的前k个词汇；

2.根据权利要求1所述的方法，其特征在于，所述目标模态中的任一种单一模态在单一组件中对应的模态提取器的数量的确定过程包括：

确定当前组件的排列位置；

判断所述排列位置是否符合部署模态提取器的条件；

3.根据权利要求2所述的方法，其特征在于，所述判断所述排列位置是否符合部署模态提取器的条件，包括：

判断所述排列位置是否不大于组件总数的1/N，N为自然数。

4.根据权利要求2所述的方法，其特征在于，所述根据所述排列位置计算当前单一模态在当前组件中对应的模态提取器的数量，包括：

设定初始数量值；

5.根据权利要求4所述的方法，其特征在于，所述根据当前组件的排列位置和所述初始数量值，计算当前单一模态在当前组件中对应的模态提取器的数量，包括：

6.根据权利要求1至5任一项所述的方法，其特征在于，所述调整更新后的参数矩阵的大小之前，还包括：

判断当前更新次数是否达到预设调整条件；

若是，则执行所述调整更新后的参数矩阵的大小的步骤；

7.根据权利要求1至5任一项所述的方法，其特征在于，更新后的参数矩阵的大小的调整过程包括：

8.根据权利要求7所述的方法，其特征在于，所述根据各个秩选择需调整的目标参数矩阵，并调整所述目标参数矩阵的大小，包括：

选择秩小于预设阈值的目标参数矩阵；

9.根据权利要求1至5任一项所述的方法，其特征在于，还包括：

判断所述综合损失是否符合预设收敛条件；

若是，则将当前对话引擎部署于机器人系统。

10.一种处理方法，其特征在于，包括：

接收至少一种模态的信息；

将所述至少一种模态的信息输入对话引擎，以使所述对话引擎输出相应的应答结果；所述应答结果包括：所述至少一种模态的信息对应的翻译结果、问答结果和/或关联文字的生成结果；所述对话引擎按照权利要求1至9任一项所述的方法得到。

11.一种引擎更新装置，其特征在于，包括：

更新模块，用于利用排列在末尾的尾部组件提取的基础特征和所述尾部组件提取的模态特征的综合损失，更新每一组件中的模态提取器的参数矩阵，同时使每一组件中的基础提取器的参数矩阵保持不变；所述综合损失的计算公式为：；X _t为当前时刻t的综合损失，/>为预设比例系数，θ为引擎参数，X _＜t表示当前时间t之前的历史时刻向量，/>为基于历史时刻向量和θ确定的当前时刻向量的概率值；/>为基于当前时刻模态输入信息I和历史时刻向量确定的当前时刻向量的概率值；v为词汇表V中任意词汇的概率值，V ^（k）表示基于argmax函数确定的词汇表V中与当前时刻向量相近的前k个词汇；

12.一种处理装置，其特征在于，包括：

接收模块，用于接收至少一种模态的信息；

应答模块，用于将所述至少一种模态的信息输入对话引擎，以使所述对话引擎输出相应的应答结果；所述应答结果包括：所述至少一种模态的信息对应的翻译结果、问答结果和/或关联文字的生成结果；所述对话引擎按照权利要求1至9任一项所述的方法得到。

13.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至10任一项所述的方法。

14.一种可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述的方法。

15.一种机器人，其特征在于，包括：对话引擎，所述对话引擎按照权利要求1至9任一项所述的方法得到。