CN117290461B

CN117290461B - 融合aspp模块与跨模态交互的多模态对话生成方法

Info

Publication number: CN117290461B
Application number: CN202311577805.8A
Authority: CN
Inventors: 刘德培; 谭周兴; 唐铁军; 何浩; 刘治国; 陈鸣; 熊婕
Original assignee: Hunan Junan Technology Co ltd
Current assignee: Hunan Junan Technology Co ltd
Priority date: 2023-11-24
Filing date: 2023-11-24
Publication date: 2024-02-06
Anticipated expiration: 2043-11-24
Also published as: CN117290461A

Abstract

本申请涉及一种融合ASPP模块与跨模态交互的多模态对话生成方法。所述方法包括：根据文本编码模块对文本进行编码，得到向量序列；利用图像像素损失函数对图像垂直编码模块进行训练，根据训练好的图像垂直编码模块进行低阶特征提取后送入ASPP模块后进行融合，得到图像的语义信息；根据图像通用编码模块对图像进行图像对齐，得到图像和文本的对齐结果；利用文本解码损失函数对文本解码模块进行训练，将图像的语义信息、图像和文本的对齐结果和向量序列输入到训练好的文本解码模块中，得到多模态对话。采用本方法能够提高医学图像领域中的多模态对话准确率。

Description

融合ASPP模块与跨模态交互的多模态对话生成方法

技术领域

本申请涉及数据处理技术领域，特别是涉及一种融合ASPP模块与跨模态交互的多模态对话生成方法。

背景技术

由于单模态数据往往不能包含所有有效信息，而不同模态数据之间存在语义上的互补性，因此多模态融合能实现信息的补充，比如生物数据，尤其是医学的时序数据一般具有多模态的特点，这类时序数据在中由各种监护仪器所采集，并依据标准数据格式存储。其中，多模态数据的特点包括：1)采样频率不同的多源多通道高频采样的波形数据；2)稀疏的生理指标时间序列，例如心率、血压、血氧饱和度等；3)静态信息不同造成的准线差异，例如不同性别、年龄的人群对于血压的评判指标也存在差异，故多模态数据的融合方法也成为了多模态任务中的基础性问题。

目前提出了多模态语言模型是基于对数双线性模型提出了模态偏对数双线性模型和三因子对数双线性模型，该方法基于卷积神经网络和多模态神经语言模型，通过学习图像和文本的联合表示来生成文本描述，但是训练速度较慢而且无法解决多模态融合时的语义对齐问题，模型的结构相对较为简单。随着端到端的多模态预训练模型的发展，还有一些方法提出把CLIP的视觉编码器和大语言模型LLM连接起来，将来自公共网络的数十亿个图像-文本对转换成视觉语言指令数据，并进行端到端微调，实现了复杂的视觉和语言理解，在图像描述和多模态对话任务上取得了很好的效果。然而，这些通用领域的视觉语言模型容易生成与问题不符的答案文本，而且在理解和对话医学图像方面仍然缺乏复杂性与准确性。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高医学图像领域中的多模态对话准确率的融合ASPP模块与跨模态交互的多模态对话生成方法。

一种融合ASPP模块与跨模态交互的多模态对话生成方法，所述方法包括：

获取多模态数据；多模态数据包括文本和图像；构建多模态对话生成模型；多模态对话生成模型包括文本编码模块、图像通用编码模块、图像垂直编码模块和文本解码模块；

根据文本编码模块对文本进行编码，将文本中所有词转换为子词，得到包含多个子词的句子，再对句子进行序列编码，得到向量序列；

利用预先设置的图像像素损失函数对图像垂直编码模块进行训练，根据训练好的图像垂直编码模块中的空洞卷积的分类网络对图像进行低阶特征提取后将低阶特征送入ASPP模块后再将低阶特征进行融合，得到图像的语义信息；

根据图像通用编码模块对图像进行序列划分，将划分后的片段标记序列进行向量转换和位置关系的建模，再对建模结果进行线性变换、特征提取和特征映射，得到图像和文本的对齐结果；

利用预先设置的文本解码损失函数对文本解码模块进行训练，将图像的语义信息、图像和文本的对齐结果和向量序列输入到训练好的文本解码模块中，得到多模态对话。

在其中一个实施例中，根据文本编码模块对文本进行编码，将文本中所有词转换为子词，得到包含多个子词的句子，再对句子进行序列编码，得到向量序列，包括：

根据BPE算法对文本进行编码，将文本中所有词转换为子词，得到包含多个子词的句子，再利用Transformer结构的文本编码器对句子进行序列编码，得到向量序列；向量序列包括子词的特征向量和上下文的特征向量。

在其中一个实施例中，预先设置的图像像素损失函数为

；

其中，是图像第/>个像素的损失，/>代表像素所属类别，/>表示预测像素属于前景的概率，/>的取值范围是[0,1]，/>表示像素分类的难易程度，取值范围是[0,5]。

在其中一个实施例中，根据训练好的图像垂直编码模块中的空洞卷积的分类网络对图像进行低阶特征提取后将低阶特征送入ASPP模块后再将低阶特征进行融合，得到图像的语义信息，包括：

根据训练好的图像垂直编码模块中的编码器通过带有空洞卷积的分类网络提取图像的低阶特征，然后将低阶特征送入ASPP模块后解码器将低阶特征与低阶特征做进一步融合，得到图像的语义信息。

在其中一个实施例中，根据图像通用编码模块对图像进行序列划分，将划分后的片段标记序列进行向量转换和位置关系的建模，再对建模结果进行线性变换和特征提取，得到图像和文本的对齐结果，包括：

将图像划分为片段标记序列，通过神经网络嵌入层将片段标记序列转换为对应的特征向量，再引入相对位置编码显式地对序列中任意两个片段标记的位置关系进行建模，使用遮掩的多头注意力机制对建模结果进行线性变换，得到线性变换结果，根据增加残差网络和层归一化对线性变换结果进行特征提取，再对特征提取结果通过多层感知机进行特征映射，得到图像和文本的对齐结果。

在其中一个实施例中，将图像划分为片段标记序列，通过神经网络嵌入层将片段标记序列转换为对应的特征向量，再引入相对位置编码显式地对序列中任意两个片段标记的位置关系进行建模，使用遮掩的多头注意力机制对建模结果进行线性变换，得到线性变换结果，根据增加残差网络和层归一化对线性变换结果进行特征提取，再对特征提取结果通过多层感知机进行特征映射，得到图像和文本的对齐结果，包括：

将图像划分为片段标记序列，通过神经网络嵌入层将片段标记序列转换为对应的特征向量，再引入相对位置编码显式地对序列中任意两个片段标记的位置关系进行建模，使用遮掩的多头注意力机制对建模结果进行线性变换，得到线性变换结果，根据增加残差网络和层归一化对线性变换结果进行特征提取，再对特征提取结果通过多层感知机进行特征映射，得到图像和文本的对齐结果为

；

其中，N表示片段标记序列的长度，表示相对位置编码的建模，M表示特征向量变换矩阵，/>表示多头注意力机制，/>表示层归一化，/>表示多层感知机制，表示对神经元随机失活，/>表示图像和文本的对齐结果，/>表示相对位置编码的建模结果，/>表示线性变换结果，/>表示中间层的隐状态，/>表示特征提取结果。

在其中一个实施例中，预先设置的文本解码损失函数为

；

其中，是文本回复模块的损失，/>为生成的文本序列长度，/>代表回复文本中的第/>个词，/>表示先前预测的词的个数，/>表示文本回复模块的神经网络参数集合。

在其中一个实施例中，将图像的语义信息、图像和文本的对齐结果和向量序列输入到训练好的文本解码模块中，得到多模态对话，包括：

根据RMSNorm归一化函数对图像的语义信息、图像和文本的对齐结果进行归一化，再利用SwiGLU激活函数对文本回复模型中的Transformer子层进行激活，得到激活后的Transformer子层；

根据激活后的Transformer子层对归一化后的结果进行旋转解码，得到多模态对话。

在其中一个实施例中，多模态对话生成模型的总损失函数为

；

其中，是模型的总损失，m为图像的像素个数，/>表示可训练参数，/>表示图像像素损失，/>表示文本回复损失。

上述一种融合ASPP模块与跨模态交互的多模态对话生成方法，本申请通过构建多模态对话生成模型，在模型中利用文本编码器编码文本信息，通过提取图像的通用语义信息并通过多层感知机与文本特征实现对齐，引入ASPP模块和编解码结构的神经网络以提取图像的多尺度医学信息，利用空洞卷积提高网络感受野，通过残差连接注入到通用的语义空间，最后通过文本回复损失和图像的像素损失进行联合训练，提高了模型在医学图像领域的多模态对话能力，进而提高了多模态对话生成的准确率，能有效解决医学领域中的多模态对话问题。

附图说明

图1为一个实施例中一种融合ASPP模块与跨模态交互的多模态对话生成方法的流程示意图；

图2为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种融合ASPP模块与跨模态交互的多模态对话生成方法，包括以下步骤：

步骤102，获取多模态数据；多模态数据包括文本和图像；构建多模态对话生成模型；多模态对话生成模型包括文本编码模块、图像通用编码模块、图像垂直编码模块和文本解码模块。

步骤104，根据文本编码模块对文本进行编码，将文本中所有词转换为子词，得到包含多个子词的句子，再对句子进行序列编码，得到向量序列。

在文本编码模块中利用CLIP预训练文本编码模型对文本信息进行编码，实现文本每个词的嵌入向量表示。对于一个包含n个词的文本，基于BPE算法将文本的所有词转换为子词以实现语义粒度提取，得到一个包含m个子词的句子，子词序列通过基于Transformer结构的文本编码器得到一个向量序列。

步骤106，利用预先设置的图像像素损失函数对图像垂直编码模块进行训练，根据训练好的图像垂直编码模块中的空洞卷积的分类网络对图像进行低阶特征提取后将低阶特征送入ASPP模块后再将低阶特征进行融合，得到图像的语义信息。

训练好的图像垂直编码模块采用编码器和解码器架构，编码器通过带有空洞卷积的分类网络提取图像的低阶特征，利用空洞卷积提高网络感受野，然后将低阶特征送入ASPP模块以引入多尺度信息，解码器将低阶特征与低阶特征做进一步融合，进一步丰富图像的语义信息，通过丰富语义信息来提高对医学图像的理解能力和后续文本生成的准确率。在图像垂直模块中通过设置图像像素损失函数以平衡不同类别的像素权重，进而提高提取的语义信息的准确率。

步骤108，根据图像通用编码模块对图像进行序列划分，将划分后的片段标记序列进行向量转换和位置关系的建模，再对建模结果进行线性变换、特征提取和特征映射，得到图像和文本的对齐结果。

首先将图像划分为片段标记序列，通过神经网络嵌入层将片段标记转换为对应的特征向量，再引入相对位置编码显式地对序列中任意两个片段标记的位置关系进行建模，使用遮掩的多头注意力机制进行线性变换，再通过增加残差网络和层归一化来增强特征提取能力，最后利用特征映射实现图像和文本语义对齐，通过提取图像的通用语义信息并通过多层感知机与文本特征实现对齐。

步骤110，利用预先设置的文本解码损失函数对文本解码模块进行训练，将图像的语义信息、图像和文本的对齐结果和向量序列输入到训练好的文本解码模块中，得到多模态对话。

本申请通过在文本解码模块中对图像的语义信息、图像和文本的对齐结果和向量序列进行归一化，利用SwiGLU激活函数对文本解码模块中的Transformer子层进行优化以提高性能，使得模型的输入不再使用传统的位置编码，而是在网络的每一层添加了旋转位置编码，旋转位置编码在绝对位置编码的基础上引入了可学习的参数，通过结合位置编码和注意力机制，动态地对序列中不同位置进行建模，捕捉到词语之间的相对位置关系，进一步提到语义理解能力，提高多模态对话文本生成的准确率。

上述一种融合ASPP模块与跨模态交互的多模态对话生成方法中，本申请通过构建多模态对话生成模型，在模型中利用文本编码器编码文本信息，通过提取图像的通用语义信息并通过多层感知机与文本特征实现对齐，引入ASPP模块和编解码结构的神经网络以提取图像的多尺度医学信息，利用空洞卷积提高网络感受野，通过残差连接注入到通用的语义空间，最后通过文本回复损失和图像的像素损失进行联合训练，提高了模型在医学图像领域的多模态对话能力，进而提高了多模态对话生成的准确率，能有效解决医学领域中的多模态对话问题。

在其中一个实施例中，预先设置的图像像素损失函数为

；

其中，N表示片段标记序列的长度，表示相对位置编码的建模，M表示特征向量变换矩阵，/>表示多头注意力机制，/>表示层归一化，/>表示多层感知机制，/>表示对神经元随机失活，/>表示图像和文本的对齐结果，/>表示相对位置编码的建模结果，/>表示线性变换结果，/>表示中间层的隐状态，/>表示特征提取结果。

在其中一个实施例中，预先设置的文本解码损失函数为

；

其中，是文本回复模块的损失，/>为生成的文本序列长度，/>代表回复文本中的第i个词，/>表示先前预测的词的个数，/>表示文本回复模块的神经网络参数集合。

在具体实施例中，通过设置文本解码损失函数，损失函数会随着预测的词个数的增多而自适应变化，进而提高多模态对话文本生成的准确性。

根据激活后的Transformer子层对归一化后的结果进行旋转编码，得到多模态对话。

在其中一个实施例中，多模态对话生成模型的总损失函数为

；

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图2所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种融合ASPP模块与跨模态交互的多模态对话生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种融合ASPP模块与跨模态交互的多模态对话生成方法，其特征在于，所述方法包括：

获取多模态数据；所述多模态数据包括文本和图像；构建多模态对话生成模型；所述多模态对话生成模型包括文本编码模块、图像通用编码模块、图像垂直编码模块和文本解码模块；

根据所述文本编码模块对所述文本进行编码，将文本中所有词转换为子词，得到包含多个子词的句子，再对所述句子进行序列编码，得到向量序列；

利用预先设置的图像像素损失函数对所述图像垂直编码模块进行训练，根据训练好的图像垂直编码模块中的空洞卷积的分类网络对所述图像进行低阶特征提取后将所述低阶特征送入ASPP模块后再将低阶特征进行融合，得到图像的语义信息；

根据所述图像通用编码模块对所述图像进行序列划分，将划分后的片段标记序列进行向量转换和位置关系的建模，再对建模结果进行线性变换、特征提取和特征映射，得到图像和文本的对齐结果；

利用预先设置的文本解码损失函数对所述文本解码模块进行训练，将所述图像的语义信息、所述图像和文本的对齐结果和所述向量序列输入到训练好的文本解码模块中，得到多模态对话；

根据训练好的图像垂直编码模块中的空洞卷积的分类网络对所述图像进行低阶特征提取后将所述低阶特征送入ASPP模块后再将低阶特征进行融合，得到图像的语义信息，包括：

根据训练好的图像垂直编码模块中的编码器通过带有空洞卷积的分类网络提取图像的低阶特征，然后将低阶特征送入ASPP模块后解码器将低阶特征与低阶特征做进一步融合，得到图像的语义信息；

根据所述图像通用编码模块对所述图像进行序列划分，将划分后的片段标记序列进行向量转换和位置关系的建模，再对建模结果进行线性变换和特征提取，得到图像和文本的对齐结果，包括：

将图像划分为片段标记序列，通过神经网络嵌入层将片段标记序列转换为对应的特征向量，再引入相对位置编码显式地对序列中任意两个片段标记的位置关系进行建模，使用遮掩的多头注意力机制对建模结果进行线性变换，得到线性变换结果，根据增加残差网络和层归一化对所述线性变换结果进行特征提取，再对特征提取结果通过多层感知机进行特征映射，得到图像和文本的对齐结果；

将所述图像的语义信息、所述图像和文本的对齐结果和所述向量序列输入到训练好的文本解码模块中，得到多模态对话，包括：

根据RMSNorm归一化函数对所述图像的语义信息、所述图像和文本的对齐结果进行归一化，再利用SwiGLU激活函数对文本回复模型中的Transformer子层进行激活，得到激活后的Transformer子层；

根据所述激活后的Transformer子层对归一化后的结果进行旋转解码，得到多模态对话。

2.根据权利要求1所述的方法，其特征在于，根据所述文本编码模块对所述文本进行编码，将文本中所有词转换为子词，得到包含多个子词的句子，再对所述句子进行序列编码，得到向量序列，包括：

根据BPE算法对所述文本进行编码，将文本中所有词转换为子词，得到包含多个子词的句子，再利用Transformer结构的文本编码器对所述句子进行序列编码，得到向量序列；所述向量序列包括子词的特征向量和上下文的特征向量。

3.根据权利要求1所述的方法，其特征在于，所述预先设置的图像像素损失函数为

；

其中，是图像第/>个像素的损失，/>代表像素所属类别，/>表示预测像素属于前景的概率，/>的取值范围是[0,1]，/>表示像素分类的难易程度，取值范围是/>。

4.根据权利要求1所述的方法，其特征在于，将图像划分为片段标记序列，通过神经网络嵌入层将片段标记序列转换为对应的特征向量，再引入相对位置编码显式地对序列中任意两个片段标记的位置关系进行建模，使用遮掩的多头注意力机制对建模结果进行线性变换，得到线性变换结果，根据增加残差网络和层归一化对所述线性变换结果进行特征提取，再对特征提取结果通过多层感知机进行特征映射，得到图像和文本的对齐结果，包括：

将图像划分为片段标记序列，通过神经网络嵌入层将片段标记序列转换为对应的特征向量，再引入相对位置编码显式地对序列中任意两个片段标记的位置关系进行建模，使用遮掩的多头注意力机制对建模结果进行线性变换，得到线性变换结果，根据增加残差网络和层归一化对所述线性变换结果进行特征提取，再对特征提取结果通过多层感知机进行特征映射，得到图像和文本的对齐结果为

；

5.根据权利要求1所述的方法，其特征在于，所述预先设置的文本解码损失函数为

；

6.根据权利要求1所述的方法，其特征在于，所述多模态对话生成模型的总损失函数为

；

其中，是模型的总损失，/>为图像的像素个数，/>表示可训练参数，/>表示图像像素损失，/>表示文本回复损失。