CN117290461B - 融合aspp模块与跨模态交互的多模态对话生成方法 - Google Patents
融合aspp模块与跨模态交互的多模态对话生成方法 Download PDFInfo
- Publication number
- CN117290461B CN117290461B CN202311577805.8A CN202311577805A CN117290461B CN 117290461 B CN117290461 B CN 117290461B CN 202311577805 A CN202311577805 A CN 202311577805A CN 117290461 B CN117290461 B CN 117290461B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- module
- result
- sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 101100295091 Arabidopsis thaliana NUDT14 gene Proteins 0.000 title claims abstract description 25
- 230000003993 interaction Effects 0.000 title claims abstract description 12
- 239000013598 vector Substances 0.000 claims abstract description 48
- 238000012549 training Methods 0.000 claims abstract description 13
- 230000009466 transformation Effects 0.000 claims description 33
- 238000000605 extraction Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 25
- 230000007246 mechanism Effects 0.000 claims description 17
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000002779 inactivation Effects 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 230000008447 perception Effects 0.000 claims description 2
- 230000004927 fusion Effects 0.000 abstract description 3
- 239000003550 marker Substances 0.000 description 6
- 238000004590 computer program Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000036772 blood pressure Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Library & Information Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Image Processing (AREA)
Abstract
本申请涉及一种融合ASPP模块与跨模态交互的多模态对话生成方法。所述方法包括:根据文本编码模块对文本进行编码,得到向量序列;利用图像像素损失函数对图像垂直编码模块进行训练,根据训练好的图像垂直编码模块进行低阶特征提取后送入ASPP模块后进行融合,得到图像的语义信息;根据图像通用编码模块对图像进行图像对齐,得到图像和文本的对齐结果;利用文本解码损失函数对文本解码模块进行训练,将图像的语义信息、图像和文本的对齐结果和向量序列输入到训练好的文本解码模块中,得到多模态对话。采用本方法能够提高医学图像领域中的多模态对话准确率。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种融合ASPP模块与跨模态交互的多模态对话生成方法。
背景技术
由于单模态数据往往不能包含所有有效信息,而不同模态数据之间存在语义上的互补性,因此多模态融合能实现信息的补充,比如生物数据,尤其是医学的时序数据一般具有多模态的特点,这类时序数据在中由各种监护仪器所采集,并依据标准数据格式存储。其中,多模态数据的特点包括:1)采样频率不同的多源多通道高频采样的波形数据;2)稀疏的生理指标时间序列,例如心率、血压、血氧饱和度等;3)静态信息不同造成的准线差异,例如不同性别、年龄的人群对于血压的评判指标也存在差异,故多模态数据的融合方法也成为了多模态任务中的基础性问题。
目前提出了多模态语言模型是基于对数双线性模型提出了模态偏对数双线性模型和三因子对数双线性模型,该方法基于卷积神经网络和多模态神经语言模型,通过学习图像和文本的联合表示来生成文本描述,但是训练速度较慢而且无法解决多模态融合时的语义对齐问题,模型的结构相对较为简单。随着端到端的多模态预训练模型的发展,还有一些方法提出把CLIP的视觉编码器和大语言模型LLM连接起来,将来自公共网络的数十亿个图像-文本对转换成视觉语言指令数据,并进行端到端微调,实现了复杂的视觉和语言理解,在图像描述和多模态对话任务上取得了很好的效果。然而,这些通用领域的视觉语言模型容易生成与问题不符的答案文本,而且在理解和对话医学图像方面仍然缺乏复杂性与准确性。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高医学图像领域中的多模态对话准确率的融合ASPP模块与跨模态交互的多模态对话生成方法。
一种融合ASPP模块与跨模态交互的多模态对话生成方法,所述方法包括:
获取多模态数据;多模态数据包括文本和图像;构建多模态对话生成模型;多模态对话生成模型包括文本编码模块、图像通用编码模块、图像垂直编码模块和文本解码模块;
根据文本编码模块对文本进行编码,将文本中所有词转换为子词,得到包含多个子词的句子,再对句子进行序列编码,得到向量序列;
利用预先设置的图像像素损失函数对图像垂直编码模块进行训练,根据训练好的图像垂直编码模块中的空洞卷积的分类网络对图像进行低阶特征提取后将低阶特征送入ASPP模块后再将低阶特征进行融合,得到图像的语义信息;
根据图像通用编码模块对图像进行序列划分,将划分后的片段标记序列进行向量转换和位置关系的建模,再对建模结果进行线性变换、特征提取和特征映射,得到图像和文本的对齐结果;
利用预先设置的文本解码损失函数对文本解码模块进行训练,将图像的语义信息、图像和文本的对齐结果和向量序列输入到训练好的文本解码模块中,得到多模态对话。
在其中一个实施例中,根据文本编码模块对文本进行编码,将文本中所有词转换为子词,得到包含多个子词的句子,再对句子进行序列编码,得到向量序列,包括:
根据BPE算法对文本进行编码,将文本中所有词转换为子词,得到包含多个子词的句子,再利用Transformer结构的文本编码器对句子进行序列编码,得到向量序列;向量序列包括子词的特征向量和上下文的特征向量。
在其中一个实施例中,预先设置的图像像素损失函数为
;
其中,是图像第/>个像素的损失,/>代表像素所属类别,/>表示预测像素属于前景的概率,/>的取值范围是[0,1],/>表示像素分类的难易程度,取值范围是[0,5]。
在其中一个实施例中,根据训练好的图像垂直编码模块中的空洞卷积的分类网络对图像进行低阶特征提取后将低阶特征送入ASPP模块后再将低阶特征进行融合,得到图像的语义信息,包括:
根据训练好的图像垂直编码模块中的编码器通过带有空洞卷积的分类网络提取图像的低阶特征,然后将低阶特征送入ASPP模块后解码器将低阶特征与低阶特征做进一步融合,得到图像的语义信息。
在其中一个实施例中,根据图像通用编码模块对图像进行序列划分,将划分后的片段标记序列进行向量转换和位置关系的建模,再对建模结果进行线性变换和特征提取,得到图像和文本的对齐结果,包括:
将图像划分为片段标记序列,通过神经网络嵌入层将片段标记序列转换为对应的特征向量,再引入相对位置编码显式地对序列中任意两个片段标记的位置关系进行建模,使用遮掩的多头注意力机制对建模结果进行线性变换,得到线性变换结果,根据增加残差网络和层归一化对线性变换结果进行特征提取,再对特征提取结果通过多层感知机进行特征映射,得到图像和文本的对齐结果。
在其中一个实施例中,将图像划分为片段标记序列,通过神经网络嵌入层将片段标记序列转换为对应的特征向量,再引入相对位置编码显式地对序列中任意两个片段标记的位置关系进行建模,使用遮掩的多头注意力机制对建模结果进行线性变换,得到线性变换结果,根据增加残差网络和层归一化对线性变换结果进行特征提取,再对特征提取结果通过多层感知机进行特征映射,得到图像和文本的对齐结果,包括:
将图像划分为片段标记序列,通过神经网络嵌入层将片段标记序列转换为对应的特征向量,再引入相对位置编码显式地对序列中任意两个片段标记的位置关系进行建模,使用遮掩的多头注意力机制对建模结果进行线性变换,得到线性变换结果,根据增加残差网络和层归一化对线性变换结果进行特征提取,再对特征提取结果通过多层感知机进行特征映射,得到图像和文本的对齐结果为
;
;
;
;
其中,N表示片段标记序列的长度,表示相对位置编码的建模,M表示特征向量变换矩阵,/>表示多头注意力机制,/>表示层归一化,/>表示多层感知机制,表示对神经元随机失活,/>表示图像和文本的对齐结果,/>表示相对位置编码的建模结果,/>表示线性变换结果,/>表示中间层的隐状态,/>表示特征提取结果。
在其中一个实施例中,预先设置的文本解码损失函数为
;
其中,是文本回复模块的损失,/>为生成的文本序列长度,/>代表回复文本中的第/>个词,/>表示先前预测的词的个数,/>表示文本回复模块的神经网络参数集合。
在其中一个实施例中,将图像的语义信息、图像和文本的对齐结果和向量序列输入到训练好的文本解码模块中,得到多模态对话,包括:
根据RMSNorm归一化函数对图像的语义信息、图像和文本的对齐结果进行归一化,再利用SwiGLU激活函数对文本回复模型中的Transformer子层进行激活,得到激活后的Transformer子层;
根据激活后的Transformer子层对归一化后的结果进行旋转解码,得到多模态对话。
在其中一个实施例中,多模态对话生成模型的总损失函数为
;
其中,是模型的总损失,m为图像的像素个数,/>表示可训练参数,/>表示图像像素损失,/>表示文本回复损失。
上述一种融合ASPP模块与跨模态交互的多模态对话生成方法,本申请通过构建多模态对话生成模型,在模型中利用文本编码器编码文本信息,通过提取图像的通用语义信息并通过多层感知机与文本特征实现对齐,引入ASPP模块和编解码结构的神经网络以提取图像的多尺度医学信息,利用空洞卷积提高网络感受野,通过残差连接注入到通用的语义空间,最后通过文本回复损失和图像的像素损失进行联合训练,提高了模型在医学图像领域的多模态对话能力,进而提高了多模态对话生成的准确率,能有效解决医学领域中的多模态对话问题。
附图说明
图1为一个实施例中一种融合ASPP模块与跨模态交互的多模态对话生成方法的流程示意图;
图2为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种融合ASPP模块与跨模态交互的多模态对话生成方法,包括以下步骤:
步骤102,获取多模态数据;多模态数据包括文本和图像;构建多模态对话生成模型;多模态对话生成模型包括文本编码模块、图像通用编码模块、图像垂直编码模块和文本解码模块。
步骤104,根据文本编码模块对文本进行编码,将文本中所有词转换为子词,得到包含多个子词的句子,再对句子进行序列编码,得到向量序列。
在文本编码模块中利用CLIP预训练文本编码模型对文本信息进行编码,实现文本每个词的嵌入向量表示。对于一个包含n个词的文本,基于BPE算法将文本的所有词转换为子词以实现语义粒度提取,得到一个包含m个子词的句子,子词序列通过基于Transformer结构的文本编码器得到一个向量序列。
步骤106,利用预先设置的图像像素损失函数对图像垂直编码模块进行训练,根据训练好的图像垂直编码模块中的空洞卷积的分类网络对图像进行低阶特征提取后将低阶特征送入ASPP模块后再将低阶特征进行融合,得到图像的语义信息。
训练好的图像垂直编码模块采用编码器和解码器架构,编码器通过带有空洞卷积的分类网络提取图像的低阶特征,利用空洞卷积提高网络感受野,然后将低阶特征送入ASPP模块以引入多尺度信息,解码器将低阶特征与低阶特征做进一步融合,进一步丰富图像的语义信息,通过丰富语义信息来提高对医学图像的理解能力和后续文本生成的准确率。在图像垂直模块中通过设置图像像素损失函数以平衡不同类别的像素权重,进而提高提取的语义信息的准确率。
步骤108,根据图像通用编码模块对图像进行序列划分,将划分后的片段标记序列进行向量转换和位置关系的建模,再对建模结果进行线性变换、特征提取和特征映射,得到图像和文本的对齐结果。
首先将图像划分为片段标记序列,通过神经网络嵌入层将片段标记转换为对应的特征向量,再引入相对位置编码显式地对序列中任意两个片段标记的位置关系进行建模,使用遮掩的多头注意力机制进行线性变换,再通过增加残差网络和层归一化来增强特征提取能力,最后利用特征映射实现图像和文本语义对齐,通过提取图像的通用语义信息并通过多层感知机与文本特征实现对齐。
步骤110,利用预先设置的文本解码损失函数对文本解码模块进行训练,将图像的语义信息、图像和文本的对齐结果和向量序列输入到训练好的文本解码模块中,得到多模态对话。
本申请通过在文本解码模块中对图像的语义信息、图像和文本的对齐结果和向量序列进行归一化,利用SwiGLU激活函数对文本解码模块中的Transformer子层进行优化以提高性能,使得模型的输入不再使用传统的位置编码,而是在网络的每一层添加了旋转位置编码,旋转位置编码在绝对位置编码的基础上引入了可学习的参数,通过结合位置编码和注意力机制,动态地对序列中不同位置进行建模,捕捉到词语之间的相对位置关系,进一步提到语义理解能力,提高多模态对话文本生成的准确率。
上述一种融合ASPP模块与跨模态交互的多模态对话生成方法中,本申请通过构建多模态对话生成模型,在模型中利用文本编码器编码文本信息,通过提取图像的通用语义信息并通过多层感知机与文本特征实现对齐,引入ASPP模块和编解码结构的神经网络以提取图像的多尺度医学信息,利用空洞卷积提高网络感受野,通过残差连接注入到通用的语义空间,最后通过文本回复损失和图像的像素损失进行联合训练,提高了模型在医学图像领域的多模态对话能力,进而提高了多模态对话生成的准确率,能有效解决医学领域中的多模态对话问题。
在其中一个实施例中,根据文本编码模块对文本进行编码,将文本中所有词转换为子词,得到包含多个子词的句子,再对句子进行序列编码,得到向量序列,包括:
根据BPE算法对文本进行编码,将文本中所有词转换为子词,得到包含多个子词的句子,再利用Transformer结构的文本编码器对句子进行序列编码,得到向量序列;向量序列包括子词的特征向量和上下文的特征向量。
在其中一个实施例中,预先设置的图像像素损失函数为
;
其中,是图像第/>个像素的损失,/>代表像素所属类别,/>表示预测像素属于前景的概率,/>的取值范围是[0,1],/>表示像素分类的难易程度,取值范围是[0,5]。
在其中一个实施例中,根据训练好的图像垂直编码模块中的空洞卷积的分类网络对图像进行低阶特征提取后将低阶特征送入ASPP模块后再将低阶特征进行融合,得到图像的语义信息,包括:
根据训练好的图像垂直编码模块中的编码器通过带有空洞卷积的分类网络提取图像的低阶特征,然后将低阶特征送入ASPP模块后解码器将低阶特征与低阶特征做进一步融合,得到图像的语义信息。
在其中一个实施例中,根据图像通用编码模块对图像进行序列划分,将划分后的片段标记序列进行向量转换和位置关系的建模,再对建模结果进行线性变换和特征提取,得到图像和文本的对齐结果,包括:
将图像划分为片段标记序列,通过神经网络嵌入层将片段标记序列转换为对应的特征向量,再引入相对位置编码显式地对序列中任意两个片段标记的位置关系进行建模,使用遮掩的多头注意力机制对建模结果进行线性变换,得到线性变换结果,根据增加残差网络和层归一化对线性变换结果进行特征提取,再对特征提取结果通过多层感知机进行特征映射,得到图像和文本的对齐结果。
在其中一个实施例中,将图像划分为片段标记序列,通过神经网络嵌入层将片段标记序列转换为对应的特征向量,再引入相对位置编码显式地对序列中任意两个片段标记的位置关系进行建模,使用遮掩的多头注意力机制对建模结果进行线性变换,得到线性变换结果,根据增加残差网络和层归一化对线性变换结果进行特征提取,再对特征提取结果通过多层感知机进行特征映射,得到图像和文本的对齐结果,包括:
将图像划分为片段标记序列,通过神经网络嵌入层将片段标记序列转换为对应的特征向量,再引入相对位置编码显式地对序列中任意两个片段标记的位置关系进行建模,使用遮掩的多头注意力机制对建模结果进行线性变换,得到线性变换结果,根据增加残差网络和层归一化对线性变换结果进行特征提取,再对特征提取结果通过多层感知机进行特征映射,得到图像和文本的对齐结果为
;
;
;
;
其中,N表示片段标记序列的长度,表示相对位置编码的建模,M表示特征向量变换矩阵,/>表示多头注意力机制,/>表示层归一化,/>表示多层感知机制,/>表示对神经元随机失活,/>表示图像和文本的对齐结果,/>表示相对位置编码的建模结果,/>表示线性变换结果,/>表示中间层的隐状态,/>表示特征提取结果。
在其中一个实施例中,预先设置的文本解码损失函数为
;
其中,是文本回复模块的损失,/>为生成的文本序列长度,/>代表回复文本中的第i个词,/>表示先前预测的词的个数,/>表示文本回复模块的神经网络参数集合。
在具体实施例中,通过设置文本解码损失函数,损失函数会随着预测的词个数的增多而自适应变化,进而提高多模态对话文本生成的准确性。
在其中一个实施例中,将图像的语义信息、图像和文本的对齐结果和向量序列输入到训练好的文本解码模块中,得到多模态对话,包括:
根据RMSNorm归一化函数对图像的语义信息、图像和文本的对齐结果进行归一化,再利用SwiGLU激活函数对文本回复模型中的Transformer子层进行激活,得到激活后的Transformer子层;
根据激活后的Transformer子层对归一化后的结果进行旋转编码,得到多模态对话。
在其中一个实施例中,多模态对话生成模型的总损失函数为
;
其中,是模型的总损失,m为图像的像素个数,/>表示可训练参数,/>表示图像像素损失,/>表示文本回复损失。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图2所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种融合ASPP模块与跨模态交互的多模态对话生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种融合ASPP模块与跨模态交互的多模态对话生成方法,其特征在于,所述方法包括:
获取多模态数据;所述多模态数据包括文本和图像;构建多模态对话生成模型;所述多模态对话生成模型包括文本编码模块、图像通用编码模块、图像垂直编码模块和文本解码模块;
根据所述文本编码模块对所述文本进行编码,将文本中所有词转换为子词,得到包含多个子词的句子,再对所述句子进行序列编码,得到向量序列;
利用预先设置的图像像素损失函数对所述图像垂直编码模块进行训练,根据训练好的图像垂直编码模块中的空洞卷积的分类网络对所述图像进行低阶特征提取后将所述低阶特征送入ASPP模块后再将低阶特征进行融合,得到图像的语义信息;
根据所述图像通用编码模块对所述图像进行序列划分,将划分后的片段标记序列进行向量转换和位置关系的建模,再对建模结果进行线性变换、特征提取和特征映射,得到图像和文本的对齐结果;
利用预先设置的文本解码损失函数对所述文本解码模块进行训练,将所述图像的语义信息、所述图像和文本的对齐结果和所述向量序列输入到训练好的文本解码模块中,得到多模态对话;
根据训练好的图像垂直编码模块中的空洞卷积的分类网络对所述图像进行低阶特征提取后将所述低阶特征送入ASPP模块后再将低阶特征进行融合,得到图像的语义信息,包括:
根据训练好的图像垂直编码模块中的编码器通过带有空洞卷积的分类网络提取图像的低阶特征,然后将低阶特征送入ASPP模块后解码器将低阶特征与低阶特征做进一步融合,得到图像的语义信息;
根据所述图像通用编码模块对所述图像进行序列划分,将划分后的片段标记序列进行向量转换和位置关系的建模,再对建模结果进行线性变换和特征提取,得到图像和文本的对齐结果,包括:
将图像划分为片段标记序列,通过神经网络嵌入层将片段标记序列转换为对应的特征向量,再引入相对位置编码显式地对序列中任意两个片段标记的位置关系进行建模,使用遮掩的多头注意力机制对建模结果进行线性变换,得到线性变换结果,根据增加残差网络和层归一化对所述线性变换结果进行特征提取,再对特征提取结果通过多层感知机进行特征映射,得到图像和文本的对齐结果;
将所述图像的语义信息、所述图像和文本的对齐结果和所述向量序列输入到训练好的文本解码模块中,得到多模态对话,包括:
根据RMSNorm归一化函数对所述图像的语义信息、所述图像和文本的对齐结果进行归一化,再利用SwiGLU激活函数对文本回复模型中的Transformer子层进行激活,得到激活后的Transformer子层;
根据所述激活后的Transformer子层对归一化后的结果进行旋转解码,得到多模态对话。
2.根据权利要求1所述的方法,其特征在于,根据所述文本编码模块对所述文本进行编码,将文本中所有词转换为子词,得到包含多个子词的句子,再对所述句子进行序列编码,得到向量序列,包括:
根据BPE算法对所述文本进行编码,将文本中所有词转换为子词,得到包含多个子词的句子,再利用Transformer结构的文本编码器对所述句子进行序列编码,得到向量序列;所述向量序列包括子词的特征向量和上下文的特征向量。
3.根据权利要求1所述的方法,其特征在于,所述预先设置的图像像素损失函数为
;
其中,是图像第/>个像素的损失,/>代表像素所属类别,/>表示预测像素属于前景的概率,/>的取值范围是[0,1],/>表示像素分类的难易程度,取值范围是/>。
4.根据权利要求1所述的方法,其特征在于,将图像划分为片段标记序列,通过神经网络嵌入层将片段标记序列转换为对应的特征向量,再引入相对位置编码显式地对序列中任意两个片段标记的位置关系进行建模,使用遮掩的多头注意力机制对建模结果进行线性变换,得到线性变换结果,根据增加残差网络和层归一化对所述线性变换结果进行特征提取,再对特征提取结果通过多层感知机进行特征映射,得到图像和文本的对齐结果,包括:
将图像划分为片段标记序列,通过神经网络嵌入层将片段标记序列转换为对应的特征向量,再引入相对位置编码显式地对序列中任意两个片段标记的位置关系进行建模,使用遮掩的多头注意力机制对建模结果进行线性变换,得到线性变换结果,根据增加残差网络和层归一化对所述线性变换结果进行特征提取,再对特征提取结果通过多层感知机进行特征映射,得到图像和文本的对齐结果为
;
;
;
;
其中,N表示片段标记序列的长度,表示相对位置编码的建模,M表示特征向量变换矩阵,/>表示多头注意力机制,/>表示层归一化,/>表示多层感知机制,表示对神经元随机失活,/>表示图像和文本的对齐结果,/>表示相对位置编码的建模结果,/>表示线性变换结果,/>表示中间层的隐状态,/>表示特征提取结果。
5.根据权利要求1所述的方法,其特征在于,所述预先设置的文本解码损失函数为
;
其中,是文本回复模块的损失,/>为生成的文本序列长度,/>代表回复文本中的第/>个词,/>表示先前预测的词的个数,/>表示文本回复模块的神经网络参数集合。
6.根据权利要求1所述的方法,其特征在于,所述多模态对话生成模型的总损失函数为
;
其中,是模型的总损失,/>为图像的像素个数,/>表示可训练参数,/>表示图像像素损失,/>表示文本回复损失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311577805.8A CN117290461B (zh) | 2023-11-24 | 2023-11-24 | 融合aspp模块与跨模态交互的多模态对话生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311577805.8A CN117290461B (zh) | 2023-11-24 | 2023-11-24 | 融合aspp模块与跨模态交互的多模态对话生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117290461A CN117290461A (zh) | 2023-12-26 |
CN117290461B true CN117290461B (zh) | 2024-02-06 |
Family
ID=89241087
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311577805.8A Active CN117290461B (zh) | 2023-11-24 | 2023-11-24 | 融合aspp模块与跨模态交互的多模态对话生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117290461B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117726721B (zh) * | 2024-02-08 | 2024-04-30 | 湖南君安科技有限公司 | 基于主题驱动与多模态融合的图像生成方法、设备及介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113409759A (zh) * | 2021-07-07 | 2021-09-17 | 浙江工业大学 | 一种端到端实时语音合成方法 |
CN114283430A (zh) * | 2021-12-03 | 2022-04-05 | 苏州大创科技有限公司 | 跨模态图文匹配训练方法及装置、存储介质、电子设备 |
CN115239937A (zh) * | 2022-09-23 | 2022-10-25 | 西南交通大学 | 一种跨模态情感预测方法 |
CN115439857A (zh) * | 2022-11-03 | 2022-12-06 | 武昌理工学院 | 一种基于复杂背景图像的倾斜字符识别方法 |
CN115617971A (zh) * | 2022-11-14 | 2023-01-17 | 湖南君安科技有限公司 | 基于ALBERT-Coref模型的对话文本生成方法 |
CN115964467A (zh) * | 2023-01-02 | 2023-04-14 | 西北工业大学 | 一种融合视觉情境的富语义对话生成方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11264009B2 (en) * | 2019-09-13 | 2022-03-01 | Mitsubishi Electric Research Laboratories, Inc. | System and method for a dialogue response generation system |
CN114612479B (zh) * | 2022-02-09 | 2023-03-24 | 苏州大学 | 基于全局与局部特征重建网络的医学图像分割方法和装置 |
-
2023
- 2023-11-24 CN CN202311577805.8A patent/CN117290461B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113409759A (zh) * | 2021-07-07 | 2021-09-17 | 浙江工业大学 | 一种端到端实时语音合成方法 |
CN114283430A (zh) * | 2021-12-03 | 2022-04-05 | 苏州大创科技有限公司 | 跨模态图文匹配训练方法及装置、存储介质、电子设备 |
CN115239937A (zh) * | 2022-09-23 | 2022-10-25 | 西南交通大学 | 一种跨模态情感预测方法 |
CN115439857A (zh) * | 2022-11-03 | 2022-12-06 | 武昌理工学院 | 一种基于复杂背景图像的倾斜字符识别方法 |
CN115617971A (zh) * | 2022-11-14 | 2023-01-17 | 湖南君安科技有限公司 | 基于ALBERT-Coref模型的对话文本生成方法 |
CN115964467A (zh) * | 2023-01-02 | 2023-04-14 | 西北工业大学 | 一种融合视觉情境的富语义对话生成方法 |
Non-Patent Citations (1)
Title |
---|
结合混合域注意力与空洞卷积的3维目标检测;严娟;方志军;高永彬;;中国图象图形学报(06);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117290461A (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN117290461B (zh) | 融合aspp模块与跨模态交互的多模态对话生成方法 | |
WO2021127817A1 (zh) | 一种多语言文本合成语音方法、装置、设备及存储介质 | |
CN109522403A (zh) | 一种基于融合编码的摘要文本生成方法 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN113887229A (zh) | 地址信息的识别方法、装置、计算机设备及存储介质 | |
CN113657105A (zh) | 基于词汇增强的医学实体抽取方法、装置、设备及介质 | |
CN111597815A (zh) | 一种多嵌入命名实体识别方法、装置、设备及存储介质 | |
CN114580424A (zh) | 一种用于法律文书的命名实体识别的标注方法和装置 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
CN116341651A (zh) | 实体识别模型训练方法、装置、电子设备及存储介质 | |
CN114708976A (zh) | 辅助诊断技术的方法、装置、设备及存储介质 | |
CN114445832A (zh) | 基于全局语义的文字图像识别方法、装置及计算机设备 | |
CN117236335B (zh) | 基于提示学习的两阶段命名实体识别方法 | |
CN114282555A (zh) | 翻译模型训练方法及装置、翻译方法及装置 | |
CN112988967A (zh) | 基于两阶段解码的对话生成方法及装置、介质和计算设备 | |
CN116956925A (zh) | 电子病历命名实体识别方法和装置、电子设备及存储介质 | |
CN115240713B (zh) | 基于多模态特征和对比学习的语音情感识别方法及装置 | |
CN115132182B (zh) | 一种数据识别方法、装置、设备及可读存储介质 | |
CN115270792A (zh) | 一种医疗实体识别方法及装置 | |
CN113129862B (zh) | 一种基于world-tacotron的语音合成方法、系统及服务器 | |
CN110442706B (zh) | 一种文本摘要生成的方法、系统、设备及存储介质 | |
CN112257461A (zh) | 一种基于注意力机制的xml文档翻译及评价方法 | |
CN114417832B (zh) | 消歧方法、消歧模型的训练方法及装置 | |
CN116681087B (zh) | 一种基于多阶段时序和语义信息增强的自动问题生成方法 | |
CN114238579B (zh) | 文本分析方法、装置、介质和计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |