CN117216546A - 模型训练方法、装置、电子设备、存储介质及程序产品 - Google Patents
模型训练方法、装置、电子设备、存储介质及程序产品 Download PDFInfo
- Publication number
- CN117216546A CN117216546A CN202310638818.5A CN202310638818A CN117216546A CN 117216546 A CN117216546 A CN 117216546A CN 202310638818 A CN202310638818 A CN 202310638818A CN 117216546 A CN117216546 A CN 117216546A
- Authority
- CN
- China
- Prior art keywords
- electroencephalogram
- image
- denoising
- sample
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 132
- 238000012549 training Methods 0.000 title claims abstract description 82
- 238000012545 processing Methods 0.000 claims description 135
- 238000005070 sampling Methods 0.000 claims description 71
- 210000004556 brain Anatomy 0.000 claims description 57
- 239000011159 matrix material Substances 0.000 claims description 36
- 238000013507 mapping Methods 0.000 claims description 33
- 230000015654 memory Effects 0.000 claims description 25
- 230000006835 compression Effects 0.000 claims description 12
- 238000007906 compression Methods 0.000 claims description 12
- 230000005611 electricity Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 230000000873 masking effect Effects 0.000 claims description 7
- 238000007476 Maximum Likelihood Methods 0.000 claims description 6
- 230000001143 conditioned effect Effects 0.000 claims description 3
- 239000000758 substrate Substances 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 77
- 230000008569 process Effects 0.000 description 58
- 238000009792 diffusion process Methods 0.000 description 25
- 230000000694 effects Effects 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 12
- 238000002599 functional magnetic resonance imaging Methods 0.000 description 11
- 230000007177 brain activity Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 8
- 238000013473 artificial intelligence Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 210000004761 scalp Anatomy 0.000 description 2
- 238000013515 script Methods 0.000 description 2
- 102100026459 POU domain, class 3, transcription factor 2 Human genes 0.000 description 1
- 101710133394 POU domain, class 3, transcription factor 2 Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009901 attention process Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000006998 cognitive state Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000013209 evaluation strategy Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000000004 hemodynamic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000002595 magnetic resonance imaging Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000002610 neuroimaging Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001242 postsynaptic effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000009966 trimming Methods 0.000 description 1
Landscapes
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Abstract
本申请提供了一种脑电生成图像模型训练方法、装置、设备及计算机可读存储介质;方法包括:获取脑电信号样本以及第一图像样本;通过脑电编码器对脑电信号样本进行编码,得到脑电编码,通过图像编码器对第一图像样本进行编码,得到图像编码;通过图像生成网络对噪声图像进行以脑电信号样本的脑电编码为条件的去噪,得到预测去噪结果;基于预测去噪结果与第一真实去噪结果的误差构建第一去噪损失,基于脑电编码与图像编码之间的距离构建脑电图像对齐损失;基于第一去噪损失以及脑电图像对齐损失,对脑电编码器以及图像生成网络进行参数更新。通过本申请,能够通过对齐脑电信号维度以及图像维度,从而优化模型的图像生成能力。
Description
技术领域
本申请涉及人工智能技术,尤其涉及一种脑电生成图像模型训练方法、脑电生成图像方法、装置、电子设备、计算机可读存储介质及计算机程序产品。
背景技术
人工智能(Artificial Intelligence,AI)是计算机科学的一个综合技术,通过研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,例如自然语言处理技术以及机器学习/深度学习等几大方向,随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
相关技术中尝试从脑活动中重建或生成视觉结果,从而可以有助于对脑活动进行研究,相关技术中试图基于功能性磁共振成像信号重建视觉信息,但是功能性磁共振成像信号难以获取,相关技术还使用深度学习模型从脑电信号中生成图像,虽然脑电信号便于获取,但是相关技术中针对深度学习模型的训练方案无法使得模型具有实现高质量图像生成的能力。
发明内容
本申请实施例提供一种脑电生成图像模型训练方法、脑电生成图像方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够通过对齐脑电信号维度以及图像维度,从而优化模型的图像生成能力。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种脑电生成图像模型训练方法,所述脑电生成图像模型包括脑电编码器以及图像生成网络,所述方法包括:
获取脑电信号样本以及与所述脑电信号样本匹配的第一图像样本;
通过所述脑电编码器对所述脑电信号样本进行编码处理,得到所述脑电信号样本的脑电编码,并通过图像编码器对所述第一图像样本进行编码处理,得到所述第一图像样本的图像编码;
通过所述图像生成网络对噪声图像进行以所述脑电信号样本的脑电编码为条件的去噪处理,得到对应所述脑电信号样本的预测去噪结果;
基于对应所述脑电信号样本的预测去噪结果与第一真实去噪结果之间的误差构建第一去噪损失,并基于所述脑电信号样本的脑电编码与所述第一图像样本的图像编码之间的距离构建脑电图像对齐损失;
基于所述第一去噪损失以及所述脑电图像对齐损失,对所述脑电生成图像模型中的脑电编码器以及图像生成网络进行参数更新处理,得到经过更新的脑电生成图像模型。
本申请实施例提供一种脑电生成图像模型训练装置,所述脑电生成图像模型包括脑电编码器以及图像生成网络,所述装置包括:
获取模块,用于获取脑电信号样本以及与所述脑电信号样本匹配的第一图像样本;
编码模块,用于通过所述脑电编码器对所述脑电信号样本进行编码处理,得到所述脑电信号样本的脑电编码,并通过图像编码器对所述第一图像样本进行编码处理,得到所述第一图像样本的图像编码;
去噪模块,用于通过所述图像生成网络对噪声图像进行以所述脑电信号样本的脑电编码为条件的去噪处理,得到对应所述脑电信号样本的预测去噪结果;
损失模块,用于基于对应所述脑电信号样本的预测去噪结果与第一真实去噪结果之间的误差构建第一去噪损失,并基于所述脑电信号样本的脑电编码与所述第一图像样本的图像编码之间的距离构建脑电图像对齐损失;
更新模块,用于基于所述第一去噪损失以及所述脑电图像对齐损失,对所述脑电生成图像模型中的脑电编码器以及图像生成网络进行参数更新处理,得到经过更新的脑电生成图像模型。
本申请实施例提供一种脑电生成图像方法,所述方法包括:
对脑电信号进行编码处理,得到所述脑电信号的脑电编码;
对噪声图像的隐空间噪声编码进行以所述脑电信号的脑电编码为条件的去噪处理,得到对应所述脑电信号的预测去噪结果;
将对应所述脑电信号的预测去噪结果作为对应所述脑电信号的隐空间图像编码,并对对应所述脑电信号的隐空间图像编码进行解码处理,得到与所述脑电信号匹配的目标图像。
本申请实施例提供一种脑电生成图像装置,所述装置包括:
脑电编码模块,用于对脑电信号进行编码处理,得到所述脑电信号的脑电编码;
图像生成模块,用于对噪声图像的隐空间噪声编码进行以所述脑电信号的脑电编码为条件的去噪处理,得到对应所述脑电信号的预测去噪结果;
解码模块,用于将对应所述脑电信号的预测去噪结果作为对应所述脑电信号的隐空间图像编码,并对对应所述脑电信号的隐空间图像编码进行解码处理,得到与所述脑电信号匹配的目标图像。
本申请实施例提供一种电子设备,包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现本申请实施例提供的脑电生成图像模型训练方法或者脑电生成图像方法。
本申请实施例提供一种计算机可读存储介质,存储有计算机可执行指令,用于被处理器执行时,实现本申请实施例提供的脑电生成图像模型训练方法或者脑电生成图像方法。
本申请实施例提供一种计算机程序产品,包括计算机程序或计算机可执行指令,所述计算机程序或计算机可执行指令被处理器执行时,实现本申请实施例提供的脑电生成图像模型训练方法或者脑电生成图像方法。
本申请实施例具有以下有益效果:
在通过互相匹配的脑电信号样本与第一图像样本训练脑电图像生成模型时,同时构建两种损失,分别是基于对应脑电信号样本的预测去噪结果与第一真实去噪结果之间的误差构建第一去噪损失,以及基于脑电信号样本的脑电编码与第一图像样本的图像编码之间的距离构建脑电图像对齐损失,同时基于两种损失对脑电图像生成模型进行更新,可以在通过增强去噪能力以优化图像生成质量的同时通过对齐脑电维度以及图像维度的编码以优化图像生成质量。
附图说明
图1是本申请实施例提供的脑电生成模型训练系统的结构示意图;
图2是本申请实施例提供的电子设备的结构示意图;
图3A-图3D是本申请实施例提供的脑电生成模型训练方法的流程示意图;
图4是本申请实施例提供的脑电生成图像方法的流程示意图;
图5是本申请实施例提供的脑电生成图像方法的应用示意图
图6是本申请实施例提供的脑电生成模型的结构示意图;
图7是本申请实施例提供的脑电生成模型的训练架构示意图;
图8是本申请实施例提供的脑电信号重建示意图;
图9是本申请实施例提供的脑电生成模型的图像生成效果示意图;
图10是本申请实施例提供的脑电生成模型的图像生成效果示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)脑电信号(electroencephalogram,EEG),是一种使用电生理指标记录大脑活动的方法,大脑在活动时,大量神经元同步发生的突触后电位经总和后形成的。
2)语言-图像对比预训练模型(Contrastive Language-Image Pre-trainingModel,CLIP),通过简单的图文双塔对比学习和大量的图文语料,使模型具有了显著的图文特征对齐能力,在零样本图像分类、跨模态检索中效果拔群。
3)功能性磁共振成像(Functional magnetic resonance imaging,FMRI),功能性磁共振成像是一种新兴的神经影像学方式,其原理是利用磁振造影来测量神经元活动所引发之血液动力的改变。
在相关技术中,试图基于功能性磁共振成像信号重建视觉信息。功能性磁共振成像是另一种测量脑活动的方法。同样地,也有工作探索如何使用深度学习技术生从脑电信号中生成图像。这些方法已经证明了从脑活动中重建或生成视觉结果的可行性。
然而使用功能性磁共振成像来获得图像的方式仍然还不够方便和高效:1)由于功能性磁共振成像的获取设备不便于携带且需要专业人员操作,因此很难捕捉功能性磁共振成像信号;2)功能性磁共振成像的采集成本很高,这极大地阻碍在实际中使用功能性磁共振成像生成图像。相比之下,脑电信号是一种记录脑电活动的低成本无创的方法。现在已经有便携式产品可用于方便地获取脑电信号。
本申请实施例旨在利用预训练的文本到图像模型(即预训练的扩散模型)的强大生成能力,直接从脑电信号生成高质量的图像。然而,这将会面临两个非常困难的问题:1)脑电信号是无创采集的,所以也通常包含着大量噪声。此外,合适的脑电数据有限,并且个体之间差异很大。如何从有如此多限制的脑电信号中获得有效和鲁棒的语义表示是第一个问题;2)由于预训练扩散模型使用的是语言-图像对比预训练模型编码的特征作为条件输入,在对比预训练模型的空间中,文本和图像的特征可以很好地对齐,然而,脑电信号具有其自身的特点,其空间与文本和图像的空间非常不同。如何使用有限且嘈杂的脑电-图像对数据来对齐脑电、文本和图像空间是第二个问题。
本申请实施例提供一种脑电生成图像模型训练方法、脑电生成图像方法、装置、电子设备、计算机可读存储介质及计算机程序产品,能够在保证脑电生成图像模型训练效果的同时提高脑电生成图像模型训练速度。
本申请实施例所提供的脑电生成图像模型训练方法,可以由终端/服务器独自实现;也可以由终端和服务器协同实现,例如终端独自承担下文的脑电生成图像模型训练方法,或者,终端向服务器发送针对脑电生成图像模型训练请求(携带有第一文本),服务器根据接收的脑电生成图像模型训练请求执行脑电生成图像模型训练方法。
本申请实施例提供的用于执行脑电生成图像模型训练方法的电子设备可以是各种类型的终端设备或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器;终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
以服务器为例,例如可以是部署在云端的服务器集群,向用户开放人工智能云服务(AI as a Service,AIaaS),AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务,这种服务模式类似于一个AI主题商城,所有的用户都可以通过应用程序编程接口的方式来接入使用AIaaS平台提供的一种或者多种人工智能服务。
参见图1,图1是本申请实施例提供的脑电生成图像模型训练系统的架构示意图,终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合。
终端400可以被用来获取脑电生成图像模型训练请求,例如,用户通过终端400的输入界面输入脑电生成图像模型训练请求,终端400将脑电生成图像模型训练请求发送至服务器200,脑电信号样本可以是由终端400直接采集得到并被携带至训练请求,或者是由脑电信号采集设备采集到之后发送至终端400并被携带至训练请求,或者是服务器200从脑电信号采集设备接收脑电信号样本,服务器200获取脑电信号样本以及与脑电信号样本匹配的第一图像样本;通过脑电编码器对脑电信号样本进行编码处理,得到脑电信号样本的脑电编码,并通过图像编码器对第一图像样本进行编码处理,得到第一图像样本的图像编码;通过图像生成网络对噪声图像进行以脑电信号样本的脑电编码为条件的去噪处理,得到对应脑电信号样本的预测去噪结果;基于对应脑电信号样本的预测去噪结果与第一真实去噪结果之间的误差构建第一去噪损失,并基于脑电信号样本的脑电编码与第一图像样本的图像编码之间的距离构建脑电图像对齐损失;基于第一去噪损失以及脑电图像对齐损失,对脑电生成图像模型中的脑电编码器以及图像生成网络进行参数更新处理,得到经过更新的脑电生成图像模型,终端400接收脑电生成图像请求,脑电信号可以是由终端400直接采集得到并被携带至脑电生成图像请求,或者是由脑电信号采集设备采集到之后发送至终端400并被携带至脑电生成图像请求,终端400将脑电生成图像请求发送至服务器200,服务器200通过脑电生成图像模型生成目标图像并返回目标图像至终端400。
在一些实施例中,终端中运行的客户端中可以植入有脑电生成图像插件,用以在客户端本地实现脑电生成图像方法。例如,终端400获取脑电生成图像请求后,调用脑电生成图像插件,以实现脑电生成图像方法,对脑电信号进行编码处理,得到脑电信号的脑电编码;对噪声图像的隐空间噪声编码进行以脑电信号的脑电编码为条件的去噪处理,得到对应脑电信号的预测去噪结果,将对应所述脑电信号的预测去噪结果作为对应所述脑电信号的隐空间图像编码,并对对应所述脑电信号的隐空间图像编码进行解码处理,得到与所述脑电信号匹配的目标图像。
参见图2,图2是本申请实施例提供的用于数据处理的电子设备的结构示意图,图2所示的部署有数据库的服务器包括:至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。终端400中的各个组件通过总线系统240耦合在一起。可理解,总线系统240用于实现这些组件之间的连接通信。总线系统240除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统240。
处理器210可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器250可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。
存储器250包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Me mory),易失性存储器可以是随机存取存储器(RAM,Random Access Memor y)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。
在一些实施例中,存储器250能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统251,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块252,用于经由一个或多个(有线或无线)网络接口220到达其他电子设备,示例性的网络接口220包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块253,用于经由一个或多个与用户接口230相关联的输出装置231(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块254,用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的脑电生成图像模型训练装置可以采用软件方式实现,图2示出了存储在存储器250中的脑电生成图像模型训练装置255-1,其可以是程序和插件等形式的软件,包括以下软件模块:获取模块2551、编码模块2552、去噪模块2553,损失模块2554、更新模块2555,本申请实施例提供的脑电生成图像装置可以采用软件方式实现,图2示出了存储在存储器250中的脑电生成图像模型训练装置255-2,其可以是程序和插件等形式的软件,包括以下软件模块:脑电编码模块2556以及图像生成模块2557,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。
如前,本申请实施例提供的脑电生成图像模型训练方法可以由各种类型的电子设备实施。参见图3A,图3A是本申请实施例提供的脑电生成图像模型训练方法的流程示意图,脑电生成图像模型包括脑电编码器以及图像生成网络,结合图3A示出的步骤101至步骤105进行说明。
在步骤101中,获取脑电信号样本以及与脑电信号样本匹配的第一图像样本。
作为示例,脑电信号样本可以通过便携式医疗设备进行采集得到的,这里实际上是先获取第一图像样本,例如,可以要求实验者想象出一个画面,并将这个画面形容出来,基于形容出来的画面搜索出匹配的至少一个图像作为第一图像样本,再要求实验者反复想象这个画面,并在想象这个画面时对脑电信号进行采集,这样所获取的脑电信号即为与第一图像样本匹配的脑电信号样本。
上述示例是获取匹配的脑电信号样本以及第一图像样本的方式,还可以从开源数据集中直接获取互相匹配的脑电信号以及图像作为本申请实施例的匹配的脑电信号样本以及第一图像样本。
在步骤102中,通过脑电编码器对脑电信号样本进行编码处理,得到脑电信号样本的脑电编码,并通过图像编码器对第一图像样本进行编码处理,得到第一图像样本的图像编码。
作为示例,这里的编码处理可以是嵌入编码处理,这里的脑电编码是通过对脑电信号样本进行脑电编码处理后,将脑电编码结果进行嵌入压缩得到的编码结果,图像编码是第一图像样本经过图像编码以及嵌入压缩得到的编码结果。
作为示例,这里的编码处理可以是隐空间编码处理,这里的脑电编码还可以是通过对脑电信号样本进行脑电编码处理后,将脑电编码结果映射到隐空间的编码结果,图像编码是第一图像样本经过图像编码,将图像编码结果映射到隐空间的编码结果,隐空间的维度小于维度阈值。
作为示例,这里的图像编码器可以是预训练的图像文本对比网络中的图像编码器。
作为示例,参见图6,图6示出了本申请实施例涉及的脑电生成图像模型,脑电生成图像模型包括脑电编码器以及图像生成网络,在训练脑电生成图像模型之前,先对脑电编码器进行预训练处理,下面介绍对脑电编码器进行预训练处理的方案。
在一些实施例中,参见图3B,在执行步骤102中通过脑电编码器对脑电信号样本进行编码处理,得到脑电信号样本的脑电编码之前,还可以执行图3B示出的步骤106至步骤108。
在步骤106中,对脑电信号样本进行随机掩码处理,得到残缺脑电信号样本。
在一些实施例中,步骤106中对脑电信号样本进行随机掩码处理,得到残缺脑电信号,可以通过以下技术方案实现:对脑电信号样本按照时间段进行分块处理,得到每个时间段的样本数据块;随机对脑电信号样本中部分时间段的样本数据块进行掩盖处理,得到残缺脑电信号样本。通过本申请实施例提高残缺脑电信号样本的多样性,从而可以提高模型训练的泛化能力。
作为示例,鉴于脑电信号的高时间分辨率,本申请实施例首先在时间域内将脑电信号样本划分为数据块,并随机掩盖设定比例的数据块。参见图8,图8所示出的EEG Signal是脑电信号样本,按照时间段对脑电信号样本进行分段,可以分别获得对应每个时间段的脑电信号作为样本数据块,再将部分时间段的样本数据块掩盖,这里的掩盖可以是将部分时间段的脑电信号设置为零,或者直接将部分时间段的脑电信号丢弃,图8所示的MaskedEEG Signal即为经过掩盖处理得到的残缺脑电信号样本。
在步骤107中,基于残缺脑电信号样本对初始的脑电编解码模型进行预训练,得到经过预训练的脑电编解码模型。
在步骤108中,将预训练的脑电编解码模型中预训练的脑电编码器作为脑电编码器。
作为示例,参见图7,图7示出了由脑电编码器以及脑电解码器组成的脑电编解码模型,脑电编码器实际上是和脑电解码器共同训练得到的,因此需要对初始的脑电编解码模型进行预训练,得到经过预训练的脑电编解码模型,再将预训练的脑电编解码模型中的脑电编码器作为步骤102中使用的预训练的脑电编解码模型,下面介绍对初始的脑电编解码模型进行预训练的过程。
在一些实施例中,初始的脑电编解码模型包括初始的脑电编码器以及初始的脑电解码器;步骤107中基于残缺脑电信号样本对初始的脑电编解码模型进行预训练,得到经过预训练的脑电编解码模型,可以通过以下技术方案实现:通过初始的脑电编码器对残缺脑电信号样本进行脑电编码处理,得到残缺脑电信号样本的脑电编码特征,并对残缺脑电信号样本的脑电编码特征进行嵌入压缩处理,得到残缺脑电信号样本的脑电编码;通过初始的脑电解码器对脑电编码进行解码处理,得到对应脑电信号样本的重构脑电信号样本;基于重构脑电信号样本与脑电信号样本之间的差异构建信号重构损失;获取信号重构损失取最小值时初始的脑电编解码模型的参数变化值,并基于参数变化值更新初始的脑电编解码模型的参数,得到预训练的脑电编解码模型。通过本申请实施例提高脑电编码的表征能力,从而提高图像生成准确度。
作为示例,预训练的过程分为正向传播以及反向更新。正向传播的过程是将残缺脑电信号样本输入至初始的脑电编解码模型所执行的数据处理,初始的脑电编解码模型与预训练的脑电编解码模型具有相同的模型结构,不同的模型参数,通过初始的脑电编码器对残缺脑电信号样本进行脑电编码处理,得到残缺脑电信号样本的脑电编码特征,这里实际上是将残缺脑电信号通过一维卷积层转换为嵌入特征,再对嵌入特征进行脑电编码处理得到脑电编码特征,再将对残缺脑电信号样本的脑电编码特征通过嵌入压缩处理映射到隐空间,得到残缺脑电信号样本的脑电编码,最后再通过解码处理得到重构脑电信号样本,图8所示的Reconstruction即为重构脑电信号样本。反向更新是基于重构脑电信号样本与原始的脑电信号样本之间的差异构建信号重构损失,差异越大表征信号重构损失越大,而训练的目的在于减小信号重构损失,则可以利用梯度更新的方式获取信号重构损失最小化时初始的脑电编解码模型的参数变化值,再基于参数变化值更新初始的脑电编解码模型的参数,得到预训练的脑电编解码模型。上述正向传播以及反向更新可以重复多次进行。
在一些实施例中,步骤102中对脑电信号样本进行编码处理,得到脑电信号样本的脑电编码,可以通过以下技术方案实现:对脑电信号样本进行脑电编码处理,得到脑电信号样本的脑电编码特征;对脑电信号样本的脑电编码特征进行嵌入压缩处理,得到脑电信号样本的脑电编码。
作为示例,通过脑电编码器对脑电信号样本进行脑电编码处理,得到脑电信号样本的脑电编码特征,这里实际上是将脑电信号样本通过一维卷积层转换为嵌入特征,再对嵌入特征进行脑电编码处理得到脑电信号样本的脑电编码特征,再对脑电信号样本的脑电编码特征进行嵌入压缩处理,或者将脑电信号样本的脑电编码特征映射到隐空间,得到脑电信号样本的脑电编码。
在步骤103中,通过图像生成网络对噪声图像进行以脑电信号样本的脑电编码为条件的去噪处理,得到对应脑电信号样本的预测去噪结果。
作为示例,去噪处理是从噪声图像中定向去除噪声以恢复出符合脑电编码所表征的语义信息的有效图像内容。
作为示例,去噪处理是通过多个级联的去噪网络实现的,这里的预测去噪结果可以是每个去噪网络输出的隐空间噪声编码,还需要通过解码器对最后一个去噪网络输出的隐空间噪声编码进行解码处理才能得到预测目标图像,这里的去噪网络也可以是在真实空间中进行,即预测去噪结果可以是每个去噪网络输出的真实空间去噪结果,最后一个去噪网络输出的真实空间去噪结果即为与脑电信号样本匹配的预测目标图像。
这里的图像生成网络可以是对扩散模型进行初始化处理得到的,还可以是通过预训练得到的,这里的预训练任务是训练出文本生成图像模型。文本生成图像模型是基于初始化的扩散模型进行训练得到的,扩散模型、文本生成图像模型以及图像生成网络的结构均是相同的,可以是多个U型网络的级联结果,也可以是多个U型网络的级联结果与图像解码器的级联结果。下面介绍图像生成网络的预训练过程。
在一些实施例中,参见图3C,在步骤103中通过图像生成网络对噪声图像进行以脑电信号样本的脑电编码为条件的去噪处理之前,还可以执行图3C示出的步骤109至步骤112。
在步骤109中,获取互相匹配的第二图像样本与文本样本,并获取文本样本的文本编码以及第二图像样本的图像编码。
作为示例,这里的第二图像样本可以与第一图像样本相同或者不同,在预训练图像生成网络时仅需要获取匹配的图像以及文本作为训练数据即可。
在步骤110中,通过文本生成图像模型对噪声图像进行以文本编码为条件的去噪处理,得到对应文本样本的预测去噪结果。
作为示例,这里的文本生成图像模型包括多个级联的去噪网络,对应文本的样本的去噪结果即为每个去噪网络输出的预测去噪结果,每个去噪网络均是U型网络,网络结构与本申请实施例提供的图像生成网络的网络结构相同。
在步骤111中,基于对应文本样本的预测去噪结果与第二真实去噪结果之间的误差构建第二去噪损失,并基于文本编码以及第二图像样本的图像编码之间的距离构建文本图像对齐损失。
作为示例,这里的第二去噪损失的构建方式与第一去噪损失的构建方式,区别仅在于将文本编码替换为脑电编码。
在步骤112中,基于第二去噪损失以及文本图像对齐损失,对文本生成图像模型进行参数更新处理,并将更新后的文本生成图像模型作为图像生成网络。
作为示例,这里会对第二去噪损失以及文本图像对齐损失进行融合处理,得到融合损失,再基于融合损失更新文本生成图像模型的参数,从而实现图像生成网络的预训练。
在一些实施例中,图像生成模型包括N个级联的去噪网络,N的取值满足2≤N;步骤103中通过图像生成网络对噪声图像进行以脑电信号样本的脑电编码为条件的去噪处理,得到对应脑电信号样本的预测去噪结果,可以通过以下技术方案实现:通过N个级联的去噪网络中第n去噪网络,对第n去噪网络的输入进行去噪处理,并将第n去噪网络输出的第n去噪结果传输到第n+1去噪网络以继续进行去噪处理,得到对应第n+1去噪网络的第n+1去噪结果;将每个去噪网络输出的去噪结果作为对应脑电信号样本的预测去噪结果。通过本申请实施例通过迭代的方式可以提高去噪能力,优化模型的训练效果。
作为示例,参见图6,图像生成网络中有N个去噪网络级联以及图像解码器,从而相当于执行了N次去噪处理最后会进行图像解码处理,步骤103中所得到的预测去噪结果均是通过去噪处理得到的,每次都是根据前一次去噪得到的预测去噪结果进行去噪处理,再输入到下一个去噪网络中进行去噪处理,n为取值从1开始递增的整数变量,n的取值范围为1≤n<N,当n取值为1时,第n去噪网络的输入为噪声图像(可以是噪声图像在真实空间的编码或者是噪声图像的隐空间噪声编码)以及脑电编码,当n取值为2≤n<N时,第n去噪网络的输入为第n-1去噪网络输出的第n-1去噪结果以及脑电编码。
作为示例,以N为3举例进行说明,当上述去噪处理是在隐空间中执行时,通过第1去噪网络对隐空间噪声编码以及脑电编码进行去噪处理,得到第1去噪结果,通过第2去噪网络对第1去噪结果以及脑电编码进行去噪处理,得到第2去噪结果,通过第3去噪网络对第2去噪结果以及脑电编码进行去噪处理,得到第3去噪结果,通过上述方式得到的每个去噪结果也均是隐空间编码,每个去噪网络所执行的去噪处理相当于是一个时间步的去噪处理。
在一些实施例中,每个去噪网络包括M个级联的采样网络,每个采样网络包括残差层以及注意力层;步骤103中通过N个级联的去噪网络中第n去噪网络,对第n去噪网络的输入进行去噪处理,可以通过以下技术方案实现:通过第n去噪网络中第m采样网络的残差层对第m采样网络的输入进行残差特征提取处理,得到残差特征;通过第n去噪网络中第m采样网络的注意力层对残差特征以及脑电编码进行注意力处理,得到注意力特征作为第m采样网络的第m采样结果;将第m采样网络的第m采样结果传输到第m+1采样网络以继续进行采样处理,得到第m+1采样网络的第m+1采样结果;将第n去噪网络中第M采样网络输出的第M采样结果作为第n去噪结果;其中,m为取值从1开始递增的整数变量,m的取值范围为1≤m≤M-1,当m取值为1时,第m采样网络的输入为第n-1去噪结果,当m取值为2≤m<M时,第m采样网络的输入为第m-1采样网络输出的第m-1采样结果。通过本申请实施例通过迭代的方式可以提高去噪能力,优化模型的训练效果。
作为示例,第n去噪网络包括级联的M下采样网络、M个上采样网络以及噪声移除网络,M的取值满足2≤M;上述通过N个级联的去噪网络中第n去噪网络,对第n去噪网络的输入进行去噪处理,可以通过以下技术方案实现:通过M个级联的下采样网络对第n-1去噪结果以及脑电编码进行下采样处理,得到第n去噪网络的下采样结果;通过M个级联的上采样网络对第n去噪网络的下采样结果进行上采样处理,得到第n去噪网络的上采样结果,作为对应第n去噪网络的第n去噪结果,通过在每步去噪过程中进行下采样以及上采样,从而可以在去噪过程中保留更多的细节信息。
承接上述示例,以第2去噪网络为例进行说明,去噪网络可以包括3个下采样网络以及3个上采样网络,通过3个级联的下采样网络对第1去噪结果以及脑电编码进行下采样处理,得到第2去噪网络的下采样结果;通过3个级联的上采样网络对第2去噪网络的下采样结果进行上采样处理,得到第2去噪网络的上采样结果作为对应第2去噪网络的第2去噪结果。
作为示例,通过M个级联的下采样网络对第n去噪结果以及脑电编码进行下采样处理,得到第n去噪网络的下采样结果,可以通过以下技术方案实现:通过M个级联的下采样网络中的第m下采样网络,对第m下采样网络的输入进行下采样处理,得到对应第m下采样网络的第m下采样结果,将对应第m下采样网络的第m下采样结果传输到第m+1下采样网络以继续进行下采样处理,得到对应第m+1下采样网络的第m+1下采样结果;将第M下采样网络输出的下采样结果作为第n去噪结果;其中,m为取值从1开始递增的整数变量,m的取值范围为1≤m≤M-1,当m取值为1时,第m采样网络的输入为第n-1去噪结果以及脑电编码,当m取值为2≤m<M时,第m下采样网络的输入为第m-1下采样网络输出的第m-1下采样结果以及脑电编码。上采样网络的处理过程与下采样网络的处理过程相同。
承接上述示例,通过第1下采样网络,对第1下采样网络的输入进行下采样处理,得到对应第1下采样网络的下采样结果,将对应第1下采样网络的下采样结果传输到第2下采样网络以继续进行下采样处理,得到对应第2下采样网络的第2下采样结果;通过第2下采样网络,对第2下采样网络的输入进行下采样处理,得到对应第2下采样网络的下采样结果,将对应第2下采样网络的下采样结果传输到第3下采样网络以继续进行下采样处理,得到对应第3下采样网络的第3下采样结果,将第3下采样网络输出的第3下采样结果作为第2去噪结果,这里每个下采样网络的输入均包括脑电编码。
作为示例,第m下采样网络包括残差层以及注意力层;通过M个级联的下采样网络中的第m下采样网络,对第m下采样网络的输入进行下采样处理,得到对应第m下采样网络的第m下采样结果,可以通过以下技术方案实现:通过残差层对对应第m-1下采样网络的第m-1下采样结果进行残差特征提取处理,得到对应第m下采样网络的第m残差特征;通过注意力层对第m残差特征以及脑电编码进行注意力处理,得到对应第m下采样网络的第m下采样结果。通过本申请实施例可以通过残差层保留更多的有效信息,通过注意力层可以基于文本编码对空间维度和时间维度进行建模,从而提高去噪效果。
作为示例,每个下采样网络包括两个层,分别是残差层以及注意力层。残差层的输入为x,残差层的输出是f(x)+x,这里的f(x)表征残差层中的特征提取处理。注意力层的输入是残差层的输出,残差层的输入是上一个级联的下采样网络的输出(也即上一个级联的下采样网络中包括的注意力层的输出),如果残差层属于第1下采样网络,则残差层的输入是上一个去噪网络的输出。
作为示例,通过残差层对对应第1下采样网络的第1下采样结果进行残差特征提取处理,得到对应第2下采样网络的第2残差特征;通过注意力层对第2残差特征以及脑电编码进行注意力处理,得到对应第2下采样网络的第2下采样结果。
在一些实施例中,步骤103中通过第n去噪网络中第m采样网络的注意力层对残差特征以及脑电编码进行注意力处理,可以通过以下技术方案实现:对残差特征进行基于查询矩阵的映射处理,得到注意力查询矩阵;对脑电编码进行基于键矩阵的映射处理,得到注意力键矩阵;对脑电编码进行基于值矩阵的映射处理,得到注意力值矩阵;将注意力查询矩阵与注意力键矩阵的转置矩阵进行相乘处理,得到相乘结果,并获取相乘结果与注意力键矩阵的维度之间的比值;对比值进行最大似然处理,并将最大似然结果与注意力值矩阵进行相乘处理,得到注意力特征。通过本申请实施例可以将脑电信号有针对性融入到去噪网络中,从而起到针对图像生成的约束作用,提高模型的训练效果。
作为示例,通过UNet中的交叉注意力机制引入条件信号,这种交叉注意力机制还可以将脑电数据的条件信息融合到去噪过程。具体而言,通过脑电编码处理得到的脑电编码特征y通过嵌入压缩处理,得到脑电编码然后,这个脑电编码被包括交叉注意力层的U-Net网络合并,参见公式(1)至公式(3):
其中,表示残差层的输出,和是具有可学习参数的投影矩阵,τθ(y)是脑电编码。
在步骤104中,基于对应脑电信号样本的预测去噪结果与第一真实去噪结果之间的误差构建第一去噪损失,并基于脑电信号样本的脑电编码与第一图像样本的图像编码之间的距离构建脑电图像对齐损失。
作为示例,这里的第一真实去噪结果是每次去噪处理后的标准结果,例如,先对干净的图样样本进行一次加噪,得到噪声图像,那么再对该噪声图像进行去噪处理,得到预测去噪结果,在理想情况下去噪处理后的标准结果是恢复至干净的图样样本。
作为示例,这里涉及到两个损失,第一去噪损失用于约束图像去噪,脑电图像对齐损失用于约束脑电维度与图形维度的特征对齐,下面分别介绍这两种损失的构建方式。
在一些实施例中,参见图3D,在步骤104中基于对应脑电信号样本的预测去噪结果与第一真实去噪结果之间的误差构建第一去噪损失之前,还可以执行图3D示出的步骤113至步骤114。
在步骤113中,对所述图像样本进行多次累计加噪处理,得到对应每次加噪的累计加噪结果。
在步骤114中,将多个所述累计加噪结果作为所述第一真实去噪结果。
在一些实施例中,对图样样本进行编码处理,得到图像样本的隐空间图像编码。对图像样本进行多次累计加噪处理,得到对应每次加噪的累计加噪结果。将多个累计加噪结果作为第一真实去噪结果。
作为示例,首先将图像样本映射到隐空间以降低编码维度,将干净图像样本经过编码器进行编码,得到图像样本的隐空间图像编码,通过扩散的方式在每个时间步对隐空间图像编码进行累积方式的加噪,加噪的次数和应用阶段所使用的去噪网络的数目相同,参见公式(4)和公式(5):
其中,q(z1:T∣z0)是指在时间步1至时间步T中每个时间步得到的带噪图像,q(zt∣zt-1)代表从t-1时间步的带噪图像进行加噪得到的t时间步的带噪图像的概率分布,是t时间步的带噪图像的概率分布,是均值,βtI是方差。
在一些实施例中,还可以直接在真实空间内进行加噪处理,即对图像本身进行加噪,是否在隐空间内进行加噪处理,取决于去噪环节是否在隐空间内进行。
在一些实施例中,图像生成模型包括N个级联的去噪网络,N的取值满足2≤N;加噪次数与去噪网络的数目相同;步骤104中基于对应脑电信号样本的预测去噪结果与第一真实去噪结果之间的误差构建第一去噪损失,可以通过以下技术方案实现:将第n去噪网络输出的去噪结果作为第n预测去噪结果;获取第N-n次加噪的累计加噪结果作为第n个第一真实去噪结果;基于第n预测去噪结果与第n个第一真实去噪结果之间的误差构建第一去噪损失。
作为示例,以N的数值为2进行说明,通过上述实施例对干净的图像样本进行第一次加噪处理,得到第一累计加噪结果,再对第一累计加噪结果进行第二次加噪处理,得到第二累计加噪结果。这里的第二累计加噪结果相当于是噪声图像,例如,这里的第一累计加噪结果作为第1第一真实去噪结果,将第1去噪网络输出的第1预测去噪结果与第一累计加噪结果之间的误差构建第一去噪损失。
在一些实施例中,步骤104中基于脑电信号样本的脑电编码与第一图像样本的图像编码之间的距离构建脑电图像对齐损失,可以通过以下技术方案实现:对脑电信号样本的脑电编码进行映射处理,得到脑电信号样本的映射结果;对脑电信号样本的映射结果与第一图像样本的图像编码进行点乘处理,得到点乘结果;将脑电信号样本的映射结果的模与第一图像样本的图像编码的模进行相乘处理,得到相乘结果;获取与点乘结果负相关,且与相乘结果正相关的脑电图像对齐损失。
作为示例,本申请实施例采用额外的CLIP编码器监督来协助对齐脑电和图像空间。具体而言,从预训练的脑电编码器中获得的脑电编码通过映射层转换为与CLIP相同维度的嵌入(脑电信号样本的映射结果)。然后,本申请实施例使用损失函数来最小化脑电嵌入与从CLIP图像编码器获得的图像嵌入之间的距离。在微调过程中,CLIP模型是固定的,对齐损失函数定义参见公式(6):
其中,h是映射层,EI是CLIP图像编码器,I是图像,τθ(y)是脑电编码器y的输出通过映射τθ形成的嵌入,是对齐损失函数。
对齐损失函数可以鼓励脑电特征更紧密地与图像对齐,从而更类似于文本特征。通过这种方式,本申请实施例可以将脑电和图像对齐到相同的空间中。优化后的脑电嵌入表示更适合扩散模型的图像生成,进而提高了生成图像的质量。
在步骤105中,基于第一去噪损失以及脑电图像对齐损失,对脑电生成图像模型中的脑电编码器以及图像生成网络进行参数更新处理,得到经过更新的脑电生成图像模型。
作为示例,当图像生成网络是经过预训练得到的网络时,仅更新图像生成网络中涉及到注意力处理的参数,当图像生成网络是初始化的网络时,需要更新图像生成网络中的全部参数。
作为示例,当去噪处理是在隐空间中执行时,脑电图像生成模型包括脑电编码器、图像生成网络以及预训练得到的图像解码器,当去噪处理是在真实空间中执行时,脑电图像生成模型包括脑电编码器以及图像生成网络。
在通过互相匹配的脑电信号样本与第一图像样本训练脑电图像生成模型时,同时构建两种损失,分别是基于对应脑电信号样本的预测去噪结果与第一真实去噪结果之间的误差构建第一去噪损失,以及基于脑电信号样本的脑电编码与第一图像样本的图像编码之间的距离构建脑电图像对齐损失,同时基于两种损失对脑电图像生成模型进行更新,可以在通过增强去噪能力以优化图像生成质量的同时通过对齐脑电维度以及图像维度的编码以优化图像生成质量。
如前,本申请实施例提供的脑电生成图像方法可以由各种类型的电子设备实施。参见图4,图4是本申请实施例提供的脑电生成图像方法的流程示意图,结合图4示出的步骤201至步骤203进行说明。
在步骤201中,对脑电信号进行编码处理,得到脑电信号的脑电编码。
作为示例,这里的脑电信号是用于约束图像生成的条件,对脑电信号进行编码处理是通过本申请实施例提供的脑电生成图像模型中的脑电编码器实现。
在步骤202中,对噪声图像的隐空间噪声编码进行以脑电信号的脑电编码为条件的去噪处理,得到对应脑电信号的预测去噪结果。
在步骤203中,将对应脑电信号的预测去噪结果作为对应脑电信号的隐空间图像编码,并对对应脑电信号的隐空间图像编码进行解码处理,得到与脑电信号匹配的目标图像。
参见图5,目标图像可以可视化呈现脑电信号的活动内容。
作为示例,首先获取噪声图像,噪声图像是高斯噪声的图像格式数据,为了实现隐空间的建模去噪,可以获取对应噪声图像的隐空间噪声编码,即噪声图像在隐空间的编码,将高斯噪声的原始图像格式数据进行降维压缩得到隐空间噪声编码。接下来详细介绍对隐空间噪声编码进行基于脑电编码的去噪处理,得到对应脑电信号的预测去噪结果的过程。隐空间图像编码是图像数据在隐空间的编码,隐空间比真实空间的维度更低(隐空间的编码维度小于维度阈值),隐空间噪声编码的隐空间编码维度、以及隐空间图像编码的隐空间编码维度均低于维度阈值。
作为示例,去噪处理是通过脑电生成图像模型中的图像生成网络实现的,这里的去噪处理的过程可以参见步骤103的具体实施方式,区别仅在于将脑电信号样本的脑电编码替换为将脑电信号的脑电编码以及步骤202中的去噪处理是在隐空间内执行的,即第一个去噪网络的输入是隐空间噪声编码,最后一个去噪网络的输出是隐空间图像编码,其余执行过程可以参考上述实施例的说明,与步骤103类似,通过去噪处理可以得到对应脑电信号的预测去噪结果,当仅存在一个预测去噪结果时,将该预测去噪结果作为对应脑电信号的预测去噪结果,当存在多个预测去噪结果时,将最后一个预测去噪结果作为对应脑电信号的预测去噪结果。
作为示例,这里的解码处理是通过解码器执行的,下面介绍解码器的训练的方案,获取包括解码器以及对应解码器的编码器的编解码网络。可以从服务器所存储的多个编解码网络中读取任意一个用于图像处理的编解码网络,作为后续训练的基础。通过编码器对样本图像进行编码处理,得到隐空间图像样本编码。通过解码器对隐空间图像样本编码进行解码处理,得到恢复图像样本。用编码器来把图像数据压缩到更低数据维度的隐式空间,然后再用解码器来根据图像的隐空间表征来恢复出原图像的内容。基于恢复图像样本确定编解码损失。获取恢复图像样本与图像样本之间的第一差异,并获取与第一差异正相关的图像重建损失。基于编解码损失对编解码网络进行参数更新处理,得到更新后的编解码网络。更新后的编解码网络中的解码器用于执行步骤202中的解码处理。
通过本申请实施例对脑电信号进行编码处理,得到脑电编码;获取隐空间噪声编码,并对隐空间噪声编码进行基于脑电编码的去噪处理,得到隐空间图像编码;对隐空间图像编码进行解码处理,得到与脑电信号匹配的目标图像。相比较于完全依赖去噪处理得到图像的方式而言,可以通过解码处理来对去噪效果进行分担,从而可以分担去噪处理的计算资源占用以及计算时间占用,提高图像生成的资源利用效率以及计算速度。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
终端可以被用来获取脑电生成图像模型训练请求,例如,用户通过终端的输入界面输入脑电生成图像模型训练请求,终端将脑电生成图像模型训练请求发送至服务器,脑电信号样本可以是由终端直接采集得到并被携带至训练请求,或者是由脑电信号采集设备采集到之后发送至终端并被携带至训练请求,或者是服务器从脑电信号采集设备接收脑电信号样本,服务器获取脑电信号样本以及与脑电信号样本匹配的第一图像样本;通过脑电编码器对脑电信号样本进行编码处理,得到脑电信号样本的脑电编码,并通过图像编码器对第一图像样本进行编码处理,得到第一图像样本的图像编码;通过图像生成网络对噪声图像进行以脑电信号样本的脑电编码为条件的去噪处理,得到对应脑电信号样本的预测去噪结果;基于对应脑电信号样本的预测去噪结果与第一真实去噪结果之间的误差构建第一去噪损失,并基于脑电信号样本的脑电编码与第一图像样本的图像编码之间的距离构建脑电图像对齐损失;基于第一去噪损失以及脑电图像对齐损失,对脑电生成图像模型中的脑电编码器以及图像生成网络进行参数更新处理,得到经过更新的脑电生成图像模型,终端接收脑电生成图像请求,脑电信号可以是由终端直接采集得到并被携带至脑电生成图像请求,或者是由脑电信号采集设备采集到之后发送至终端并被携带至脑电生成图像请求,终端将脑电生成图像请求发送至服务器,服务器通过脑电生成图像模型生成目标图像并返回目标图像至终端。
本申请实施例提出新的算法框架DreamDiffusion,用于从脑电信号生成高质量图像。该算法框架通过利用在大型脑电数据集所学习的表征和预训练图像扩散模型的强大生成能力,解决了基于脑电信号的图像生成所面临的挑战。
下面介绍本申请实施例提供的算法框架DreamDiffusion。
参见图7,算法框架DreamDiffusion主要包括三个主要部分:1)信号掩码预训练,用于得到有效和鲁棒的脑电编码器;2)使用脑电-图像配对数据对预训练的扩散模型进行微调;3)使用CLIP编码器对脑电、文本和图像空间进行对齐。首先,利用大量的脑电数据进行信号掩码建模,训练脑电编码器以提取上下文知识。然后,通过交叉注意机制利用得到的脑电编码器为预训练扩散模型提供条件特征。最后为了增强脑电特征与预训练扩散模型的兼容性,进一步通过在微调过程中减少脑电嵌入和CLIP图像嵌入之间的距离来对齐脑电、文本和图像嵌入空间。
下面介绍信号掩码预训练过程。
脑电信号是人脑产生的电活动的记录,使用放置在头皮上的电极进行测量。它是一种非侵入性和低成本的脑活动测量方法。脑电图数据具有几个特点。首先,数据是二维的,一维表示放置在头皮上的通道或电极数量,另一维表示时间。脑电图的时间分辨率很高,意味着它可以捕捉到毫秒级别的大脑活动的快速变化。然而,脑电图的空间分辨率较低,意味着难以精确定位大脑活动的来源。其次,脑电图信号很容受年龄、睡眠和认知状态等因素的影响而变化。最后,脑电图数据通常存在噪声,需要仔细处理和分析才能提取有意义的信息。
由于脑电图数据中固有存在的噪声以及变化性大,相关技术中的建模方式通常难以从脑电信号中提取有意义的信息。因此,本申请实施例采用信号掩码建模技术,从嘈杂和可变的数据中捕获上下文信息非常有效,与将输入视为二维图像并掩去空间信息的现有技术不同,本申请实施例考虑脑电信号的时间特征,并深入探讨人脑时间变化背后的语义。鉴于脑电信号的高时间分辨率,本申请实施例首先在时间域内将其划分为数据块,并随机掩盖一定比例的数据块。随后,这些数据块将通过一维卷积层转换为嵌入。然后,本申请实施例使用非对称架构根据周围数据块的上下文提示来预测掩去的块。通过重构掩码信号,预训练的脑电编码器学习到了对不同人和各种脑活动的脑电数据的深入理解。
下面介绍利用扩散模型针对有限的脑电-图像对进行微调的过程。
通过使用掩蔽信号预训练获得脑电信号的有效表示后,本申请实施例利用脑电信号的有效表示以及预训练的扩散模型生成图像。扩散模型逐渐去噪正态分布变量以学习数据分布。扩散模型采用交叉注意力机制来增强更灵活的条件图像生成,最常见的条件是文本提示。扩散模型已经展示了在从各种类型的信号,如标签、文本和语义地图生成高质量图像方面强大的生成能力。本申请实施例所使用的扩散模型是在隐空间上进行扩散操作。给定像素空间中的图像x,x被VQ编码器E编码为相应的隐变量z=E(x)。通过UNet中的交叉注意力机制引入条件信号,这种交叉注意力机制还可以将脑电数据的条件信息融合到去噪过程。具体而言,脑电编码器y的输出通过映射τθ形成嵌入然后,这个脑电表示被通过实现交叉注意力层的U-Net结构合并,参见公式(7)至公式(9):
其中,表示U-Net的中间值,和是具有可学习参数的投影矩阵,τθ(y)是脑电编码器y的输出通过映射τθ形成的嵌入。
在微调过程中,同时优化脑电编码器和U-Net的交叉注意力层的投影矩阵。保持扩散模型的其余部分不变。使用以下扩散模型损失函数进行微调,参见公式(10):
其中,∈θ是用U-Net实现的去噪函数,xt是在t时间步的输入图像,t是时间步,τθ(y)是脑电编码器y的输出通过映射τθ形成的嵌入。
下面介绍使用CLIP编码器对齐脑电,文本和图像空间的过程。
在这部分介绍如何微调预训练得到的脑电信号的表示,使其更适合生成图像。预训练的扩散模型专门用于文本到图像生成;然而,脑电信号具有自己的特性,其隐空间与文本和图像的空间非常不同。因此,仅使用有限的脑电-图像配对数据直接端到端微调扩散模型,很难准确地将脑电特征与预训练的扩散模型中的文本嵌入对齐。
由于扩散模型使用了CLIP并在大量的文本-图像对上进行了训练,其中的文本和图像空间已经很好地对齐。因此,本申请实施例采用额外的CLIP编码器监督来协助对齐脑电,文本和图像空间。具体而言,从预训练的编码器中获得的脑电特征通过映射层转换为与CLIP相同维度的嵌入。然后,本申请实施例使用损失函数来最小化脑电嵌入与从CLIP图像编码器获得的图像嵌入之间的距离。在微调过程中,CLIP模型是固定的,对齐损失函数定义参见公式(11):
其中,h是映射层,EI是CLIP图像编码器,I是图像,τθ(y)是脑电编码器y的输出通过映射τθ形成的嵌入,是对齐损失函数。
对齐损失函数可以鼓励脑电特征更紧密地与图像对齐,从而更类似于文本特征。通过这种方式,本申请实施例可以将脑电、文本和图像对齐到相同的空间中。优化后的脑电嵌入表示更适合扩散模型的图像生成,进而提高了生成图像的质量。
参见图9和图10,将本申请实施例提出的算法框架DreamDiffusion与Brain2Image进行比较的效果示意图,Brain2Image采用传统生成模型,即生成对抗网络实现了从脑电信号到图像的转换。本申请实施例对Brain2Image论文中展示的几个类别的结果进行了定性比较。为确保公正比较,本申请实施例按照Brain2Image的相同主观评估策略,展示了不同算法生成的实例。图9中顶部行显示Brain2Image生成的结果,而底部行显示DreamDiffusion的生成结果,可以观察到DreamDiffusion的生成图像质量明显高于Brain2Image的生成图像,从而验证了本申请实施例提出的算法框架DreamDiffusion的有效性。
可以理解的是,在本申请实施例中,涉及到用户信息等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
下面继续说明本申请实施例提供的脑电生成图像模型训练装置255-1的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器250的脑电生成图像模型训练装置255-1中的软件模块可以包括:获取模块2551,用于获取脑电信号样本以及与脑电信号样本匹配的第一图像样本;编码模块2552,用于通过脑电编码器对脑电信号样本进行编码处理,得到脑电信号样本的脑电编码,并通过图像编码器对第一图像样本进行编码处理,得到第一图像样本的图像编码;去噪模块2553,用于通过图像生成网络对噪声图像进行以脑电信号样本的脑电编码为条件的去噪处理,得到对应脑电信号样本的预测去噪结果;损失模块2554,用于基于对应脑电信号样本的预测去噪结果与第一真实去噪结果之间的误差构建第一去噪损失,并基于脑电信号样本的脑电编码与第一图像样本的图像编码之间的距离构建脑电图像对齐损失;更新模块2555,用于基于第一去噪损失以及脑电图像对齐损失,对脑电生成图像模型中的脑电编码器以及图像生成网络进行参数更新处理,得到经过更新的脑电生成图像模型。
在一些实施例中,通过脑电编码器对脑电信号样本进行编码处理,得到脑电信号样本的脑电编码之前,编码模块2552,还用于:对脑电信号样本进行随机掩码处理,得到残缺脑电信号样本;基于残缺脑电信号样本对初始的脑电编解码模型进行预训练,得到经过预训练的脑电编解码模型;将预训练的脑电编解码模型中预训练的脑电编码器作为脑电编码器。
在一些实施例中,编码模块2552,还用于:对脑电信号样本按照时间段进行分块处理,得到每个时间段的样本数据块;随机对脑电信号样本中部分时间段的样本数据块进行掩盖处理,得到未掩盖的样本数据块;将未掩盖的样本数据块作为残缺脑电信号样本。
在一些实施例中,初始的脑电编解码模型包括初始的脑电编码器以及初始的脑电解码器;编码模块2552,还用于:通过初始的脑电编码器对残缺脑电信号样本进行脑电编码处理,得到残缺脑电信号样本的脑电编码特征,并对残缺脑电信号样本的脑电编码特征进行嵌入压缩处理,得到残缺脑电信号样本的脑电编码;通过初始的脑电解码器对脑电编码进行解码处理,得到对应脑电信号样本的重构脑电信号样本;基于重构脑电信号样本与脑电信号样本之间的差异构建信号重构损失;获取信号重构损失取最小值时初始的脑电编解码模型的参数变化值,并基于参数变化值更新初始的脑电编解码模型的参数,得到预训练的脑电编解码模型。
在一些实施例中,编码模块2552,还用于:对脑电信号样本进行脑电编码处理,得到脑电信号样本的脑电编码特征;对脑电信号样本的脑电编码特征进行嵌入压缩处理,得到脑电信号样本的脑电编码。
在一些实施例中,在通过图像生成网络对噪声图像进行以脑电信号样本的脑电编码为条件的去噪处理之前,去噪模块2553还用于:获取互相匹配的第二图像样本与文本样本,并获取文本样本的文本编码以及第二图像样本的图像编码;通过文本生成图像模型对噪声图像进行以文本编码为条件的去噪处理,得到对应文本样本的预测去噪结果;基于对应文本样本的预测去噪结果与第二真实去噪结果之间的误差构建第二去噪损失,并基于文本编码以及第二图像样本的图像编码之间的距离构建文本图像对齐损失;基于第二去噪损失以及文本图像对齐损失,对文本生成图像模型进行参数更新处理,并将更新后的文本生成图像模型作为图像生成网络。
在一些实施例中,图像生成模型包括N个级联的去噪网络,N的取值满足2≤N;去噪模块2553还用于:通过N个级联的去噪网络中第n去噪网络,对第n去噪网络的输入进行去噪处理,并将第n去噪网络输出的第n去噪结果传输到第n+1去噪网络以继续进行去噪处理,得到对应第n+1去噪网络的第n+1去噪结果;将每个去噪网络输出的去噪结果作为对应脑电信号样本的预测去噪结果;其中,n为取值从1开始递增的整数变量,n的取值范围为1≤n<N,当n取值为1时,第n去噪网络的输入为噪声图像的隐空间噪声编码以及脑电编码,当n取值为2≤n<N时,第n去噪网络的输入为第n-1去噪网络输出的第n-1去噪结果以及脑电编码。
在一些实施例中,每个去噪网络包括M个级联的采样网络,每个采样网络包括残差层以及注意力层;去噪模块2553还用于:通过第n去噪网络中第m采样网络的残差层对第m采样网络的输入进行残差特征提取处理,得到残差特征;通过第n去噪网络中第m采样网络的注意力层对残差特征以及脑电编码进行注意力处理,得到注意力特征作为第m采样网络的第m采样结果;将第m采样网络的第m采样结果传输到第m+1采样网络以继续进行采样处理,得到第m+1采样网络的第m+1采样结果;将第n去噪网络中第M采样网络输出的第M采样结果作为第n去噪结果;其中,m为取值从1开始递增的整数变量,m的取值范围为1≤m≤M-1,当m取值为1时,第m采样网络的输入为第n-1去噪结果,当m取值为2≤m<M时,第m采样网络的输入为第m-1采样网络输出的第m-1采样结果。
在一些实施例中,去噪模块2553还用于:对残差特征进行基于查询矩阵的映射处理,得到注意力查询矩阵;对脑电编码进行基于键矩阵的映射处理,得到注意力键矩阵;对脑电编码进行基于值矩阵的映射处理,得到注意力值矩阵;将注意力查询矩阵与注意力键矩阵的转置矩阵进行相乘处理,得到相乘结果,并获取相乘结果与注意力键矩阵的维度之间的比值;对比值进行最大似然处理,并将最大似然结果与注意力值矩阵进行相乘处理,得到注意力特征。
在一些实施例中,在基于对应脑电信号样本的预测去噪结果与第一真实去噪结果之间的误差构建第一去噪损失之前,损失模块2554还用于:对图样样本进行编码处理,得到隐空间图像编码;对隐空间图像编码进行多次累计加噪处理,得到对应每次加噪的累计加噪结果;将多个累计加噪结果作为第一真实去噪结果。
在一些实施例中,图像生成模型包括N个级联的去噪网络,N的取值满足2≤N;加噪次数与去噪网络的数目相同;损失模块2554还用于:将第n去噪网络输出的去噪结果作为第n预测去噪结果;获取第N-n次加噪的累计加噪结果作为第n个第一真实去噪结果;基于第n预测去噪结果与第n个第一真实去噪结果之间的误差构建第一去噪损失。
在一些实施例中,损失模块2554还用于:对脑电信号样本的脑电编码进行映射处理,得到脑电信号样本的映射结果;对脑电信号样本的映射结果与第一图像样本的图像编码进行点乘处理,得到点乘结果;将脑电信号样本的映射结果的模与第一图像样本的图像编码的模进行相乘处理,得到相乘结果;获取与点乘结果负相关,且与相乘结果正相关的脑电图像对齐损失。
下面继续说明本申请实施例提供的脑电生成图像装置255-2的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器250的脑电生成图像装置255-2中的软件模块可以包括:脑电编码模块2556,用于对脑电信号进行编码处理,得到脑电信号的脑电编码;图像生成模块2557,用于对噪声图像的隐空间噪声编码进行以脑电信号的脑电编码为条件的去噪处理,得到对应脑电信号的预测去噪结果,并对对应脑电信号的预测去噪结果进行解码处理,得到与脑电信号匹配的目标图像;其中,对脑电信号进行编码处理是通过脑电生成图像模型中的脑电编码器实现,去噪处理是通过脑电生成图像模型中的图像生成网络实现的,脑电生成图像模型是通过执行本申请实施例提供的脑电生成图像模型训练方法训练得到的。
本申请实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序或者计算机可执行指令,该计算机可执行指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机可执行指令,处理器执行该计算机可执行指令,使得该电子设备执行本申请实施例提供的脑电生成图像模型训练方法或者脑电生成图像方法。
本申请实施例提供一种存储有计算机可执行指令的计算机可读存储介质,其中存储有计算机可执行指令,当计算机可执行指令被处理器执行时,将被处理器执行本申请实施例提供的脑电生成图像模型训练方法或者脑电生成图像方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EP ROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,计算机可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,计算机可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,HyperText Markup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,计算机可执行指令可被部署为在一个电子设备上执行,或者在位于一个地点的多个电子设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个电子设备上执行。
综上,在通过互相匹配的脑电信号样本与第一图像样本训练脑电图像生成模型时,同时构建两种损失,分别是基于对应脑电信号样本的预测去噪结果与第一真实去噪结果之间的误差构建第一去噪损失,以及基于脑电信号样本的脑电编码与第一图像样本的图像编码之间的距离构建脑电图像对齐损失,同时基于两种损失对脑电图像生成模型进行更新,可以在通过增强去噪能力以优化图像生成质量的同时通过对齐脑电维度以及图像维度的编码以优化图像生成质量。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。
Claims (18)
1.一种脑电生成图像模型训练方法,其特征在于,所述脑电生成图像模型包括脑电编码器以及图像生成网络,所述方法包括:
获取脑电信号样本以及与所述脑电信号样本匹配的第一图像样本;
通过所述脑电编码器对所述脑电信号样本进行编码处理,得到所述脑电信号样本的脑电编码,并通过图像编码器对所述第一图像样本进行编码处理,得到所述第一图像样本的图像编码;
通过所述图像生成网络对噪声图像进行以所述脑电信号样本的脑电编码为条件的去噪处理,得到对应所述脑电信号样本的预测去噪结果;
基于对应所述脑电信号样本的预测去噪结果与第一真实去噪结果之间的误差构建第一去噪损失,并基于所述脑电信号样本的脑电编码与所述第一图像样本的图像编码之间的距离构建脑电图像对齐损失;
基于所述第一去噪损失以及所述脑电图像对齐损失,对所述脑电生成图像模型中的脑电编码器以及图像生成网络进行参数更新处理,得到经过更新的脑电生成图像模型。
2.根据权利要求1所述的方法,其特征在于,所述通过所述脑电编码器对所述脑电信号样本进行编码处理,得到所述脑电信号样本的脑电编码之前,所述方法还包括:
对所述脑电信号样本进行随机掩码处理,得到残缺脑电信号样本;
基于所述残缺脑电信号样本对初始的脑电编解码模型进行预训练,得到经过预训练的脑电编解码模型;
将所述预训练的脑电编解码模型中预训练的脑电编码器作为所述脑电编码器。
3.根据权利要求2所述的方法,其特征在于,所述对所述脑电信号样本进行随机掩码处理,得到残缺脑电信号,包括:
对所述脑电信号样本按照时间段进行分块处理,得到每个所述时间段的样本数据块;
随机对所述脑电信号样本中部分所述时间段的样本数据块进行掩盖处理,得到所述残缺脑电信号样本。
4.根据权利要求2所述的方法,其特征在于,
所述初始的脑电编解码模型包括初始的脑电编码器以及初始的脑电解码器;
所述基于所述残缺脑电信号样本对初始的脑电编解码模型进行预训练,得到经过预训练的脑电编解码模型,包括:
通过所述初始的脑电编码器对所述残缺脑电信号样本进行脑电编码处理,得到所述残缺脑电信号样本的脑电编码特征,并对所述残缺脑电信号样本的脑电编码特征进行嵌入压缩处理,得到所述残缺脑电信号样本的脑电编码;
通过所述初始的脑电解码器对所述脑电编码进行解码处理,得到对应所述脑电信号样本的重构脑电信号样本;
基于所述重构脑电信号样本与所述脑电信号样本之间的差异构建信号重构损失;
获取所述信号重构损失取最小值时所述初始的脑电编解码模型的参数变化值,并基于所述参数变化值更新所述初始的脑电编解码模型的参数,得到预训练的脑电编解码模型。
5.根据权利要求1所述的方法,其特征在于,所述对所述脑电信号样本进行编码处理,得到所述脑电信号样本的脑电编码,包括:
对所述脑电信号样本进行脑电编码处理,得到所述脑电信号样本的脑电编码特征;
对所述脑电信号样本的脑电编码特征进行嵌入压缩处理,得到所述脑电信号样本的脑电编码。
6.根据权利要求1所述的方法,其特征在于,在通过所述图像生成网络对噪声图像进行以所述脑电信号样本的脑电编码为条件的去噪处理之前,所述方法还包括:
获取互相匹配的第二图像样本与文本样本,并获取所述文本样本的文本编码以及所述第二图像样本的图像编码;
通过文本生成图像模型对所述噪声图像进行以所述文本编码为条件的去噪处理,得到对应所述文本样本的预测去噪结果;
基于对应所述文本样本的预测去噪结果与第二真实去噪结果之间的误差构建第二去噪损失,并基于所述文本编码以及所述第二图像样本的图像编码之间的距离构建文本图像对齐损失;
基于所述第二去噪损失以及所述文本图像对齐损失,对所述文本生成图像模型进行参数更新处理,并将更新后的文本生成图像模型作为所述图像生成网络。
7.根据权利要求1所述的方法,其特征在于,所述图像生成模型包括N个级联的去噪网络,N的取值满足2≤N;
所述通过所述图像生成网络对噪声图像进行以所述脑电信号样本的脑电编码为条件的去噪处理,得到对应所述脑电信号样本的预测去噪结果,包括:
通过N个级联的去噪网络中第n去噪网络,对所述第n去噪网络的输入进行去噪处理,并将所述第n去噪网络输出的第n去噪结果传输到第n+1去噪网络以继续进行去噪处理,得到对应所述第n+1去噪网络的第n+1去噪结果;
将每个所述去噪网络输出的去噪结果作为对应所述脑电信号样本的预测去噪结果;
其中,n为取值从1开始递增的整数变量,n的取值范围为1≤n<N,当n取值为1时,所述第n去噪网络的输入为所述噪声图像以及所述脑电编码,当n取值为2≤n<N时,所述第n去噪网络的输入为第n-1去噪网络输出的第n-1去噪结果以及所述脑电编码。
8.根据权利要求7所述的方法,其特征在于,每个所述去噪网络包括M个级联的采样网络,每个采样网络包括残差层以及注意力层;
所述通过N个级联的去噪网络中第n去噪网络,对所述第n去噪网络的输入进行去噪处理,包括:
通过所述第n去噪网络中第m采样网络的残差层对所述第m采样网络的输入进行残差特征提取处理,得到残差特征;
通过所述第n去噪网络中第m采样网络的注意力层对所述残差特征以及所述脑电编码进行注意力处理,得到注意力特征作为所述第m采样网络的第m采样结果;
将所述第m采样网络的第m采样结果传输到第m+1采样网络以继续进行采样处理,得到第m+1采样网络的第m+1采样结果;
将所述第n去噪网络中第M采样网络输出的第M采样结果作为所述第n去噪结果;
其中,m为取值从1开始递增的整数变量,m的取值范围为1≤m≤M-1,当m取值为1时,所述第m采样网络的输入为所述第n-1去噪结果,当m取值为2≤m<M时,所述第m采样网络的输入为第m-1采样网络输出的第m-1采样结果。
9.根据权利要求8所述的方法,其特征在于,所述通过所述第n去噪网络中第m采样网络的注意力层对所述残差特征以及所述脑电编码进行注意力处理,包括:
对所述残差特征进行基于查询矩阵的映射处理,得到注意力查询矩阵;
对所述脑电编码进行基于键矩阵的映射处理,得到注意力键矩阵;
对所述脑电编码进行基于值矩阵的映射处理,得到注意力值矩阵;
将所述注意力查询矩阵与所述注意力键矩阵的转置矩阵进行相乘处理,得到相乘结果,并获取所述相乘结果与所述注意力键矩阵的维度之间的比值;
对所述比值进行最大似然处理,并将最大似然结果与所述注意力值矩阵进行相乘处理,得到所述注意力特征。
10.根据权利要求1所述的方法,其特征在于,在基于所述对应所述脑电信号样本的预测去噪结果与第一真实去噪结果之间的误差构建第一去噪损失之前,所述方法还包括:
对所述图像样本进行多次累计加噪处理,得到对应每次加噪的累计加噪结果;
将多个所述累计加噪结果作为所述第一真实去噪结果。
11.根据权利要求10所述的方法,其特征在于,
所述图像生成模型包括N个级联的去噪网络,N的取值满足2≤N;所述加噪次数与所述去噪网络的数目相同;
所述基于对应所述脑电信号样本的预测去噪结果与第一真实去噪结果之间的误差构建第一去噪损失,包括:
将第n去噪网络输出的去噪结果作为第n预测去噪结果;
获取第N-n次加噪的累计加噪结果作为第n个第一真实去噪结果;
基于所述第n预测去噪结果与所述第n个第一真实去噪结果之间的误差构建所述第一去噪损失。
12.根据权利要求1所述的方法,其特征在于,所述基于所述脑电信号样本的脑电编码与所述第一图像样本的图像编码之间的距离构建脑电图像对齐损失,包括:
对所述脑电信号样本的脑电编码进行映射处理,得到所述脑电信号样本的映射结果;
对所述脑电信号样本的映射结果与所述第一图像样本的图像编码进行点乘处理,得到点乘结果;
将所述脑电信号样本的映射结果的模与所述第一图像样本的图像编码的模进行相乘处理,得到相乘结果;
获取与所述点乘结果负相关,且与所述相乘结果正相关的脑电图像对齐损失。
13.一种脑电生成图像方法,其特征在于,所述方法包括:
对脑电信号进行编码处理,得到所述脑电信号的脑电编码;
对噪声图像的隐空间噪声编码进行以所述脑电信号的脑电编码为条件的去噪处理,得到对应所述脑电信号的预测去噪结果;
将对应所述脑电信号的预测去噪结果作为对应所述脑电信号的隐空间图像编码,并对对应所述脑电信号的隐空间图像编码进行解码处理,得到与所述脑电信号匹配的目标图像;
其中,所述隐空间噪声编码是所述噪声图像在隐空间的编码,所述隐空间的编码维度小于维度阈值。
14.一种脑电生成图像模型训练装置,其特征在于,所述脑电生成图像模型包括脑电编码器以及图像生成网络,所述装置包括:
获取模块,用于获取脑电信号样本以及与所述脑电信号样本匹配的第一图像样本;
编码模块,用于通过所述脑电编码器对所述脑电信号样本进行编码处理,得到所述脑电信号样本的脑电编码,并通过图像编码器对所述第一图像样本进行编码处理,得到所述第一图像样本的图像编码;
去噪模块,用于通过所述图像生成网络对噪声图像进行以所述脑电信号样本的脑电编码为条件的去噪处理,得到对应所述脑电信号样本的预测去噪结果;
损失模块,用于基于对应所述脑电信号样本的预测去噪结果与第一真实去噪结果之间的误差构建第一去噪损失,并基于所述脑电信号样本的脑电编码与所述第一图像样本的图像编码之间的距离构建脑电图像对齐损失;
更新模块,用于基于所述第一去噪损失以及所述脑电图像对齐损失,对所述脑电生成图像模型中的脑电编码器以及图像生成网络进行参数更新处理,得到经过更新的脑电生成图像模型。
15.一种脑电生成图像装置,其特征在于,所述装置包括:
脑电编码模块,用于对脑电信号进行编码处理,得到所述脑电信号的脑电编码;
图像生成模块,用于对噪声图像的隐空间噪声编码进行以所述脑电信号的脑电编码为条件的去噪处理,得到对应所述脑电信号的预测去噪结果;
解码模块,用于将对应所述脑电信号的预测去噪结果作为对应所述脑电信号的隐空间图像编码,并对对应所述脑电信号的隐空间图像编码进行解码处理,得到与所述脑电信号匹配的目标图像。
16.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储计算机可执行指令;
处理器,用于执行所述存储器中存储的计算机可执行指令时,实现权利要求1至12任一项所述的脑电生成图像模型训练方法或权利要求13所述的脑电生成图像方法。
17.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令被处理器执行时,实现权利要求1至12任一项所述的脑电生成图像模型训练方法或权利要求13所述的脑电生成图像方法。
18.一种计算机程序产品,包括计算机可执行指令,其特征在于,所述计算机可执行指令被处理器执行时,实现权利要求1至12任一项所述的脑电生成图像模型训练方法或权利要求13所述的脑电生成图像方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310638818.5A CN117216546A (zh) | 2023-05-31 | 2023-05-31 | 模型训练方法、装置、电子设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310638818.5A CN117216546A (zh) | 2023-05-31 | 2023-05-31 | 模型训练方法、装置、电子设备、存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117216546A true CN117216546A (zh) | 2023-12-12 |
Family
ID=89046833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310638818.5A Pending CN117216546A (zh) | 2023-05-31 | 2023-05-31 | 模型训练方法、装置、电子设备、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117216546A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117474796A (zh) * | 2023-12-27 | 2024-01-30 | 浪潮电子信息产业股份有限公司 | 一种图像生成方法、装置、设备及计算机可读存储介质 |
CN117649344A (zh) * | 2024-01-29 | 2024-03-05 | 之江实验室 | 磁共振脑影像超分辨率重建方法、装置、设备和存储介质 |
CN117726721A (zh) * | 2024-02-08 | 2024-03-19 | 湖南君安科技有限公司 | 基于主题驱动与多模态融合的图像生成方法、设备及介质 |
CN117726542A (zh) * | 2024-02-18 | 2024-03-19 | 北京理工大学 | 基于扩散模型的可控噪声去除方法及系统 |
CN118297820A (zh) * | 2024-03-27 | 2024-07-05 | 北京智象未来科技有限公司 | 图像生成模型的训练方法、图像生成方法、装置、设备、存储介质 |
-
2023
- 2023-05-31 CN CN202310638818.5A patent/CN117216546A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117474796A (zh) * | 2023-12-27 | 2024-01-30 | 浪潮电子信息产业股份有限公司 | 一种图像生成方法、装置、设备及计算机可读存储介质 |
CN117474796B (zh) * | 2023-12-27 | 2024-04-05 | 浪潮电子信息产业股份有限公司 | 一种图像生成方法、装置、设备及计算机可读存储介质 |
CN117649344A (zh) * | 2024-01-29 | 2024-03-05 | 之江实验室 | 磁共振脑影像超分辨率重建方法、装置、设备和存储介质 |
CN117649344B (zh) * | 2024-01-29 | 2024-05-14 | 之江实验室 | 磁共振脑影像超分辨率重建方法、装置、设备和存储介质 |
CN117726721A (zh) * | 2024-02-08 | 2024-03-19 | 湖南君安科技有限公司 | 基于主题驱动与多模态融合的图像生成方法、设备及介质 |
CN117726721B (zh) * | 2024-02-08 | 2024-04-30 | 湖南君安科技有限公司 | 基于主题驱动与多模态融合的图像生成方法、设备及介质 |
CN117726542A (zh) * | 2024-02-18 | 2024-03-19 | 北京理工大学 | 基于扩散模型的可控噪声去除方法及系统 |
CN118297820A (zh) * | 2024-03-27 | 2024-07-05 | 北京智象未来科技有限公司 | 图像生成模型的训练方法、图像生成方法、装置、设备、存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pinaya et al. | Autoencoders | |
CN117216546A (zh) | 模型训练方法、装置、电子设备、存储介质及程序产品 | |
Qin et al. | Imaging and fusing time series for wearable sensor-based human activity recognition | |
CN110782395B (zh) | 图像处理方法及装置、电子设备和计算机可读存储介质 | |
CN115590515A (zh) | 基于生成式自监督学习和脑电信号的情绪识别方法及系统 | |
CN111954250B (zh) | 一种轻量级Wi-Fi行为感知方法和系统 | |
CN115083435B (zh) | 音频数据处理方法、装置、计算机设备和存储介质 | |
CN118229844B (zh) | 图像生成数据的处理方法、图像生成方法和装置 | |
CN116543351A (zh) | 一种基于时空串并联关系编码的自监督群体行为识别方法 | |
CN115272295A (zh) | 基于时域-空域联合状态的动态脑功能网络分析方法及系统 | |
CN112949707A (zh) | 一种基于多尺度语义信息监督的跨模态人脸图像生成方法 | |
CN117473303B (zh) | 基于脑电信号的个性化动态意图特征提取方法及相关装置 | |
Oota et al. | StepEncog: A convolutional LSTM autoencoder for near-perfect fMRI encoding | |
CN117137488B (zh) | 基于脑电数据与面部表情影像的抑郁症病症辅助识别方法 | |
CN117874570A (zh) | 基于混合注意力机制的脑电信号多分类方法、设备及介质 | |
CN117557689A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN116524407A (zh) | 一种基于多模态表示学习的短视频事件检测方法及装置 | |
CN116821113A (zh) | 时序数据缺失值处理方法、装置、计算机设备及存储介质 | |
Damianou et al. | A top-down approach for a synthetic autobiographical memory system | |
CN115312151A (zh) | 数据信息生成方法、装置、计算机设备和存储介质 | |
Seidler | Information systems and data compression | |
Hanachi et al. | BS-GAENets: Brain-Spatial Feature Learning Via a Graph Deep Autoencoder for Multi-modal Neuroimaging Analysis | |
CN117593595B (zh) | 基于人工智能的样本增广方法、装置及电子设备 | |
CN115063500B (zh) | 基于生成对抗网络的磁性纳米粒子成像重建方法 | |
CN118044785B (zh) | 一种基于多模态的阿尔兹海默症特征融合分析方法及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |