CN114469141A - 用于从大脑活动中解码和弦信息的系统和方法 - Google Patents
用于从大脑活动中解码和弦信息的系统和方法 Download PDFInfo
- Publication number
- CN114469141A CN114469141A CN202111255701.6A CN202111255701A CN114469141A CN 114469141 A CN114469141 A CN 114469141A CN 202111255701 A CN202111255701 A CN 202111255701A CN 114469141 A CN114469141 A CN 114469141A
- Authority
- CN
- China
- Prior art keywords
- brain activity
- decoding
- chord
- data
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10G—REPRESENTATION OF MUSIC; RECORDING MUSIC IN NOTATION FORM; ACCESSORIES FOR MUSIC OR MUSICAL INSTRUMENTS NOT OTHERWISE PROVIDED FOR, e.g. SUPPORTS
- G10G1/00—Means for the representation of music
- G10G1/04—Transposing; Transcribing
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/316—Modalities, i.e. specific diagnostic methods
- A61B5/369—Electroencephalography [EEG]
- A61B5/377—Electroencephalography [EEG] using evoked responses
- A61B5/38—Acoustic or auditory stimuli
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
- A61B5/7267—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Veterinary Medicine (AREA)
- Heart & Thoracic Surgery (AREA)
- Psychiatry (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Public Health (AREA)
- Pathology (AREA)
- Fuzzy Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physiology (AREA)
- Signal Processing (AREA)
- Psychology (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Abstract
公开了用于从大脑活动解码和弦信息的系统和方法,包括:在一个或多个受试者听标记有和弦标签的音乐时获取其大脑活动的原始数据;从原始的大脑活动数据中提取大脑活动模式;在时间上耦合大脑活动模式和音乐数据以形成解码模型的训练数据;训练解码模型;可选地,通过标记并使用少量原本未标记的大脑活动数据来微调受训的解码模型;在各种心理音乐活动中经由功能性神经成像从受试者获取第二批原始大脑活动;以及将所述第二批大脑活动映射至相应的和弦信息。
Description
相关申请的交叉引用
本申请要求于2020年10月28日提交的序号为63/106,486的美国临时申请的优先权,其全部内容通过引用并入本文。
技术领域
本申请公开了用于从大脑活动解码和弦信息的系统和方法。
背景技术
和弦是听起来好像是同时响起的多个音高的组合。和弦及其序列(和弦进行)可以在很大程度上决定音乐的情感注解,唤起特定的主观感受,因此对于音乐感知和大多数音乐创作过程至关重要。在音乐信息检索的领域,大量研究致力于实现性能更优的自动和弦估计(ACE)——这被认为是该领域中最重要的任务之一。
除了从既存音乐中提取和弦外,在某些场景下,人们还可能希望从内心音乐(例如音乐记忆、音乐想象、音乐幻觉、耳虫等)中提取和弦,例如,记录音乐创作的过程中的和弦进行、理解内心音乐刺激对医疗保健的情感效价等。然而,在这种情况下,由于仅有主观音乐体验而无客观音频信号可用,传统的ACE方法无法实现内心音乐的和弦提取。
神经心理学研究表明,音乐感知和想象力具有相似的神经元机制,并可引起相似的大脑激活模式。当前存在一些神经科学研究致力于从音乐聆听和音乐想象中的大脑活动中重建音乐刺激。然而,当涉及和弦信息时,由于全刺激解码的重建精度有限,上述基于刺激重建的技术会在很大程度上限制和弦估计的准确性。此外,从音乐转录到和弦的过程也会导致额外的信息损失。因此,为克服上述局限性,本发明的发明人提出从大脑活动对和弦信息进行直接估计。
发明内容
为了提供对本发明的一些方面的基本理解,以下给出了本发明的简要概述。该概述不是对本发明的广泛概述。它既不旨在识别本发明的关键或主要要素,也不旨在描绘本发明的范围。相反,本概述的唯一目的是以简化形式呈现本发明的一些概念,作为下文呈现的更详细描述的前奏。
目前尚不存在从大脑活动中解码和弦信息的直接方法。一种可能的方式是首先利用现有的听觉刺激解码技术重建音乐刺激,然后利用自动和弦估计技术从重建的音乐中估计和弦信息。但是使用现有的神经解码技术重建听觉刺激时会发生严重的信息丢失,而随后进行的自动和弦估计也会导致二次的信息丢失。
从大脑读取和弦信息在多个领域具有广泛的应用,例如精神疾病的医疗保健和音乐创作。然而,目前没有可用的技术可以完成这样的任务。当前的方法(例如重建音乐刺激)精度低,并且在重建过程期间很容易丢失和弦信息。
在本发明中,这些问题通过使用基于深度学习的方法直接从大脑活动解码和弦信息得到了解决。
一方面,本申请提供了一种用于从大脑活动解码和弦信息的解码模型的训练方法,其包括:在受试者听标记有和弦标签的音乐期间时从所述受试者获取原始大脑活动数据;从所述原始大脑活动数据中提取大脑活动模式;在时间上耦合所提取的大脑活动模式和相应和弦标签以形成用于所述解码模型的训练数据;以及基于所述训练数据对所述解码模型进行训练,其中所述解码模型的输入为大脑活动模式,输出为和弦信息。所述和弦信息可以包括下列信息中一个或多个的组合:和弦类型、根音或其他与和弦相关的信息。
另一方面,本申请提供了一种用于从大脑活动中解码和弦信息的方法,包括:在各种心理音乐活动中经由功能性神经成像获取受试者原始大脑活动数据;从所述原始大脑活动数据中提取大脑活动模式;将所提取的大脑活动模式作为输入提供给用于从大脑活动解码和弦信息的受训的解码模型以获得相应的和弦信息,其中所述解码模型是根据上述训练方法得到的。
另一方面,本文描述了一种用于转录、生成和记录和弦的系统,包括:存储功能单元的存储器和执行存储在存储器中的功能单元的处理器,其中功能单元包括:(1)学习模块,包括:用于测量受试者在听标记有和弦的音乐期间的大脑活动的功能性神经成像组件、用于提取大脑活动模式的信号处理组件、音乐相关和弦标签的明确定义的数据库、以及具有预定义架构的用于训练的解码模型;以及(2)解码模块,包括:用于测量各种心理音乐活动中的原始大脑活动的功能性神经成像组件、用于提取适合输入的大脑活动模式的信号处理组件、用于将输入数据转换为和弦信息的从学习模块派生而来的受训的解码模型、以及被配置为从受训的解码模型输出和弦信息的数据输出组件。
另一方面,本文描述了一种用于从大脑活动解码和弦信息的方法,包括:在一个或多个受试者听标记有和弦标签的音乐时获取其大脑活动的原始数据;从原始的大脑活动数据中提取大脑活动模式;在时间上耦合大脑活动模式和音乐数据以形成解码模型的训练数据;训练解码模型;可选地,通过标记并使用少量原本未标记的大脑活动数据来微调受训的解码模型;在各种心理音乐活动中经由功能性神经成像从受试者获取第二批原始大脑活动;以及将所述第二批大脑活动映射至相应的和弦信息。
另一方面,本文描述了一种用于和弦解码协议的系统,包括:用于存储功能单元的存储器和执行存储在存储器中的功能单元的处理器,其中功能单元包括:(1)神经编码提取模型,其功能为从既存的音乐相关神经成像数据集和用户听音乐时的离线神经测量值中生成原始数据,并随后从原始数据中提取处理后的大脑活动模式/特征(即和弦相关的神经编码);(2)解码模型,其功能为学习并估计从神经编码到内心音乐和弦的近似映射;以及(3)受训的模型,其功能为将应用场景下的神经编码转化为和弦信息的估计值,并可执行微调操作。
为了实现前述及相关目的,本发明包含在下文中充分描述并且在权利要求中特别指出的特征。后述描述和附图详细阐述了本发明的某些说明性方面和实施方式,然而,这些内容是示例性的——即它们仅指代采用本发明之原理的诸多方式中的几种可能的方式,而非穷尽性的描述。当结合附图考虑时,本发明的其他目的、优点和新颖特征将在后述对本发明的详细描述中变得显而易见。
附图说明
图1示出了依照本发明一个方面而给出的用于从大脑活动解码和弦信息的解码模型的训练方法的流程示意图。
图2描绘了依照本文主题的一个方面而给出的从大脑活动解码和弦信息的流水线的示意图。
图3描绘了解码模型的架构的示例的实施例。
图4描绘了学习和解码模块中的计算过程的流程图的实施例。
图5示出了表1,该表报告了与相关现有技术进行比较的实验结果。
图6示出了可以结合本文描述的一个或多个方面来实现的示例电子计算环境的框图。
图7描绘了可以结合本文描述的各个方面来操作的示例数据通信网络的框图。
具体实施方式
本发明描述的主题可以简单地理解为以解码音乐聆听、音乐想象或其他心理过程中的和弦信息为关注焦点的“读脑术”。和弦信息提取通常是基于音乐片段本身的,早前从未通过基于神经科学的计算方法实现过。在本公开中,发明人描述了一种用于从大脑活动解码和弦信息的新方法。本发明解决的具体问题包括但不限于:1)在临床场景中,对幻听症状的评估通常依赖于自我报告系统,因此缺乏准确性,而本文所述的系统和方法可以帮助医生和医护人员更好地了解音乐幻觉(MH)患者和音乐耳综合症(MES)患者的内心声音的性质,以改善治疗和医疗保健的质量。上述针对MH和MES患者的智能医疗保健系统也被认为是新颖的。2)对于音乐爱好者和创作者来说,手动处理和弦可能是费力的,甚至导致创作过程的中断,而本发明描述的系统和方法可以提供一种更有效、更方便的方式来从他们的主观知觉或认知体验来转录、生成和记录和弦以及和弦进行,而不需要他们调用运动功能(如哼唱、念谱或记谱)。上述用于转录、生成和记录和弦的智能系统也被认为是新颖的。
人类大脑已经进化出将音乐刺激转化为诸如和弦之类的高层次信息的计算机制。即便是对于没有受过音乐训练的受试者,诸如和弦质量(即和弦类型)的重要的和弦信息也仍然可以被他们有意识或无意识地感知,并因此嵌入到他们的大脑活动中。在本公开中,描述了一种用于从大脑活动解码和弦信息的新方法。该方法的各方面包括获取和处理来自受试者或用户的大脑活动数据,使用标记的大脑活动和音乐数据来训练解码模型,通过标记并使用少量原本未标记的大脑活动对受训的解码模型进行微调,并将大脑活动映射至相应的和弦信息。
图1示出了依照本发明一个实施例所给出的用于从大脑活动解码和弦信息的解码模型的训练方法,其包括:S1)在一个或多个受试者听标记有和弦标签的音乐期间从所述一个或多个受试者获取原始大脑活动数据;S2)从所述原始大脑活动数据中提取大脑活动模式;S3)建立所提取的大脑活动模式和相应和弦标签的对应关系以形成用于所述解码模型的训练数据;S4)基于所述训练数据对所述解码模型进行训练,所述解码模型的输入为大脑活动模式,输出为和弦信息。
其中,在步骤S1),当受试者聆听带有和弦标签的音乐时,通过功能性神经成像从受试者那里获取原始大脑活动数据。这里的带有和弦标签的音乐可以是预先标记有诸如根音与和弦类型之类的和弦信息的音乐。这里的原始大脑活动是指使用任何类型的功能性神经成像技术对大脑活动的测量,其可以包括但不一定限于功能性磁共振成像(fMRI)、功能性近红外光谱(fNIRS)、脑电图(EEG)、脑磁图(MEG)、功能性超声成像(fUS)和正电子发射断层扫描(PET)。在有创记录可用的情况下,还包括皮层电图(ECoG)和皮层内记录(ICoR)。
在步骤S2),对所获取的原始大脑活动进行处理并提取大脑活动模式。原始大脑活动的处理可能因不同的神经成像方式而变化,但它通常应包含预处理、感兴趣区域(ROI)定义和大脑活动模式提取的步骤。在逐体素分析更适合的情况下,ROI的定义应该是所有体素。对于三维数据(例如fMRI数据),对原始数据使用空间信息进行编码。对于二维数据(例如EEG/MEG数据),对原始数据使用通道信息进行编码,可考虑在将数据馈送到学习和解码模块之前执行源重构。大脑活动模式的性质可能因不同神经成像方式的不同时间分辨率而变化。对于时间分辨率较低的数据(例如fMRI数据),可考虑使用空间模式(即跨越ROI的大脑活动分布)。对于具有高时间分辨率的数据(例如EEG/MEG数据),可考虑使用时空模式。
在步骤S3)在所提取的受试者大脑活动模式和其所聆听音乐的和弦标签之间建立相应的对应关系以形成训练数据。例如在时间上耦合所提取的大脑活动模式和相应和弦标签以形成用于所述解码模型的训练数据。和弦标签和大脑活动模式在时间上相互耦合。解码模型可以是深度神经网络(或任何其他类型的用于相同目的的计算模型,例如支持向量机或其他机器学习模型),而其架构可以在很大范围内变化,其可以包括但不限于密集神经网络、空间或时空卷积神经网络(CNN)和循环神经网络(RNN)。通常,当应用空间模式时,可考虑使用密集神经网络。
在步骤S4),基于所形成的训练数据对解码模型进行训练,训练解码模型直到收敛。该解码模型的超参数可以通过交叉验证来调整。该解码模型的输入为大脑活动模式,输出为和弦信息。所输出的和弦信息与和弦标签相对应。在一个示例中,所输出的和弦信息可包括根音和/或和弦类型。当考虑斜杠和弦(复合和弦及转位和弦)时,还可以包括低音。
在经上述步骤获得受训的解码模型之后就可以利用该解码模型从任一受试者或用户的大脑活动解码出相应的和弦信息。在一个实施例中,用于从大脑活动中解码和弦信息的方法可以包括从广泛的在各种心理音乐活动中经由功能性神经成像获取待解码的受试者或用户的原始大脑活动数据(例如采用类似于步骤S1的方式);接着与步骤S2类似,从所述原始大脑活动数据中提取大脑活动模式;然后就可以将所提取的大脑活动模式作为输入提供给受训的解码模型以获得相应的和弦信息。这里的心理活动例如音乐聆听、音乐幻觉、音乐想象或联觉(例如,可能唤起音乐体验的视觉想象)。当在各种心理音乐活动中获取的数据性质与训练解码模型中的数据性质不同时,还可以使用未标记的大脑活动来微调受训的解码模型。例如可以固定该解码模型下层的参数,执行正常的训练步骤来调整该模型上层的参数。
参考图2,其示出了本文描述的系统和方法的总的流水线。它由学习模块和解码模块组成。概括性的步骤/动作如下。在每种情况下,没有必要执行每个步骤/动作。本文描述的各方面和目标可以通过执行以下步骤/动作的子集来实现。
一个步骤/动作是当受试者听带有和弦标签的音乐时,通过功能性神经成像从受试者那里获取原始大脑活动。这里的原始大脑活动是指使用任何类型的功能性神经成像技术对大脑活动的测量,其可以包括但不一定限于功能性磁共振成像(fMRI)、功能性近红外光谱(fNIRS)、脑电图(EEG)、脑磁图(MEG)、功能性超声成像(fUS)和正电子发射断层扫描(PET)。在有创记录可用的情况下,还包括皮层电图(ECoG)和皮层内记录(ICoR)。
另一个步骤/动作是处理原始大脑活动并提取大脑活动模式。原始大脑活动的处理可能因不同的神经成像方式而变化,但它通常应包含预处理、感兴趣区域(ROI)定义和大脑活动模式提取的步骤。在逐体素分析更适合的情况下,ROI的定义应该是所有体素。对于三维数据(例如fMRI数据),对原始数据使用空间信息进行编码。对于二维数据(例如EEG/MEG数据),对原始数据使用通道信息进行编码,并优选在将数据馈送到学习和解码模块之前执行源重构。大脑活动模式的性质可能因不同神经成像方式的不同时间分辨率而变化。对于时间分辨率较低的数据(例如fMRI数据),可考虑使用空间模式(即跨越ROI的大脑活动分布)。对于具有高时间分辨率的数据(例如EEG/MEG数据),可考虑使用时空模式。
另一个步骤/动作是将大脑活动模式和和弦标签传递给解码模型。和弦标签和大脑活动模式在时间上相互耦合。解码模型是深度神经网络(或任何其他类型的用于相同目的的计算模型,例如支持向量机或其他机器学习模型),而其架构可以在很大范围内变化,其可以包括但不限于密集神经网络、空间或时空卷积神经网络(CNN)和循环神经网络(RNN)。通常,当应用空间模式时,可考虑使用密集神经网络。解码模型将大脑活动模式作为输入,并将和弦标签作为输出。
另一个步骤/动作是训练解码模型直到收敛。模型的超参数可通过交叉验证来调整。
另一个步骤/动作是保存受训的模型并将其加载到解码模块。
另一个步骤/动作是,如果解码模块需要,使用来自解码模块的数据在手动标记它们之后微调解码模型并返回到保存步骤/动作。
另一个步骤/动作是通过功能性神经成像在广泛的心理活动中从用户那里获取原始大脑活动,心理活动例如音乐聆听、音乐幻觉、音乐想象或联觉(例如,可能唤起音乐体验的视觉想象)。当获取的数据性质与第一步中的数据性质不同时,需要学习模块对解码模型进行微调。
另一个步骤/动作是处理原始大脑活动并提取大脑活动模式,与前述处理原始大脑活动并提取大脑活动模式的步骤/动作相同。
另一个步骤/动作是将大脑活动模式传递给解码模型并输出和弦信息。根据具体任务,输出可以包括根音和和弦类型;当考虑斜杠和弦(复合和弦及转位和弦)时,还可包括低音。之后,可以传递解码的和弦信息并将其用于特定的应用场景,例如医疗保健或音乐创作。
用于和弦解码的通用设备包括能够执行该方法的所有数据输入、处理和输出步骤的计算机或任何其他类型的可编程可执行处理器。
本文描述了直接从大脑活动而不是音乐来解码和弦信息的系统和方法。本文描述的系统和方法克服了传统ACE方法在处理内心音乐方面的局限性,并且可以提高特定医疗保健、音乐创作等的质量。
示例
本发明可以通过一个可操作的实施例来理解。在结果方面,表现最佳的三名受试者在和弦类型解码任务中的准确率分别达到了98.5%、97.9%和96.8%,在和弦解码任务中分别达到了93.0%、88.7%和84.5%。由于在本实验中使用了自然音乐,这些结果表明该方法对非和弦因素的波动是准确和鲁棒的。
数据集的原始用途:本示例中使用的数据集来自之前的一项研究[SAARI,Pasi等,Decoding musical training from dynamic processing of musical features in thebrain.Scientific reports,2018,8.1:1-12.]。该先前研究的主要目的是在聆听音乐期间仅根据他/她的fMRI信号来区分受试者是否接受过音乐训练。在该先前研究中提供了音乐刺激和fMRI信号。
和弦标记:音乐到和弦的转录是音乐家的基本训练之一。发明人在专业音乐家的帮助下手动标记音乐刺激的和弦以获取和弦信息。
步骤:
首先,使用3T扫描仪记录了36名受试者(包括18名音乐家和18名非音乐家)在聆听音乐刺激时的fMRI数据,其中80%和10%的数据用于学习模块中的训练和交叉验证,10%的数据用于解码模块中的测试。本实验仅考虑大三和弦和小三和弦。
其次,使用统计参数映射工具箱对记录的fMRI数据进行重新对齐、空间归一化、伪影最小化和去趋势化。自动解剖标记116(AAL-116)用于ROI定义。应用每个时间点每个分区内所有信号的平均值来生成空间模式。
第三,将大脑活动模式和和弦标签传递给解码模型。图3示出了解码模型的架构的示例,其是具有5个隐藏层的密集神经网络。将116个ROI的空间分布作为输入。输出层由13个单元组成。第一个单元表示和弦类型(0表示小和弦,1表示大和弦)。对于其他12个单元,应用了归一化指数处理(softmax)和独热编码(one-hot encoding),并且这些单元中的每一个都表示一个根音,即C、C#、D、D#、E、F、F#、G、G#、A、A#和B。
第四,训练解码模型直到收敛。使用随机梯度下降算法进行优化,并应用丢弃正则化防止过拟合。
第五,保存受训的模型并将其加载到解码模块。
第六,跳过这一步,因为学习模块和解码模块中数据的性质是相同的,不需要微调。
第七到第九步,使用与第二步骤相同的方法处理测试数据,然后传递给受训的解码模型。输出和弦信息。
一般和弦解码协议的数学描述
使用以下基本符号:
fe神经代码提取模型
Mα原始大脑活动测量(用于模型训练)
Xα神经编码(用于模型训练)
Yα和弦标签(用于模型训练)
Lα训练损失
Mβ原始大脑活动测量(用于模型验证)
Xβ神经编码(用于模型验证)
Yβ和弦标签(用于模型验证)
Lβ验证损失
fd解码模型
M原始大脑活动测量(用于应用)
X神经编码(用于应用)
Y和弦标签(用于应用)
在一个实施例中,该过程涉及三个主要的计算操作:
(1)神经代编的提取,
(2)解码模型的开发,以及
(3)受训模型的部署(即,和弦的估计)。
学习模块和解码模块中的三部分计算过程的流程图在图4中进行了演示和说明。图4的详细信息将在以下部分中进一步解释。
1)神经代码的提取
原始功能性神经成像测量
来自信号源的特定空间位置s的特定时间点t期间的原始在线功能性神经成像测量值表示为M(t,s)。请注意,对于不同的神经成像方式,s可以采用不同的格式。例如,对于EEG/MEG,s指的是电极/通道数n或二维头皮坐标值{x,y},而对于具有源重建或fMRI的EEG/MEG,s指的是体素的三维空间坐标值{x,y,z}。
对于模型训练和验证,原始数据源自现有的音乐神经成像数据集和/或在音乐聆听期间获取的用户的离线测量值(即神经成像数据库),可考虑使用后者进行基于前者开发的模型的微调。获取这些聆听任务中使用的音乐的和弦标签,并将其与相应的大脑活动测量值相关联。在留出法(holdout)验证设置中,在一个实施例中,这些数据(带有和弦标签的原始大脑活动测量值)被随机分成训练数据{Mα,Yα}和验证数据{Mβ,Yβ},比例为|Mα|∶|Mβ|=r∶1(通常r=8,其中|A|指的是集合A中的元素数量)。在另一个实施例中(在交叉验证设置中),这些数据将被随机分成r+1个子组。学习可以重复r+1次。在每次重复中,每个子组用于验证,其他r个子组用于训练。
神经编码的一般格式
本文的术语神经编码(X)指的是在与音乐相关的心理过程(例如音乐聆听、想象、幻觉)期间从原始功能性神经成像测量值M中提取的经处理的大脑活动模式/特征,它们是解码模型的真正输入。神经编码提取模型fe是通过一系列信号处理操作将M映射到X的经验性确定性函数,这可以使用标准神经成像处理工具(例如,统计参数映射工具箱、EEGLAB、FieldTrip工具箱)来完成。fe的具体形式因不同的神经成像方式而变化。原则上,fe包括预处理(例如过滤、归一化、伪影移除、校正)和每个感兴趣区域(ROI)上信号的空间平均。基于通道的神经成像数据的源重建是可选的,但通常在实践中使用。将fe应用到M的总体目标是提高大脑活动信号的质量并增强它们与和弦信息的耦合。当直接使用原始测量值作为感兴趣的特征(即X=M)时,fe退化为恒等映射fI:A→A。在每个时间点,输入X中的元素是大脑中所有ROI的激活值的分布(例如,对于116-ROI研究,在每个时间点,输入具有向量{x1,x2,…,x116}的形式)。
对于训练和验证数据Mα和Mβ,Nα和Nβ可以根据Xα=fe(Mα),Xβ=fe(Mβ)获取。在一个实施例中,注意Mα和Mβ被推荐为在音乐聆听(而不是音乐想象、音乐幻觉或联觉)期间获取的数据,以确保和弦标签Y的可控性。
2)解码模型的开发
和弦解码问题的描述
和弦解码问题是指估计神经代码X和内心音乐的和弦Y之间的映射,即从X和Y生成解码模型fd。
Y是解码模型的输出;输出Y中的每个元素包括根音与和弦类型,后者携带有关情感效价的信息;Y中的每个样本都表示为一个独热编码表示(例如,当考虑48个大调、小调、减三和增三和弦时,“C小调”和弦可以表示为如果考虑的和弦类型是二进制的,例如大调/小调,和弦类型表示可以进一步压缩为一个二进制位)。
在一个实施例中,本文描述的方法不需要音乐片段的重建。
学习模型选择
根据神经成像方式的性质和计算资源的可用性,可以应用不同的计算模型,包括但不限于密集神经网络、空间卷积神经网络(空间CNN)、时空卷积神经网络(时空CNN)和循环神经网络(RNN)。
通常,当每个样本代表具有跨大脑中所有ROI的激活值分布的单个时间数据点时,使用密集神经网络(然而,也可以使用其他架构)。对于每个隐藏层,节点值其中g(·)是激活函数,是层k中的第i个节点,是层k+1中的第j个节点,是相应的权重,b是偏差。通常,线性整流单元用作激活函数,即 在这些层之后应该有一个softmax层 其中z(root,type)i是最后一层中的第i个。通过考虑ROI的空间信息,空间CNN也通常用于该数据结构,并且也具有良好的性能。
对于每个样本代表一系列时间数据点的数据结构,可以使用时空CNN和RNN,并且可以提供和利用额外的时间信息。然而,这样的数据结构可能会导致时间分组/分割困难的问题(即一个样本可能涵盖多个和弦的问题),因此除非对此问题特别注意,否则不推荐使用。
解码精度和损失函数
解码精度定义为其中tT指正确估计的总持续时间,tF指错误估计的总持续时间。训练和验证的交叉熵损失满足 其中(y(root))i是根音标签的第i个值,是根音标签的softmax输出的第i个值,(y(type))i是和弦类型标签的第i个值,是和弦类型标签的softmax输出的第i个值。对于医疗保健应用,可能只有和弦类型是感兴趣的,其中
训练(拟合)和验证
在训练阶段,解码模型fd的参数首先被随机初始化,然后经由反向传播进行更新。有多种反向传播算法可用(例如随机梯度下降、Adam),并且可以容易地使用标准深度学习包实现。可以可选地应用丢弃正则化以避免过度拟合。
可以进行交叉验证或留出法验证以进一步调整fd的超参数(例如模型架构、学习率)。
3)受训模型的部署
推理(解码)
微调
当来自用户的神经成像测量值与训练解码模型的那些数据高度异质时,解码模块向学习模块发送指令以进行微调操作。具体而言,正如图3所示,是将受训的fd模型之下层参数(例如最后两层之权重和偏差,对应于模型的高层次参数)固定;随后将少量来自用户的神经成像测量值输入模型,在这种情况下,需要手动标记少量和弦(即Y);然后经由反向传播对其上层参数(对应于模型的低层次参数)进行更新,更新方法可参考前述的“训练(拟合)和验证”步骤。
结果和讨论
示例解码模型的性能
对每个受试者进行留一法交叉验证以评估交叉受试者。前3名受试者的Top-1准确率在和弦类型解码任务中分别达到98.5%、97.9%和96.8%,并在和弦解码任务中分别达到93.0%、88.7%和84.5%。在和弦类型解码任务中发现总体Top-1准确率为88.8%(音乐家为90.8%,非音乐家为86.7%,均显著高于机会水平)。在和弦解码任务中发现,总体Top-3准确率为80.9%(音乐家为95.7%,非音乐家为66.1%,均显著高于机会水平),总体Top-1准确率为48.8%(音乐家为66.5%,非音乐家为31.1%,均显著高于机会水平)。这些结果证实,大脑活动中已经编码了足够的信息来解码和弦信息。此外,由于本实验中使用了自然音乐,这些结果也表明该方法对非和弦因素的波动是准确和鲁棒的。
与相关现有技术的比较
尽管目前除本发明外还没有直接从神经活动解码和弦信息的可用技术,但也有一些研究已经通过尝试重建音乐刺激或从已知的大脑音乐片段池中识别音乐刺激来完成类似的工作。一旦刺激被重建或识别,就可以进行ACE来估计和弦信息。然而,用此种方法所进行的和弦信息估计的精度不可避免地低于其音乐重建的精度,因为和弦信息是基于重建的音乐来估计的。图5中在下面(表1)总结了本发明所述技术与当前其他技术的比较。
新颖性和意义
本申请描述了如何从大脑活动而不是音乐本身中解码和弦信息。它克服了传统ACE方法在处理内心音乐方面的局限性,可以提高特定医疗保健、音乐创作等的质量。
应用
本发明可以用作脑机接口(BCI)或为BCI提供解码服务。本发明的潜在产品和应用包括许多类别:
用于音乐幻觉患者和音乐耳综合症患者的智能医疗保健系统;
用于音乐创作者的基于想象力的和弦进行生成系统;
用于专业音乐家的自动和弦标记系统;以及
将用户的大脑活动转化为他们主观体验的相应和弦的娱乐产品。
在医疗保健领域有许多应用,例如,解决音乐耳综合症。音乐耳综合征(MES)被描述为一种非精神疾病,其特征是在没有外部声刺激的情况下对音乐的感知。据报道,它影响了大约5%的人口。它可以影响所有年龄段的具有不同听力(包括正常听力、耳鸣或听力损失)的人。由于MES的性质未知,因此MES的治疗很大程度上取决于个体情况。在某些情况下,药物可以帮助缓解症状,但支持MES药物处方的证据有限。MES的其他治疗方法可能包括自我确证,例如冥想和分散注意力。
根据各种病例报告,MES患者的经历可能会有显著差异。有的患者没有烦恼,甚至觉得偶尔享受和有趣,而另一些患者则觉得非常烦人或无法忍受。这种不同的体验可能是由他们内心音乐的不同情感注释引起的,这在很大程度上取决于和弦类型。这些影响可能不是实时的,而是在第一个内心声音出现后数天或数周后出现,这意味着早期控制和预防是可能的。此外,目前,这种对患者的影响的理解在很大程度上依赖于自我报告。
本发明可以提供一种用于MES患者的智能医疗保健系统,其有助于客观识别他们内心声音的和弦类型,这些和弦类型包含情感效价信息,从而在严重症状出现之前为他们提供更好的保健和治疗(例如,对经常出现小和弦或不和谐和弦体验的患者进行抗抑郁治疗)。
另一个医疗保健示例是音乐幻觉。音乐幻觉(MH)是一种精神病理学障碍,其中音乐在没有来源的情况下被感知,占幻听的很大一部分。它约占总住院人数的0.16%。在有听力问题的老年受试者中,音乐幻觉的发生率为2.5%。MH患者没有明确的治疗方法。目前的治疗旨在治疗已知的根本原因,例如精神障碍、脑损伤等。在医疗保健中,理解患者的症状及其严重程度是必要的。
与MES类似,不同性质的内心音乐可能对疾病进展产生不同的影响。此外,由于MH是精神病理性疾病,一些患者可能无法正确交流和描述他们内心声音的性质。本发明可以为MH患者提供一种智能医疗保健系统,其有助于更好地理解他们内心声音的情感效价,从而在疾病进一步恶化之前为他们提供更好的医疗保健和治疗。
另一个医疗保健示例是耳虫。耳虫指的是无意识的音乐意象,在一般人群中很常见。这是90%以上的人每周至少经历一次的普遍现象。耳虫应与MH区分开来,后者患者认为声音的来源是外部的。
耳虫通常是无害的,但频繁和持续地接触带有某些特定和弦的音乐可能会困扰人们,改变他们的生活质量,甚至可能导致精神疾病。此外,有耳虫的人可能有兴趣输出和弦进行以供娱乐。本发明可以让人们监测他们耳虫的和弦,并更好地理解他们的情感效价,以保持心理健康并防止可能出现的不良后果。本发明还可以通过出于娱乐目的输出他们的和弦进行来使人们更好地理解他们的耳虫。
在音乐创作中有许多应用。例如,有用于内心和弦记录的许多应用。创作和弦进行是大多数音乐创作的关键步骤。用于记录和弦的传统方法可能包括写下或哼出旋律或和弦进行。然而,记录动作通常可能会干扰后续的创作过程。此外,还有一些创作者在欣赏、想象和创作音乐方面没有问题,但无法准确地将其唱出来。
本发明可以为音乐创作者提供一种新的创作方式(包括从记忆中检索和弦进行),只需在他们的头脑中想象和弦进行而不中断他们的创作过程。
另一个音乐创作示例是自动和弦转录(适用于专业音乐家)。和弦转录是一项繁重的工作。由于时间和人工成本高,聘请专业音乐家来标记的价格也相应高。
对于受过训练的音乐家,本发明可以通过仅关注音乐的和弦而无需他们的运动系统(例如记谱、哼唱)的参与来为他们提供一种新的和弦转录的自动方式。非音乐家也可以受益,因为他们聘请专业音乐家来完成这项工作的成本可能会下降,因为运用本发明后所需要的工作量更小。
另一个音乐创作示例是基于联觉的和弦生成。许多音乐创作者都在努力为特定主题提出合适的和弦进行。例如,写一个关于冰川的和弦进行。有一些用于生成和弦进行的应用,例如Autochords和ChordChord。然而,由这些应用生成的和弦进行通常是随机的或基于现有的和弦进行,因此要么是陈腔旧调,要么与给定的主题无关。
本发明可以为音乐创作者提供将具有其他感官形式(例如视觉)的体验转换成主观体验意义上具有相似性的和弦进行的功能。例如,将看到冰川时的大脑活动传递给受训的模型,并获得相应的和弦。他们可以将生成的和弦用于直接创作或作为灵感来源。
示例计算环境
如上所述,有利地,本文描述的技术可以应用于执行数据分析的任何装置和/或网络。下面在图6中描述的以下通用远程计算机只是一个示例,并且所公开的主题可以通过具有网络/总线互操作性和交互性的任何客户端来实现。因此,所公开的主题可以在网络托管服务的环境中实现,其中涉及很少或最少的客户端资源,例如,客户端装置仅用作网络/总线的接口的网络环境,例如放置在器具中的物体。
尽管不是必需的,但所公开的主题的某些方面可以部分地经由操作系统来实现,供装置或对象的服务的开发者使用,和/或包括在与所公开的主题的组件结合运行的应用软件中。软件可以在由一台或多台计算机(例如投影显示装置、观看装置或其他装置)执行的计算机可执行指令(例如程序模块或组件)的一般上下文中描述。本领域技术人员将理解,可以用其他计算机系统配置和协议来实践所公开的主题。
因此,图6示出了其中可以实现所公开主题的一些方面的合适的计算系统环境1100的示例,尽管如上文所述,计算系统环境1100仅是用于装置的合适的计算环境的一个示例并且无意暗示对所公开主题的使用范围或功能性的任何限制。也不应将计算环境1100解释为具有与示例性操作环境1100中所示的组件的任一个或组合相关的任何依赖性或要求。
参考图6,用于实现所公开的主题的示例性装置包括计算机1110形式的通用计算装置。计算机1110的组件可以包括但不限于处理单元1120、系统存储器1130、以及将包括系统存储器在内的各种系统组件耦合到处理单元1120的系统总线1121。系统总线1121可以是多种类型的总线结构中的任何一种,包括存储器总线或存储器控制器、外围总线和使用各种总线架构中的任何一种的本地总线。
计算机1110通常包括各种计算机可读介质。计算机可读介质可以是可由计算机1110访问的任何可用介质。作为示例而非限制,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现的易失性和非易失性、可移除和不可移除介质,用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储技术、CDROM、数字多功能磁盘(DVD)或其他光盘存储装置、磁带盒、磁带、磁盘存储装置或其他磁性存储装置、或可用于存储所需信息并可由计算机1110访问的任何其他介质。通信介质通常体现计算机可读指令、数据结构、程序模块或调制数据信号中的其他数据,例如载波或其他传输机制,并且包括任何信息传递介质。
系统存储器1130可以包括易失性和/或非易失性存储器形式的计算机存储介质,例如只读存储器(ROM)和/或随机存取存储器(RAM)。包含有助于在计算机1110内的元件之间传输信息的基本例程(例如在启动期间)的基本输入/输出系统(BIOS)可以存储在存储器1130中。存储器1130通常还包含数据和/或程序模块,其可以被立即访问和/或当前由处理单元1120操作。作为示例而非限制,存储器1130还可以包括操作系统、应用程序、其他程序模块和程序数据。
计算机1110还可以包括其他可移除/不可移除、易失性/非易失性计算机存储介质。例如,计算机1110可以包括从不可移除、非易失性磁介质读取或向其写入的硬盘驱动器、从可移动非易失性磁盘读取或向其写入的磁盘驱动器、和/或读取或写入可移除的非易失性光盘的光盘驱动器,例如CD-ROM或其他光学介质。可以在示例性操作环境中使用的其他可移除/不可移除、易失性/非易失性计算机存储介质包括但不限于磁带盒、闪存卡、数字多功能磁盘、数字视频磁带、固态RAM、固态ROM等。硬盘驱动器通常通过不可移除存储器接口(诸如接口)连接到系统总线1121,而磁盘驱动器或光盘驱动器通常通过可移除存储器接口(诸如接口)连接到系统总线1121。
用户可以通过输入装置(例如键盘和定点装置,通常称为鼠标、轨迹球或触摸板)将命令和信息输入到计算机1110中。其他输入装置可以包括麦克风、操纵杆、游戏手柄、卫星天线、扫描仪、无线装置键盘、语音命令等。这些和其他输入装置通常通过用户输入1140和耦合到系统总线1121的相关接口连接到处理单元1120,但也可以通过诸如并行端口、游戏端口或通用串行总线(USB)的其他接口和总线结构连接。图形子系统也可以连接到系统总线1121。投影显示装置中的投影单元、或观看装置或其他类型的显示装置中的HUD也可以经由接口(例如输出接口1150)连接到系统总线1121,其又可以与视频存储器通信。除了监视器之外,计算机还可以包括其他外围输出装置,例如可以通过输出接口1150连接的扬声器。
计算机1110可以使用到一个或多个其他远程计算机(例如远程计算机1170)的逻辑连接在联网或分布式环境中操作,远程计算机1170又可以具有不同于装置1110的媒体能力。远程计算机1170可以是个人计算机、服务器、路由器、网络PC、对等装置、个人数字助理(PDA)、手机、手持计算装置、投影显示装置、查看装置或其他常见网络节点、或任何其他远程媒体消费或传输装置,并且可以包括以上关于计算机1110描述的任何或所有元件。图6中描绘的逻辑连接包括网络1171,例如局域网(LAN)或广域网(WAN),但也可以包括有线或无线的其他网络/总线。这种网络环境在家庭、办公室、企业范围的计算机网络、内部网和互联网中很常见。
当在LAN网络环境中使用时,计算机1110可以通过网络接口或适配器连接到LAN1171。当在WAN网络环境中使用时,计算机1110通常可以包括通信组件,例如调制解调器,或用于在WAN上建立通信的其他装置,例如因特网。可以是内部或外部的诸如无线通信组件、调制解调器等的通信组件可以经由输入1140的用户输入接口或其他适当机制连接到系统总线1121。在联网环境中,相对于计算机1110描述的程序模块或其部分可以存储在远程存储器存储装置中。应当理解,所示和描述的网络连接是示例性的,并且可以使用在计算机之间建立通信链接的其他方式。
示例网络环境
图7提供了示例性联网或分布式计算环境1200的示意图。分布式计算环境包括计算对象1210、1212等和计算对象或装置1220、1222、1224、1226、1228等,其可以包括程序、方法、数据存储、可编程逻辑等,如由应用1230、1232、1234、1236、1238和数据存储装置1240表示的。可以理解,计算对象1210、1212等和计算对象或装置1220、1222、1224、1226、1228等可以包括不同的装置,包括多媒体显示装置或示图中描绘的类似装置,或其他装置,例如移动电话、个人数字助理(PDA)、音频/视频装置、MP3播放器、个人计算机、膝上型电脑等。应当进一步理解,数据存储装置1240可以包括一个或多个高速缓冲存储器、一个或多个寄存器或本文公开的其他类似数据存储装置。
每个计算对象1210、1212等以及计算对象或装置1220、1222、1224、1226、1228等可以通过通信网络1242与一个或多个其他计算对象1210、1212等和计算对象或装置1220、1222、1224、1226、1228等直接或间接地通信。虽然在图7中示出为单个元件,但通信网络1242也可以包括向图7的系统提供服务的其他计算对象和计算装置,和/或可以表示未示出的多个互连网络。每个计算对象1210、1212等或计算对象或装置1220、1222、1224、1226、1228等还可以包含应用,例如应用1230、1232、1234、1236、1238,其可以利用API或其他对象、软件、固件和/或硬件,适用于与本文描述的技术和公开内容通信或本文描述的技术和公开内容的实现。
存在支持分布式计算环境的多种系统、组件和网络配置。例如,计算系统可以通过有线或无线系统、通过本地网络或广泛分布的网络连接在一起。当前,许多网络耦合到因特网,其提供用于广泛分布的计算的基础设施并且涵盖许多不同的网络,但是任何网络基础设施都可用于示例性通信,如本文的各种实施例中所描述的那样发生在系统自动诊断数据收集中。
因此,可以利用大量网络拓扑和网络基础设施,例如客户端/服务器、对等或混合架构。“客户端”是一个类或组的成员,该类或组使用与其不相关的另一个类或组的服务。客户端可以是一个进程,即粗略的一组指令或任务,它请求由另一个程序或进程提供的服务。客户端进程使用所请求的服务,在某些情况下,不必“知道”有关其他程序或服务本身的任何工作细节。
在客户端/服务器架构中,尤其是网络系统中,客户端通常是访问由另一台计算机(例如服务器)提供的共享网络资源的计算机。在图7的图示中,作为非限制性示例,计算对象或装置1220、1222、1224、1226、1228等可以被认为是客户端并且计算对象1210、1212等可以被认为是服务器,其中计算对象1210、1212等充当提供数据服务的服务器,例如从客户端计算对象或装置1220、1222、1224、1226、1228等接收数据、存储数据、处理数据、将数据传输到客户端计算对象或装置1220、1222、1224、1226、1228等,尽管根据情况,任何计算机都可以被认为是客户端、服务器或两者。
服务器通常是可通过远程或本地网络(例如互联网或无线网络基础设施)访问的远程计算机系统。客户端进程可以在第一计算机系统中处于活动状态,服务器进程可以在第二计算机系统中处于活动状态,通过通信介质相互通信,从而提供分布式功能并允许多个客户端利用服务器的信息收集能力。根据本文描述的技术使用的任何软件对象可以独立提供,或者分布在多个计算装置或对象上。
在通信网络1242或总线是因特网的网络环境中,例如,计算对象1210、1212等可以是web服务器,其他计算对象或装置1220、1222、1224、1226、1228等可以经由许多已知协议中的任何一种(例如超文本传输协议(HTTP)或HTTPS)与web服务器进行通信。充当服务器的计算对象1210、1212等也可以充当客户端,例如计算对象或装置1220、1222、1224、1226、1228等,这可能是分布式计算环境的特征。
在整个说明书中对“一种实施例”、“一个实施例”、“一个示例”、“一个实施方式”、“一个公开的方面”或“一个方面”的引用意味着结合实施例、实施方式、或方面描述的特定特征、结构或特性包括在本公开的至少一个实施例、实施方式、或方面中。因此,短语“在一个实施例中”、“在一个示例中”、“在一个方面”、“在一个实施方式中”或“在实施例中”在本说明书的各个地方的出现不一定都是指相同的实施例。此外,特定特征、结构或特性可以在各种公开的实施例中以任何合适的方式组合。
如本文所使用的,术语“组件”、“系统”、“架构”、“引擎”等旨在指代计算机或电子相关实体,硬件、硬件和软件的组合、软件(例如,在执行中)或固件。例如,组件可以是一个或多个晶体管、存储器单元、晶体管或存储器单元的布置、门阵列、可编程门阵列、专用集成电路、控制器、处理器、在处理器上运行的过程、访问半导体存储器或与半导体存储器接口的对象可执行程序或应用、计算机等、或其合适的组合。该组件可以包括可擦除编程(例如,至少部分地存储在可擦除存储器中的处理指令)或硬编程(例如,在制造时烧入不可擦除存储器中的处理指令)。
举例来说,从存储器和处理器执行的进程都可以是组件。作为另一示例,架构可以包括电子硬件(例如,并行或串行晶体管)、处理指令和处理器的布置,其以适合于电子硬件的布置的方式实现处理指令。此外,架构可以包括单个组件(例如,晶体管、门阵列等)或组件的布置(例如,晶体管的串联或并联布置、与程序电路连接的门阵列、电源引线、电气接地、输入信号线和输出信号线等)。系统可以包括一个或多个组件以及一个或多个架构。一个示例系统可以包括开关块架构,其包括交叉输入/输出线和传输门晶体管,以及电源、信号发生器、通信总线、控制器、I/O接口、地址寄存器等等。应当理解,定义中的一些重叠是可以预料的,并且架构或系统可以是独立的组件、或另一架构、系统等的组件。
除了上述之外,所公开的主题可以实现为使用典型的制造、编程或工程技术来生产硬件、固件、软件或其任何合适的组合以控制电子装置以实施所公开的主题的方法、设备或制品。本文使用的术语“设备”和“制品”旨在涵盖电子装置、半导体装置、计算机或可从任何计算机可读装置、载体或介质访问的计算机程序。计算机可读介质可以包括硬件介质或软件介质。此外,介质可以包括非暂时性介质或传输介质。在一个示例中,非暂时性介质可以包括计算机可读硬件介质。计算机可读硬件介质的具体示例可以包括但不限于磁存储装置(例如,硬盘、软盘、磁条……)、光盘(例如,压缩盘(CD)、数字通用盘(DVD)……)、智能卡和闪存装置(例如,卡、棒、密钥驱动器……)。计算机可读传输介质可以包括载波等。当然,本领域技术人员将认识到,在不脱离所公开主题的范围或精神的情况下,可以对该配置进行许多修改。
除非在示例以及说明书和权利要求中的其他地方另有说明,所有份数和百分比均按重量计,所有温度均以摄氏度为单位,压力为大气压或接近大气压。
对于给定特性的任何数字或数值范围,一个范围内的数字或参数可以与同一特性的不同范围的另一数字或参数组合以生成数值范围。
除了在操作示例中,或在另外指明的情况下,说明书和权利要求中使用的所有涉及成分量、反应条件等的数字、数值和/或表达式应理解为在所有情况下被术语“关于”所修饰。
虽然关于某些实施例解释了本发明,但是应当理解,在阅读说明书后,其各种修改对于本领域技术人员将是显而易见的。因此,应当理解,本文公开的本发明旨在涵盖落入所附权利要求的范围内的这种修改。
Claims (16)
1.一种用于从大脑活动解码和弦信息的解码模型的训练方法,其包括:
在受试者听标记有和弦标签的音乐期间从所述受试者获取原始大脑活动数据;
从所述原始大脑活动数据中提取大脑活动模式;
建立所提取的大脑活动模式和相应和弦标签的对应关系以形成用于所述解码模型的训练数据;
基于所述训练数据对所述解码模型进行训练,所述解码模型的输入为大脑活动模式,输出为和弦信息。
2.根据权利要求1所述的方法,其中,从所述受试者获取原始大脑活动数据包括通过功能性神经成像技术从受试者获取原始大脑活动数据。
3.根据权利要求2所述的方法,其中所述功能性神经成像技术包括功能性磁共振成像、功能性近红外光谱、功能性超声成像、脑电图、皮层电图、皮层内记录、脑磁图和正电子发射断层扫描中的一种或多种。
4.根据权利要求1-3中任一项所述的方法,其中,所述解码模型包括计算模型、深度学习模型、深度神经网络、密集神经网络、空间卷积神经网络、时空卷积神经网络、循环神经网络、机器学习模型和支持向量机中的一种或多种。
5.一种用于从大脑活动中解码和弦信息的方法,包括:
在心理音乐活动中经由功能性神经成像获取受试者原始大脑活动数据;
从所述原始大脑活动数据中提取大脑活动模式;
将所提取的大脑活动模式作为输入提供给受训的用于从大脑活动解码和弦信息的解码模型以获得相应的和弦信息;
其中所述解码模型是根据权利要求1-4中任一项所述的方法训练得到的。
6.根据权利要求5所述的方法,还包括使用未标记的大脑活动来微调受训的解码模型。
7.根据权利要求5或6所述的方法,其中所述功能性神经成像采用下列技术中的一种或多种:功能性磁共振成像、功能性近红外光谱、功能性超声成像、脑电图、皮层电图、皮层内记录、脑磁图和正电子发射断层扫描。
8.根据权利要求5所述的方法,其中,获取受试者原始大脑活动数据是在受试者听自然音乐的同时进行的。
9.根据权利要求5所述的方法,其中,获取受试者原始大脑活动数据是在受试者正在听合成音乐的同时进行的。
10.根据权利要求5所述的方法,还包括:
利用通道信息对所述原始大脑活动数据进行编码,并执行源重建。
11.根据权利要求5所述的方法,其中,所述心理音乐活动包括音乐聆听、音乐幻觉、音乐想象和联觉中的一种或多种。
12.一种用于转录、生成和记录和弦的系统,包括学习模块和解码模块,其中:
所述学习模块包括:
用于测量受试者在听标记有和弦的音乐期间的大脑活动的功能性神经成像组件,
用于提取大脑活动模式的信号处理组件,
音乐相关和弦标签的明确定义的数据库,以及
具有预定义架构的用于训练的解码模型;以及
所述解码模块包括:
用于测量各种心理音乐活动中的原始大脑活动的功能性神经成像组件,
用于提取适合输入的大脑活动模式的信号处理组件,
用于将输入数据转换为和弦信息的从学习模块派生而来的受训的解码模型,以及
被配置为从受训的解码模型输出和弦信息的数据输出组件。
13.根据权利要求12所述的系统,其中,所述功能性神经成像组件采用下列技术中的一种或多种来进行测量:功能性磁共振成像、功能性近红外光谱、功能性超声成像、脑电图、皮层电图、皮层内记录、脑磁图和正电子发射断层扫描。
14.根据权利要求12所述的系统,其中,所述解码模型包括计算模型、深度学习模型、深度神经网络、密集神经网络、空间卷积神经网络、时空卷积神经网络、循环神经网络、机器学习模型和支持向量机中的一种或多种。
15.一种用于和弦解码协议的系统,包括:
存储功能单元的存储器和执行存储在所述存储器中的所述功能单元的处理器,其中所述功能单元包括:
神经编码提取模型,其功能为从既存的音乐相关神经成像数据集和用户听音乐时的离线神经测量值中生成原始数据,并随后从原始数据中提取处理后的大脑活动模式/特征(即和弦相关的神经编码);
解码模型,其功能为学习并估计从神经编码到内心音乐和弦的近似映射;以及
受训的模型,其功能为将应用场景下的神经编码转化为和弦信息的估计值,并可执行微调操作。
16.根据权利要求15所述的系统,其中,所述解码模型包括计算模型、深度学习模型、深度神经网络、密集神经网络、空间卷积神经网络、时空卷积神经网络、循环神经网络、机器学习模型和支持向量机中的一种或多种。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202063106486P | 2020-10-28 | 2020-10-28 | |
US63/106486 | 2020-10-28 | ||
US17/485545 | 2021-09-27 | ||
US17/485,545 US20220130357A1 (en) | 2020-10-28 | 2021-09-27 | Decoding chord information from brain activity |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114469141A true CN114469141A (zh) | 2022-05-13 |
Family
ID=81257496
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111255701.6A Pending CN114469141A (zh) | 2020-10-28 | 2021-10-27 | 用于从大脑活动中解码和弦信息的系统和方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220130357A1 (zh) |
CN (1) | CN114469141A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115445050A (zh) * | 2022-08-30 | 2022-12-09 | 东南大学 | 一种基于双向闭环脑机音乐接口的身心状态调节系统 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116491960B (zh) * | 2023-06-28 | 2023-09-19 | 南昌大学第一附属医院 | 脑瞬态监测设备、电子设备及存储介质 |
-
2021
- 2021-09-27 US US17/485,545 patent/US20220130357A1/en active Pending
- 2021-10-27 CN CN202111255701.6A patent/CN114469141A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115445050A (zh) * | 2022-08-30 | 2022-12-09 | 东南大学 | 一种基于双向闭环脑机音乐接口的身心状态调节系统 |
CN115445050B (zh) * | 2022-08-30 | 2024-03-12 | 东南大学 | 一种基于双向闭环脑机音乐接口的身心状态调节系统 |
Also Published As
Publication number | Publication date |
---|---|
US20220130357A1 (en) | 2022-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Awais et al. | LSTM-based emotion detection using physiological signals: IoT framework for healthcare and distance learning in COVID-19 | |
US11553870B2 (en) | Methods for modeling neurological development and diagnosing a neurological impairment of a patient | |
Shishvan et al. | Machine intelligence in healthcare and medical cyber physical systems: A survey | |
Gong et al. | Deep learning in EEG: Advance of the last ten-year critical period | |
US20230255564A1 (en) | Systems and methods for machine-learning-assisted cognitive evaluation and treatment | |
WO2017147552A9 (en) | Multi-format, multi-domain and multi-algorithm metalearner system and method for monitoring human health, and deriving health status and trajectory | |
Anwar et al. | A game player expertise level classification system using electroencephalography (EEG) | |
CN114469141A (zh) | 用于从大脑活动中解码和弦信息的系统和方法 | |
US20120030696A1 (en) | Spatially Constrained Biosensory Measurements Used to Decode Specific Physiological States and User Responses Induced by Marketing Media and Interactive Experiences | |
US20200143286A1 (en) | Affective Response-based User Authentication | |
Nagireddi et al. | The analysis of pain research through the lens of artificial intelligence and machine learning | |
Al-Qerem | An efficient machine-learning model based on data augmentation for pain intensity recognition | |
US20230347100A1 (en) | Artificial intelligence-guided visual neuromodulation for therapeutic or performance-enhancing effects | |
Kim et al. | Bridging the BCI illiteracy gap: a subject-to-subject semantic style transfer for EEG-based motor imagery classification | |
Kumar GS et al. | Machine learning models for classification of human emotions using multivariate brain signals | |
Gupta et al. | Emotion recognition during social interactions using peripheral physiological signals | |
Dessai et al. | Emotion Detection and Classification Using Machine Learning Techniques | |
Pal et al. | Study of neuromarketing with eeg signals and machine learning techniques | |
Liu et al. | EEG-Based Multimodal Emotion Recognition: A Machine Learning Perspective | |
Aydemir | Detection of highly motivated time segments in brain computer interface signals | |
Alzamzmi | Automatic multimodal assessment of neonatal pain | |
CN114651264A (zh) | 将模型输出组合为组合模型输出 | |
Arora et al. | Deep‐SQA: A deep learning model using motor activity data for objective sleep quality assessment assisting digital wellness in healthcare 5.0 | |
Grande | From physiological signals to emotions: An integrative literature review | |
Sweeney-Fanelli et al. | Automated Emotion Recognition Employing Wearable ECG Sensor and Deep-Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230321 Address after: 15th Floor, Leung Ju Building, University of Hong Kong, Pokfulam Road, Hong Kong, China Applicant after: VERSITECH Ltd. Address before: Chinese Pokfulam Road Hongkong Applicant before: THE University OF HONG KONG |
|
TA01 | Transfer of patent application right |