CN116172580A - 一种适用于多声源场景的听觉注意对象解码方法 - Google Patents

一种适用于多声源场景的听觉注意对象解码方法 Download PDF

Info

Publication number
CN116172580A
CN116172580A CN202310424631.5A CN202310424631A CN116172580A CN 116172580 A CN116172580 A CN 116172580A CN 202310424631 A CN202310424631 A CN 202310424631A CN 116172580 A CN116172580 A CN 116172580A
Authority
CN
China
Prior art keywords
feature
interaction
electroencephalogram
sound source
auditory attention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310424631.5A
Other languages
English (en)
Other versions
CN116172580B (zh
Inventor
李佳
卢雅雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN202310424631.5A priority Critical patent/CN116172580B/zh
Publication of CN116172580A publication Critical patent/CN116172580A/zh
Application granted granted Critical
Publication of CN116172580B publication Critical patent/CN116172580B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/369Electroencephalography [EEG]
    • A61B5/372Analysis of electroencephalograms
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/369Electroencephalography [EEG]
    • A61B5/377Electroencephalography [EEG] using evoked responses
    • A61B5/38Acoustic or auditory stimuli
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Surgery (AREA)
  • Public Health (AREA)
  • Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Psychiatry (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Veterinary Medicine (AREA)
  • Psychology (AREA)
  • Acoustics & Sound (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种适用于多声源场景的听觉注意对象解码方法,采集脑电信号,得到脑电图;对所述脑电图进行预处理并使用移动时间窗口切割得到脑电信号时间切片;将所述时间切片输出至训练好的深度学习模型,得到听觉注意对象;所述深度学习模型的训练数据的获取步骤包括:建立具有多声源的视听觉环境,获取所述视听觉环境下受试者听觉注意时的脑电信号训练数据;本发明融合视觉建立了多声源场景,获取更加现实的听觉注意过程中的脑电信号,进而实现高精确地听觉注意解码。

Description

一种适用于多声源场景的听觉注意对象解码方法
技术领域
本发明涉及神经科学技术领域,更具体的说是涉及一种适用于多声源场景的听觉注意对象解码方法。
背景技术
目前,听觉注意检测研究使用的脑电数据主要采集方法是:受试者的两个耳朵分别佩戴两个播放不同音频的耳机来模拟两个不同方位的声源,并要求受试者注意其中一个声源并采集此时的脑电信号。上述方法所模拟的显然是十分理想的场景,但在现实复杂声源场景中,多种声源通常来自不同且不确定的方位,并且在听觉注意时脑电信号通常会伴随着视觉注意的影响,进而导致声源判断的准确性不高。
此外,目前的听觉注意解码模型在当脑电信号决策窗口尺寸的减小时,由于短的决策窗口中包含的脑电信息减少了,模型解码精度将迅速下降(特别是对于小于1秒的决策窗口),但在实际应用中,过长的决策窗口可能会导致过度的延迟,这将不利于类脑助听器的体验和发展。
虽然自注意力机制解码方法可以取得不错的效果,不幸的是,自注意机制存在二次复杂度,使得其在实际应用中需要较大的计算资源。
因此,如何提高听觉注意对象解码的精确度或计算效率的是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种适用于多声源场景的听觉注意对象解码方法,融合视觉建立了多声源场景,获取训练数据,并提出一种轻量化且高效的深度学习模型,提高了特征的丰富度,进而提高了精确度。
为了实现上述目的,本发明采用如下技术方案:
一种适用于多声源场景的听觉注意对象解码方法,包括以下步骤:
采集脑电信号,得到脑电图;
对所述脑电图进行预处理并使用移动时间窗口切割得到脑电信号时间切片;
将所述时间切片输出至训练好的深度学习模型,得到听觉注意对象;
所述深度学习模型的训练数据的获取步骤包括:建立具有多声源的视听觉环境,获取所述视听觉环境下听觉注意时的脑电信号训练数据。
进一步的,所述预处理步骤包括:
定位所述脑电图中各个所述脑电信号对应通道的空间位置;
将各空间位置对应脑电信号的平均值作为基准进行重参考;
使用带通滤波将脑电信号的频率段范围限制在1Hz~50Hz之间;
将脑电信号的数据采样率降低到128Hz。
进一步的,所述深度学习模型包括多个并行的特征处理模块、多尺度特征交互模块和分类器;
多个并行的所述特征处理模块用于分别提取不同感受野下的空间特征,并进行维度处理,得到同维度特征;
所述多尺度特征交互模块对所述同维度特征进行特征交互,并将交互结果特征和所述同维度特征进行拼接,得到共享特征;
所述分类器接收所述共享特征,输出听觉注意对象分类结果。
进一步的,所述特征处理模块包括特征提取子模块和维度处理子模块;
所述特征提取子模块包括空间卷积单元、特征切割单元和单尺度特征交互单元;所述空间卷积单元用于提取空间特征;所述特征切割单元用于对所述空间特征等分为m份,得到特征图集合F={F1、F2、F3.....Fm};所述单尺度特征交互单元用于对各份分割结果进行特征交互,输出单尺度交互特征;
所述维度处理子模块用于将所述单尺度交互特征处理成特定维度。
进一步的,所述空间卷积单元为一维大核卷积层,用于在大的感受野下为不同的脑区分配不同的权重。
进一步的,所述维度处理子模块包括最大池化层和/或卷积层。
进一步的,所述特征交互为高阶递归特征交互。
进一步的,所述高阶递归特征交互,具体步骤包括:
获取样本量为m的待交互特征图集合F={F1、F2、F3.....Fm};
第一阶递归交互:
获取待交互特征图F1和F2
对待交互特征图F1和F2进行点乘计算,并输出归一化后的结果,得到第一阶交互特征图;
第n阶递归交互,n>1:
获待交互特征图Fn+1与第n-1阶交互特征图;
将待交互特征图Fn+1与第n-1阶交互特征图进行点乘后输出归一化结果,输出第n-1阶交互特征图;
直至完成第m-1阶递归交互,输出最终交互结果。
进一步的,步骤还包括:
将所述听觉注意对象反馈给立体声音发出装置,并增强所述听觉注意对象的声音和/或减弱除所述听觉注意对象之外的其他声源声音。
本发明的有益效果:
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种适用于多声源场景的听觉注意对象解码方法,融合视觉建立了多声源场景,获取训练数据,提高了特征的丰富度,进而提高了精确度;提出了一种更加高效、轻量级、高准确的多尺度递归特征交互的解码方法,采用的深度学习模型通过多尺度的并行解码和特征交互的设计,可以增加模型的鲁棒性,以防发生陷入局部最优解和过拟合现象;为基于EEG脑电信号的听觉注意解码提供了一种新思路,并为类脑助听器的未来研究提供了一个更加先进的途径。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明提供的一种适用于多声源场景的听觉注意对象解码方法示意图;
图2为本发明中深度学习模型网络结构示意图;
图3为本发明中特征提取子模块的网络结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1,本发明实施例公开了一种适用于多声源场景的听觉注意对象解码方法,包括以下步骤:
S1:采集脑电信号,得到脑电图;其中,脑电信号来自多个脑区,各个脑区通道对应的脑电信号,构成脑电图;
S2:对所述脑电图进行预处理并使用移动时间窗口切割得到脑电信号时间切片;
S3:将时间切片输出至训练好的深度学习模型,得到听觉注意对象;
其中,S3中深度学习模型的训练数据的获取步骤包括:建立具有多声源的视听觉环境,获取受试者在所述多声源的视听觉环境下听觉注意时的脑电信号训练数据。
在一种实施例中,多声源视听觉环境的建立可通过VR技术实现。具体的,可由虚拟画面呈现模块和立体声音呈现模块共同实现,虚拟画面呈现模块主要为VR眼镜,用于模拟和显示多人说话等复杂声源场景画面,所述立体声音呈现模块主要为立体音响,用于模拟来自不同方位的说话人声音。
在本实施例中,将脑电信号采集模块佩戴在用户的头部,用于在听觉注意时脑电信号的采集,用于训练预先构建的深度学习模型。
如图2和图3,在一种实施例中,深度学习模型301包括多个并行的特征处理模块、多尺度特征交互模块305和分类器;多个并行的特征处理模块用于分别提取相应尺度的特征,并进行维度处理,得到同维度特征;多尺度特征交互模块对同维度特征进行特征交互,并将交互结果特征和同维度特征进行拼接,得到共享特征;分类器接收共享特征,输出听觉注意对象分类结果。
在本种实施例中,特征处理模块包括特征提取子模块302和维度处理子模块;特征提取子模块包括空间卷积单元401、特征切割单元402和单尺度特征交互单元403;空间卷积单元401用于提取空间特征;特征切割单元402用于对空间特征进行多份数等分,生成多份的分割结果;单尺度特征交互单元403用于对各份分割结果进行特征交互,输出单尺度交互特征;维度处理子模块用于将单尺度交互特征处理成特定维度,其中,特点维度指的是预设的统一维度的维度值,并行的三个分支中,维度处理子模块最终输出的均为该特定维度。
在特征处理模块中,时间切片E分别输入三个支路的特征提取子模块进行特征提取,三个支路的感受野依次为k1、k2和k3;三个支路完成特征提取后,分别由三个支路对应的维度处理子模块进行维度处理,其中,三个支路对应的维度处理子模块都包括最大池化层303,对提取的特征进行了最大池化,之后,第一和第二支路通过卷积304,将最大池化后的特征图与第三支路中最大池化后的特征图进行维度统一。
在多尺度特征交互模块305中,先将第一和第二支路输出的同维度特征图进行点乘,然后将点乘结果与第三支路输出的最大池化的结果,即第三支路的同维度特征图进行点乘,将最终点乘结果进行归一化,实现递归特征交互,并将特征交互结果与三条支路维度统一后的结果进行特征拼接306,得到共享特征。
在一种实施例中,高阶递归特征交互,具体步骤包括:
获取样本量为m的待交互特征图集合F={F1、F2、F3.....Fm};
第一阶递归交互:
获取待交互特征图F1和F2
对待交互特征图F1和F2进行点乘计算,并输出归一化后的结果,得到第一阶交互特征图;
第n阶递归交互,n>1:
获待交互特征图Fn+1与第n-1阶交互特征图;
将待交互特征图Fn+1与第n-1阶交互特征图进行点乘后输出归一化结果,输出第n-1阶交互特征图;
直至完成第m-1阶递归交互,输出最终交互结果。
如图3,在特征处理子模块的处理过程中:在当前分支进行某一尺度的特征提取,首先,通过空间卷积提取空间特征,通过特征切割单元将空间特征切割成四等份,即生成待交互特征图F1、F2、F3和F4;之后对待交互特征图进行递归特征交互,第一步,对特征图F1和F2点乘后进行归一化,得到第一交互特征图;第二步,将第一交互特征图与F3点乘后进行归一化,得到第二交互特征图,第三步,将第二交互特征图与F4点乘后进行归一化,得到第三交互特征图。
在另一实施例中,空间卷积单元401为一维大核卷积层,能够在大的感受野下为不同的脑区分配不同的权重,高效提取大范围脑区空间特征。
在另一实施例中,步骤还包括:
将听觉注意对象反馈给立体声音发出装置,并增强听觉注意对象的声音和/或减弱除听觉注意对象之外的其他声源声音。其中,立体声音发出装置,如助听器,其可以进行声音采集和声源定位,根据解码出的注意对象,锁定声源并进行加强,或减弱其他声源声音,从而模仿类脑听觉的过程。
在另一实施例中,预处理的具体步骤包括:
定位所述脑电图中各个所述脑电信号对应通道的空间位置;
计算各空间位置对应脑电信号的平均值,并作为基准进行重参考;
使用带通滤波将脑电信号的频率范围限制在1Hz~50Hz之间,对脑电信号进行降采样,采样频率由原来的8192Hz降低至128Hz,实现降噪,得到预处理后的脑电信号。
本发明公开提供了一种适用于多声源场景的听觉注意对象解码方法,融合视觉建立了多声源场景,获取训练数据,提高了特征的丰富度,进而提高了精确度;提出了一种更加高效、轻量级、高准确的多尺度递归特征交互的解码方法,采用的深度学习模型通过多尺度的并行解码和特征交互的设计,可以增加模型的鲁棒性,以防发生陷入局部最优解和过拟合现象;为基于EEG脑电信号的听觉注意解码提供了一种新思路,并为类脑助听器的未来研究提供了一个更加先进的途径。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (9)

1.一种适用于多声源场景的听觉注意对象解码方法,其特征在于,包括以下步骤:
采集脑电信号,得到脑电图;
对所述脑电图进行预处理并使用移动时间窗口切割得到脑电信号时间切片;
将所述时间切片输出至训练好的深度学习模型,得到听觉注意对象;
所述深度学习模型的训练数据的获取步骤包括:建立具有多声源的视听觉环境,获取所述视听觉环境下听觉注意时的脑电信号训练数据。
2.根据权利要求1所述的一种适用于多声源场景的听觉注意对象解码方法,其特征在于,所述预处理步骤包括:
定位所述脑电图中各个所述脑电信号对应通道的空间位置;
将各空间位置对应脑电信号的平均值作为基准进行重参考;
使用带通滤波将脑电信号的频率段范围限制在1Hz~50Hz之间;
降低脑电信号的数据采样频率。
3.根据权利要求1所述的一种适用于多声源场景的听觉注意对象解码方法,其特征在于,所述深度学习模型包括多个并行的特征处理模块、多尺度特征交互模块和分类器;
多个并行的所述特征处理模块用于分别提取不同感受野下的空间特征,并进行维度处理,得到同维度特征;
所述多尺度特征交互模块对所述同维度特征进行特征交互,并将交互结果特征和所述同维度特征进行拼接,得到共享特征;
所述分类器接收所述共享特征,输出听觉注意对象分类结果。
4.根据权利要求3所述的一种适用于多声源场景的听觉注意对象解码方法,其特征在于,所述特征处理模块包括特征提取子模块和维度处理子模块;
所述特征提取子模块包括空间卷积单元、特征切割单元和单尺度特征交互单元;所述空间卷积单元用于提取空间特征;所述特征切割单元用于对所述空间特征等分为m份,得到特征图集合F={F1、F2、F3.....Fm};所述单尺度特征交互单元用于对各份分割结果进行特征交互,输出单尺度交互特征;
所述维度处理子模块用于将所述单尺度交互特征处理成特定维度。
5.根据权利要求4所述的一种适用于多声源场景的听觉注意对象解码方法,其特征在于,所述空间卷积单元为一维大核卷积层。
6.根据权利要求4所述的一种适用于多声源场景的听觉注意对象解码方法,其特征在于,所述维度处理子模块包括最大池化层和/或卷积层。
7.根据权利要求4所述的一种适用于多声源场景的听觉注意对象解码方法,其特征在于,所述特征交互为高阶递归特征交互。
8.根据权利要求7所述的一种适用于多声源场景的听觉注意对象解码方法,其特征在于,所述高阶递归特征交互,具体步骤包括:
获取样本量为m的待交互特征图集合F={F1、F2、F3.....Fm};
第一阶递归交互:
获取待交互特征图F1和F2
对待交互特征图F1和F2进行点乘计算,并输出归一化后的结果,得到第一阶交互特征图;
第n阶递归交互,n>1:
获待交互特征图Fn+1与第n-1阶交互特征图;
将待交互特征图Fn+1与第n-1阶交互特征图进行点乘后输出归一化结果,输出第n-1阶交互特征图;
直至完成第m-1阶递归交互,输出最终交互结果。
9.根据权利要求1所述的一种适用于多声源场景的听觉注意对象解码方法,其特征在于,步骤还包括:
将所述听觉注意对象反馈给立体声音发出装置,并增强所述听觉注意对象的声音和/或减弱除所述听觉注意对象之外的其他声源声音。
CN202310424631.5A 2023-04-20 2023-04-20 一种适用于多声源场景的听觉注意对象解码方法 Active CN116172580B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310424631.5A CN116172580B (zh) 2023-04-20 2023-04-20 一种适用于多声源场景的听觉注意对象解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310424631.5A CN116172580B (zh) 2023-04-20 2023-04-20 一种适用于多声源场景的听觉注意对象解码方法

Publications (2)

Publication Number Publication Date
CN116172580A true CN116172580A (zh) 2023-05-30
CN116172580B CN116172580B (zh) 2023-08-22

Family

ID=86433044

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310424631.5A Active CN116172580B (zh) 2023-04-20 2023-04-20 一种适用于多声源场景的听觉注意对象解码方法

Country Status (1)

Country Link
CN (1) CN116172580B (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108236464A (zh) * 2017-12-29 2018-07-03 重庆邮电大学 基于脑电信号的特征提取方法及其检测提取系统
US20190066713A1 (en) * 2016-06-14 2019-02-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
US20190253812A1 (en) * 2018-02-09 2019-08-15 Starkey Laboratories, Inc. Use of periauricular muscle signals to estimate a direction of a user's auditory attention locus
CN110708625A (zh) * 2019-09-25 2020-01-17 华东师范大学 基于智能终端的环境声抑制与增强可调节耳机系统与方法
CN111273767A (zh) * 2020-01-13 2020-06-12 重庆邮电大学 一种基于深度迁移学习的助听脑机接口系统
US20200201435A1 (en) * 2018-12-20 2020-06-25 Massachusetts Institute Of Technology End-To-End Deep Neural Network For Auditory Attention Decoding
WO2020143300A1 (zh) * 2019-01-07 2020-07-16 哈尔滨工业大学(深圳) 听觉注意状态觉醒度识别方法、装置及存储介质
CN112287940A (zh) * 2020-10-30 2021-01-29 西安工程大学 一种基于深度学习的注意力机制的语义分割的方法
WO2021237368A1 (en) * 2020-05-29 2021-12-02 Tandemlaunch Inc. Multimodal hearing assistance devices and systems
CN114066904A (zh) * 2021-11-19 2022-02-18 西安交通大学医学院第二附属医院 一种基于深度学习的皮肤病变图像分割方法、设备及存储介质
WO2022076404A1 (en) * 2020-10-05 2022-04-14 The Trustees Of Columbia University In The City Of New York Systems and methods for brain-informed speech separation
CN114612456A (zh) * 2022-03-21 2022-06-10 北京科技大学 一种基于深度学习的钢坯自动语义分割识别方法
CN115153563A (zh) * 2022-05-16 2022-10-11 天津大学 基于eeg的普通话听觉注意解码方法及装置
CN115243180A (zh) * 2022-07-21 2022-10-25 香港中文大学(深圳) 类脑助听方法、装置、助听设备和计算机设备
CN115469749A (zh) * 2022-09-28 2022-12-13 北京理工大学 一种基于听觉脑机接口的目标定位方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190066713A1 (en) * 2016-06-14 2019-02-28 The Trustees Of Columbia University In The City Of New York Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
CN108236464A (zh) * 2017-12-29 2018-07-03 重庆邮电大学 基于脑电信号的特征提取方法及其检测提取系统
US20190253812A1 (en) * 2018-02-09 2019-08-15 Starkey Laboratories, Inc. Use of periauricular muscle signals to estimate a direction of a user's auditory attention locus
US20200201435A1 (en) * 2018-12-20 2020-06-25 Massachusetts Institute Of Technology End-To-End Deep Neural Network For Auditory Attention Decoding
WO2020143300A1 (zh) * 2019-01-07 2020-07-16 哈尔滨工业大学(深圳) 听觉注意状态觉醒度识别方法、装置及存储介质
CN110708625A (zh) * 2019-09-25 2020-01-17 华东师范大学 基于智能终端的环境声抑制与增强可调节耳机系统与方法
CN111273767A (zh) * 2020-01-13 2020-06-12 重庆邮电大学 一种基于深度迁移学习的助听脑机接口系统
WO2021237368A1 (en) * 2020-05-29 2021-12-02 Tandemlaunch Inc. Multimodal hearing assistance devices and systems
WO2022076404A1 (en) * 2020-10-05 2022-04-14 The Trustees Of Columbia University In The City Of New York Systems and methods for brain-informed speech separation
CN112287940A (zh) * 2020-10-30 2021-01-29 西安工程大学 一种基于深度学习的注意力机制的语义分割的方法
CN114066904A (zh) * 2021-11-19 2022-02-18 西安交通大学医学院第二附属医院 一种基于深度学习的皮肤病变图像分割方法、设备及存储介质
CN114612456A (zh) * 2022-03-21 2022-06-10 北京科技大学 一种基于深度学习的钢坯自动语义分割识别方法
CN115153563A (zh) * 2022-05-16 2022-10-11 天津大学 基于eeg的普通话听觉注意解码方法及装置
CN115243180A (zh) * 2022-07-21 2022-10-25 香港中文大学(深圳) 类脑助听方法、装置、助听设备和计算机设备
CN115469749A (zh) * 2022-09-28 2022-12-13 北京理工大学 一种基于听觉脑机接口的目标定位方法

Also Published As

Publication number Publication date
CN116172580B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN109446990B (zh) 用于生成信息的方法和装置
EP4099709A1 (en) Data processing method and apparatus, device, and readable storage medium
CN110033756A (zh) 语种识别方法、装置、电子设备及存储介质
CN109978034A (zh) 一种基于数据增强的声场景辨识方法
CN111833906B (zh) 基于多路声学特征数据增强的声场景分类方法
CN113033677A (zh) 视频分类方法、装置、电子设备和存储介质
CN111128222A (zh) 语音分离方法、语音分离模型训练方法和计算机可读介质
US20230335148A1 (en) Speech Separation Method, Electronic Device, Chip, and Computer-Readable Storage Medium
CN113627391B (zh) 一种考虑个体差异的跨模式脑电信号识别方法
CN116172580B (zh) 一种适用于多声源场景的听觉注意对象解码方法
CN113723206A (zh) 一种基于量子神经网络算法的脑电波识别方法
CN102820037B (zh) 基于组合特征的汉语声韵母可视化方法
Sanguineti et al. Audio-visual localization by synthetic acoustic image generation
CN110046655B (zh) 一种基于集成学习的音频场景识别方法
CN108304916B (zh) 结合注意机制与深度可分解卷积的卷积神经网络优化方法
WO2023020500A1 (zh) 一种语音分离方法、装置及存储介质
CN113254713B (zh) 基于视频内容生成情感曲线的多源情感计算系统及方法
CN116469404A (zh) 一种视听跨模态融合语音分离方法
Jafari et al. Underdetermined blind source separation with fuzzy clustering for arbitrarily arranged sensors
WO2019094114A1 (en) Personalized head related transfer function (hrtf) based on video capture
CN114492579A (zh) 情绪识别方法、摄像装置、情绪识别装置及存储装置
Deshpande et al. Detection of early reflections from a binaural activity map using neural networks
Deleforge Acoustic space mapping: A machine learning approach to sound source separation and localization
Zhang et al. Multi-attention audio-visual fusion network for audio spatialization
CN117711423B (zh) 联合听觉场景分析与深度学习的混合水声信号分离方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant