CN110501673A - 一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法和系统 - Google Patents

一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法和系统 Download PDF

Info

Publication number
CN110501673A
CN110501673A CN201910808412.0A CN201910808412A CN110501673A CN 110501673 A CN110501673 A CN 110501673A CN 201910808412 A CN201910808412 A CN 201910808412A CN 110501673 A CN110501673 A CN 110501673A
Authority
CN
China
Prior art keywords
time
frequency
feature
ears
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910808412.0A
Other languages
English (en)
Inventor
刘宏
庞程
丁润伟
杨冰
袁佩佩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Shenzhen Graduate School
Original Assignee
Peking University Shenzhen Graduate School
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Shenzhen Graduate School filed Critical Peking University Shenzhen Graduate School
Priority to CN201910808412.0A priority Critical patent/CN110501673A/zh
Publication of CN110501673A publication Critical patent/CN110501673A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • G01S5/22Position of source determined by co-ordinating a plurality of position lines defined by path-difference measurements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Optimization (AREA)
  • Molecular Biology (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提出了一种基于多任务时频卷积神经网络的双耳声源空间方向估计方法和系统。本方法首先提取双耳信号连续多帧的时频双耳特征线索作为神经网络的输入;然后,利用时频卷积神经网络对输入的时频双耳特征线索进行建模和融合,输出可用于同时估计声源转向角和俯仰角的共享特征;最后,基于该共享特征利用多任务神经网络对声源转向角和俯仰角进行学习和估计。本方法对未知类型的噪声具有较好的鲁棒性,时频卷积神经网络可有效地学习双耳特征的时频信息同时实现对双耳线索的有效融合,多任务神经网络可有效地结合并增强声源转向角和俯仰角估计。该方法的优势在于为实际复杂噪声场景下的声源定位提供了一种有效的思路。

Description

一种基于多任务时频卷积神经网络的双耳听觉声源空间方向 估计方法和系统
技术领域
本发明属于机器人双耳听觉信号处理领域,具体涉及一种基于多任务时频卷积神经网络的双耳声源空间方向估计方法和系统。
背景技术
声源定位是实现自然、友好人机交互的一项关键技术,通过定位出外界声源相对于机器人的方位,可以让机器人像人一样判别出声音的源头,提高机器人与外界交互的能力。基于双耳听觉的声源定位是声源定位技术发展的一个重要分支。该技术充分利用了双麦克风的易搭载性及耳廓的滤波特性,不仅拥有双麦克风简易的阵列结构,又结合了人耳听觉特性,从结构上可克服双麦克风定位的前后向歧义性。该技术有着广泛的实际应用,如智能监控、人机交互、助听器语音增强、视频会议、虚拟现实等。
基于双耳听觉的声源定位研究起始于一百年前,最早开始是研究人体心理感官对不同方向声音处理方式,所以最早应属于声学或者心理学范畴。学者Rayleigh在大量试验的基础上提出了“双元学说理论”,并认为双耳时间差和双耳能量差是声源定位的至关重要的定位线索。上世纪80年代,Lyon提出了一个双耳定位的计算模型,即耳廓模型(cochlearmodel),为基于双耳麦克风的声音定位开启了一个新的视角。1992年,随着对人耳的几何形状和对双耳定位影响研究的不断深入,头相关传递函数(Head-related TransferFunction,HRTF)概念被提出,耳廓、头部、耳道、肩膀和躯体等因素都会影响HRTF。同时,谱线索被认为是头相关传递函数HRTF表达声源位置的一个重要因素。从此,基于头相关传递函数的双耳定位方法成为主流,而测量HRTF是机器人学习声学环境的难点和核心,因为HRTF代表了声源到机器人声学传感器这个复杂系统的系统传递函数,从中可以提取出表征声源方位的从声源传播到双耳的时延和能量信息。近年来,针对头相关传递函数HRTF模拟声源到麦克风传播过程的幅度和时间变化特性,许多基于HRTF特征的双耳定位方法被提出应用于声源定位中。目前,国内外主流研究机构包括法国国家信息与自动化研究所、伦敦玛丽王后大学智能传感中心、北京大学、中国科学院、清华大学等。
为了提升基于双耳麦克风的声源定位算法在不同机器人听觉系统上的适应性,同时在不同机器人平台上易于搭载并且实现实时的声源定位,机器人的双耳麦克风系统需要尽量模拟人耳生理结构,其麦克风间距也需符合大量生物统计得到的双耳平均尺寸、耳廓拓扑结构尽量规则且严格对称。由于双耳声源定位只利用两个麦克风的信息,相比于基于麦克风阵列的声源定位,定位的算法复杂度可以有效降低从而保证定位系统的实时性。然而,双耳声源定位可利用的麦克风信号信息相对较少,实现鲁棒精确的定位具有一定的挑战。为了提高双耳声源定位线索提取的精确度和鲁棒性,双耳麦克风需要精确的拓扑结构,同时也可以提高机器人的类人性。同时,在真实的人机交互场景中,周围环境的噪声会给机器人的声源定位性能带来很大的挑战,这对双耳声源定位的实用化提出了要求。
发明内容
本发明针对复杂噪声场景下的声源空间方向估计,提出了一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法和系统。
本发明采用的技术方案如下:
一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法,包括以下步骤:
1)提取双耳信号连续多帧的双耳特征线索,得到时频双耳特征线索;
2)利用时频卷积神经网络对时频双耳特征线索进行建模和融合,通过二维卷积操作学习输入的时频双耳特征线索的时频信息,输出能够用于同时估计声源转向角和俯仰角的共享特征;
3)基于声源转向角和俯仰角的共享特征,利用多任务神经网络对声源转向角和俯仰角进行学习和估计。
进一步地,步骤1)所述时频双耳特征线索包括双耳相位差和双耳能量差。通过对双耳信号进行傅里叶变换变换到频域,然后对每一个频带的双耳信号的相位和幅度求差异,以提取双耳相位差和双耳能量差。将一个固定时间段内多帧的双耳相位差和双耳能量差放在一起构成时频双耳特征线索,作为声源定位神经网络的输入。
进一步地,步骤2)采用二维卷积层的时频卷积神经网络对提取的时频双耳特征线索进行建模,所述时频卷积神经网络包含四个二维卷积层四个批标准化层和一个特征展开层,线性整流单元函数ReLU被用作每一个批标准化层后的激活函数。
进一步地,步骤3)所述多任务神经网络是通过结合转向角和俯仰角估计的代价函数来训练得到的。训练完成后,对于给定的时频双耳特征线索,该多任务神经网络可估计出每个候选空间方向上的后验概率,拥有最大后验概率的候选空间方向则被判别为最终的声源空间方向,即声源转向角和俯仰角。
基于同一发明构思,本发明还提供一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计系统,其包括:
双耳特征线索提取模块,用于提取双耳信号连续多帧的双耳特征线索,得到时频双耳特征线索;
双耳特征线索融合模块,用于利用时频卷积神经网络对时频双耳特征线索进行建模和融合,通过二维卷积操作学习输入的时频双耳特征线索的时频信息,输出用于同时估计声源转向角和俯仰角的共享特征;
声源空间方向估计模块,用于基于声源转向角和俯仰角的共享特征,利用多任务神经网络对声源转向角和俯仰角进行学习和估计。
基于同一发明构思,本发明还提供一种计算机,其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明的方法的各步骤的指令。
本发明的有益效果如下:
本发明使用时频卷积神经网络学习输入特征的时频信息实现了对噪声干扰双耳定位特征的鲁棒建模,同时有效地融合了双耳相位差和双耳能量差信息用于空间方向(即转向角和俯仰角)的估计;使用时频卷积神经网络实现了在不同类型与信噪比的空间不相关噪声和扩散噪声影响下鲁棒的声源空间方向估计,该网络对未知类型噪声干扰下的声源定位也是有效的;利用多任务学习共享特征提升并增强了对声源转向角和俯仰角的定位,提升了对声源空间方向估计的效率。
附图说明
图1.本发明方法的总体流程图。
图2.双耳相位差和双耳能量差相对于不同俯仰角的分布。
图3.时频卷积神经网络结构。
图4.用于转向角和俯仰角估计的多任务神经网络结构。
具体实施方式
为更加清楚、完整地描述本发明方法,下面将结合本发明具体实施例和附图,对本发明做进一步说明。
参考图1,是本发明方法地流程图,主要包括以下几个步骤:
步骤1:时频双耳特征线索提取
从双耳信号直接提取双耳相位差和双耳能量差作为定位线索。采用短时傅里叶变换将双耳麦克风信号变换到频域,得到时频域双耳信号:
Xi(κ,ω)=S(κ,ω)Hi(ω)+Vi(κ,ω)
其中,i∈{r,l}表示双耳信号索引,r表示右耳,l表示左耳;Xi,S和Vi分别表示双耳麦克风信号、声源信号和噪声信号的短时傅里叶变换,Hi表示双耳麦克风通道的头相关传递函数,κ表示音频帧索引,ω表示频带索引。
依据时频域双耳信号,第κ帧第ω频带的双耳相位差可表示为:
同样的,第κ帧第ω频带的双耳能量差可表示为:
采用CIPIC HRTF数据库#21头模数据,画出双耳特征线索在不同方向转向角条件下(俯仰角为0°)的分布,如图2所示。其中,子图(a)和子图(b)分别表示不同频率下双耳相位差和双耳能量差相对于不同转向角的分布。从中可以看出双耳相位差和双耳能量差的值随着转向角的变化而明显地改变,并且存在一定的变化规律。对于不同的转向角,双耳相位差在低频部分没有混淆,双耳能量差在高频部分变化更加显著。
将K帧和F个频带的双耳相位差放在一起构成输入神经网络的时频双耳相位差特征,其形式为
同理,输入神经网络的时频双耳能量差特征形式为
步骤2:基于时频卷积神经网络的双耳特征融合
采用二维卷积层的时频卷积神经网络(Time-Frequency Convolutional NeuralNetwork,TF-CNN)对提取的时频双耳特征线索进行建模。时频卷积神经网络结构如图3所示,其包含四个二维卷积层Conv1~Conv4,四个批标准化(Batch Normalization,BN)层和一个特征展开层(Flatten)。线性整流单元(Rectified Linear Unit,ReLU)函数被用作每一个批标准化层后的激活函数。卷积层内卷积核(Kernel)的大小表示为R×S,其中R和S分别表示时域和频域的维度。输入的时频双耳特征线索首先经过一个二维卷积层的处理,该卷积层卷积核的大小为5×5,步幅(Stride)为3,滤波器数量(Channel)为32。然后,一个批标准化层通过归一化卷积层输出的特征提升该网络的稳定性。在对特征进行批标准化处理后,一个卷积核大小为3×3,步幅为2,滤波器数量为64的二维卷积层以及其后的批标准化层被用于加权输入的时频双耳特征线索。接下来,处理后的特征将通过两次相同的二维卷积和批标准化处理,但这里的二维卷积层滤波器的数量不同,分别为96和128。ReLU(线性整流单元函数)激活函数在每一次批标准化操作后进行。最后,一个特征展开层用于将之前的神经网络层处理后的特征展开为特征向量。从TF-CNN输出的特征向量被作为后续多任务声源定位的共享特征。
步骤3:基于多任务学习的声源空间方向估计
声源定位的多任务包括对声源转向角和俯仰角的估计以实现声源空间方向的定位。图4展示了用于声源空间方向定位的多任务学习神经网络结构,其包含了两个用于转向角和俯仰角估计的深度神经网络分支。图4中的上分支用于转向角的估计,其包含四个全连接(Fully Connected,FC)层,其被用于融合由TF-CNN生成的共享特征中的局部结构以用于转向角的估计。这四个全连接层包括具有ReLU激活函数的FC11、FC12和FC13层,以及没有激活函数的FC14层,图4中1024、512、256表示神经元的个数,P表示候选转向角的个数,Q表示候选俯仰角的个数。该神经网络分支输出的大小为候选转向角的数量。由于在本方法中候选转向角的数量与候选俯仰角的数量相同,所以俯仰角的估计也基于了相同的神经网络分支结构,如图4中所示神经网络的下分支。该分支同样包含四个全连接层,即具有ReLU激活函数的FC21、FC22和FC23层,和没有激活函数的FC24层。该分支也被用于融合由TF-CNN生成的共享特征中的局部结构以用于俯仰角的估计,输出的大小为候选俯仰角的数量。将得到的FC14和FC24输出分别通过两个softmax层。这两个softmax层的输出被分别看作输入的时频双耳特征线索相对候选转向角和俯仰角的后验概率。通过寻找最大的后验概率所对应的候选转向角和俯仰角来确定最终的估计。
基于同一发明构思,本发明的另一个实施例提供一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计系统,其包括:
双耳特征线索提取模块,用于提取双耳信号连续多帧的双耳特征线索,得到时频双耳特征线索;
双耳特征线索融合模块,用于利用时频卷积神经网络对时频双耳特征线索进行建模和融合,通过二维卷积操作学习输入的时频双耳特征线索的时频信息,输出用于同时估计声源转向角和俯仰角的共享特征;
声源空间方向估计模块,用于基于声源转向角和俯仰角的共享特征,利用多任务神经网络对声源转向角和俯仰角进行学习和估计。
基于同一发明构思,本发明的另一个实施例提供一种计算机/服务器,其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
基于同一发明构思,本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (10)

1.一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法,其步骤包括:
1)提取双耳信号连续多帧的双耳特征线索,得到时频双耳特征线索;
2)利用时频卷积神经网络对时频双耳特征线索进行建模和融合,通过二维卷积操作学习输入的时频双耳特征线索的时频信息,输出用于同时估计声源转向角和俯仰角的共享特征;
3)基于声源转向角和俯仰角的共享特征,利用多任务神经网络对声源转向角和俯仰角进行学习和估计。
2.如权利要求1所述的方法,其特征在于,步骤1)在时频域提取双耳相位差和双耳能量差作为时频双耳特征线索。
3.如权利要求1所述的方法,其特征在于,步骤2)采用二维卷积层的时频卷积神经网络对提取的时频双耳特征线索进行建模,所述时频卷积神经网络包含四个二维卷积层四个批标准化层和一个特征展开层,线性整流单元函数ReLU被用作每一个批标准化层后的激活函数。
4.如权利要求3所述的方法,其特征在于,输入的时频双耳特征线索首先经过第一个二维卷积层的处理;然后,一个批标准化层通过归一化第一个二维卷积层输出的特征提升网络的稳定性;在对特征进行批标准化处理后,第二个二维卷积层以及其后的批标准化层被用于加权输入的时频双耳特征线索;接下来,处理后的特征通过第三个二维卷积层以及其后的批标准化层、第四个二维卷积层以及其后的批标准化层,进行两次相同的二维卷积和批标准化处理;ReLU激活函数在每一次批标准化操作后进行;最后,一个特征展开层用于将之前的神经网络层处理后的特征展开为特征向量。
5.如权利要求4所述的方法,其特征在于,所述第一个二维卷积层的卷积核大小为5×5,步幅为3,滤波器数量为32;所述第二个二维卷积层的卷积核大小为3×3,步幅为2,滤波器数量为64;所述第三个二维卷积层的卷积核大小为3×3,步幅为2,滤波器数量为96;所述第四个二维卷积层的卷积核大小为3×3,步幅为2,滤波器数量为128。
6.如权利要求1所述的方法,其特征在于,步骤3)采用多任务神经网络实现声源空间方向的定位,所述多任务神经网络包含两个分支:用于转向角估计的神经网络分支和用于俯仰角估计的神经网络分支。
7.如权利要求6所述的方法,其特征在于,所述用于转向角的估计的神经网络分支包含四个全连接层,其被用于融合由时频卷积神经网络生成的共享特征中的局部结构以用于转向角的估计,该神经网络分支输出的大小为候选转向角的数量;所述用于俯仰角的估计的神经网络分支同样包含四个全连接层,该分支被用于融合由时频卷积神经网络生成的共享特征中的局部结构以用于俯仰角的估计,该神经网络分支输出的大小为候选俯仰角的数量。
8.如权利要求7所述的方法,其特征在于,将两个分支的输出分别通过两个softmax层,该两个softmax层的输出被分别看作输入的时频双耳特征线索相对候选转向角和俯仰角的后验概率,通过寻找最大的后验概率所对应的候选转向角和俯仰角来确定最终的估计。
9.一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计系统,其特征在于,包括:
双耳特征线索提取模块,用于提取双耳信号连续多帧的双耳特征线索,得到时频双耳特征线索;
双耳特征线索融合模块,用于利用时频卷积神经网络对时频双耳特征线索进行建模和融合,通过二维卷积操作学习输入的时频双耳特征线索的时频信息,输出用于同时估计声源转向角和俯仰角的共享特征;
声源空间方向估计模块,用于基于声源转向角和俯仰角的共享特征,利用多任务神经网络对声源转向角和俯仰角进行学习和估计。
10.一种计算机,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~8中任一权利要求所述方法的各步骤的指令。
CN201910808412.0A 2019-08-29 2019-08-29 一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法和系统 Pending CN110501673A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910808412.0A CN110501673A (zh) 2019-08-29 2019-08-29 一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910808412.0A CN110501673A (zh) 2019-08-29 2019-08-29 一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法和系统

Publications (1)

Publication Number Publication Date
CN110501673A true CN110501673A (zh) 2019-11-26

Family

ID=68590406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910808412.0A Pending CN110501673A (zh) 2019-08-29 2019-08-29 一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法和系统

Country Status (1)

Country Link
CN (1) CN110501673A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111246363A (zh) * 2020-01-08 2020-06-05 华南理工大学 一种基于听觉匹配的虚拟声定制方法及装置
CN112346013A (zh) * 2020-10-28 2021-02-09 西北工业大学 一种基于深度学习的双耳声源定位方法
CN112731291A (zh) * 2020-10-14 2021-04-30 深港产学研基地(北京大学香港科技大学深圳研修院) 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统
CN113030863A (zh) * 2021-03-02 2021-06-25 珠海格力电器股份有限公司 故障声源检测方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHENG PANG 等: ""Multitask Learning of Time-Frequency CNN for Sound Source Localization"", 《IEEE ACCESS》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111246363A (zh) * 2020-01-08 2020-06-05 华南理工大学 一种基于听觉匹配的虚拟声定制方法及装置
CN111246363B (zh) * 2020-01-08 2021-07-20 华南理工大学 一种基于听觉匹配的虚拟声定制方法及装置
CN112731291A (zh) * 2020-10-14 2021-04-30 深港产学研基地(北京大学香港科技大学深圳研修院) 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统
CN112731291B (zh) * 2020-10-14 2024-02-20 深港产学研基地(北京大学香港科技大学深圳研修院) 协同双通道时频掩码估计任务学习的双耳声源定位方法及系统
CN112346013A (zh) * 2020-10-28 2021-02-09 西北工业大学 一种基于深度学习的双耳声源定位方法
CN112346013B (zh) * 2020-10-28 2023-06-30 西北工业大学 一种基于深度学习的双耳声源定位方法
CN113030863A (zh) * 2021-03-02 2021-06-25 珠海格力电器股份有限公司 故障声源检测方法和系统
CN113030863B (zh) * 2021-03-02 2023-08-25 珠海格力电器股份有限公司 故障声源检测方法和系统

Similar Documents

Publication Publication Date Title
CN110501673A (zh) 一种基于多任务时频卷积神经网络的双耳听觉声源空间方向估计方法和系统
Zhang et al. Learning deep multimodal affective features for spontaneous speech emotion recognition
CN106648103B (zh) 一种vr头戴设备的手势跟踪方法和vr头戴设备
WO2021238595A1 (zh) 基于人工智能的图像生成方法、装置、设备及存储介质
Zhang et al. M 3 f: Multi-modal continuous valence-arousal estimation in the wild
CN107030691A (zh) 一种看护机器人的数据处理方法及装置
CN108877827A (zh) 一种语音增强交互方法及系统、存储介质及电子设备
WO2018000268A1 (zh) 一种机器人交互内容的生成方法、系统及机器人
CN109410974A (zh) 语音增强方法、装置、设备及存储介质
Santhalingam et al. Sign language recognition analysis using multimodal data
CN107526437A (zh) 一种基于音频多普勒特征量化的手势识别方法
Fang et al. Dynamic gesture recognition using inertial sensors-based data gloves
CN107066979A (zh) 一种基于深度信息和多维度卷积神经网络的人体动作识别方法
US20230154115A1 (en) Method and apparatus for providing multi-user-involved augmented reality content for diorama application
CN109343695A (zh) 基于虚拟人行为标准的交互方法及系统
WO2021203880A1 (zh) 一种语音增强方法、训练神经网络的方法以及相关设备
US20140222425A1 (en) Speech recognition learning method using 3d geometric information and speech recognition method using 3d geometric information
Cai et al. GBDT‐Based Fall Detection with Comprehensive Data from Posture Sensor and Human Skeleton Extraction
CN110443309A (zh) 一种结合跨模态关联关系模型的肌电信号手势识别方法
Juan Gesture recognition and information recommendation based on machine learning and virtual reality in distance education
CN102509548B (zh) 一种基于多距离声传感器的音频索引方法
WO2022257378A1 (zh) 人体姿态估计方法、装置及终端设备
WO2022100187A1 (zh) 一种基于移动端对用户的情感进行识别与监测方法
CN112800882A (zh) 一种基于加权双流残差网络的口罩人脸姿态分类方法
Aspandi et al. Audio-visual gated-sequenced neural networks for affect recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20191126