CN112581978A - 声音事件检测与定位方法、装置、设备及可读存储介质 - Google Patents

声音事件检测与定位方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN112581978A
CN112581978A CN202011446660.4A CN202011446660A CN112581978A CN 112581978 A CN112581978 A CN 112581978A CN 202011446660 A CN202011446660 A CN 202011446660A CN 112581978 A CN112581978 A CN 112581978A
Authority
CN
China
Prior art keywords
matrix
audio signal
sound event
sound
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011446660.4A
Other languages
English (en)
Inventor
罗剑
王健宗
程宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011446660.4A priority Critical patent/CN112581978A/zh
Publication of CN112581978A publication Critical patent/CN112581978A/zh
Priority to PCT/CN2021/084298 priority patent/WO2022121184A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Signal Processing (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本申请提供一种声音事件检测与定位方法、装置、设备及可读存储介质,该方法包括:获取麦克风阵列采集到的多个音频信号;确定多个音频信号中的每两个音频信号之间的互相关函数矩阵;将每个互相关函数矩阵输入至预设声音事件分类模型,得到声音事件的类别矩阵,预设声音事件分类模型为预先训练好的的神经网络模型;对每个音频信号进行傅里叶变换,得到每个音频信号的频谱图,并根据每个音频信号的频谱数据,确定声音事件的声源方位矩阵;将类别矩阵和声源方位矩阵输入至预设匹配网络进行匹配,得到音频信号中的每个声音事件的类别以及与所述类别匹配的声源方位。本申请准确且快速的实现声音事件的检测和定位。

Description

声音事件检测与定位方法、装置、设备及可读存储介质
技术领域
本申请涉及语音处理技术领域,尤其涉及一种声音事件检测与定位方法、装置、设备及可读存储介质。
背景技术
现有的多重声音事件检测、分类和定位系统,即可检测一段时间内的声音信号,识别其中包含的不同声音事件的分类,并判断每一个声音事件发生的方位。该系统在机器人交互、自动驾驶和野外搜救等场景有着广泛的应用。但是目前的声音事件定位检测系统(sound event localization and detection,SELD)通常由两个独立的模块构成,即声音事件检测(sound event detection,SED)和方向检测(direction-of-arrivalestimation,DOAE)。目前深度学习已被广泛应用于SED模块,而DOAE模块多采用传统的基于麦克风阵列的信号处理算法,由于方向检测和事件检测被分开执行,该系统无法将SED和DOAE学习到的内容相结合,特别是在针对多个声音源的事件检测和定位的任务中,无法进一步提高系统的准确率。
发明内容
本申请的主要目的在于提供一种声音事件检测与定位方法、装置、设备及可读存储介质,旨在准确的实现声音事件的检测和定位。
第一方面,本申请提供一种声音事件检测与定位方法,应用于电子设备,所述电子设备包括麦克风阵列,所述麦克风阵列包括多个麦克风单元,所述方法包括:
获取所述麦克风阵列采集到的多个音频信号;
确定所述多个音频信号中的每两个所述音频信号之间的互相关函数矩阵;
将每个所述互相关函数矩阵输入至预设声音事件分类模型,得到声音事件的类别矩阵,所述预设声音事件分类模型为预先训练好的的神经网络模型;
对每个所述音频信号进行傅里叶变换,得到每个所述音频信号的频谱图,并根据每个所述音频信号的频谱数据,确定声音事件的声源方位矩阵;
将所述类别矩阵和所述声源方位矩阵输入至预设匹配网络进行匹配,得到所述音频信号中的每个声音事件的类别以及与所述类别匹配的声源方位。
第二方面,本申请还提供一种声音事件检测与定位装置,应用于电子设备,所述电子设备包括麦克风阵列,所述麦克风阵列包括多个麦克风单元,所述声音事件检测与定位装置包括获取模块、确定模块、生成模块、匹配模块,其中:
所述获取模块,用于获取所述麦克风阵列采集到的多个音频信号;
所述确定模块,用于确定所述多个音频信号中的每两个所述音频信号之间的互相关函数矩阵;
所述生成模块,用于将每个所述互相关函数矩阵输入至预设声音事件分类模型,得到声音事件的类别矩阵;
所述确定模块,还用于对每个所述音频信号进行傅里叶变换,得到每个所述音频信号的频谱图,并根据每个所述音频信号的频谱数据,确定声音事件的声源方位矩阵;
所述匹配模块,用于将所述类别矩阵和所述声源方位矩阵输入至预设匹配网络进行匹配,得到所述音频信号中的每个声音事件的类别以及与所述类别匹配的声源方位。
第三方面,本申请还提供一种电子设备,所述电子设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的声音事件检测与定位方法的步骤。
第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的声音事件检测与定位方法的步骤。
本申请提供一种声音事件检测与定位方法、装置、设备及可读存储介质,本申请通过获取麦克风阵列采集到的多个音频信号,并确定多个音频信号中的每两个音频信号之间的互相关函数矩阵;然后将每个互相关函数矩阵输入至预设声音事件分类模型,得到声音事件的类别矩阵;之后对每个音频信号进行傅里叶变换,得到每个音频信号的频谱图,并根据每个音频信号的频谱数据,确定声音事件的声源方位矩阵;最后将类别矩阵和声源方位矩阵输入至预设匹配网络进行匹配,得到音频信号中的每个声音事件的类别以及与类别匹配的声源方位。通过对音频信号的声音事件类别矩阵和声源方位矩阵进行匹配,可以准确的确定每个声音事件的匹配的声源方位,极大地提高了声音事件检测和定位的准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种声音事件检测与定位方法的步骤流程示意图;
图2为图1中的声音事件检测与定位方法的子步骤流程示意图;
图3为本申请实施例提供的平滑处理的一场景示意图;
图4为本申请实施例提供的一种声音事件检测与定位装置的示意性框图;
图5为图4中的声音事件检测与定位装置的子模块的示意性框图;
图6为本申请实施例提供的一种电子设备的结构示意性框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请实施例提供一种声音事件检测与定位方法、装置、设备及可读存储介质。其中,该声音事件检测与定位方法可应用于电子设备中,该电子设备可以是手机、平板电脑、笔记本电脑、台式电脑、个人数字助理、智能音箱、微型计算机和穿戴式设备等。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请实施例提供的一种声音事件检测与定位方法的步骤流程示意图。
如图1所示,该声音事件检测与定位方法包括步骤S101至步骤S105。
步骤S101、获取所述麦克风阵列采集到的多个音频信号。
其中,音频信号是包括电子设备所处环境内所有声音的声波的频率和幅度变化信息,该声音包括说话声、歌声、汽车喇叭声和动物叫声等等。该麦克风阵列包括多个麦克风单元,相邻麦克风单元间隔预设距离,多个音频信号包括麦克风阵列中的每个麦克风单元采集到的音频信号。
可以理解的是,麦克风阵列包括的麦克风单元的数量、排列方式和预设距离可以根据实际情况进行确定,例如,麦克风阵列包括5个麦克风单元,,5个麦克风单元排成一行或列、或5个麦克风单元排成一个矩形或者,相邻麦克风单元间隔5厘米。
步骤S102、确定所述多个音频信号中的每两个所述音频信号之间的互相关函数矩阵。
在一实施例中,对每个音频信号进行分帧处理,得到每个音频信号各自对应的多个音频帧;确定一个音频信号的每个音频帧与另一个音频信号的对应音频帧之间的互相关函数;根据一个音频信号的每个音频帧与另一个音频信号的对应音频帧之间的互相关函数,确定每两个音频信号之间的互相关函数矩阵。其中,所述互相关函数包括广义互相关函数。
在一实施例中,对每个音频信号进行分帧处理,得到每个音频信号各自对应的多个音频帧的方式为:通过预设时间窗对该音频信号进行分帧处理,得到每个音频信号各自对应的多个音频帧。其中,该预设时间窗可以根据实际进行设置,本申请实施例对此不做具体限定,例如,该时间窗可以设置为15秒。通过预设时间窗对音频信号进行分帧,以方便后续对音频信号的处理,以提高运算的准确性。
在一实施例中,确定一个音频信号的每个音频帧与另一个音频信号的对应音频帧之间的互相关函数的方式可以为:对每个音频信号各自对应的多个音频帧进行傅里叶变换,得到每个音频信号各自对应的每个音频帧的傅里叶系数。获取互相关函数计算公式,其中,该互相关函数计算公式为:
Figure BDA0002831285380000051
其中,Gij(t,τ)为互相关函数,F-1为反傅里叶变换,Xi(f,t)为第i个麦克风的傅里叶变换系数,*是取共轭的标志。基于该互相关函数计算公式,并根据每个麦克风的音频帧变换系数,确定音频信号的每个音频帧与另一个音频信号的对应音频帧之间的互相关函数。
在一实施例中,确定两个音频信号之间的互相关函数矩阵的方式可以为:将一个音频信号的每个音频帧与另一个音频信号的对应音频帧之间的互相关函数组成对应的互相关函数矩阵。例如,音频信号A的多个音频帧分别为音频帧a1、音频帧a2、音频帧a3、音频帧a4和音频帧a5,音频信号B的多个音频帧分别为音频帧b1、音频帧b2、音频帧b3、音频帧b4和音频帧b5,且音频帧a1与音频帧b1之间的互相关函数为C1,音频帧a2与音频帧b2之间的互相关函数为C2,音频帧a3与音频帧b3之间的互相关函数为C3、音频帧a4与音频帧b4之间的互相关函数为C4,音频帧a5与音频帧b5之间的互相关函数为C5,则音频信号A与音频信号B之间的互相关函数矩阵可以为[C1,C2,C3,C4,C5]。
步骤S103、将每个所述互相关函数矩阵输入至预设声音事件分类模型,得到声音事件的类别矩阵,所述预设声音事件分类模型为预先训练好的的神经网络模型。
其中,该预设声音事件分类模型为预先训练好的的神经网络模型,该神经网络的选择可以根据实际情况进行选择,例如,该神经网络可以为卷积神经网络模型、循环神经网络模型和循环卷积神经网络模型,当然也可以是其他网络训练模型,本申请对此不做具体限定。
需要说明的是,预设声音事件分类模型的训练方式可以为:获取互相关函数矩阵,根据互相关函数矩阵对应的类别对该互相关函数矩阵进行标注,以构成样本数据,基于该样本数据对该神经网络进行迭代训练,直到神经网络模型收敛,从而得到声音事件分类模型。
在一实施例中,将每个互相关函数矩阵输入至预设声音事件分类模型,得到声音事件的类别矩阵。其中,该声音事件的类别可以根据实际情况确定,本申请对此不做具体限定,例如,该声音事件的类别为说话声或汽车喇叭声。通过该预设声音事件分类模型对该互相关函数矩阵进行分类,可以准确且快速的得到声音事件的类别矩阵。
步骤S104、对每个所述音频信号进行傅里叶变换,得到每个所述音频信号的频谱图,并根据每个所述音频信号的频谱数据,确定声音事件的声源方位矩阵。
对每个音频信号进行傅里叶变换,得到每个音频信号的频谱图,并根据每个音频信号的频谱数据,确定声音事件的声源方位矩阵。
在一实施例中,如图2所示,步骤S104包括子步骤S1041至子步骤S1044。
子步骤S1041、根据每个所述音频信号的频谱数据确定第一频谱协方差矩阵。
示例性的,对每个音频信号的频谱数据进行噪声频点去除和回音频点去除,得到每个音频信号的目标频谱数据;根据每个音频信号的目标频谱数据,确定第一频谱协方差矩阵。
在一实施例中,对每个音频信号的频谱数据进行噪声频点去除和回音频点去除,得到每个音频信号的目标频谱数据的方式包括:将每个音频信号的频谱数据中的频谱能量小于预设频谱能量的噪声频点剔除,得到每个音频信号的第一频谱数据;根据麦克风阵列在上一时刻采集到的音频信号的第二频谱数据,确定回音频点的频谱能量阈值;将每个音频信号的第一频谱数据中的频谱能量小于频谱能量阈值的回音频点剔除,得到每个音频信号的目标频谱数据。通过对每个音频信号的频谱数据进行噪声频点去除和回音频点去除,使得后续得到声源方位矩阵更加准确。
在一实施例中,该预设频谱能量的确定方式可以为:获取预设频谱能量公式,该预设频谱能量公式为A(t)=α×A(t-1),A为预设频谱能量,t为时间窗,α为更新参数,其中,该更新参数α根据实际情况进行确定,例如,噪声的时间段内α<1,在信号时间段内α>1,基于该预设频谱能量公式,并根据上一时间窗和更新参数,得到预设频谱能量。
子步骤S1042、获取第二频谱协方差矩阵,其中,所述第二频谱协方差矩阵是基于所述麦克风阵列在上一时刻采集到的音频信号的频谱数据确定的。
其中,第二频谱协方差矩阵是基于麦克风阵列在上一时刻采集到的音频信号的频谱数据确定的,第二频谱协方差矩阵也可以是基于麦克风阵列在上一时刻采集到的音频信号的目标频谱数据确定的。
示例性的,获取第二频谱协方差矩阵公式,该第二频谱协方差矩阵公式为:
Figure BDA0002831285380000071
Figure BDA0002831285380000072
为第二频谱协方差矩阵,该C为时间窗个数,X(t,f)为傅里叶变换系数,XH(t,f)为傅里叶变换系数转置。基于该第二频谱协方差矩阵公式,根据时间窗个数、傅里叶变换系数和傅里叶变换系数矩阵,得到第二频谱协方差矩阵。
子步骤S1043、根据所述第一频谱协方差矩阵和所述第二频谱协方差矩阵,确定导向矢量矩阵。
根据第一频谱协方差矩阵和第二频谱协方差矩阵,每个麦克风单元的导向矢量;基于每个麦克风单元的导向矢量,生成每个声音事件的导向矢量矩阵,其中,麦克风单元在不同声音事件下的导向矢量不同。
具体地,联立第一频谱协方差矩阵公式和第二频谱协方差矩阵公式,基于每个第一频谱协方差矩阵和第二频谱协方差矩阵,得到每个麦克风单元的导向矢量,将相同事件的导向矢量整合,生成每个声音事件的导向矢量矩阵。
其中,该第一频谱协方差矩阵公式为:
Figure BDA0002831285380000073
该R(t,f)为第一频谱协方差矩阵,
Figure BDA0002831285380000074
为频点的能量值,h(f,θi)导向矢量,h(f,θi)H为导向矢量的转置,f为当前频率,t为时间窗,i为第i个麦克风。
需要说明的是,可以将上述第一频谱协方差矩阵公式简化为以下公式:
Figure BDA0002831285380000075
通过简化的第一频谱协方差矩阵公式,可以减少计算的运行量,减少了误差。
其中,该第二频谱协方差矩阵公式,该第二频谱协方差矩阵公式为:
Figure BDA0002831285380000076
Figure BDA0002831285380000077
为第二频谱协方差矩阵,该C为时间窗个数,X(t,f)为傅里叶变换系数,XH(t,f)为傅里叶变换系数转置。基于该第二频谱协方差矩阵公式,根据时间窗个数、傅里叶变换系数和傅里叶变换系数矩阵,得到第二频谱协方差矩阵。
子步骤S1044、根据生成的每个所述导向矢量矩阵,确定每个声音事件的声源方位,并根据每个声音事件的声源方位,确定所述声源方位矩阵。
具体地,计算每个麦克风单元的导向矢量的特征向量值。获取第一计算角度公式和第二角度计算公式,其中,第一角度计算公式为:
Figure BDA0002831285380000081
其中,θ为方位角度,f为当前频率,F为采用频率,d为两个麦克风之间的距离,c为光速,t为时间窗,i为元素位置序号,
Figure BDA0002831285380000082
为特征向量,<为取特征向量相位;第二角度计算公式为:
Figure BDA0002831285380000083
其中,θ为方位角度,f为当前频率,F为采用频率,d为两个麦克风之间的距离,c为光速,t为时间窗,i为元素位置序号,
Figure BDA0002831285380000084
为特征向量,<为取特征向量相位,基于第一计算角度公式和第二角度计算公式,并根据特征向量的相位,确定该麦克风的导向矢量,根据基于每个麦克风单元的导向矢量,生成每个声音事件的声源方位矩阵。
步骤S105、将所述类别矩阵和所述声源方位矩阵输入至预设匹配网络进行匹配,得到所述音频信号中的每个声音事件的类别以及与所述类别匹配的声源方位。
其中,该预设匹配网络为预先训练好的神经网络模型,该神经网络的选择可以根据实际情况进行选择,例如,该神经网络可以为双向长短时记忆网络、卷积神经网络模型、循环神经网络模型和循环卷积神经网络模型,当然也可以是其他网络训练模型,本申请对此不做具体限定。
需要说明的是,该预设匹配网络的训练方式可以为:获取类别矩阵和声源方位矩阵,对该类别矩阵和声源方位矩阵进行标注,以构建样本数据,基于该样本数据对该神经网络进行迭代训练,直到神经网络模型收敛,从而得到该预设匹配网络。
在一实施例中,对类别矩阵和声源方位矩阵进行平滑处理;并将经平滑处理后的所述类别矩阵和所述声源方位矩阵输入至预设匹配网络进行匹配,得到音频信号中的每个声音事件的类别以及与类别匹配的声源方位。其中,预设匹配网络为预先训练好的双向长短时记忆网络。将经平滑处理后的所述类别矩阵和所述声源方位矩阵输入至预设匹配网络进行匹配,得到音频信号中的每个声音事件的类别以及与类别匹配的声源方位,准确的实现声音事件的检测和定位。
在一实施例中,对类别矩阵和声源方位矩阵进行平滑处理的方式可以为:将类别矩阵和声源方位矩阵中在时间维度上的毛刺去除,以得到平滑后的类别矩阵和声源方位矩阵。示例性的,如图3所示,幅度曲线A为平滑处理前的类别矩阵或声源方位矩阵,该幅度曲线A包括毛刺B和毛刺C,将时间维度中维度发生变化幅度小于预设时间长度的幅度的毛刺B和毛刺C去除,得到平滑后的幅度曲线B。
上述实施例提供的声音事件检测与定位方法,通过获取麦克风阵列采集到的多个音频信号,并确定多个音频信号中的每两个音频信号之间的互相关函数矩阵;然后将每个互相关函数矩阵输入至预设声音事件分类模型,得到声音事件的类别矩阵;之后对每个音频信号进行傅里叶变换,得到每个音频信号的频谱图,并根据每个音频信号的频谱数据,确定声音事件的声源方位矩阵;最后将类别矩阵和声源方位矩阵输入至预设匹配网络进行匹配,得到音频信号中的每个声音事件的类别以及与类别匹配的声源方位。通过对音频信号的声音事件类别矩阵和声源方位矩阵进行匹配,可以准确的确定每个声音事件的匹配的声源方位,极大地提高了声音事件检测和定位的准确性。
请参阅图4,如图4为本申请实施例提供的一种声音事件检测与定位装置的示意性框图。
如图4所示,声音事件检测与定位装置200包括获取模块210、确定模块220、生成模块230、匹配模块240,其中:
所述获取模块210,用于获取所述麦克风阵列采集到的多个音频信号;
所述确定模块220,用于确定所述多个音频信号中的每两个所述音频信号之间的互相关函数矩阵;
所述生成模块230,用于将每个所述互相关函数矩阵输入至预设声音事件分类模型,得到声音事件的类别矩阵;
所述确定模块220,还用于对每个所述音频信号进行傅里叶变换,得到每个所述音频信号的频谱图,并根据每个所述音频信号的频谱数据,确定声音事件的声源方位矩阵;
所述匹配模块240,用于将所述类别矩阵和所述声源方位矩阵输入至预设匹配网络进行匹配,得到所述音频信号中的每个声音事件的类别以及与所述类别匹配的声源方位。
在一实施例中,所示确定模块220,还用于:
对每个所述音频信号进行分帧处理,得到每个所述音频信号各自对应的多个音频帧;
确定一个所述音频信号的每个所述音频帧与另一个所述音频信号的对应音频帧之间的互相关函数;
根据一个所述音频信号的每个所述音频帧与另一个所述音频信号的对应音频帧之间的互相关函数,确定每两个所述音频信号之间的互相关函数矩阵。
在一实施例中,如图5所示,所述确定模块220还包括:
第一确定子模块221,用于根据每个所述音频信号的频谱数据确定第一频谱协方差矩阵;
第一获取子模块222,用于获取第二频谱协方差矩阵,其中,所述第二频谱协方差矩阵是基于所述麦克风阵列在上一时刻采集到的音频信号的频谱数据确定的;
第二确定子模块223,用于根据所述第一频谱协方差矩阵和所述第二频谱协方差矩阵,确定导向矢量矩阵;
第三确定子模块224,用于根据生成的每个所述导向矢量矩阵,确定每个声音事件的声源方位,并根据每个声音事件的声源方位,确定所述声源方位矩阵。
在一实施例中,所述第一确定子模块221,还用于:
对每个所述音频信号的频谱数据进行噪声频点去除和回音频点去除,得到每个所述音频信号的目标频谱数据;
根据每个所述音频信号的目标频谱数据,确定第一频谱协方差矩阵。
在一实施例中,所述第一确定子模块221,还用于:
将每个所述音频信号的频谱数据中的频谱能量小于预设频谱能量的噪声频点剔除,得到每个所述音频信号的第一频谱数据;
根据所述麦克风阵列在上一时刻采集到的音频信号的第二频谱数据,确定回音频点的频谱能量阈值;
将每个所述音频信号的第一频谱数据中的频谱能量小于所述频谱能量阈值的回音频点剔除,得到每个所述音频信号的目标频谱数据。
在一实施例中,所述第二确定子模块223,还用于:
根据所述第一频谱协方差矩阵和所述第二频谱协方差矩阵,每个所述麦克风单元的导向矢量;
基于每个所述麦克风单元的导向矢量,生成每个声音事件的导向矢量矩阵,其中,所述麦克风单元在不同声音事件下的导向矢量不同。
在一实施例中,所述匹配模块223,还用于:
对所述类别矩阵和所述声源方位矩阵进行平滑处理;
将经平滑处理后的所述类别矩阵和所述声源方位矩阵输入至预设匹配网络进行匹配,其中,所述预设匹配网络为预先训练好的双向长短时记忆网络。
请参阅图6,图6为本申请实施例提供的一种电子设备的结构示意性框图。
如图6所示,该电子设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种声音事件检测与定位方法。
处理器用于提供计算和控制能力,支撑整个电子设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种声音事件检测与定位方法。
该网络接口用于通信。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,该总线比如为I2C(Inter-integrated Circuit)总线,存储器可以是Flash芯片、只读存储器(ROM,Read-Only Memory)磁盘、光盘、U盘或移动硬盘等,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取所述麦克风阵列采集到的多个音频信号;
确定所述多个音频信号中的每两个所述音频信号之间的互相关函数矩阵;
将每个所述互相关函数矩阵输入至预设声音事件分类模型,得到声音事件的类别矩阵,所述预设声音事件分类模型为预先训练好的的神经网络模型;
对每个所述音频信号进行傅里叶变换,得到每个所述音频信号的频谱图,并根据每个所述音频信号的频谱数据,确定声音事件的声源方位矩阵;
将所述类别矩阵和所述声源方位矩阵输入至预设匹配网络进行匹配,得到所述音频信号中的每个声音事件的类别以及与所述类别匹配的声源方位。
在一个实施例中,所述处理器在实现所述确定所述多个音频信号中的每两个所述音频信号之间的互相关函数矩阵时,用于实现:
对每个所述音频信号进行分帧处理,得到每个所述音频信号各自对应的多个音频帧;
确定一个所述音频信号的每个所述音频帧与另一个所述音频信号的对应音频帧之间的互相关函数;
根据一个所述音频信号的每个所述音频帧与另一个所述音频信号的对应音频帧之间的互相关函数,确定每两个所述音频信号之间的互相关函数矩阵。
在一个实施例中,所述处理器在实现所述根据每个所述音频信号的频谱数据,确定声音事件的声源方位矩阵时,用于实现:
根据每个所述音频信号的频谱数据确定第一频谱协方差矩阵;
获取第二频谱协方差矩阵,其中,所述第二频谱协方差矩阵是基于所述麦克风阵列在上一时刻采集到的音频信号的频谱数据确定的;
根据所述第一频谱协方差矩阵和所述第二频谱协方差矩阵,确定导向矢量矩阵;
根据生成的每个所述导向矢量矩阵,确定每个声音事件的声源方位,并根据每个声音事件的声源方位,确定所述声源方位矩阵。
在一个实施例中,所述处理器在实现所述根据每个所述音频信号的频谱数据确定第一频谱协方差矩阵时,用于实现:
对每个所述音频信号的频谱数据进行噪声频点去除和回音频点去除,得到每个所述音频信号的目标频谱数据;
根据每个所述音频信号的目标频谱数据,确定第一频谱协方差矩阵。
在一个实施例中,所述处理器在实现对每个所述音频信号的频谱数据进行噪声频点去除和回音频点去除,得到每个所述音频信号的目标频谱数据时,用于实现:
将每个所述音频信号的频谱数据中的频谱能量小于预设频谱能量的噪声频点剔除,得到每个所述音频信号的第一频谱数据;
根据所述麦克风阵列在上一时刻采集到的音频信号的第二频谱数据,确定回音频点的频谱能量阈值;
将每个所述音频信号的第一频谱数据中的频谱能量小于所述频谱能量阈值的回音频点剔除,得到每个所述音频信号的目标频谱数据。
在一个实施例中,所述处理器在实现所述根据所述第一频谱协方差矩阵和所述第二频谱协方差矩阵,确定导向矢量矩阵时,用于实现:
根据所述第一频谱协方差矩阵和所述第二频谱协方差矩阵,每个所述麦克风单元的导向矢量;
基于每个所述麦克风单元的导向矢量,生成每个声音事件的导向矢量矩阵,其中,所述麦克风单元在不同声音事件下的导向矢量不同。
在一个实施例中,所述处理器在实现所述预设匹配网络为预先训练好的双向长短时记忆网络,所述将所述类别矩阵和所述声源方位矩阵输入至预设匹配网络进行匹配时,用于实现:
对所述类别矩阵和所述声源方位矩阵进行平滑处理;
将经平滑处理后的所述类别矩阵和所述声源方位矩阵输入至预设匹配网络进行匹配,其中,所述预设匹配网络为预先训练好的双向长短时记忆网络。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述电子设备的具体工作过程,可以参考前述声音事件检测与定位控制方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参照本申请声音事件检测与定位方法的各个实施例。
其中,所述计算机可读存储介质可以是前述实施例所述的电子设备的内部存储单元,例如所述电子设备的硬盘或内存。所述计算机可读存储介质也可以是所述电子设备的外部存储设备,例如所述电子设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种声音事件检测与定位方法,其特征在于,应用于电子设备,所述电子设备包括麦克风阵列,所述麦克风阵列包括多个麦克风单元,所述方法包括:
获取所述麦克风阵列采集到的多个音频信号;
确定所述多个音频信号中的每两个所述音频信号之间的互相关函数矩阵;
将每个所述互相关函数矩阵输入至预设声音事件分类模型,得到声音事件的类别矩阵,所述预设声音事件分类模型为预先训练好的的神经网络模型;
对每个所述音频信号进行傅里叶变换,得到每个所述音频信号的频谱图,并根据每个所述音频信号的频谱数据,确定声音事件的声源方位矩阵;
将所述类别矩阵和所述声源方位矩阵输入至预设匹配网络进行匹配,得到所述音频信号中的每个声音事件的类别以及与所述类别匹配的声源方位。
2.根据权利要求1所述的声音事件检测与定位方法,其特征在于,所述确定所述多个音频信号中的每两个所述音频信号之间的互相关函数矩阵,包括:
对每个所述音频信号进行分帧处理,得到每个所述音频信号各自对应的多个音频帧;
确定一个所述音频信号的每个所述音频帧与另一个所述音频信号的对应音频帧之间的互相关函数;
根据一个所述音频信号的每个所述音频帧与另一个所述音频信号的对应音频帧之间的互相关函数,确定每两个所述音频信号之间的互相关函数矩阵。
3.根据权利要求1所述的声音事件检测与定位方法,其特征在于,所述根据每个所述音频信号的频谱数据,确定声音事件的声源方位矩阵,包括:
根据每个所述音频信号的频谱数据确定第一频谱协方差矩阵;
获取第二频谱协方差矩阵,其中,所述第二频谱协方差矩阵是基于所述麦克风阵列在上一时刻采集到的音频信号的频谱数据确定的;
根据所述第一频谱协方差矩阵和所述第二频谱协方差矩阵,确定导向矢量矩阵;
根据生成的每个所述导向矢量矩阵,确定每个声音事件的声源方位,并根据每个声音事件的声源方位,确定所述声源方位矩阵。
4.根据权利要求3所述的声音事件检测与定位方法,其特征在于,所述根据每个所述音频信号的频谱数据确定第一频谱协方差矩阵,包括:
对每个所述音频信号的频谱数据进行噪声频点去除和回音频点去除,得到每个所述音频信号的目标频谱数据;
根据每个所述音频信号的目标频谱数据,确定第一频谱协方差矩阵。
5.根据权利要求4所述的声音事件检测与定位方法,其特征在于,对每个所述音频信号的频谱数据进行噪声频点去除和回音频点去除,得到每个所述音频信号的目标频谱数据,包括:
将每个所述音频信号的频谱数据中的频谱能量小于预设频谱能量的噪声频点剔除,得到每个所述音频信号的第一频谱数据;
根据所述麦克风阵列在上一时刻采集到的音频信号的第二频谱数据,确定回音频点的频谱能量阈值;
将每个所述音频信号的第一频谱数据中的频谱能量小于所述频谱能量阈值的回音频点剔除,得到每个所述音频信号的目标频谱数据。
6.根据权利要求3所述的声音事件检测与定位方法,其特征在于,所述根据所述第一频谱协方差矩阵和所述第二频谱协方差矩阵,确定导向矢量矩阵,包括:
根据所述第一频谱协方差矩阵和所述第二频谱协方差矩阵,每个所述麦克风单元的导向矢量;
基于每个所述麦克风单元的导向矢量,生成每个声音事件的导向矢量矩阵,其中,所述麦克风单元在不同声音事件下的导向矢量不同。
7.根据权利要求1-6中任一项所述的声音事件检测与定位方法,其特征在于,所述预设匹配网络为预先训练好的双向长短时记忆网络,所述将所述类别矩阵和所述声源方位矩阵输入至预设匹配网络进行匹配,包括:
对所述类别矩阵和所述声源方位矩阵进行平滑处理;
将经平滑处理后的所述类别矩阵和所述声源方位矩阵输入至预设匹配网络进行匹配,其中,所述预设匹配网络为预先训练好的双向长短时记忆网络。
8.一种声音事件检测与定位装置,其特征在于,应用于电子设备,所述电子设备包括麦克风阵列,所述麦克风阵列包括多个麦克风单元,所述声音事件检测与定位装置包括获取模块、确定模块、生成模块、匹配模块,其中:
所述获取模块,用于获取所述麦克风阵列采集到的多个音频信号;
所述确定模块,用于确定所述多个音频信号中的每两个所述音频信号之间的互相关函数矩阵;
所述生成模块,用于将每个所述互相关函数矩阵输入至预设声音事件分类模型,得到声音事件的类别矩阵;
所述确定模块,还用于对每个所述音频信号进行傅里叶变换,得到每个所述音频信号的频谱图,并根据每个所述音频信号的频谱数据,确定声音事件的声源方位矩阵;
所述匹配模块,用于将所述类别矩阵和所述声源方位矩阵输入至预设匹配网络进行匹配,得到所述音频信号中的每个声音事件的类别以及与所述类别匹配的声源方位。
9.一种电子设备,其特征在于,所述电子设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的声音事件检测与定位方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的声音事件检测与定位方法的步骤。
CN202011446660.4A 2020-12-11 2020-12-11 声音事件检测与定位方法、装置、设备及可读存储介质 Pending CN112581978A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011446660.4A CN112581978A (zh) 2020-12-11 2020-12-11 声音事件检测与定位方法、装置、设备及可读存储介质
PCT/CN2021/084298 WO2022121184A1 (zh) 2020-12-11 2021-03-31 声音事件检测与定位方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011446660.4A CN112581978A (zh) 2020-12-11 2020-12-11 声音事件检测与定位方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN112581978A true CN112581978A (zh) 2021-03-30

Family

ID=75131689

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011446660.4A Pending CN112581978A (zh) 2020-12-11 2020-12-11 声音事件检测与定位方法、装置、设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN112581978A (zh)
WO (1) WO2022121184A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113297911A (zh) * 2021-04-25 2021-08-24 普联国际有限公司 基于麦克风阵列的定位误差矫正方法、装置及存储介质
CN113312971A (zh) * 2021-04-25 2021-08-27 普联国际有限公司 麦克风阵列的参数标定方法、装置、终端设备及存储介质
CN113311391A (zh) * 2021-04-25 2021-08-27 普联国际有限公司 基于麦克风阵列的声源定位方法、装置、设备及存储介质
WO2022121184A1 (zh) * 2020-12-11 2022-06-16 平安科技(深圳)有限公司 声音事件检测与定位方法、装置、设备及可读存储介质
CN114694638A (zh) * 2022-04-19 2022-07-01 深圳市未艾智能有限公司 一种语音唤醒方法、终端及存储介质
CN115116232A (zh) * 2022-08-29 2022-09-27 深圳市微纳感知计算技术有限公司 汽车鸣笛的声纹比较方法、装置、设备及存储介质
CN115598594A (zh) * 2022-10-13 2023-01-13 广州成至智能机器科技有限公司(Cn) 无人机声源定位方法、装置、无人机及可读存储介质

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114859194B (zh) * 2022-07-07 2022-09-23 杭州兆华电子股份有限公司 一种基于非接触式的局部放电检测方法及装置
CN116203131B (zh) * 2023-04-28 2023-09-15 中国铁建高新装备股份有限公司 检测隧道脱空的方法、装置、及电子设备、存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160071526A1 (en) * 2014-09-09 2016-03-10 Analog Devices, Inc. Acoustic source tracking and selection
CN109285557B (zh) * 2017-07-19 2022-11-01 杭州海康威视数字技术股份有限公司 一种定向拾音方法、装置及电子设备
CN110858488A (zh) * 2018-08-24 2020-03-03 阿里巴巴集团控股有限公司 语音活动检测方法、装置、设备及存储介质
CN110232916A (zh) * 2019-05-10 2019-09-13 平安科技(深圳)有限公司 语音处理方法、装置、计算机设备及存储介质
CN110992977B (zh) * 2019-12-03 2021-06-22 北京声智科技有限公司 一种目标声源的提取方法及装置
CN112581978A (zh) * 2020-12-11 2021-03-30 平安科技(深圳)有限公司 声音事件检测与定位方法、装置、设备及可读存储介质

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022121184A1 (zh) * 2020-12-11 2022-06-16 平安科技(深圳)有限公司 声音事件检测与定位方法、装置、设备及可读存储介质
CN113297911A (zh) * 2021-04-25 2021-08-24 普联国际有限公司 基于麦克风阵列的定位误差矫正方法、装置及存储介质
CN113312971A (zh) * 2021-04-25 2021-08-27 普联国际有限公司 麦克风阵列的参数标定方法、装置、终端设备及存储介质
CN113311391A (zh) * 2021-04-25 2021-08-27 普联国际有限公司 基于麦克风阵列的声源定位方法、装置、设备及存储介质
CN113297911B (zh) * 2021-04-25 2024-06-07 普联国际有限公司 基于麦克风阵列的定位误差矫正方法、装置及存储介质
CN114694638A (zh) * 2022-04-19 2022-07-01 深圳市未艾智能有限公司 一种语音唤醒方法、终端及存储介质
CN115116232A (zh) * 2022-08-29 2022-09-27 深圳市微纳感知计算技术有限公司 汽车鸣笛的声纹比较方法、装置、设备及存储介质
CN115116232B (zh) * 2022-08-29 2022-12-09 深圳市微纳感知计算技术有限公司 汽车鸣笛的声纹比较方法、装置、设备及存储介质
CN115598594A (zh) * 2022-10-13 2023-01-13 广州成至智能机器科技有限公司(Cn) 无人机声源定位方法、装置、无人机及可读存储介质
CN115598594B (zh) * 2022-10-13 2023-05-05 广州成至智能机器科技有限公司 无人机声源定位方法、装置、无人机及可读存储介质

Also Published As

Publication number Publication date
WO2022121184A1 (zh) 2022-06-16

Similar Documents

Publication Publication Date Title
CN112581978A (zh) 声音事件检测与定位方法、装置、设备及可读存储介质
JP7177167B2 (ja) 混合音声の特定方法、装置及びコンピュータプログラム
US9881631B2 (en) Method for enhancing audio signal using phase information
US11158333B2 (en) Multi-stream target-speech detection and channel fusion
US9666183B2 (en) Deep neural net based filter prediction for audio event classification and extraction
CN108122563A (zh) 提高语音唤醒率及修正doa的方法
US10390130B2 (en) Sound processing apparatus and sound processing method
US11817112B2 (en) Method, device, computer readable storage medium and electronic apparatus for speech signal processing
US11289109B2 (en) Systems and methods for audio signal processing using spectral-spatial mask estimation
JP2017044916A (ja) 音源同定装置および音源同定方法
WO2016100460A1 (en) Systems and methods for source localization and separation
CN112509584A (zh) 声源位置确定方法、装置和电子设备
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
Duong et al. Gaussian modeling-based multichannel audio source separation exploiting generic source spectral model
CN112634940A (zh) 语音端点检测方法、装置、设备及计算机可读存储介质
US10891942B2 (en) Uncertainty measure of a mixture-model based pattern classifer
CN112180318A (zh) 声源波达方向估计模型训练和声源波达方向估计方法
CN116106826A (zh) 声源定位方法、相关装置和介质
Zhang et al. Modulation domain blind speech separation in noisy environments
CN112489678B (zh) 一种基于信道特征的场景识别方法及装置
Nakatani et al. Simultaneous denoising, dereverberation, and source separation using a unified convolutional beamformer
Adiloğlu et al. A general variational Bayesian framework for robust feature extraction in multisource recordings
Chen et al. A DNN based normalized time-frequency weighted criterion for robust wideband DoA estimation
CN111429937A (zh) 语音分离方法、模型训练方法及电子设备
CN112151061B (zh) 信号排序方法和装置、计算机可读存储介质、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination