CN111596261B - 一种声源定位方法及装置 - Google Patents

一种声源定位方法及装置 Download PDF

Info

Publication number
CN111596261B
CN111596261B CN202010256529.5A CN202010256529A CN111596261B CN 111596261 B CN111596261 B CN 111596261B CN 202010256529 A CN202010256529 A CN 202010256529A CN 111596261 B CN111596261 B CN 111596261B
Authority
CN
China
Prior art keywords
voice
preset number
channel
voices
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010256529.5A
Other languages
English (en)
Other versions
CN111596261A (zh
Inventor
李庆龙
关海欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010256529.5A priority Critical patent/CN111596261B/zh
Publication of CN111596261A publication Critical patent/CN111596261A/zh
Application granted granted Critical
Publication of CN111596261B publication Critical patent/CN111596261B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S5/00Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations
    • G01S5/18Position-fixing by co-ordinating two or more direction or position line determinations; Position-fixing by co-ordinating two or more distance determinations using ultrasonic, sonic, or infrasonic waves

Abstract

本发明公开了一种声源定位方法及装置,所述方法包括:获取待估计的多通道语音;获取目标降噪模型及目标DOA估计模型;基于所述目标降噪模型及目标DOA估计模型,对所述待估计的多通道语音进行声源定位。通过本发明的技术方案,能够准确的进行声源定位。

Description

一种声源定位方法及装置
技术领域
本发明涉及定位技术领域,特别涉及一种声源定位方法及装置。
背景技术
声源定位(DOA)是麦克风阵列中的一项重要技术。其作用是在嘈杂环境下判断出目标说话人与麦克风阵列的相对方向。为后续波束形成操作提供重要且准确的信息。
传统的DOA估计方法在信噪比较高的环境中估计准确率比较理想,但在低信噪比环境下、非平稳噪声下的效果不理想。当前基于深度学习的DOA估计方法能有效提高低信噪比环境下的估计准确率,但在多人同时讲话的噪声下的估计性能依旧有待改善。目前多人同时讲话的识别方法是将多通道的语音同时送入模型,得到该时刻语音的DOA估计值,但该方法对噪声的鲁棒性需要改进,且在babble等噪声下的估计效果依旧不理想,总的来说,现有技术对带有噪音的多通道语音声源定位不准确。
发明内容
本发明提供一种声源定位方法及装置,所述技术方案如下:
根据本发明实施例的第一方面,提供了一种声源定位方法,包括:
获取待估计的多通道语音;
获取目标降噪模型及目标DOA估计模型;
基于所述目标降噪模型及目标DOA估计模型,对所述待估计的多通道语音进行声源定位,以得到估计的声源方向。
在一个实施例中,所述获取目标降噪模型,包括:
获取原始降噪模型;
获取若干条第一单通道带噪语音;
对所述若干条第一单通道带噪语音进行特征提取,以得到若干条第一语音特征;
确定所述若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask;
将所述若干条第一语音特征作为所述原始降噪模型的输入,将所述若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask作为所述原始降噪模型的输出来训练所述原始降噪模型,以得到所述目标降噪模型。
在一个实施例中,所述获取目标DOA估计模型,包括:
获取作为训练数据的多通道带噪语音;
将所述作为训练数据的多通道带噪语音划分为第一预设数目个第二单通道带噪语音;
对所述第一预设数目个第二单通道带噪语音进行特征提取,以得到第一预设数目个第二语音特征;
将所述第一预设数目个第二语音特征输入至所述目标降噪模型,得到所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask;
根据所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask确定所述目标DOA估计模型。
在一个实施例中,所述根据所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask确定所述目标DOA估计模型,包括:
获取原始DOA估计模型;
确定所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask分别对应的DOA标签,其中,所述DOA标签表示声源的方向。
对所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask进行特征提取,以得到所述第一预设数目个第三语音特征;
将所述第一预设数目个第三语音特征作为所述原始DOA估计模型的输入,将所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask分别对应的DOA标签作为所述原始DOA估计模型的输出来训练所述原始DOA估计模型,以得到所述目标DOA估计模型。
在一个实施例中,所述基于所述目标降噪模型及目标DOA估计模型,对所述待估计的多通道语音进行声源定位,以得到估计的声源方向,包括
将所述待估计的多通道语音划分为第二预设数目个单通道语音;
对所述第二预设数目个单通道语音进行特征提取,以得到第二预设数目个第四语音特征;
将所述第二预设数目个第四语音特征输入至所述目标降噪模型,得到第二预设数目个单通道语音分别对应的纯净语音的语谱或mask;
对所述第二预设数目个单通道语音分别对应的纯净语音的语谱或mask进行特征提取,以得到第二预设数目个第五语音特征;
将所述第二预设数目个第五语音特征输入至所述目标DOA估计模型,得到估计的声源方向,得到所述估计的声源方向。
根据本发明实施例的第二方面,提供了一种声源定位装置,包括:
第一获取模块,用于获取待估计的多通道语音;
第二获取模块,用于获取目标降噪模型及目标DOA估计模型;
声源定位模块,用于基于所述目标降噪模型及目标DOA估计模型,对所述待估计的多通道语音进行声源定位,以得到估计的声源方向。
在一个实施例中,所述第二获取模块,包括:
第一获取子模块,用于获取原始降噪模型;
第二获取子模块,用于获取若干条第一单通道带噪语音;
第一提取子模块,用于对所述若干条第一单通道带噪语音进行特征提取,以得到若干条第一语音特征;
第一确定子模块,用于确定所述若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask;
第一训练子模块,用于将所述若干条第一语音特征作为所述原始降噪模型的输入,将所述若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask作为所述原始降噪模型的输出来训练所述原始降噪模型,以得到所述目标降噪模型。
在一个实施例中,所述第二获取模块,包括:
第三获取子模块,用于获取作为训练数据的多通道带噪语音;
第一划分子模块,用于将所述作为训练数据的多通道带噪语音划分为第一预设数目个第二单通道带噪语音;
第二提取子模块,用于对所述第一预设数目个第二单通道带噪语音进行特征提取,以得到第一预设数目个第二语音特征;
第一输入子模块,用于将所述第一预设数目个第二语音特征输入至所述目标降噪模型,得到所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask;
第二确定子模块,用于根据所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask确定所述目标DOA估计模型。
在一个实施例中,所述第二确定子模块,包括:
获取单元,用于获取原始DOA估计模型;
确定单元,用于确定所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask分别对应的DOA标签,其中,所述DOA标签表示声源的方向。
提取单元,用于对所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask进行特征提取,以得到所述第一预设数目个第三语音特征;
输入单元,用于将所述第一预设数目个第三语音特征作为所述原始DOA估计模型的输入,将所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask分别对应的DOA标签作为所述原始DOA估计模型的输出来训练所述原始DOA估计模型,以得到所述目标DOA估计模型。
在一个实施例中,所述声源定位模块,包括
第二划分子模块,用于将所述待估计的多通道语音划分为第二预设数目个单通道语音;
第三提取子模块,用于对所述第二预设数目个单通道语音进行特征提取,以得到第二预设数目个第四语音特征;
第二输入子模块,用于将所述第二预设数目个第四语音特征输入至所述目标降噪模型,得到第二预设数目个单通道语音分别对应的纯净语音的语谱或mask;
第四提取子模块,用于对所述第二预设数目个单通道语音分别对应的纯净语音的语谱或mask进行特征提取,以得到第二预设数目个第五语音特征;
第三输入子模块,用于将所述第二预设数目个第五语音特征输入至所述目标DOA估计模型,得到估计的声源方向,得到所述估计的声源方向。
本发明的实施例提供的技术方案可以包括以下有益效果:
获取待估计的多通道语音;获取目标降噪模型及目标DOA估计模型;进而,基于目标降噪模型及目标DOA估计模型,对待估计的多通道语音进行声源定位,能够得到估计的声源方向,通过本发明技术方案,在进行声源定位时,基于目标降噪模型能够除去待估计的多通道语音中的噪音,然后,基于目标DOA估计模型能准确的进行声源定位,进而得到准确的声源方向。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明一实施例中一种声源定位方法的流程图;
图2为本发明一实施例中另一种声源定位方法的流程图;
图3为本发明一实施例中一种声源定位装置的框图;
图4为本发明一实施例中另一种声源定位方法的框图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1为本发明一实施例中一种声源定位方法的流程图,如图1所示,该方法可被实施为以下步骤S11-S13:
在步骤S11中,获取待估计的多通道语音;
在步骤S12中,获取目标降噪模型及目标DOA估计模型;其中,目标DOA估计模型可以是满足本发明需求的径向基(RBF)神经网络模型。
在步骤S13中,基于目标降噪模型及目标DOA估计模型,对待估计的多通道语音进行声源定位,以得到估计的声源方向。
获取待估计的多通道语音;获取目标降噪模型及目标DOA估计模型;进而,基于目标降噪模型及目标DOA估计模型,对待估计的多通道语音进行声源定位,能够得到估计的声源方向,通过本发明技术方案,在进行声源定位时,基于目标降噪模型能够除去待估计的多通道语音中的噪音,然后,基于目标DOA估计模型能准确的进行声源定位,进而得到准确的声源方向。
如图2所示,在一个实施例中,上述步骤S12可被实施为以下步骤S121-S125:
在步骤S121中,获取原始降噪模型;
在步骤S122中,获取若干条第一单通道带噪语音;
在步骤S123中,对若干条第一单通道带噪语音进行特征提取,以得到若干条第一语音特征;
在步骤S124中,确定若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask;其中,mask的意思为掩膜,且通过单个语音的mask,可以类似得到单个语音的一个语谱图。mask的值在0到1之间,代表的是一个频点属于语音的概率,当一个频点是语音时,其对应的mask的值会接近1,反之亦然。
在步骤S125中,将若干条第一语音特征作为原始降噪模型的输入,将若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask作为原始降噪模型的输出来训练原始降噪模型,以得到目标降噪模型。其中,纯净语音指的是没有噪音的语音。
上述技术方案,将若干条第一语音特征作为原始降噪模型的输入,将若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask作为原始降噪模型的输出来训练原始降噪模型,能够得到目标降噪模型,且该目标降噪模型的降噪能力强。
在一个实施例中,所述获取目标DOA估计模型,包括:
获取作为训练数据的多通道带噪语音;
将所述作为训练数据的多通道带噪语音划分为第一预设数目个第二单通道带噪语音;
对所述第一预设数目个第二单通道带噪语音进行特征提取,以得到第一预设数目个第二语音特征;
将所述第一预设数目个第二语音特征输入至所述目标降噪模型,得到所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask;
根据所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask确定所述目标DOA估计模型。
通过上述技术方案,根据第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask能够确定一个声源定位准确的,减少噪声对声源信息影响的目标DOA估计模型。
在一个实施例中,所述根据所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask确定所述目标DOA估计模型,包括:
获取原始DOA估计模型;
确定所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask分别对应的DOA标签,其中,所述DOA标签表示声源的方向。
对所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask进行特征提取,以得到所述第一预设数目个第三语音特征;
将所述第一预设数目个第三语音特征作为所述原始DOA估计模型的输入,将所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask分别对应的DOA标签作为所述原始DOA估计模型的输出来训练所述原始DOA估计模型,以得到所述目标DOA估计模型。
通过上述技术方案,由于mask的特征,在进行模型训练的时候,能够提高模型的性能,大大减少通过模型进行定位时噪声对声源信息的影响,并保存好有用的信息,使得目标DOA估计模型进行定位的更加简单、准确,性能也更加稳定,同时通过估计的纯净语谱提取的特征训练模型,性能也会大大提高。
在一个实施例中,所述基于所述目标降噪模型及目标DOA估计模型,对所述待估计的多通道语音进行声源定位,以得到估计的声源方向,包括
将所述待估计的多通道语音划分为第二预设数目个单通道语音;
对所述第二预设数目个单通道语音进行特征提取,以得到第二预设数目个第四语音特征;
将所述第二预设数目个第四语音特征输入至所述目标降噪模型,得到第二预设数目个单通道语音分别对应的纯净语音的语谱或mask;
对所述第二预设数目个单通道语音分别对应的纯净语音的语谱或mask进行特征提取,以得到第二预设数目个第五语音特征;
将所述第二预设数目个第五语音特征输入至所述目标DOA估计模型,得到估计的声源方向,得到所述估计的声源方向。
通过上述技术方案,排除噪声对声源定位的影响,准确的获取到估计的声源方向。
对本发明实施例提供的上述一种声源定位方法,本发明实施例还提供了一种声源定位装置,如图3所示,该装置包括:
第一获取模块31,用于获取待估计的多通道语音;
第二获取模块32,用于获取目标降噪模型及目标DOA估计模型;
声源定位模块33,用于基于所述目标降噪模型及目标DOA估计模型,对所述待估计的多通道语音进行声源定位,以得到估计的声源方向。
在一个实施例中,所述第二获取模块32,包括:
第一获取子模块321,用于获取原始降噪模型;
第二获取子模块322,用于获取若干条第一单通道带噪语音;
第一提取子模块323,用于对所述若干条第一单通道带噪语音进行特征提取,以得到若干条第一语音特征;
第一确定子模块324,用于确定所述若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask;
第一训练子模块325,用于将所述若干条第一语音特征作为所述原始降噪模型的输入,将所述若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask作为所述原始降噪模型的输出来训练所述原始降噪模型,以得到所述目标降噪模型。
在一个实施例中,所述第二获取模块,包括:
第三获取子模块,用于获取作为训练数据的多通道带噪语音;
第一划分子模块,用于将所述作为训练数据的多通道带噪语音划分为第一预设数目个第二单通道带噪语音;
第二提取子模块,用于对所述第一预设数目个第二单通道带噪语音进行特征提取,以得到第一预设数目个第二语音特征;
第一输入子模块,用于将所述第一预设数目个第二语音特征输入至所述目标降噪模型,得到所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask;
第二确定子模块,用于根据所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask确定所述目标DOA估计模型。
在一个实施例中,所述第二确定子模块,包括:
获取单元,用于获取原始DOA估计模型;
确定单元,用于确定所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask分别对应的DOA标签,其中,所述DOA标签表示声源的方向。
提取单元,用于对所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask进行特征提取,以得到所述第一预设数目个第三语音特征;
输入单元,用于将所述第一预设数目个第三语音特征作为所述原始DOA估计模型的输入,将所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask分别对应的DOA标签作为所述原始DOA估计模型的输出来训练所述原始DOA估计模型,以得到所述目标DOA估计模型。
在一个实施例中,所述声源定位模块,包括
第二划分子模块,用于将所述待估计的多通道语音划分为第二预设数目个单通道语音;
第三提取子模块,用于对所述第二预设数目个单通道语音进行特征提取,以得到第二预设数目个第四语音特征;
第二输入子模块,用于将所述第二预设数目个第四语音特征输入至所述目标降噪模型,得到第二预设数目个单通道语音分别对应的纯净语音的语谱或mask;
第四提取子模块,用于对所述第二预设数目个单通道语音分别对应的纯净语音的语谱或mask进行特征提取,以得到第二预设数目个第五语音特征;
第三输入子模块,用于将所述第二预设数目个第五语音特征输入至所述目标DOA估计模型,得到估计的声源方向,得到所述估计的声源方向。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种声源定位方法,其特征在于,包括:
获取待估计的多通道语音;
获取目标降噪模型及目标DOA估计模型;
基于所述目标降噪模型及目标DOA估计模型,对所述待估计的多通道语音进行声源定位,以得到估计的声源方向;
所述获取目标降噪模型,包括:
获取原始降噪模型;
获取若干条第一单通道带噪语音;
对所述若干条第一单通道带噪语音进行特征提取,以得到若干条第一语音特征;
确定所述若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask;
将所述若干条第一语音特征作为所述原始降噪模型的输入,将所述若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask作为所述原始降噪模型的输出来训练所述原始降噪模型,以得到所述目标降噪模型。
2.如权利要求1所述的方法,其特征在于,所述获取目标DOA估计模型,包括:
获取作为训练数据的多通道带噪语音;
将所述作为训练数据的多通道带噪语音划分为第一预设数目个第二单通道带噪语音;
对所述第一预设数目个第二单通道带噪语音进行特征提取,以得到第一预设数目个第二语音特征;
将所述第一预设数目个第二语音特征输入至所述目标降噪模型,得到所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask;
根据所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask确定所述目标DOA估计模型。
3.如权利要求2所述的方法,其特征在于,所述根据所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask确定所述目标DOA估计模型,包括:
获取原始DOA估计模型;
确定所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask分别对应的DOA标签,其中,所述DOA标签表示声源的方向;
对所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask进行特征提取,以得到所述第一预设数目个第三语音特征;
将所述第一预设数目个第三语音特征作为所述原始DOA估计模型的输入,将所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask分别对应的DOA标签作为所述原始DOA估计模型的输出来训练所述原始DOA估计模型,以得到所述目标DOA估计模型。
4.如权利要求1所述的方法,其特征在于,所述基于所述目标降噪模型及目标DOA估计模型,对所述待估计的多通道语音进行声源定位,以得到估计的声源方向,包括
将所述待估计的多通道语音划分为第二预设数目个单通道语音;
对所述第二预设数目个单通道语音进行特征提取,以得到第二预设数目个第四语音特征;
将所述第二预设数目个第四语音特征输入至所述目标降噪模型,得到第二预设数目个单通道语音分别对应的纯净语音的语谱或mask;
对所述第二预设数目个单通道语音分别对应的纯净语音的语谱或mask进行特征提取,以得到第二预设数目个第五语音特征;
将所述第二预设数目个第五语音特征输入至所述目标DOA估计模型,得到所述估计的声源方向。
5.一种声源定位装置,其特征在于,包括:
第一获取模块,用于获取待估计的多通道语音;
第二获取模块,用于获取目标降噪模型及目标DOA估计模型;
声源定位模块,用于基于所述目标降噪模型及目标DOA估计模型,对所述待估计的多通道语音进行声源定位;
所述第二获取模块,包括:
第一获取子模块,用于获取原始降噪模型;
第二获取子模块,用于获取若干条第一单通道带噪语音;
第一提取子模块,用于对所述若干条第一单通道带噪语音进行特征提取,以得到若干条第一语音特征;
第一确定子模块,用于确定所述若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask;
第一训练子模块,用于将所述若干条第一语音特征作为所述原始降噪模型的输入,将所述若干条第一单通道带噪语音分别对应的纯净语音的语谱或mask作为所述原始降噪模型的输出来训练所述原始降噪模型,以得到所述目标降噪模型。
6.如权利要求5所述的装置,其特征在于,所述第二获取模块,包括:
第三获取子模块,用于获取作为训练数据的多通道带噪语音;
第一划分子模块,用于将所述作为训练数据的多通道带噪语音划分为第一预设数目个第二单通道带噪语音;
第二提取子模块,用于对所述第一预设数目个第二单通道带噪语音进行特征提取,以得到第一预设数目个第二语音特征;
第一输入子模块,用于将所述第一预设数目个第二语音特征输入至所述目标降噪模型,得到所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask;
第二确定子模块,用于根据所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask确定所述目标DOA估计模型。
7.如权利要求6所述的装置,其特征在于,所述第二确定子模块,包括:
获取单元,用于获取原始DOA估计模型;
确定单元,用于确定所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask分别对应的DOA标签,其中,所述DOA标签表示声源的方向;
提取单元,用于对所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask进行特征提取,以得到所述第一预设数目个第三语音特征;
输入单元,用于将所述第一预设数目个第三语音特征作为所述原始DOA估计模型的输入,将所述第一预设数目个第二单通道带噪语音分别对应的纯净语音的语谱或mask分别对应的DOA标签作为所述原始DOA估计模型的输出来训练所述原始DOA估计模型,以得到所述目标DOA估计模型。
8.如权利要求5所述的装置,其特征在于,所述声源定位模块,包括
第二划分子模块,用于将所述待估计的多通道语音划分为第二预设数目个单通道语音;
第三提取子模块,用于对所述第二预设数目个单通道语音进行特征提取,以得到第二预设数目个第四语音特征;
第二输入子模块,用于将所述第二预设数目个第四语音特征输入至所述目标降噪模型,得到第二预设数目个单通道语音分别对应的纯净语音的语谱或mask;
第四提取子模块,用于对所述第二预设数目个单通道语音分别对应的纯净语音的语谱或mask进行特征提取,以得到第二预设数目个第五语音特征;
第三输入子模块,用于将所述第二预设数目个第五语音特征输入至所述目标DOA估计模型,得到所述估计的声源方向。
CN202010256529.5A 2020-04-02 2020-04-02 一种声源定位方法及装置 Active CN111596261B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010256529.5A CN111596261B (zh) 2020-04-02 2020-04-02 一种声源定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010256529.5A CN111596261B (zh) 2020-04-02 2020-04-02 一种声源定位方法及装置

Publications (2)

Publication Number Publication Date
CN111596261A CN111596261A (zh) 2020-08-28
CN111596261B true CN111596261B (zh) 2022-06-14

Family

ID=72185464

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010256529.5A Active CN111596261B (zh) 2020-04-02 2020-04-02 一种声源定位方法及装置

Country Status (1)

Country Link
CN (1) CN111596261B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112788482B (zh) * 2021-03-01 2021-07-30 北京电信易通信息技术股份有限公司 一种麦克风阵列定位与云台联动的方法、装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019035851A (ja) * 2017-08-15 2019-03-07 日本電信電話株式会社 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム
CN109712611A (zh) * 2018-12-28 2019-05-03 苏州思必驰信息科技有限公司 联合模型训练方法及系统
CN109839612A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法
CN110517701A (zh) * 2019-07-25 2019-11-29 华南理工大学 一种麦克风阵列语音增强方法及实现装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886858B (zh) * 2014-03-11 2016-10-05 中国科学院信息工程研究所 一种声掩蔽信号产生方法和系统
US10455325B2 (en) * 2017-12-28 2019-10-22 Knowles Electronics, Llc Direction of arrival estimation for multiple audio content streams
US10553236B1 (en) * 2018-02-27 2020-02-04 Amazon Technologies, Inc. Multichannel noise cancellation using frequency domain spectrum masking
WO2019187589A1 (ja) * 2018-03-29 2019-10-03 ソニー株式会社 音源方向推定装置、音源方向推定方法、プログラム
CN110867178B (zh) * 2018-08-28 2022-01-21 中国科学院声学研究所 一种多通道远场语音识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019035851A (ja) * 2017-08-15 2019-03-07 日本電信電話株式会社 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム
CN109839612A (zh) * 2018-08-31 2019-06-04 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法
CN109712611A (zh) * 2018-12-28 2019-05-03 苏州思必驰信息科技有限公司 联合模型训练方法及系统
CN110517701A (zh) * 2019-07-25 2019-11-29 华南理工大学 一种麦克风阵列语音增强方法及实现装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Learning soft mask with DNN and DNN-SVM for multi-speaker DOA estimation using an acoustic vector sensor;Wang, Disong;《JOURNAL OF THE FRANKLIN INSTITUTE-ENGINEERING AND APPLIED MATHEMATICS》;20180329;全文 *
ONLINE DIRECTION OF ARRIVAL ESTIMATION BASED ON DEEP LEARNING;Li, Qinglong;《2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》;20181025;全文 *
低信噪比环境下语音识别的鲁棒性方法研究;刘伟波等;《声学技术》;20191215(第06期);全文 *
基于深度学习的在线波达方向估计方法研究;李庆龙;《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》;20190115;全文 *
基于深度神经网络的单通道语音增强方法回顾;鲍长春等;《信号处理》;20191225(第12期);全文 *

Also Published As

Publication number Publication date
CN111596261A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
JP7008638B2 (ja) 音声認識
Erdogan et al. Improved mvdr beamforming using single-channel mask prediction networks.
US9697826B2 (en) Processing multi-channel audio waveforms
CN107077860B (zh) 用于将有噪音频信号转换为增强音频信号的方法
US9666183B2 (en) Deep neural net based filter prediction for audio event classification and extraction
CN110970053B (zh) 一种基于深度聚类的多通道与说话人无关语音分离方法
CN105161093B (zh) 一种判断说话人数目的方法及系统
CN109427328B (zh) 一种基于滤波网络声学模型的多通道语音识别方法
Wang et al. Recurrent deep stacking networks for supervised speech separation
CN110060665A (zh) 语速检测方法及装置、可读存储介质
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
CN110047478B (zh) 基于空间特征补偿的多通道语音识别声学建模方法及装置
Braun et al. Multi-channel attention for end-to-end speech recognition
CN107689223A (zh) 一种音频识别方法及装置
CN111031463A (zh) 麦克风阵列性能评测方法、装置、设备和介质
Mack et al. Single-Channel Dereverberation Using Direct MMSE Optimization and Bidirectional LSTM Networks.
Martinez et al. DNN-based performance measures for predicting error rates in automatic speech recognition and optimizing hearing aid parameters
CN111868823A (zh) 一种声源分离方法、装置及设备
KR20210137146A (ko) 큐의 클러스터링을 사용한 음성 증강
Hasan et al. Preprocessing of continuous bengali speech for feature extraction
CN111596261B (zh) 一种声源定位方法及装置
CN113870893A (zh) 一种多通道双说话人分离方法及系统
US20230116052A1 (en) Array geometry agnostic multi-channel personalized speech enhancement
Menne et al. Speaker adapted beamforming for multi-channel automatic speech recognition
CN111103568A (zh) 一种声源定位方法、装置、介质和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant