CN116935883B - 声源定位方法、装置、存储介质及电子设备 - Google Patents

声源定位方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN116935883B
CN116935883B CN202311181239.9A CN202311181239A CN116935883B CN 116935883 B CN116935883 B CN 116935883B CN 202311181239 A CN202311181239 A CN 202311181239A CN 116935883 B CN116935883 B CN 116935883B
Authority
CN
China
Prior art keywords
current
channel
separation
voice
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311181239.9A
Other languages
English (en)
Other versions
CN116935883A (zh
Inventor
鲁勇
李逸洋
张新科
崔潇潇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Intengine Technology Co Ltd
Original Assignee
Beijing Intengine Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Intengine Technology Co Ltd filed Critical Beijing Intengine Technology Co Ltd
Priority to CN202311181239.9A priority Critical patent/CN116935883B/zh
Publication of CN116935883A publication Critical patent/CN116935883A/zh
Application granted granted Critical
Publication of CN116935883B publication Critical patent/CN116935883B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Abstract

本申请公开了一种声源定位方法、装置、存储介质及电子设备,其中,该声源定位方法采用获取当前音频帧,并将当前音频帧转换为对应的当前频域信号;对当前频域信号进行盲源分离,得到各通道的当前分离信号;分别对各通道的当前分离信号进行预处理,以确定目标语音通道;获取目标语音通道中各频点的语音方向估计值;对各频点的语音方向估计值进行综合处理,生成当前音频帧中目标语音的方向估计值。本方案可以提高对语音的声源定位准确性。

Description

声源定位方法、装置、存储介质及电子设备
技术领域
本申请涉及音频处理技术领域,具体涉及一种声源定位方法、装置、存储介质及电子设备。
背景技术
随着社会进步和科技发展,语音逐渐成为了一种便捷的人机交互方式,越来越多的家庭拥有了具有语音交互功能的智能设备。
但在智能家居场景中,往往同时存在多个声源,智能设备接收到的语音信号通常会受到噪声、混响等环境因素的影响,导致智能设备出现对语音的声源定位不准确及语音识别结果不理想的问题,严重影响用户体验。
发明内容
本申请实施例提供了一种声源定位方法、装置、存储介质及电子设备,可以提高对语音的声源定位准确性。
第一方面,本申请实施例提供了一种声源定位方法,包括:
获取当前音频帧,并将所述当前音频帧转换为对应的当前频域信号;
对所述当前频域信号进行盲源分离,得到各通道的当前分离信号;
分别对各通道的当前分离信号进行预处理,以确定目标语音通道;
获取所述目标语音通道中各频点的语音方向估计值;
对各频点的语音方向估计值进行综合处理,生成所述当前音频帧中目标语音的方向估计值。
在本申请实施例提供的声源定位方法中,所述对所述当前频域信号进行盲源分离,得到各通道的当前分离信号,包括:
获取各通道的加权协方差矩阵和上一音频帧的历史分离矩阵;
利用所述加权协方差矩阵对所述历史分离矩阵进行更新,得到所述当前音频帧的当前分离矩阵;
利用所述当前分离矩阵对所述当前频域信号进行解混合处理,得到各通道的当前分离信号。
在本申请实施例提供的声源定位方法中,所述获取各通道的加权协方差矩阵和上一音频帧的历史分离矩阵,包括:
获取上一音频帧的历史分离矩阵;
利用所述历史分离矩阵对所述当前频域信号进行解混合处理,得到各通道的初始分离信号;
基于所述初始分离信号计算各通道的加权协方差矩阵。
在本申请实施例提供的声源定位方法中,所述基于所述初始分离信号计算各通道的加权协方差矩阵,包括;
获取所述当前频域信号的协方差矩阵;
根据所述初始分离信号计算各通道的加权系数;
根据所述加权系数对所述协方差矩阵进行平滑处理,得到各通道的加权协方差矩阵。
在本申请实施例提供的声源定位方法中,在所述利用所述加权协方差矩阵对所述历史分离矩阵进行更新,得到所述当前音频帧的当前分离矩阵之后,所述利用所述当前分离矩阵对所述当前频域信号进行解混合处理,得到各通道的当前分离信号之前,还包括:
对所述当前分离矩阵进行幅度校正。
在本申请实施例提供的声源定位方法中,所述获取所述目标语音通道中各频点的语音方向估计值,包括:
将所述目标语音通道中各频点的当前分离矩阵转换为角度谱函数;
根据所述角度谱函数确定所述目标语音通道中各频点的语音方向估计值。
在本申请实施例提供的声源定位方法中,所述根据所述角度谱函数确定所述目标语音通道中各频点的语音方向估计值,包括:
获取所述目标语音通道中各频点的角度谱函数的最大值;
确定所述最大值对应的方位角和俯仰角;
将所述方位角和所述俯仰角进行组合,得到所述目标语音通道中各频点的语音方向估计值。
第二方面,本申请实施例提供了一种声源定位装置,包括:
转换单元,用于获取当前音频帧,并将所述当前音频帧转换为对应的当前频域信号;
分离单元,用于对所述当前频域信号进行盲源分离,得到各通道的当前分离信号;
识别单元,用于分别对各通道的当前分离信号进行预处理,以确定目标语音通道;
预估单元,用于获取所述目标语音通道中各频点的语音方向估计值;
定位单元,用于对各频点的语音方向估计值进行综合处理,生成所述当前音频帧中目标语音的方向估计值。
第三方面,本申请提供了一种存储介质,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行上述任一项所述的声源定位方法。
第四方面,本申请提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现上述任一项所述的声源定位方法。
综上所述,本申请实施例提供的声源定位方法采用获取当前音频帧,并将所述当前音频帧转换为对应的当前频域信号;对所述当前频域信号进行盲源分离,得到各通道的当前分离信号;分别对各通道的当前分离信号进行预处理,以确定目标语音通道;获取所述目标语音通道中各频点的语音方向估计值;对各频点的语音方向估计值进行综合处理,生成所述当前音频帧中目标语音的方向估计值。本方案可以通过将当前音频帧转换为对应的当前频域信号,然后对当前频域信号进行盲源分离,以确定目标语音通道,之后再基于该目标语音通道获取目标语音的方向估计值,排除了环境因素对目标语音的影响,进而提高对语音的声源定位准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的声源定位方法的流程示意图。
图2是本申请实施例提供的声源定位装置的结构示意图。
图3是本申请实施例提供的电子设备的结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素,此外,本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义,也可能具有不同含义,其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或者“单元”的后缀仅为了有利于本申请的说明,其本身没有特定的意义。因此,“模块”、“部件”或者“单元”可以混合地使用。
在本申请的描述中,需要说明的是,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。此外,“第一”、“第二”等术语仅用于描述目的,而不能理解为指示或暗示相对重要性。
智能家居场景中,往往同时存在多个声源,智能设备接收到的语音信号通常会受到噪声、混响等环境因素的影响,导致智能设备出现对语音的声源定位不准确及语音识别结果不理想的问题,严重影响用户体验。
基于此,本申请实施例提供了一种声源定位方法、装置、存储介质及电子设备,具体的,该声源定位装置可以集成在电子设备中,该电子设备可以是服务器,也可以是终端等设备;其中,该终端可以包括手机、穿戴式智能设备、平板电脑、笔记本电脑、以及个人计算机(Personal Computer,PC)等;该服务器可以是单台服务器,也可以是由多个服务器组成的服务器集群,可以是实体的服务器,也可是虚拟服务器。
以下将通过具体实施例分别对本申请所示的技术方案进行详细说明。需要说明的是,以下实施例的描述顺序不作为对实施例优先顺序的限定。
请参阅图1,图1是本申请实施例提供的声源定位方法的流程示意图。该声源定位方法的具体流程可以如下:
101、获取当前音频帧,并将当前音频帧转换为对应的当前频域信号。
在具体实施过程中,可以通过电子设备的麦克风阵列采集当前语音信号。之后,再对该当前语音信号进行分帧处理,从而得到待处理的当前音频帧。其中,分帧处理可以是按照固定的时间长度对语音信号进行分帧,然后对每一帧数据进行封装,就可以得到至少一个待处理的当前音频帧。每一待处理的当前音频帧可以包括整个音频频段,也可以包括部分音频频段。之后,可以对该当前音频帧依次进行加窗和傅里叶变化等处理,从而将该当前音频帧由时域信号转换为对应的频域信号。可以理解的是,当前音频帧为多通道音频帧。
需要说明的是,麦克风阵列可以是规则阵列,如线阵、面阵、圆阵和立体阵等阵列形式,也可以是不规则阵列;麦克风阵列的麦克风通道数至少为两个;麦克风阵列的结构信息(阵列构型和麦克风间距)已知。麦克风阵列接收到的语音信号包含设备本机噪音、外界干扰、还有可能包含用户语音指令。用户语音指令指的是在智能家居场景下,用户可以通过唤醒词唤醒设备,也可以通过命令词使设备执行相应操作。
比如,假设麦克风阵列共有个麦克风,第/>个麦克风的坐标为,其中,/>、/>和/>分别表示第/>个麦克风的横坐标、纵坐标和竖坐标。此时,对麦克风阵列接收到的/>个通道时域信号(当前语音信号)分别进行分帧、加窗和傅里叶变换,将多通道时域信号(当前语音信号)转换为对应的当前频域信号,具体可以如下:
其中,表示麦克风阵列第/>个麦克风通道在第/>帧、第/>个频点的频域信号;若采样率为/>,帧长为/>,帧移为/>,窗长为/>,傅里叶变换点数为/>,那么对应的频域信号共有/>个频点,频率间隔为/>,/>表示转置操作。需要说明的是,加窗时窗函数可选汉明窗、汉宁窗等常用窗函数。
102、对当前频域信号进行盲源分离,得到各通道的当前分离信号。
可以理解的是,麦克风阵列接收到的当前语音信号是包含本机噪音、外界干扰以及用户语音指令等分量在内的混合信号。若直接对该原始混合信号进行语音识别,则有可能因为在噪声环境中信噪比不高,导致识别率较低,十分影响用户体验。因此,在噪声环境中,有必要对原始信号进行语音增强或降噪处理。而盲源分离可以将混合在一起的多个源信号分离成多个单独的信号通道。也就是说,经过盲源分离算法处理后,用户语音指令分量将被分离成一个信号通道,该通道的设备本机噪音、外界干扰将明显减少。同样,设备本机噪音、外界干扰等分量将被分离成其他通道,其他通道的用户语音指令将被减弱。显然,由于语音通道主要包含用户语音指令,因此对语音通道进行语音识别,在噪声环境中的识别率便可以得到提高,从而改善用户使用体验。
需要说明的是,盲源分离算法包括但不限于独立成分分析(IndependentComponent Analysis,ICA)类、独立向量分析( Independent Vector Analysis,IVA)类、非负矩阵分解( Non-negative Matrix Factorization,NMF)类等算法。在具体实施过程中,可以根据麦克风阵列通道数与分离信号通道数的关系,将盲源分离的信号模型划分为正定模型、超定模型以及欠定模型。通常,一般设置为麦克风通道数与分离信号通道数相等的正定模型。
根据实现方式的不同,可以将盲源分离划分为批处理的离线处理方式,以及实时处理的在线处理方式,但对于批处理而言,需要缓存一定时长的多通道原始信号,不适合有实时处理需求的应用场景。因此,本申请实施例采用正定模型的在线辅助函数(auxiliary-function IVA,auxIVA)算法,该算法可避免盲源分离在频域的顺序不确定性,且无需缓存语音信号,可应用于对语音信号进行实时处理。
在具体实施过程中,可以获取各通道的加权协方差矩阵和上一音频帧的历史分离矩阵;利用加权协方差矩阵对历史分离矩阵进行更新,得到当前音频帧的当前分离矩阵;利用当前分离矩阵对当前频域信号进行解混合处理,得到各通道的当前分离信号。
其中,步骤“获取各通道的加权协方差矩阵和上一音频帧的历史分离矩阵”可以包括:
1021、获取上一音频帧的历史分离矩阵。
1022、利用历史分离矩阵对当前频域信号进行解混合处理,得到各通道的初始分离信号。
在一实施例中,初始分离信号的具体获取方式可以如下:
其中,表示第/>帧、第/>个频点基于上一音频帧的历史分离矩阵获取的初始分离信号,/>表示第/>帧、第/>个频点的分离矩阵,/>,/>表示单位阵,表示转置共轭操作,/>表示当前频域信号。
1023、基于初始分离信号计算各通道的加权协方差矩阵。
在一些实施例中,步骤1023可以包括:
(1)获取当前频域信号的协方差矩阵。其具体的获取方式可以如下:
其中,表示第/>帧、第/>个频点的协方差矩阵。
(2)根据初始分离信号计算各通道的加权系数。其具体计算方式可以如下:
其中,表示第/>帧各通道的加权系数。
(3)根据加权系数对协方差矩阵进行平滑处理,得到各通道的加权协方差矩阵。其具体的过程可以如下:
其中,表示第/>帧、第/>个频点各通道的加权协方差矩阵,/>,/>表示全零阵,/>表示加权协方差矩阵平滑系数。
在一些实施例中,步骤“利用加权协方差矩阵对历史分离矩阵进行更新,得到当前音频帧的当前分离矩阵”的具体过程可以如下:
其中,表示第/>个通道、第/>帧、第/>个频点的分离矩阵,/>表示第个通道、第/>帧、第/>个频点的加权协方差矩阵,/>表示仅有第/>个元素为1的辅助向量,/>表示求逆矩阵。
在一些实施例中,在利用加权协方差矩阵对历史分离矩阵进行更新,得到当前音频帧的当前分离矩阵之后,还可以对当前分离矩阵进行幅度校正,具体可以如下:
其中,表示取对角线元素操作。可以理解的是,由于盲源分离没有源信号和信道的先验信息,因此存在固有的幅度不确定性问题,经过幅度校正可以使当前分离信号的幅度与当前语音信号基本一致。
在一些实施例中,步骤“利用当前分离矩阵对当前频域信号进行解混合处理,得到各通道的当前分离信号”具体可以如下:
其中,表示第/>帧、第/>个频点的当前分离信号。
103、分别对各通道的当前分离信号进行预处理,以确定目标语音通道。
需要说明的是,虽然auxIVA算法可以避免分离信号在频域上的顺序不确定性,但分离信号的整体输出顺序仍然不确定。由于经过盲源分离算法处理后,各通道包含的声源信息不同,因此要想实现对待识别声源的声源定位,就有必要挑选出分离信号中的目标语音通道。
在一些实施例中,可以根据各通道的当前分离信号的语音识别结果确定目标语音通道。具体的,可以分别提取各通道的当前分离信号的特征参数;然后,将特征参数输入至识别网络,得到各通道的语音识别置信度;最后,基于各通道的语音识别置信度确定是否识别到用户语音指令,以确定目标语音通道。
需要说明的是,提取特征参数指的是从当前分离信号中提取一组能够描述语音信号或数据特征的参数以便进行语音识别,比如滤波器组(Filter bank,Fbank)特征参数。识别网络指的是通过级联神经网络和隐马尔可夫模型搭建并使用增广后的语音训练好的语音识别系统。语音数据增广指的是,首先对干净音频添加混响,得到混响音频,接着根据指定的信噪比范围,分别计算混响音频能量和噪声音频能量得到信噪比系数,然后在混响音频上叠加相应比例的噪声得到带噪音频,最后根据指定的幅度范围,生成幅度系数随机的带噪音频,即增广语音。语音识别置信度指的是用户语音指令通过语音识别模型得到的后验概率。
可以理解的是,当至少一个通道的语音识别置信度超过预设门限时,可以认为识别到用户语音指令,并将语音识别置信度超过预设门限的通道记为目标语音通道,目标语音通道可能有多个。当所有通道的语音识别置信度均没有超过预设门限时,可以认为没有识别到用户语音指令,没有目标语音通道。
当用户发出语音指令时,当前语音信号的能量将明显增大,因此,在另一实施例中,可以根据各通道的当前分离信号的参数信息确定目标语音通道。具体的,可以先缓存各通道的当前分离信号的频域能量,并根据频域能量确定初始语音通道;然后提取该初始语音通道的特征参数,并将该特征参数输入至识别网络,得到语音识别置信度;基于该语音识别置信度确定是否识别到用户语音指令,以确定目标语音通道。
比如,可以先计算各通道的当前分离信号的频域能量:
其中,表示第/>帧各通道分离信号的频域能量;并将各通道的当前分离信号的频域能量缓存至大小为/>帧的频域能量缓存区,其中,/>为与待识别语音长度有关的数值。
然后,计算频域能量缓存区内各通道帧内的频域能量和,并计算所有通道频域能量和的平均值/>。将频域能量和超过/>的通道记为初始语音通道,其中,/>为能量门限比例系数,初始语音通道可能有多个。
最后,提取初始语音通道的Fbank特征参数,并将特征参数送入预先使用增广后语音训练好的识别网络中进行识别,得到语音识别置信度。
可以理解的是,当至少一个初始语音通道的语音识别置信度超过预设门限时,可以认为识别到用户语音指令,并将语音识别置信度超过预设门限的初始语音通道记为目标语音通道,目标语音通道可能有多个。当所有初始语音通道的语音识别置信度均没有超过预设门限时,可以认为没有识别到用户语音指令,没有目标语音通道。
104、获取目标语音通道中各频点的语音方向估计值。
具体的,可以将目标语音通道中各频点的当前分离矩阵转换为角度谱函数;根据角度谱函数确定目标语音通道中各频点的语音方向估计值。
在一些实施例中,将目标语音通道中各频点的当前分离矩阵转换为角度谱函数具体可以如下:
其中,表示目标语音通道、第/>帧、第/>个频点的角度谱函数,/>表示目标语音通道、第/>帧、第/>个频点的当前分离矩阵,
表示第/>个频点的阵列流型矩阵,其中,/>表示方位角,/>表示俯仰角,
表示预先设定好的/>个方位角观测集合/>中第/>个方位角,/>个俯仰角观测集合中第/>个俯仰角对应的导向矢量,/>、/>和/>分别表示麦克风阵列的横坐标向量、纵坐标向量和竖坐标向量,/>表示声速,/>表示虚数单位。
需要说明的是,若存在多个目标语音通道,则根据各目标语音通道的语音识别置信度对各目标语音通道的角度谱函数进行加权求和。
在一些实施例中,步骤“根据角度谱函数确定目标语音通道中各频点的语音方向估计值”可以包括:
获取目标语音通道中各频点的角度谱函数的最大值;
确定最大值对应的方位角和俯仰角;
将方位角和俯仰角进行组合,得到目标语音通道中各频点的语音方向估计值。
105、对各频点的语音方向估计值进行综合处理,生成当前音频帧中目标语音的方向估计值。
具体的,可以采用直接平均或加权平均等方法进行综合处理。可选地,若已知目标语音的频率分布,则可仅对目标语音所在的频段进行综合处理。
可以理解的是,当生成当前音频帧中目标语音的方向估计值之后,可以对目标语音进行精确识别,从而使得电子设备根据识别结果执行相应操作。
本申请实施例提出了一种基于盲源分离+分离矩阵转换来实现声源定位的方法。具体来说,可控功率响应声源定位算法,是利用波束形成权矢量得到空域的角度谱函数,从而实现声源定位。类似地,在盲源分离的分离矩阵中,每一个分离矩阵都可以看作是一个“波束形成器”,同样可以将其转换为空域的角度谱函数。但不同的是,可控功率响应声源定位算法只存在一个角度谱函数,直接根据角度谱函数峰值便可以得到目标语音方向的估计值。而盲源分离的多个分离矩阵对应多个分离通道,也就是说,需要事先判断哪一个分离通道为目标语音通道,才能在将目标语音通道的分离矩阵转换为角度谱函数后,根据角度谱函数峰值得到目标语音方向的估计值。通过该方法,仅经过一步转换,便可以利用盲源分离的中间变量实现基于盲源分离的声源定位,运算复杂度及内存需求均较低。并且,与基于到达时间差(Time Difference of Arrival,TDOA)的声源定位算法相比,基于盲源分离的声源定位算法还可以区分方位较近的目标,具有超分辨的效果。
也即,与现有技术相比,针对智能家居噪声/混响场景中识别率不高的问题,本申请实施例可以同时实现语音增强与声源定位两种功能。一方面通过盲源分离算法处理提高了识别率,改善了用户体验,另一方面将盲源分离的分离矩阵转换成角度谱函数,无需常规声源定位算法步骤,仅通过中间变量实现了一种准确率较高、运算复杂度较低、存储需求较小且具有超分辨效果的声源定位算法,可应用在智能家居场景中区分距离较近的声源进而指导相关功能实现,如基于方向信息的就近唤醒。
综上,本申请实施例提供的声源定位方法采用获取当前音频帧,并将当前音频帧转换为对应的当前频域信号;对当前频域信号进行盲源分离,得到各通道的当前分离信号;分别对各通道的当前分离信号进行预处理,以确定目标语音通道;获取目标语音通道中各频点的语音方向估计值;对各频点的语音方向估计值进行综合处理,生成当前音频帧中目标语音的方向估计值。本方案可以通过将当前音频帧转换为对应的当前频域信号,然后对当前频域信号进行盲源分离,以确定目标语音通道,之后再基于该目标语音通道获取目标语音的方向估计值,排除了环境因素对目标语音的影响,进而提高对语音的声源定位准确性。
为便于更好的实施本申请实施例提供的声源定位方法,本申请实施例还提供了一种声源定位装置。其中名词的含义与上述声源定位方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图2,图2是本申请实施例提供的声源定位装置的结构示意图。该声源定位装置可以包括转换单元201、分离单元202、识别单元203、预估单元204和定位单元205。其中,
转换单元201,用于获取当前音频帧,并将当前音频帧转换为对应的当前频域信号;
分离单元202,用于对当前频域信号进行盲源分离,得到各通道的当前分离信号;
识别单元203,用于分别对各通道的当前分离信号进行预处理,以确定目标语音通道;
预估单元204,用于获取目标语音通道中各频点的语音方向估计值;
定位单元205,用于对各频点的语音方向估计值进行综合处理,生成当前音频帧中目标语音的方向估计值。
以上各个单元的具体实施方式可参见上述的声源定位方法的实施例,在此不再一一赘述。
综上,本申请实施例提供的声源定位装置可以通过转换单元201获取当前音频帧,并将当前音频帧转换为对应的当前频域信号;由分离单元202对当前频域信号进行盲源分离,得到各通道的当前分离信号;由识别单元203分别对各通道的当前分离信号进行预处理,以确定目标语音通道;由预估单元204获取目标语音通道中各频点的语音方向估计值;由定位单元205对各频点的语音方向估计值进行综合处理,生成当前音频帧中目标语音的方向估计值。本方案可以通过将当前音频帧转换为对应的当前频域信号,然后对当前频域信号进行盲源分离,以确定目标语音通道,之后再基于该目标语音通道获取目标语音的方向估计值,排除了环境因素对目标语音的影响,进而提高对语音的声源定位准确性。
本申请实施例还提供一种电子设备,其中可以集成有本申请实施例的声源定位装置,如图3所示,其示出了本申请实施例所涉及的电子设备的结构示意图,具体来讲:
该电子设备可以包括射频(Radio Frequency,RF)电路601、包括有一个或一个以上计算机可读存储介质的存储器602、输入单元603、显示单元604、传感器605、音频电路606、无线保真(Wireless Fidelity,WiFi)模块607、包括有一个或者一个以上处理核心的处理器608、以及电源609等部件。本领域技术人员可以理解,图3中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路601可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器608处理;另外,将涉及上行的数据发送给基站。通常,RF电路601包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(Subscriber Identity Module,SIM)卡、收发信机、耦合器、低噪声放大器(LowNoise Amplifier,LNA)、双工器等。此外,RF电路601还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobile communication,GSM)、通用分组无线服务(General PacketRadio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
存储器602可用于存储软件程序以及模块,处理器608通过运行存储在存储器602的软件程序以及模块,从而执行各种功能应用以及信息处理。存储器602可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器602可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器602还可以包括存储器控制器,以提供处理器608和输入单元603对存储器602的访问。
输入单元603可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,在一个具体的实施例中,输入单元603可包括触敏表面以及其他输入设备。触敏表面,也称为触摸显示屏或者触控板,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作),并根据预先设定的程式驱动相应的连接装置。可选的,触敏表面可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器608,并能接收处理器608发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面,输入单元603还可以包括其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元604可用于显示由用户输入的信息或提供给用户的信息以及电子设备的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元604可包括显示面板,可选的,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板。进一步的,触敏表面可覆盖显示面板,当触敏表面检测到在其上或附近的触摸操作后,传送给处理器608以确定触摸事件的类型,随后处理器608根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图3中,触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能,但是在某些实施例中,可以将触敏表面与显示面板集成而实现输入和输出功能。
电子设备还可包括至少一种传感器605,比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板的亮度,接近传感器可在电子设备移动到耳边时,关闭显示面板和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等; 至于电子设备还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路606、扬声器,传声器可提供用户与电子设备之间的音频接口。音频电路606可将接收到的音频数据转换后的电信号,传输到扬声器,由扬声器转换为声音信号输出;另一方面,传声器将收集的声音信号转换为电信号,由音频电路606接收后转换为音频数据,再将音频数据输出处理器608处理后,经RF电路601以发送给比如另一电子设备,或者将音频数据输出至存储器602以便进一步处理。音频电路606还可能包括耳塞插孔,以提供外设耳机与电子设备的通信。
WiFi属于短距离无线传输技术,电子设备通过WiFi模块607可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图3,示出了WiFi模块607,但是可以理解的是,其并不属于电子设备的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器608是电子设备的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器602内的软件程序和/或模块,以及调用存储在存储器602内的数据,执行电子设备的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器608可包括一个或多个处理核心;优选的,处理器608可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器608中。
电子设备还包括给各个部件供电的电源609(比如电池),优选的,电源可以通过电源管理系统与处理器608逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源609还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,电子设备还可以包括摄像头、蓝牙模块等,在此不再赘述。具体在本实施例中,电子设备中的处理器608会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器602中,并由处理器608来运行存储在存储器602中的应用程序,从而实现各种功能,比如:
获取当前音频帧,并将当前音频帧转换为对应的当前频域信号;
对当前频域信号进行盲源分离,得到各通道的当前分离信号;
分别对各通道的当前分离信号进行预处理,以确定目标语音通道;
获取目标语音通道中各频点的语音方向估计值;
对各频点的语音方向估计值进行综合处理,生成当前音频帧中目标语音的方向估计值。
综上,本申请实施例提供的电子设备采用获取当前音频帧,并将当前音频帧转换为对应的当前频域信号;对当前频域信号进行盲源分离,得到各通道的当前分离信号;分别对各通道的当前分离信号进行预处理,以确定目标语音通道;获取目标语音通道中各频点的语音方向估计值;对各频点的语音方向估计值进行综合处理,生成当前音频帧中目标语音的方向估计值。本方案可以通过将当前音频帧转换为对应的当前频域信号,然后对当前频域信号进行盲源分离,以确定目标语音通道,之后再基于该目标语音通道获取目标语音的方向估计值,排除了环境因素对目标语音的影响,进而提高对语音的声源定位准确性。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对声源定位方法的详细描述,此处不再赘述。
需要说明的是,对本申请实施例中的声源定位方法而言,本领域技术人员可以理解实现本申请实施例中的声源定位方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,如存储在终端的存储器中,并被该终端内的至少一个处理器执行,在执行过程中可包括如声源定位方法的实施例的流程。
对本申请实施例的声源定位装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,还可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种声源定位方法中的步骤。其中,该存储介质可以为磁碟、光盘、只读存储器(Read Only MeMory,ROM)、随机存取记忆体(RandomAccess Memory,RAM)等。
以上分别对本申请所提供的声源定位方法、装置、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。

Claims (9)

1.一种声源定位方法,其特征在于,包括:
获取当前音频帧,并将所述当前音频帧转换为对应的当前频域信号;
对所述当前频域信号进行盲源分离,得到各通道的当前分离信号;
分别获取各通道的当前分离信号的频域能量,并根据频域能量确定初始语音通道;
提取所述初始语音通道的特征参数,并将所述特征参数输入至识别网络,得到语音识别置信度;
基于所述语音识别置信度确定是否识别到用户语音指令,以确定目标语音通道;
将所述目标语音通道中各频点的当前分离矩阵转换为角度谱函数,具体为:
其中,表示目标语音通道、第/>帧、第/>个频点的角度谱函数,/>表示目标语音通道、第/>帧、第/>个频点的当前分离矩阵,
表示第/>个频点的阵列流型矩阵,其中,/>表示方位角,/>表示俯仰角,
表示预先设定好的/>个方位角观测集合/>中第/>个方位角,/>个俯仰角观测集合/>中第/>个俯仰角对应的导向矢量,/>、/>和/>分别表示麦克风阵列的横坐标向量、纵坐标向量和竖坐标向量,/>表示声速,/>表示虚数单位;
根据所述角度谱函数确定所述目标语音通道中各频点的语音方向估计值;
对各频点的语音方向估计值进行综合处理,生成所述当前音频帧中目标语音的方向估计值。
2.如权利要求1所述的声源定位方法,其特征在于,所述对所述当前频域信号进行盲源分离,得到各通道的当前分离信号,包括:
获取各通道的加权协方差矩阵和上一音频帧的历史分离矩阵;
利用所述加权协方差矩阵对所述历史分离矩阵进行更新,得到所述当前音频帧的当前分离矩阵;
利用所述当前分离矩阵对所述当前频域信号进行解混合处理,得到各通道的当前分离信号。
3.如权利要求2所述的声源定位方法,其特征在于,所述获取各通道的加权协方差矩阵和上一音频帧的历史分离矩阵,包括:
获取上一音频帧的历史分离矩阵;
利用所述历史分离矩阵对所述当前频域信号进行解混合处理,得到各通道的初始分离信号;
基于所述初始分离信号计算各通道的加权协方差矩阵。
4.如权利要求3所述的声源定位方法,其特征在于,所述基于所述初始分离信号计算各通道的加权协方差矩阵,包括;
获取所述当前频域信号的协方差矩阵;
根据所述初始分离信号计算各通道的加权系数;
根据所述加权系数对所述协方差矩阵进行平滑处理,得到各通道的加权协方差矩阵。
5.如权利要求2所述的声源定位方法,其特征在于,在所述利用所述加权协方差矩阵对所述历史分离矩阵进行更新,得到所述当前音频帧的当前分离矩阵之后,所述利用所述当前分离矩阵对所述当前频域信号进行解混合处理,得到各通道的当前分离信号之前,还包括:
对所述当前分离矩阵进行幅度校正。
6.如权利要求1所述的声源定位方法,其特征在于,所述根据所述角度谱函数确定所述目标语音通道中各频点的语音方向估计值,包括:
获取所述目标语音通道中各频点的角度谱函数的最大值;
确定所述最大值对应的方位角和俯仰角;
将所述方位角和所述俯仰角进行组合,得到所述目标语音通道中各频点的语音方向估计值。
7.一种声源定位装置,其特征在于,包括:
转换单元,用于获取当前音频帧,并将所述当前音频帧转换为对应的当前频域信号;
分离单元,用于对所述当前频域信号进行盲源分离,得到各通道的当前分离信号;
识别单元,用于分别获取各通道的当前分离信号的频域能量,并根据频域能量确定初始语音通道;提取所述初始语音通道的特征参数,并将所述特征参数输入至识别网络,得到语音识别置信度;基于所述语音识别置信度确定是否识别到用户语音指令,以确定目标语音通道;
预估单元,用于将所述目标语音通道中各频点的当前分离矩阵转换为角度谱函数,具体为:
其中,表示目标语音通道、第/>帧、第/>个频点的角度谱函数,/>表示目标语音通道、第/>帧、第/>个频点的当前分离矩阵,
表示第/>个频点的阵列流型矩阵,其中,/>表示方位角,/>表示俯仰角,
表示预先设定好的/>个方位角观测集合/>中第/>个方位角,/>个俯仰角观测集合/>中第/>个俯仰角对应的导向矢量,/>、/>和/>分别表示麦克风阵列的横坐标向量、纵坐标向量和竖坐标向量,/>表示声速,/>表示虚数单位;根据所述角度谱函数确定所述目标语音通道中各频点的语音方向估计值;
定位单元,用于对各频点的语音方向估计值进行综合处理,生成所述当前音频帧中目标语音的方向估计值。
8.一种存储介质,其特征在于,所述存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1-6任一项所述的声源定位方法。
9.一种电子设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述的声源定位方法。
CN202311181239.9A 2023-09-14 2023-09-14 声源定位方法、装置、存储介质及电子设备 Active CN116935883B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311181239.9A CN116935883B (zh) 2023-09-14 2023-09-14 声源定位方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311181239.9A CN116935883B (zh) 2023-09-14 2023-09-14 声源定位方法、装置、存储介质及电子设备

Publications (2)

Publication Number Publication Date
CN116935883A CN116935883A (zh) 2023-10-24
CN116935883B true CN116935883B (zh) 2023-12-29

Family

ID=88382879

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311181239.9A Active CN116935883B (zh) 2023-09-14 2023-09-14 声源定位方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN116935883B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011176535A (ja) * 2010-02-24 2011-09-08 Yamaha Corp 信号処理装置
CN104053107A (zh) * 2014-06-06 2014-09-17 重庆大学 用于噪声环境下声源分离和定位的助听装置及方法
CN111415676A (zh) * 2020-03-10 2020-07-14 山东大学 一种基于分离矩阵初始化频点选择的盲源分离方法及系统
CN112259117A (zh) * 2020-09-28 2021-01-22 上海声瀚信息科技有限公司 一种目标声源锁定和提取的方法
CN113506582A (zh) * 2021-05-25 2021-10-15 北京小米移动软件有限公司 声音信号识别方法、装置及系统
CN114120984A (zh) * 2021-12-08 2022-03-01 思必驰科技股份有限公司 语音交互方法、电子设备和存储介质
CN115293212A (zh) * 2022-08-15 2022-11-04 西安欧亚学院 一种基于音频感知和数字孪生的设备运行状态监测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10535362B2 (en) * 2018-03-01 2020-01-14 Apple Inc. Speech enhancement for an electronic device
CN111128221B (zh) * 2019-12-17 2022-09-02 北京小米智能科技有限公司 一种音频信号处理方法、装置、终端及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011176535A (ja) * 2010-02-24 2011-09-08 Yamaha Corp 信号処理装置
CN104053107A (zh) * 2014-06-06 2014-09-17 重庆大学 用于噪声环境下声源分离和定位的助听装置及方法
CN111415676A (zh) * 2020-03-10 2020-07-14 山东大学 一种基于分离矩阵初始化频点选择的盲源分离方法及系统
WO2021179416A1 (zh) * 2020-03-10 2021-09-16 山东大学 一种基于分离矩阵初始化频点选择的盲源分离方法及系统
CN112259117A (zh) * 2020-09-28 2021-01-22 上海声瀚信息科技有限公司 一种目标声源锁定和提取的方法
CN113506582A (zh) * 2021-05-25 2021-10-15 北京小米移动软件有限公司 声音信号识别方法、装置及系统
CN114120984A (zh) * 2021-12-08 2022-03-01 思必驰科技股份有限公司 语音交互方法、电子设备和存储介质
CN115293212A (zh) * 2022-08-15 2022-11-04 西安欧亚学院 一种基于音频感知和数字孪生的设备运行状态监测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于盲源分离的同频信号测向算法研究;马飞;;无线电通信技术(02);全文 *

Also Published As

Publication number Publication date
CN116935883A (zh) 2023-10-24

Similar Documents

Publication Publication Date Title
US11798531B2 (en) Speech recognition method and apparatus, and method and apparatus for training speech recognition model
US11450337B2 (en) Multi-person speech separation method and apparatus using a generative adversarial network model
CN109558512B (zh) 一种基于音频的个性化推荐方法、装置和移动终端
WO2018072543A1 (zh) 模型生成方法、语音合成方法及装置
WO2020088153A1 (zh) 语音处理方法、装置、存储介质和电子设备
CN107731241B (zh) 处理音频信号的方法、装置和存储介质
CN109243488B (zh) 音频检测方法、装置及存储介质
WO2021114847A1 (zh) 网络通话方法、装置、计算机设备及存储介质
CN111554321A (zh) 降噪模型训练方法、装置、电子设备及存储介质
CN110147742B (zh) 一种关键点定位方法、装置及终端
CN110517677B (zh) 语音处理系统、方法、设备、语音识别系统及存储介质
CN109302528B (zh) 一种拍照方法、移动终端及计算机可读存储介质
CN108492837B (zh) 音频突发白噪声的检测方法、装置及存储介质
CN111477243B (zh) 音频信号处理方法及电子设备
CN110517702B (zh) 信号生成的方法、基于人工智能的语音识别方法及装置
CN110764520B (zh) 飞行器控制方法、装置、飞行器和存储介质
CN110572600A (zh) 一种录像处理方法及电子设备
CN108597495B (zh) 一种处理语音数据的方法及装置
CN107452399B (zh) 音频特征提取方法及装置
CN116935883B (zh) 声源定位方法、装置、存储介质及电子设备
CN113593602B (zh) 一种音频处理方法、装置、电子设备和存储介质
CN106782614B (zh) 音质检测方法及装置
CN117012202B (zh) 语音通道识别方法、装置、存储介质及电子设备
CN110415718B (zh) 信号生成的方法、基于人工智能的语音识别方法及装置
CN109032482B (zh) 分屏控制方法、装置、存储介质和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant