CN112666522A - 唤醒词声源定位方法和装置 - Google Patents

唤醒词声源定位方法和装置 Download PDF

Info

Publication number
CN112666522A
CN112666522A CN202011554774.0A CN202011554774A CN112666522A CN 112666522 A CN112666522 A CN 112666522A CN 202011554774 A CN202011554774 A CN 202011554774A CN 112666522 A CN112666522 A CN 112666522A
Authority
CN
China
Prior art keywords
word
wake
frequency domain
sound source
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011554774.0A
Other languages
English (en)
Inventor
胡玉祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Horizon Information Technology Co Ltd
Original Assignee
Beijing Horizon Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Horizon Information Technology Co Ltd filed Critical Beijing Horizon Information Technology Co Ltd
Priority to CN202011554774.0A priority Critical patent/CN112666522A/zh
Publication of CN112666522A publication Critical patent/CN112666522A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本公开实施例提供了一种唤醒词声源定位方法、唤醒词声源定位装置、电子设备和计算机可读存储介质,解决了现有声源定位方式的准确率低的问题。该唤醒词声源定位方法包括:获取包括唤醒词语音内容的单通道唤醒词信号;将所述单通道唤醒词信号变换为频域唤醒词信号;基于所述频域唤醒词信号所对应的频域中的多个频点各自的频域能量值,计算所述多个频点分别对应的多个权重;以及基于所述多个频点分别对应的所述多个权重、以及多个传声器对应的多个频域声音信号,获取声源定位结果。

Description

唤醒词声源定位方法和装置
技术领域
本公开涉及智能交互技术领域,具体涉及一种唤醒词声源定位方法、唤醒词声源定位装置、电子设备和计算机可读存储介质。
背景技术
随着人工智能技术的不断发展,人机智能交互作为一个研究热点,已经被应用在了很多实际的应用场景中。例如在智能家居场景中,用户通过和智能家居设备进行智能交互即可节省掉很多人工操作,从而提升生活体验。声音唤醒作为人机智能交互的一种重要交互方式,也被应用在了各种智能家居设备中。然而现有的智能家居设备在被声音唤醒后,是无法准确判断声源位置的,这会影响人机交互体验。尤其在比较嘈杂的声音环境中,如果干扰声源的音量大于了用户所发出的唤醒词的音量,智能家居设备会误将干扰声源的方向作为用户所在的方向,从而降低声源定位的准确率。
发明内容
有鉴于此,本公开实施例提供了一种唤醒词声源定位方法、唤醒词声源定位装置、电子设备和计算机可读存储介质,可以大大提高声源定位的准确性。
本公开一实施例提供的一种唤醒词声源定位方法包括:获取包括唤醒词语音内容的单通道唤醒词信号;将所述单通道唤醒词信号变换为频域唤醒词信号;基于所述频域唤醒词信号所对应的频域中的多个频点各自的频域能量值,计算所述多个频点分别对应的多个权重;以及基于所述多个频点分别对应的所述多个权重、以及多个传声器对应的多个频域声音信号,获取声源定位结果。
本公开一实施例提供的一种唤醒词声源定位装置包括:第一获取模块,配置为获取包括唤醒词语音内容的单通道唤醒词信号;变换模块,配置为将所述单通道唤醒词信号变换为频域唤醒词信号;第一计算模块,配置为基于所述频域唤醒词信号所对应的频域中的多个频点各自的频域能量值,计算所述多个频点分别对应的多个权重;以及第二计算模块,配置为基于所述多个频点分别对应的所述多个权重、以及多个传声器对应的多个频域声音信号,获取声源定位结果。
根据本发明的另一方面,提供了一种电子设备,包括:处理器;存储器;以及存储在存储器中的计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行如上述任一项所述的唤醒词声源定位方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如前任一所述的唤醒词声源定位方法。
根据本发明的另一方面,提供了一种计算机程序产品,包括计算机程序指令,所述计算机程序指令在被处理器运行时使得处理器执行如上述任一所述的唤醒词声源定位方法。
本公开实施例提供的一种唤醒词声源定位方法、唤醒词声源定位装置、电子设备和计算机可读存储介质,由于获取的单通道唤醒词信号中各频点对应的权重所衡量的是在各频点上的唤醒词语音内容的可参考性,因此在利用各传声器对应的频域声源信号进行声源定位时,通过参考该单通道唤醒词信号中各频点对应的权重,便可更有针对性地参考权重更高且更能表征唤醒词语音内容的频点的频域信号,从而更准确地实现针对唤醒词声源的定位。由此可见,本公开所提供的唤醒词声源定位方法,通过分析处理声音信号本身就可实现更高精度的声源定位,可显著提高用户的交互体验。
附图说明
图1所示为本公开一实施例提供的一种唤醒词声源定位系统的结构示意图。
图2所示为本公开一实施例提供的一种唤醒词声源定位方法的流程示意图。
图3所示为本公开一实施例提供的一种唤醒词声源定位方法中频点的权重的计算的流程示意图。
图4所示为本公开一实施例提供的一种唤醒词声源定位方法中利用互相关函数值进行声音定位的流程示意图。
图5所示为本公开另一实施例提供的一种唤醒词声源定位方法的流程示意图。
图6所示为本公开一实施例提供的一种唤醒词声源定位方法的原理示意图。
图7所示为本公开一实施例提供的一种唤醒词声源定位装置的结构示意图。
图8所示为本公开另一实施例提供的一种唤醒词声源定位装置的结构示意图。
图9所示为本公开一实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
申请概述
如上所述,现有的声源定位方式之所以声源定位的准确性差,主要是因为无法有效地排除干扰声源的干扰,在利用原始声音信号进行声音定位时,无法更有针对性地参考原始声音信号中与唤醒词声源对应的部分,因而会发生误判,从而影响用户交互体验。
针对上述的技术问题,本公开的基本构思是提出一种唤醒词声源定位方法、装置、电子设备、计算机程序产品和计算机可读存储介质,通过利用单通道唤醒词信号计算各频点对应的权重,并在利用各传声器对应的频域声源信号进行声源定位时,参考该单通道唤醒词信号中各频点对应的权重,以更有针对性地参考原始声音信号中权重更高且更能表征唤醒词语音内容的频点,从而使得整个声源定位过程能够更有针对性地参考原始声音信号中与唤醒词声源对应的部分,从而显著提高声源定位的准确性。
需要说明的是,本公开所提供的唤醒词声源定位方式可以应用于任何智能交互场景。具体而言,虽然在前面的描述和后文的一些实施例中以智能家居场景为例进行了方案阐述,但在其他的应用场景中,本公开所提供的唤醒词声源定位方法也是同样适用的。例如在工业生产场景或车辆自动驾驶场景,工业机器人或智能车辆都是有可能需要响应特定的唤醒词并做出特定动作的,例如机械臂响应唤醒词移动到唤醒词声源位置,或智能汽车响应唤醒词移动到唤醒词声源位置。本公开对该唤醒词声源定位方法的实际应用场景并不做严格限定。
在介绍了本公开的基本原理之后,下面将参考附图来具体介绍本公开的各种非限制性实施例。
示例性唤醒词声源定位系统
图1所示为本公开一实施例提供的一种唤醒词声源定位系统的结构示意图。如图1所示,该唤醒词声源定位系统10包括:多个声源11和智能交互设备12。
具体而言,声源11可为发出用户语音的声音播放装置,例如扬声器、留声机等,声音播放装置可以单独设置也可以集成在一个电子设备中,用户可以通过该声音播放装置发送声音信号,本公开对声源11的具体实现形态和数量不做严格限定。
智能交互设备12上可设置用于接收声音信号的多个传声器(例如麦克风),该多个传声器可组成传声器阵列,通过采用本公开实施例所提供的唤醒词声源定位方法,根据接收到的原始声音信号以实现唤醒词声源定位。由于智能交互设备12同时接收多个声源11的所发出的声音,因此智能交互设备12接收到的原始声音信号包括了多个声源11所发出的声音信号。由于不同位置发出的声音信号各自到多个传声器的到达时间差是有所区别的,因此唤醒词声源与各智能交互设备12上传声器阵列的相对位置可通过计算过程确定。应当理解,智能交互设备12的具体实现形态可根据实际的应用场景而调整,本公开并不对智能交互设备12的具体实现形态做严格限定。
示例性唤醒词声源定位方法
图2所示为本公开一实施例提供的一种唤醒词声源定位方法的流程示意图。如图2所示,该唤醒词声源定位方法包括如下步骤:
步骤201:获取包括唤醒词语音内容的单通道唤醒词信号。
唤醒词语音内容为用户发出的用于唤醒智能交互设备12的语音内容,例如可以为预设的智能交互设备12的名字或用户自定义的语音内容,本公开对唤醒词语音内容的具体实现形式不做严格限定。
单通道唤醒词信号为基于原始声音信号提取的,仅仅包括或主要包括唤醒词语音内容的单通道信号。如前所述,由于智能交互设备12同时接收多个声源11的所发出的声音,因此智能交互设备12接收到的原始声音信号是包括了多个声源11所发出的声音信号的混合信号。在本公开一实施例中,可通过采用下述语音分离算法中的一种或多种组合便可实现唤醒词语音内容和干扰声源信号的分离:去混响处理、波束形成/盲源分离处理、和噪声抑制处理。
步骤202:将单通道唤醒词信号变换为频域唤醒词信号。
由于单通道唤醒词信号是从原始声音信号中分离获得的时域信号,而声源定位所需要参考的是唤醒词语音内容本身的声音特质,声音特质是不随时间变化的,因此需要将该单通道唤醒词信号通过频域转换过程变换为频域唤醒词信号,从而使得后续的计算过程能够参考的是唤醒词语音内容与频率有关的部分。该频域转换过程可通过傅里叶变换实现。
步骤203:基于频域唤醒词信号所对应的频域中的多个频点各自的频域能量值,计算多个频点分别对应的多个权重。
由于该频域唤醒词信号是基于单通道唤醒词信号转换而得到的,因此该频域唤醒词信号的各频点对应的权重所衡量的是在各频点上的唤醒词语音内容的可参考性。权重越高的频点的频域信号值对声源定位越具备参考价值。在本公开一实施例中,由于唤醒词信号是用户发出的,因此该多个频点的频域范围可以从用户声音的声音频率范围中选取,然而本公开对该多个频点的具体频域范围以及选取规则不做严格限定。
在本公开一实施例中,该多个频点中的任一个频点的权重与该频点的频域能量值呈正向关系。这样该频域唤醒词信号在某一个频点上的频域能量值越高,则代表着该频点上的频域唤醒词信号越能够表征唤醒词语音内容的特征,从而更具备参考性,因而所分配的权重也越大。例如图3所示,可首先对频域唤醒词信号进行归一化处理以得到归一化数值(步骤S31),归一化处理可按照幅度归一化,也可按照能量值归一化;然后将多个频点中的任一个频点对应的权重确定为:该频点所对应的归一化数值与多个频点各自所对应的归一化数值之和的比值(步骤S32)。基于上述计算过程,权重w可通过如下公式(1)表示:
Figure BDA0002858026330000061
其中,k代表频点编号,K为最大频率索引,p的取值不同,表示不同的归一化方式,p=1表示按照幅度归一化,p=2表示按照能量归一化,Ywkp(k)代表第k个频点的复数频域信号。
然而应当理解,虽然上面给出了权重w的具体计算公式,但在本公开的其他实施例中,频域唤醒词信号中频点所对应的权重也可采用其他计算方式,只要该权重能够表征频点上的唤醒词语音内容的可参考性即可。
步骤204:基于多个频点分别对应的多个权重、以及多个传声器对应的多个频域声音信号,获取声源定位结果。
具体而言,智能交互设备12通过参考频域唤醒词信号中各频点对应的权重,便可更有针对性地参考权重更高且更能表征唤醒词语音内容的频点的频域信号,便可准确地确定唤醒词声源的位置。
在本公开一实施例中,可通过计算多个传声器对应的多个频域声音信号之间的互相关函数值来实现对唤醒词声源方向的定位。如图4所示,可首先基于多个频点分别对应的多个权重、多个角度的声音信号各自到传声器阵列中的多个传声器的到达时间差、以及多个传声器对应的多个频域声音信号,计算多个角度分别对应的多个频域声音信号之间的互相关函数值(步骤S41);然后,将最大的互相关函数值所对应的角度作为声源定位结果(步骤S42)。具体而言,可将唤醒词声源的位置相对智能交互设备12的位置的可能偏向角度区间内的多个角度值代入该互相关函数值进行计算,将最大的互相关函数值所对应的角度作为声源定位结果。
以该声源定位系统包括并列排布的两个传声器为例,互相关函数值
Figure BDA0002858026330000072
的计算过程可通过如下公式(2)表示:
Figure BDA0002858026330000071
其中,X1(k)和X2(k)分别为第一个传声器单元和第二个传声器单元的频域信号,*表示共轭,ω表示角频率,tθ为方向为θ的信号到两个传声器的到达时间差,e是自然对数的底数,j是虚部单位。
应当理解,虽然在上面的描述中给出了互相关函数的一种计算方式,但在本公开的其他实施例中,互相关函数也可采用其他计算方式来实现声源定位,本公开对该互相关函数的具体实现形式并不做严格限定。
由此可见,本公开实施例提供的一种唤醒词声源定位方法,通过获取单通道唤醒词信号,从而可有效排除干扰声源的干扰;同时,由于该单通道唤醒词信号中各频点对应的权重所衡量的是在各频点上的唤醒词语音内容的可参考性,因此在利用各传声器对应的频域声源信号进行声源定位时,通过参考该单通道唤醒词信号中各频点对应的权重,便可更有针对性地参考权重更高且更能表征唤醒词语音内容的频点的频域信号,从而更准确地实现针对唤醒词声源的定位。由此可见,本公开所提供的唤醒词声源定位方法,通过分析处理声音信号本身就可实现更高精度的声源定位,可显著提高用户的交互体验;且由于整个声源定位过程不依赖经验参数,实际操作过程中也易于调试。
图5所示为本公开一实施例提供的一种唤醒词声源定位方法的流程示意图。图6所示为本公开一实施例提供的一种唤醒词声源定位方法的原理示意图。如图5和图6所示,该实施例中获取包括唤醒词语音内容的单通道唤醒词信号的具体过程可包括如下步骤:
步骤2011:基于多个传声器的原始声音信号,获得包括唤醒词语音内容的多通道唤醒词信号。
如图6所示,由于智能交互设备12采集到的原始声音信号X是包括了干扰声源的音频内容的,因此需要从原始声音信号X中通过语音分离过程排除干扰声源的干扰,以提高后续声源定位计算过程的准确性。在本公开一实施例中,该语音分离过程可具体包括:将原始声音信号进行去混响处理,将经过去混响处理的原始声音信号进行波束形成或盲源分离处理,以获得多个中间信号,然后将多个中间信号分别进行噪声抑制处理,以获取多通道唤醒词信号Y。
步骤2012:基于多通道唤醒词信号中的唤醒词语音内容,确定表征唤醒词起始时间点与结束时间点的唤醒词时间戳,以及唤醒词语音内容所对应的通道。
基于该多通道唤醒词信号Y,通过语音识别算法便可实现对于唤醒词语音内容的识别,并获得表征唤醒词起始时间点与结束时间点的唤醒词时间戳tstamp,以及唤醒词语音内容所对应的通道chwkp。唤醒词时间戳tstamp可包括唤醒词起始时间点与结束时间点;通道chwkp为唤醒词在Y中对应的通道。该唤醒词的语音识别算法可通过一个基于神经网络架构的通过预训练过程建立的唤醒词解码器实现,本公开对该预训练过程的具体架构和训练过程不做严格限定。该唤醒词解码器基于该多通道唤醒词信号Y便可输出唤醒词时间戳tstamp,以及唤醒词语音内容所对应的通道chwkp
步骤2013:基于唤醒词时间戳和唤醒词语音内容所对应的通道,确定单通道唤醒词信号。
具体而言,基于唤醒词时间戳tstamp和唤醒词语音内容所对应的通道chwkp便可通过数据提取过程从多通道唤醒词信号Y中分离出单通道唤醒词信号ywkp。单通道唤醒词信号ywkp为唤醒词所在通道以及所在时间段内的单通道信号,作为后续计算各频点的权重w的数据基础。将唤醒词信号ywkp变换到频域,获得频域信号Ywkp(k),在对频域信号Ywkp(k)进行归一化处理后,基于上述公式(1)便可获得各频点对应的权重w。
由于唤醒词时间戳tstamp包括唤醒词起始时间点与结束时间点,因此基于唤醒词时间戳tstamp便可通过数据提取过程从原始声音信号X中获取多个传声器接收的原始唤醒词信号,并将原始唤醒词信号变换为对应的多个频域声音信号,以作为后续互相关函数计算的数据基础。如图6中的Xt所示便为唤醒词所在时间段内的包括了多个频域声音信号的多通道语音信号。基于权重w和Xt,通过上述公式(2)便可获得最终的声源定位结果。
示例性唤醒词声源定位装置
图7所示为本公开一实施例提供的一种唤醒词声源定位装置的结构示意图。如图7所示,该唤醒词声源定位装置70包括:第一获取模块71,配置为获取包括唤醒词语音内容的单通道唤醒词信号;变换模块72,配置为将单通道唤醒词信号变换为频域唤醒词信号;第一计算模块73,配置为基于频域唤醒词信号所对应的频域中的多个频点各自的频域能量值,计算多个频点分别对应的多个权重;以及第二计算模块74,配置为基于多个频点分别对应的多个权重、以及多个传声器对应的多个频域声音信号,获取声源定位结果。
本公开实施例提供的一种唤醒词声源定位装置70,通过获取单通道唤醒词信号,从而可有效排除干扰声源的干扰;同时,由于该单通道唤醒词信号中各频点对应的权重所衡量的是在各频点上的唤醒词语音内容的可参考性,因此在利用各传声器对应的频域声源信号进行声源定位时,通过参考该单通道唤醒词信号中各频点对应的权重,便可更有针对性地参考权重更高且更能表征唤醒词语音内容的频点的频域信号,从而更准确地实现针对唤醒词声源的定位。由此可见,本公开所提供的唤醒词声源定位方法,通分析处理声音信号本身就可实现更高精度的声源定位,可显著提高用户的交互体验;且由于整个声源定位过程不依赖经验参数,实际操作过程中也易于调试。
在本公开一实施例中,多个频点中的任一个频点的权重与该频点的频域能量值呈正向关系。
在本公开一实施例中,如图8所示,第一计算模块73包括:归一化单元731,配置为对频域唤醒词信号进行归一化处理以得到归一化数值;以及权重计算单元732,配置为将多个频点中的任一个频点对应的权重确定为:该频点所对应的归一化数值与多个频点各自所对应的归一化数值之和的比值。
在本公开一实施例中,如图8所示,第二计算模块74包括:互相关函数值计算单元741,配置为基于多个频点分别对应的多个权重、多个角度的声音信号各自到多个传声器的到达时间差、以及多个传声器对应的多个频域声音信号,计算多个角度的声音信号分别对应的多个频域声音信号之间的互相关函数值;以及定位计算单元742,配置为将最大的互相关函数值所对应的角度作为声源定位结果。
在本公开一实施例中,如图8所示,第一获取模块71包括:分离单元711,配置为基于多个传声器的原始声音信号,获得包括唤醒词语音内容的多通道唤醒词信号;唤醒词解码单元712,配置为基于多通道唤醒词信号中的唤醒词语音内容,确定表征唤醒词起始时间点与结束时间点的唤醒词时间戳,以及唤醒词语音内容所对应的通道;以及第一数据提取单元713,配置为基于唤醒词时间戳和唤醒词语音内容所对应的通道,确定单通道唤醒词信号。
在本公开一实施例中,如图8所示,该唤醒词声源定位装置70进一步包括:第二数据提取单元75,配置为在基于多个单通道信号中的唤醒词语音内容,确定表征唤醒词起始时间点与结束时间点的唤醒词时间戳之后,基于所述唤醒词时间戳从所述原始声音信号中获取所述多个传声器对应的原始唤醒词信号;以及将原始唤醒词信号变换为多个传声器对应的多个频域声音信号。
在本公开一实施例中,分离单元711进一步配置为,配置为将原始声音信号进行去混响处理;将经过去混响处理的原始声音信号进行波束形成或盲源分离处理,以获得多个中间信号;以及将多个中间信号分别进行噪声抑制处理,以获取多通道唤醒词信号。
上述唤醒词声源定位装置70中的各个模块的具体功能和操作已经在上面参考图1到图6描述的唤醒词声源定位方法中进行了详细介绍,因此,这里将省略其重复描述。
需要说明的是,根据本公开实施例的唤醒词声源定位装置70可以作为一个软件模块和/或硬件模块而集成到电子设备90中,换言之,该电子设备90可以包括该唤醒词声源定位装置70。例如,该唤醒词声源定位装置70可以是该电子设备90的操作系统中的一个软件模块,或者可以是针对于其所开发的一个应用程序;当然,该唤醒词声源定位装置70同样可以是该电子设备90的众多硬件模块之一。
在本发明另一实施例中,该唤醒词声源定位装置70与该电子设备90也可以是分立的设备(例如,服务器),并且该唤醒词声源定位装置70可以通过有线和/或无线网络连接到该电子设备90,并且按照约定的数据格式来传输交互信息。
示例性电子设备
图9所示为本公开一实施例提供的电子设备的结构示意图。如图9所示,该电子设备90包括:一个或多个处理器901和存储器902;以及存储在存储器902中的计算机程序指令,计算机程序指令在被处理器901运行时使得处理器901执行如上述任一实施例的唤醒词声源定位方法。
处理器901可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器902可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器901可以运行所述程序指令,以实现上文所述的本公开的各个实施例的唤醒词声源定位方法中的步骤以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如光线强度、补偿光强度、滤光片的位置等信息。
在一个示例中,电子设备90还可以包括:输入装置903和输出装置904,这些组件通过总线系统和/或其他形式的连接机构(图9中未示出)互连。
例如,在该电子设备是智能家居设备时,该输入装置903可以是麦克风,用于采集用户的声音。在该电子设备是单机设备时,该输入装置903可以是通信网络连接器,用于从外部的可移动设备接收所采集的输入信号。此外,该输入设备903还可以包括例如键盘、鼠标、摄像头等等。
该输出装置904可以向外部输出各种信息,例如可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图9中仅示出了该电子设备90中与本公开有关的组件中的一些,省略了诸如总线、输入装置/输出接口等组件。除此之外,根据具体应用情况,电子设备90还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,包括计算机程序指令,计算机程序指令在被处理器运行时使得处理器执行如上述任一实施例的唤醒词声源定位方法中的步骤。
计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性唤醒词声源定位方法”部分中描述的根据本公开各种实施例的唤醒词声源定位方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器((RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
以上所述仅为本公开的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种唤醒词声源定位方法,包括:
获取包括唤醒词语音内容的单通道唤醒词信号;
将所述单通道唤醒词信号变换为频域唤醒词信号;
基于所述频域唤醒词信号所对应的频域中的多个频点各自的频域能量值,计算所述多个频点分别对应的多个权重;以及
基于所述多个频点分别对应的所述多个权重、以及多个传声器对应的多个频域声音信号,获取声源定位结果。
2.根据权利要求1所述的方法,其中,所述多个频点中的任一个频点的所述权重与该频点的所述频域能量值呈正向关系。
3.根据权利要求1所述的方法,其中,所述基于所述频域唤醒词信号所对应的频域中的多个频点各自的频域能量值,计算所述多个频点分别对应的多个权重包括:
对所述频域唤醒词信号进行归一化处理以得到归一化数值;以及
将所述多个频点中的任一个频点所述对应的所述权重确定为:该频点所对应的所述归一化数值与所述多个频点各自所对应的所述归一化数值之和的比值。
4.根据权利要求1所述的方法,其中,所述基于所述多个频点分别对应的所述多个权重、以及多个传声器对应的多个频域声音信号,获取声源定位结果包括:
基于所述多个频点分别对应的所述多个权重、多个角度的声音信号各自到所述多个传声器的到达时间差、以及所述多个传声器对应的多个频域声音信号,计算所述多个角度的声音信号分别对应的多个频域声音信号之间的互相关函数值;以及
将最大的所述互相关函数值所对应的所述角度作为所述声源定位结果。
5.根据权利要求1所述的方法,其中,所述获取包括唤醒词语音内容的单通道唤醒词信号包括:
基于所述多个传声器的原始声音信号,获得包括所述唤醒词语音内容的多通道唤醒词信号;
基于所述多通道唤醒词信号中的所述唤醒词语音内容,确定表征唤醒词起始时间点与结束时间点的唤醒词时间戳,以及所述唤醒词语音内容所对应的通道;以及
基于所述唤醒词时间戳和所述唤醒词语音内容所对应的通道,确定所述单通道唤醒词信号。
6.根据权利要求5所述的方法,其中,在基于所述多个单通道信号中的所述唤醒词语音内容,确定表征唤醒词起始时间点与结束时间点的唤醒词时间戳之后,所述方法进一步包括:
基于所述唤醒词时间戳从所述原始声音信号中获取所述多个传声器对应的原始唤醒词信号;以及
将所述原始唤醒词信号变换为所述多个传声器对应的所述多个频域声音信号。
7.根据权利要求5所述的方法,其中,所述基于所述多个传声器的原始声音信号,获得包括所述唤醒词语音内容的多通道唤醒词信号包括:
将所述原始声音信号进行去混响处理;
将经过所述去混响处理的所述原始声音信号进行波束形成或盲源分离处理,以获得多个中间信号;以及
将所述多个中间信号分别进行噪声抑制处理,以获取所述多通道唤醒词信号。
8.一种唤醒词声源定位装置,包括:
第一获取模块,配置为获取包括唤醒词语音内容的单通道唤醒词信号;
变换模块,配置为将所述单通道唤醒词信号变换为频域唤醒词信号;
第一计算模块,配置为基于所述频域唤醒词信号所对应的频域中的多个频点各自的频域能量值,计算所述多个频点分别对应的多个权重;以及
第二计算模块,配置为基于所述多个频点分别对应的所述多个权重、以及多个传声器对应的多个频域声音信号,获取声源定位结果。
9.一种电子设备,包括:
处理器;以及
存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1至7中任一所述的方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行如权利要求1至7中任一所述的方法。
CN202011554774.0A 2020-12-24 2020-12-24 唤醒词声源定位方法和装置 Pending CN112666522A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011554774.0A CN112666522A (zh) 2020-12-24 2020-12-24 唤醒词声源定位方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011554774.0A CN112666522A (zh) 2020-12-24 2020-12-24 唤醒词声源定位方法和装置

Publications (1)

Publication Number Publication Date
CN112666522A true CN112666522A (zh) 2021-04-16

Family

ID=75410051

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011554774.0A Pending CN112666522A (zh) 2020-12-24 2020-12-24 唤醒词声源定位方法和装置

Country Status (1)

Country Link
CN (1) CN112666522A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113903334A (zh) * 2021-09-13 2022-01-07 北京百度网讯科技有限公司 声源定位模型的训练与声源定位方法、装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113903334A (zh) * 2021-09-13 2022-01-07 北京百度网讯科技有限公司 声源定位模型的训练与声源定位方法、装置
CN113903334B (zh) * 2021-09-13 2022-09-23 北京百度网讯科技有限公司 声源定位模型的训练与声源定位方法、装置

Similar Documents

Publication Publication Date Title
JP7434137B2 (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
KR102339594B1 (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
CN110556103B (zh) 音频信号处理方法、装置、系统、设备和存储介质
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
CN110364143B (zh) 语音唤醒方法、装置及其智能电子设备
Heittola et al. Context-dependent sound event detection
US10685652B1 (en) Determining device groups
CN111344780A (zh) 基于上下文的设备仲裁
CN105679310A (zh) 一种用于语音识别方法及系统
CN110673096B (zh) 语音定位方法和装置、计算机可读存储介质、电子设备
TW202008352A (zh) 方位角估計的方法、設備、語音交互系統及儲存介質
CN110675892B (zh) 多位置语音分离方法和装置、存储介质、电子设备
CN112242149B (zh) 音频数据的处理方法、装置、耳机及计算机可读存储介质
US11495215B1 (en) Deep multi-channel acoustic modeling using frequency aligned network
CN111145746A (zh) 一种基于人工智能语音的人机交互方法
US20240013784A1 (en) Speaker recognition adaptation
CN112666522A (zh) 唤醒词声源定位方法和装置
CN108962226B (zh) 用于检测语音的端点的方法和装置
CN113593572A (zh) 在空间区域内进行音区定位方法和装置、设备和介质
EP2795616A1 (en) Speech recognition method and system
CN112346012A (zh) 声源位置确定方法和装置、可读存储介质、电子设备
CN112799016B (zh) 声源定位方法、装置、计算机可读存储介质和电子设备
CN110070891B (zh) 一种歌曲识别方法、装置以及存储介质
CN114464184B (zh) 语音识别的方法、设备和存储介质
CN116129942A (zh) 语音交互设备和语音交互方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination