CN113257271A

CN113257271A - 多发声者发声运动特征波形的获取方法及装置、电子设备

Info

Publication number: CN113257271A
Application number: CN202110534901.9A
Authority: CN
Inventors: 林峰; 王超; 许文曜; 任奎
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-05-17
Filing date: 2021-05-17
Publication date: 2021-08-13
Anticipated expiration: 2041-05-17
Also published as: CN113257271B

Abstract

本申请公开了一种多发声者发声运动特征波形的获取方法及装置、电子设备，该方法包括：采集空间中的回波信号，其中所述回波信号由频率调制后的连续波感知空间中多个发声者喉咙振动所返回的信号，所述频率调制后的周期性连续波由调频连续波雷达发射；对所述回波信号的每一个周期的波形进行傅里叶变换，得到频谱图集S1；从所述频谱图集S1中定位各个发声者所在频点；根据所述各个发声者所在频点提取各个发声者喉咙振动的特征波形。

Description

多发声者发声运动特征波形的获取方法及装置、电子设备

技术领域

本申请涉及多发声者信号分离技术领域，尤其涉及一种多发声者发声运动特征波形的获取方法及装置、电子设备。

背景技术

随着物联网的快速发展，带有语音交互功能的智能终端正广泛部署到各行各业以及人们的日常生活中，例如越来越多的智能家居采用语音助手作为人机交互的主要方式。

目前针对多个发声者的发声者信号感知多采用单个麦克风或麦克风阵列的方式，并结合盲源分离或波束成形等技术来实现对各个发声者信号的获取，但是目前的基于声学感知的解决方案受声学噪声的影响大，且基于麦克风阵列的方法需要额外的硬件成本。

在实现本发明的过程中，发明人发现现有技术中至少存在如下问题：

对于基于声学的多发声者场景下各个发声者信号的获取，音频采集设备所处环境中的噪音会影响各个发声者信号的获取效果，降低信噪比，而基于麦克风阵列的解决方案会增加硬件成本和开销。

发明内容

本申请实施例的目的是提供一种多发声者发声运动特征波形的获取方法及装置、电子设备，以解决相关技术中存在的受环境噪音影响大、需要额外硬件开销的技术问题。

根据本申请实施例的第一方面，提供一种多发声者发声运动特征波形的获取方法，包括：采集空间中的回波信号，其中所述回波信号由频率调制后的连续波感知空间中多个发声者喉咙振动所返回的信号，所述频率调制后的周期性连续波由调频连续波雷达发射；对所述回波信号的每一个周期的波形进行傅里叶变换，得到频谱图集S1；从所述频谱图集S1中定位各个发声者所在频点；根据所述各个发声者所在频点提取各个发声者喉咙振动的特征波形。

进一步地，对所述回波信号的每一个周期的波形进行傅里叶变换，得到频谱图集，包括：

对所述回波信号的每一个周期的波形进行傅里叶变换，得到每个周期的频谱图；

将各个周期的频谱图组成频谱图集S1。

进一步地，将各个周期的频谱图组成频谱图集S1前还包括：

将所述频谱图按相应所述回波信号的返回时间顺序从先到后依次排列。

进一步地，从所述频谱图集中定位各个发声者所在频点，包括：

按所述频谱图的先后顺序，用后一张频谱图的各个频点的幅值减去前一张频谱图中相应频点的幅值后取绝对值，得到新的频谱图集S2，记S2中每张频谱图所包含的频点数为m；

每次选取频谱图中的一个频点，计算S2中所有频谱图中该频点幅值的方差σ，直到m个频点幅值的方差计算完毕；

计算所得所有频点幅值方差的均值μ，m个频点中幅值方差σ大于μ的频点即为发声者所在频点。

进一步地，根据所述各个发声者所在频点提取各个发声者喉咙振动的特征波形，包括：

从S1中提取S2中所述σ大于μ的各个频点的幅值，所述幅值的提取按照频谱图排列的先后顺序，N个频点共得到N条幅值变化曲线；

对所述N条幅值变化曲线进行高通滤波；

对滤波后的N条曲线分别进行小波分解或经验模态分解，提取包含所述各个发声者喉咙振动信息的特征波形。

根据本发明实施例的第二方面，提供一种多发声者发声运动特征波形的获取装置，包括：

采集模块，采集空间中的回波信号，其中所述回波信号由频率调制后的连续波感知空间中多个发声者喉咙振动所返回的信号，所述频率调制后的周期性连续波由调频连续波雷达发射；

图集构建模块，用于对所述回波信号的每一个周期的波形进行傅里叶变换，得到频谱图集；

发声者频点定位模块，用于从所述频谱图集中定位各个发声者所在频点；

提取模块，用于根据所述各个发声者所在频点提取各个发声者喉咙振动的特征波形。

根据本申请实施例的第三方面，提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的方法。

根据本申请实施例的第四方面，提供种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如第一方面所述方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

由上述实施例可知，本申请使用调频连续雷达波来感知发声者的喉咙振动，直接对发声者进行感知，而非感知发声者所产生的声波，因此可以避免环境噪音对感知到的信号的影响，具备对环境噪音的抵抗能力；由于所用到的调频连续波为电磁波，可以轻易穿透木板、玻璃以及干式墙等常见建筑材料，因此可以在存在视觉遮挡的非视距场景下，穿透遮挡物以实现对空间中多个发声者的非视距感知，避免光线对发声者感知产生影响。所提出的发声运动特征波形获取方法可在不增加硬件成本的情况下完成多发声者场景下各个发声者信号的获取。由于所采取的无线感知方式为非接触式感知，并不需要设备与用户进行物理接触且用户无需携带任何设备，使用更为方便，提升了用户体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是根据一示例性实施例示出的一种多发声者发声运动特征波形的获取方法的流程图。

图2是根据一示例性实施例示出的一种多发声者发声运动特征波形的获取装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

图1是根据一示例性实施例示出的一种多发声者发声运动特征波形的获取方法的流程图，参考图1，本发明实施例提供一种多发声者发声运动特征波形的获取方法，可以包括以下步骤：

步骤S11，采集空间中的回波信号，其中所述回波信号由频率调制后的连续波感知空间中多个发声者喉咙振动所返回的信号，所述频率调制后的周期性连续波由调频连续波雷达发射；

步骤S12，对所述回波信号的每一个周期的波形进行傅里叶变换，得到频谱图集S1；

步骤S13，从所述频谱图集S1中定位各个发声者所在频点；

步骤S14，根据所述各个发声者所在频点提取各个发声者喉咙振动的特征波形。

由上述实施例可知，本申请使用调频连续雷达波来感知发声者的喉咙振动，直接对发声者进行感知，而非感知发声者所产生的声波，因此可以避免环境噪音对感知到的信号的影响，具备对环境噪音的抵抗能力；由于所用到的调频连续波为电磁波，可以轻易穿透木板、玻璃以及干式墙等常见建筑材料，因此可以在存在视觉遮挡的非视距场景下，穿透遮挡物以实现对空间中多个发声者的非视距感知，避免光线对发声者感知产生影响。所提出的发声运动特征波形获取方法可在不增加硬件成本的情况下完成多发声者场景下各个发声者信号的分离。由于所采取的无线感知方式为非接触式感知，并不需要设备与用户进行物理接触且用户无需携带任何设备，使用更为方便，提升了用户体验。

下面对每个步骤进行详细说明。

在步骤S11的具体实施中，采集空间中的回波信号，其中所述回波信号由频率调制后的连续波感知空间中多个发声者喉咙振动所返回的信号，所述频率调制后的周期性连续波由调频连续波雷达发射；

具体地，向发声者喉咙部位发射无线信号，所发射调频连续波的频段为77GHz到81GHz的毫米波频段，雷达可采用德州仪器(Texas Instruments)公司生产的商用雷达IWR1642，并用配套的采集板DCA1000进行回波信号的采集，利用雷达配套的上位机软件mmWave Studio实现对雷达所发射毫米波周期数M的设置和对毫米波雷达信号发射的控制；利用毫米波频段可实现对喉咙振动的细粒度感知，采用商用设备及其配套的软件可降低使用者的技术门槛，更容易实现。

在步骤S12的具体实施中，对所述回波信号的每一个周期的波形进行傅里叶变换，得到频谱图集S1；

具体地，所采用的商用毫米波雷达配套的软件可以固定格式输出每个周期的回波信号，M个周期的回波信号可保存到一个二进制文件中。通过MATLAB软件读取该二进制文件，并利用MATLAB自带的快速傅里叶变换函数fft()按回波信号接收的先后顺序，对每个周期的回波信号进行快速傅里叶变换，得到各个周期相应的频谱图，M个周期的频谱图可先按相应回波接收的先后顺序排列后再构成频谱图集S1；MATLAB是一个常用的商业数学软件，该软件集成了比较成熟的信号处理工具且含丰富的软件接口，可降低使用者的使用门槛，使用者无需对信号处理算法进行重复实现。

在步骤S13的具体实施中，从所述频谱图集中定位各个发声者所在频点，可以包括以下子步骤：

(1)按所述频谱图的先后顺序，用后一张频谱图的各个频点的幅值减去前一张频谱图中相应频点的幅值后取绝对值，得到新的频谱图集S2，记S2中每张频谱图所包含的频点数为m；

具体地，在对所述回波信号进行傅里叶变换后，得到的每一张所述频谱图上频率的大小与所探测到物体距毫米波雷达的距离成正比，不同距离的被探测物体对应所述频谱图上不同的局部峰值，由于运动物体的局部峰值会随着时间变化，因此按照频谱图先后顺序用后一张频谱图的各个频点的幅值减去前一张频谱图中相应频点的幅值后取绝对值，静止物体所对应的峰值为零，可消除无关物体所对应的频点，缩小发声者频点的搜索空间；

(2)每次选取频谱图中的一个频点，计算S2中所有频谱图中该频点幅值的方差σ，直到m个频点幅值的方差计算完毕；

具体地，可采用MATLAB软件的var()函数计算各个频点幅值的标准差；由于静止物体所对应的峰值为零，而人体总会产生呼吸和心跳等不可避免的轻微运动，导致发声者在S2中所对应频点的幅值会随着时间发生变化，即发声者所在频点的幅值方差σ不为零且会高于其他频点幅值的方差；

(3)计算所得所有频点幅值方差的均值μ，m个频点中幅值方差σ大于μ的频点即为发声者所在频点；

具体地，可采用MATLAB软件的find(Σ>μ)函数找到的各个发声者所对应的各个频点，其中Σ为所述m个频点幅值的方差σ构成的一维向量。

在步骤S14的具体实施中，根据所述各个发声者所在频点提取各个发声者喉咙振动的特征波形，可以包括以下子步骤：

(1)从S1中提取S2中所述σ大于μ的各个频点的幅值，所述幅值的提取按照频谱图排列的先后顺序，N个频点共得到N条幅值变化曲线；

具体地，将每个频点的幅值按照频谱图排列的先后顺序依次拼接，得到每个频点的幅值变化曲线，N个频点共得到N条幅值变化曲线。

(2)对所述N条幅值变化曲线进行高通滤波；

具体地，可采用五阶巴特沃斯高通滤波器来对所得到的N条波形分别进行高通滤波，滤波操作可通过MATLAB软件的butter()和filter()函数进行实现；考虑到人体运动的频率低于20Hz，而喉咙振动的频率高于80Hz，可设置截止频率为80Hz以消除人体运动的影响并保留喉咙的振动信息。

(3)对滤波后的N条曲线分别进行小波分解或经验模态分解，提取包含所述各个发声者喉咙振动信息的特征波形。

具体地，小波分解可通过MATLAB软件的静态小波变换函数swt()或经验模态分解函数emd()进行实现，选择8层小波分解后的第6层小波细节分量或者8层经验模态分解后的第6层分量作为喉咙振动的特征波形；选用小波变换和经验模态分解进行特征波形提取主要是考虑到喉咙振动比较微弱，而小波分解和经验模态分解在细粒度特征提取方面具有优势，因此选用小波分解或经验模态分解来进行喉咙振动的特征波形的提取。

与前述的多发声者发声运动特征波形的获取方法的实施例相对应，本申请还提供了多发声者发声运动特征波形获取装置的实施例。

图2是根据一示例性实施例示出的一种多发声者发声运动特征波形获取装置框图。参照图2，该装置可以包括：

采集模块11，采集空间中的回波信号，其中所述回波信号由频率调制后的连续波感知空间中多个发声者喉咙振动所返回的信号，所述频率调制后的周期性连续波由调频连续波雷达发射；

图集构建模块12，用于对所述回波信号的每一个周期的波形进行傅里叶变换，得到频谱图集S1；

发声者频点定位模块13，用于从所述频谱图集S1中定位各个发声者所在频点；

提取模块14，用于根据所述各个发声者所在频点提取各个发声者喉咙振动的特征波形。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的多发声者发声运动特征波形的获取方法。

相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如上述的多发声者发声运动特征波形的获取方法。

本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种多发声者发声运动特征波形的获取方法，其特征在于，包括：

采集空间中的回波信号，其中所述回波信号由频率调制后的连续波感知空间中多个发声者喉咙振动所返回的信号，所述频率调制后的周期性连续波由调频连续波雷达发射；

对所述回波信号的每一个周期的波形进行傅里叶变换，得到频谱图集S1；

从所述频谱图集S1中定位各个发声者所在频点；

根据所述各个发声者所在频点提取各个发声者喉咙振动的特征波形。

2.根据权利要求1所述的方法，其特征在于，对所述回波信号的每一个周期的波形进行傅里叶变换，得到频谱图集，包括：

将各个周期的频谱图组成频谱图集S1。

3.根据权利要求2所述的方法，其特征在于，将各个周期的频谱图组成频谱图集S1前还包括：

4.根据权利要求1所述的方法，其特征在于，从所述频谱图集中定位各个发声者所在频点，包括：

5.根据权利要求4所述的方法，其特征在于，根据所述各个发声者所在频点提取各个发声者喉咙振动的特征波形，包括：

对所述N条幅值变化曲线进行高通滤波；

6.一种多发声者发声运动特征波形的获取装置，其特征在于，包括：

图集构建模块，用于对所述回波信号的每一个周期的波形进行傅里叶变换，得到频谱图集S1；

发声者频点定位模块，用于从所述频谱图集S1中定位各个发声者所在频点；

7.根据权利要求6所述的装置，其特征在于，从所述频谱图集中定位各个发声者所在频点，包括：

按频谱图的先后顺序，用后一张频谱图的各个频点的幅值减去前一张频谱图中相应频点的幅值后取绝对值，得到新的频谱图集S2；每次选取频谱图中的一个频点，计算S2中所有频谱图中该频点幅值的方差σ，直到m个频点幅值的方差计算完毕；

8.根据权利要求7所述的装置，其特征在于，根据所述各个发声者所在频点提取各个发声者喉咙振动的特征波形，包括：

对所述N条幅值变化曲线进行高通滤波；

9.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机指令，其特征在于，该指令被处理器执行时实现如权利要求1-4中任一项所述方法的步骤。