CN108198558A

CN108198558A - 一种基于csi数据的语音识别方法

Info

Publication number: CN108198558A
Application number: CN201711465200.4A
Authority: CN
Inventors: 赵志为; 闵革勇; 陈烁炜; 李维旺; 高伟峰; 舒畅
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2018-06-22
Anticipated expiration: 2037-12-28
Also published as: CN108198558B

Abstract

本发明公开了一种基于CSI数据的语音识别方法，包括以下步骤：获取目标用户说话时和静止时的CSI数据并提取目标用户说话时的特征CSI数据；对提取的CSI数据进行多径消除；将CSI数据转换回频域；对CSI数据进行分段；对分段数据进行训练，得到目标用户不同的唇部运动的特征数据；将步骤E中得到的特征数据与特征库中的特征数据进行匹配和识别，实现对用户语音的识别。

Description

一种基于CSI数据的语音识别方法

技术领域

本发明涉及语音识别技术领域，具体涉及一种基于CSI数据的语音识别方法。

背景技术

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。

现有的语音识别方法通常是基于语音学和声学发展而来的识别方法，其技术方案通常是针对声波进行适当的处理，进行语音的特征提取和匹配识别；现存的基于声学的语音识别方法限于声波本身易衰减、抗干扰能力弱的特点，其识别方法中存在声音特征模糊、抗干扰能力差、对不同声源声音的辨识度低等缺点。

发明内容

本发明为了解决上述技术问题提供一种基于CSI数据的语音识别方法。

本发明通过下述技术方案实现：

一种基于CSI数据的语音识别方法，包括以下步骤：

A、通过Wi-Fi设备获取目标用户说话时和静止时的CSI数据并提取目标用户说话时的特征CSI数据；

B、对提取的CSI数据进行多径消除；

C、将CSI数据转换回频域；

D、对CSI数据进行分段；

E、对分段数据进行训练，得到目标用户不同的唇部运动的特征数据；

F、将步骤E中得到的特征数据与特征库中的特征数据进行匹配和识别，实现对用户语音的识别。

CSI即信道状态信息，人类的行为动作对无线CSI数据产生了独特的影响，本方案将CSI应用于生物识别技术中，CSI技术已经被应用于室内定位、人类活动检测等多个领域，这些应用的基本思想是，人体不同的行动模式会对CSI的特征产生不同的影响。这种差异可以放大到足以用来识别不同运动的程度。本方法基于CSI数据，通过分析CSI数据提取用户说话时的嘴唇运动特征，针对运动特征进行模型训练和匹配，由于Wi-Fi设备通讯时，本身具有较高的抗干扰能力，并且相对于声波，电磁波在空间内的衰减程度更加微弱，这两个特性保证了CSI数据的完整性，能够清晰反映用户说话时唇部的运动特征；此外，不同的人有不同的说话习惯，导致不同人说话时嘴唇运动特征的差异，而生理特征上的差异进一步放大的运动特征的差异，所以基于CSI数据的语音识别方法对不同声源声音有更高的辨识度。

步骤A具体的包括以下步骤：

A1、获取目标用户说话时和静止时的CSI数据；

A2、对嘴唇进行定位；

A3、删除背景噪音数据和无效的子载波的CSI数据以降低信号处理水平的噪声。

采用巴特沃斯低通滤波器和主成分分析方法删除背景噪音数据和无效的子载波的CSI数据。

对CSI数据进行分段的具体方法为：

判断嘴唇振幅，根据嘴唇振幅幅值分别采用单阈值或双阈值判断语音起始点和结束点；

根据起始点和结束点对数据进行分段。

所述起始点和结束点的判断方法具体为：

若嘴唇振幅大于阈值t1，则采用阈值t1判断语音起点和终点；若嘴唇振幅小于阈值t1，首先计算两个相邻时间窗的中值绝对偏差值，若两个相邻时间窗的中值绝对偏差值之间的差异超过阈值t2，再计算短时能量e，若短时能量e超过的平均能量值，则得到一个起始点或结束点。其中，中值绝对偏差即MAD。

所述阈值t1为目标用户说话时嘴唇运动振幅的平均值；所述阈值t2为目标用户说话数据的总体中值绝对偏差。

采用IFFT算法对CSI数据进行多径消除，采用FFT算法将CSI数据转换回频域。本方法采用IFFT/FFT算法，可以在避免数据丢失的情况下消除多径造成的多元化的数据库ISI。

对数据进行训练的方法为：

使用离散小波变换来压缩提取的波形；

采用动态时间规整算法DTW计算不同波形形状之间的差异。

大部分情况下，两个序列波形整体上具有非常相似的形状，但是这些形状在x轴上并不是对齐的。所以我们在比较他们的相似度之前，需要将其中一个或者两个序列在时间轴下warping扭曲，以达到更好的对齐。而DTW就是实现这种warping扭曲的一种有效方法。DTW通过把时间序列进行延伸和缩短，来计算两个时间序列性之间的相似性，进而量化两波形之间的差异。

本发明与现有技术相比，具有如下的优点和有益效果：

1、本发明基于CSI数据，通过分析CSI数据提取用户说话时的嘴唇运动特征，针对运动特征进行模型训练和匹配，对不同声源声音辨识度高，克服了传统的基于声学的语音识别技术限于声波本身特点而造成的缺陷；同时由于CSI数据量远大于声波的数据量，因此基于CSI的语音识别技术对于声音特征可以进行更加细粒度的提取和匹配。

2、本方法基于Wi-Fi设备和电磁波实现对电磁波CSI数据的接受，保证了CSI数据的完整性，能够清晰反映用户说话时唇部的运动特征，抗干扰能力强。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，下面结合实施例，对本发明作进一步的详细说明，本发明的示意性实施方式及其说明仅用于解释本发明，并不作为对本发明的限定。

实施例1

一种基于CSI数据的语音识别方法，包括以下步骤：

B、对提取的CSI数据进行多径消除；

C、将CSI数据转换回频域；

D、对CSI数据进行分段；

实施例2

基于上述实施例的原理，本实施例公开一种具体实施方式。

不同的人有不同的说话习惯，导致不同的人具有不同的唇动率和振幅。不同的人的嘴形状本质上是不同的，因而不同人说话的唇动率和振幅被进一步放大，不同的振幅和频域是基于CSI识别的基础。

根据实施例1的原理，本方案的方法分为三个阶段进行，分别为数据预处理阶段、特征提取和选择阶段、训练和分类阶段。

具体的，数据预处理阶段包括：

A1、调用Wi-Fi设备获取发射机发送的CSI跟踪信息，并不是所有的CSI数据都与嘴唇运动相关，而有效的数据只包括捕捉嘴唇运动的CSI数据，此时获得的数据包括目标用户说话时和静止时的CSI数据。

A2、对嘴唇进行定位，以减少与嘴唇运动无关的多径效应，此步骤可使用MIMObeam成形技术将波束定位和聚焦于嘴唇。

A3、删除背景噪音数据和无效的子载波的CSI数据以降低信号处理水平的噪声，此时可得到有效的嘴唇运动的CSI数据。根据生物学，唇部运动的频率在2-5赫兹之间，由于嘴唇运动引起的变异频率位于频谱的低端，而噪声频率位于频谱的高端。因此，可选择了巴特沃斯低通滤波器来去除噪声数据，而不影响唇动信号的相位信息，巴特沃斯低通滤波器的截止频率为人类活动对不同子载波的影响是相关的，尽管这些子载波的波是完全不同的，但它们之间存在很强的相关性，为了提取有效的CSI数据，我们使用主成分分析即PCA来发现CSI数据中的主成分，它代表了所有子载波中最常见的变化，这样就得到了有效的CSI数据，并过滤掉了噪声。

采用IFFT算法对CSI数据进行多径消除，采用FFT算法将CSI数据转换回频域即时间—频率信号。

对CSI数据进行分段，首先判断嘴唇振幅，根据嘴唇振幅幅值分别采用单阈值或双阈值判断语音起始点和结束点；再根据起始点和结束点对数据进行分段。具体的，若嘴唇振幅大于阈值t1，则判定目标用户说话时嘴唇振幅大，则采用阈值t1判断语音起点和终点；若嘴唇振幅小于阈值t1，则判定目标用户说话时嘴唇振幅小，微动作不够清晰，使用单阈值t1会产生较大的误差，此时首先计算两个相邻时间窗的中值绝对偏差值，若两个相邻时间窗的中值绝对偏差值之间的差异超过阈值t2，再计算短时能量e，若短时能量e超过的平均能量值，则得到一个起始点或结束点。其中，优选的，阈值t1为目标用户说话时嘴唇运动振幅的平均值；阈值t2为目标用户说话数据的总体中值绝对偏差。考虑到用户不同的说话习惯会导致相同的发音可能会有不同的运动特征，比如运动的振幅不同，因此不采用固定数值作为阈值而是根据用户的实时数据计算针对当前用户的阈值，这样可以避免用户个体差异导致的误差，提高特征提取的清晰度和可靠性。

基于数据预处理阶段，我们已经获得了可以反映嘴唇运动的有效的CSI数据，为了区分不同人的嘴唇运动，我们需要提取CSI数据中有关嘴唇运动的独特特征，特征提取和选择阶段具体方法为：

利用提取的波形来作为嘴唇运动的特征，因为时间和频率信息都包含在波形的形状中。为了降低计算复杂度，使用离散小波变换即DWT来压缩提取的波形，且对于每个单词，执行13次离散小波变换，可兼顾精度和计算效率。

采用动态时间规整算法计算不同波形形状之间的差异，这是在边界条件和局部路径约束下计算两种波形之间最优弯曲路径的欧几里德距离。

基于特征提取和选择阶段，已经获得嘴唇运动的特征波形，针对双曲面的唇形运动，建立基于DWT形状的分类和训练模型。训练和分类阶段的具体方法为：

将上述特性输入到kNN模型或决策树中，用于对不同用户进行分类。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于CSI数据的语音识别方法，其特征在于，包括以下步骤：

B、对提取的CSI数据进行多径消除；

C、将CSI数据转换回频域；

D、对CSI数据进行分段；

2.根据权利要求1所述的一种基于CSI数据的语音识别方法，其特征在于，步骤A具体的包括以下步骤：

A1、获取目标用户说话时和静止时的CSI数据；

A2、对嘴唇进行定位；

A3、删除背景噪音数据和无效的子载波的CSI数据。

3.根据权利要求2所述的一种基于CSI数据的语音识别方法，其特征在于，采用巴特沃斯低通滤波器和主成分分析方法删除背景噪音数据和无效的子载波的CSI数据。

4.根据权利要求1所述的一种基于CSI数据的语音识别方法，其特征在于，对CSI数据进行分段的具体方法为：

根据起始点和结束点对数据进行分段。

5.根据权利要求4所述的一种基于CSI数据的语音识别方法，其特征在于，所述起始点和结束点的判断方法具体为：

若嘴唇振幅大于阈值t1，则采用阈值t1判断语音起点和终点；若嘴唇振幅小于阈值t1，首先计算两个相邻时间窗的中值绝对偏差值，若两个相邻时间窗的中值绝对偏差值之间的差异超过阈值t2，再计算短时能量e，若短时能量e超过的平均能量值，则得到一个起始点或结束点。

6.根据权利要求5所述的一种基于CSI数据的语音识别方法，其特征在于，所述阈值t1为目标用户说话时嘴唇运动振幅的平均值；所述阈值t2为目标用户说话数据的总体中值绝对偏差。

7.根据权利要求1所述的一种基于CSI数据的语音识别方法，其特征在于，采用IFFT算法对CSI数据进行多径消除，采用FFT算法将CSI数据转换回频域。

8.根据权利要求1所述的一种基于CSI数据的语音识别方法，其特征在于，对数据进行训练的方法为：

使用离散小波变换来压缩提取的波形；

采用动态时间规整算法计算不同波形形状之间的差异。