CN108198558A - 一种基于csi数据的语音识别方法 - Google Patents

一种基于csi数据的语音识别方法 Download PDF

Info

Publication number
CN108198558A
CN108198558A CN201711465200.4A CN201711465200A CN108198558A CN 108198558 A CN108198558 A CN 108198558A CN 201711465200 A CN201711465200 A CN 201711465200A CN 108198558 A CN108198558 A CN 108198558A
Authority
CN
China
Prior art keywords
csi data
data
csi
lip
audio recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711465200.4A
Other languages
English (en)
Other versions
CN108198558B (zh
Inventor
赵志为
闵革勇
陈烁炜
李维旺
高伟峰
舒畅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN201711465200.4A priority Critical patent/CN108198558B/zh
Publication of CN108198558A publication Critical patent/CN108198558A/zh
Application granted granted Critical
Publication of CN108198558B publication Critical patent/CN108198558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/08Testing, supervising or monitoring using real traffic

Abstract

本发明公开了一种基于CSI数据的语音识别方法,包括以下步骤:获取目标用户说话时和静止时的CSI数据并提取目标用户说话时的特征CSI数据;对提取的CSI数据进行多径消除;将CSI数据转换回频域;对CSI数据进行分段;对分段数据进行训练,得到目标用户不同的唇部运动的特征数据;将步骤E中得到的特征数据与特征库中的特征数据进行匹配和识别,实现对用户语音的识别。

Description

一种基于CSI数据的语音识别方法
技术领域
本发明涉及语音识别技术领域,具体涉及一种基于CSI数据的语音识别方法。
背景技术
语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
现有的语音识别方法通常是基于语音学和声学发展而来的识别方法,其技术方案通常是针对声波进行适当的处理,进行语音的特征提取和匹配识别;现存的基于声学的语音识别方法限于声波本身易衰减、抗干扰能力弱的特点,其识别方法中存在声音特征模糊、抗干扰能力差、对不同声源声音的辨识度低等缺点。
发明内容
本发明为了解决上述技术问题提供一种基于CSI数据的语音识别方法。
本发明通过下述技术方案实现:
一种基于CSI数据的语音识别方法,包括以下步骤:
A、通过Wi-Fi设备获取目标用户说话时和静止时的CSI数据并提取目标用户说话时的特征CSI数据;
B、对提取的CSI数据进行多径消除;
C、将CSI数据转换回频域;
D、对CSI数据进行分段;
E、对分段数据进行训练,得到目标用户不同的唇部运动的特征数据;
F、将步骤E中得到的特征数据与特征库中的特征数据进行匹配和识别,实现对用户语音的识别。
CSI即信道状态信息,人类的行为动作对无线CSI数据产生了独特的影响,本方案将CSI应用于生物识别技术中,CSI技术已经被应用于室内定位、人类活动检测等多个领域,这些应用的基本思想是,人体不同的行动模式会对CSI的特征产生不同的影响。这种差异可以放大到足以用来识别不同运动的程度。本方法基于CSI数据,通过分析CSI数据提取用户说话时的嘴唇运动特征,针对运动特征进行模型训练和匹配,由于Wi-Fi设备通讯时,本身具有较高的抗干扰能力,并且相对于声波,电磁波在空间内的衰减程度更加微弱,这两个特性保证了CSI数据的完整性,能够清晰反映用户说话时唇部的运动特征;此外,不同的人有不同的说话习惯,导致不同人说话时嘴唇运动特征的差异,而生理特征上的差异进一步放大的运动特征的差异,所以基于CSI数据的语音识别方法对不同声源声音有更高的辨识度。
步骤A具体的包括以下步骤:
A1、获取目标用户说话时和静止时的CSI数据;
A2、对嘴唇进行定位;
A3、删除背景噪音数据和无效的子载波的CSI数据以降低信号处理水平的噪声。
采用巴特沃斯低通滤波器和主成分分析方法删除背景噪音数据和无效的子载波的CSI数据。
对CSI数据进行分段的具体方法为:
判断嘴唇振幅,根据嘴唇振幅幅值分别采用单阈值或双阈值判断语音起始点和结束点;
根据起始点和结束点对数据进行分段。
所述起始点和结束点的判断方法具体为:
若嘴唇振幅大于阈值t1,则采用阈值t1判断语音起点和终点;若嘴唇振幅小于阈值t1,首先计算两个相邻时间窗的中值绝对偏差值,若两个相邻时间窗的中值绝对偏差值之间的差异超过阈值t2,再计算短时能量e,若短时能量e超过的平均能量值,则得到一个起始点或结束点。其中,中值绝对偏差即MAD。
所述阈值t1为目标用户说话时嘴唇运动振幅的平均值;所述阈值t2为目标用户说话数据的总体中值绝对偏差。
采用IFFT算法对CSI数据进行多径消除,采用FFT算法将CSI数据转换回频域。本方法采用IFFT/FFT算法,可以在避免数据丢失的情况下消除多径造成的多元化的数据库ISI。
对数据进行训练的方法为:
使用离散小波变换来压缩提取的波形;
采用动态时间规整算法DTW计算不同波形形状之间的差异。
大部分情况下,两个序列波形整体上具有非常相似的形状,但是这些形状在x轴上并不是对齐的。所以我们在比较他们的相似度之前,需要将其中一个或者两个序列在时间轴下warping扭曲,以达到更好的对齐。而DTW就是实现这种warping扭曲的一种有效方法。DTW通过把时间序列进行延伸和缩短,来计算两个时间序列性之间的相似性,进而量化两波形之间的差异。
本发明与现有技术相比,具有如下的优点和有益效果:
1、本发明基于CSI数据,通过分析CSI数据提取用户说话时的嘴唇运动特征,针对运动特征进行模型训练和匹配,对不同声源声音辨识度高,克服了传统的基于声学的语音识别技术限于声波本身特点而造成的缺陷;同时由于CSI数据量远大于声波的数据量,因此基于CSI的语音识别技术对于声音特征可以进行更加细粒度的提取和匹配。
2、本方法基于Wi-Fi设备和电磁波实现对电磁波CSI数据的接受,保证了CSI数据的完整性,能够清晰反映用户说话时唇部的运动特征,抗干扰能力强。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1
一种基于CSI数据的语音识别方法,包括以下步骤:
A、通过Wi-Fi设备获取目标用户说话时和静止时的CSI数据并提取目标用户说话时的特征CSI数据;
B、对提取的CSI数据进行多径消除;
C、将CSI数据转换回频域;
D、对CSI数据进行分段;
E、对分段数据进行训练,得到目标用户不同的唇部运动的特征数据;
F、将步骤E中得到的特征数据与特征库中的特征数据进行匹配和识别,实现对用户语音的识别。
实施例2
基于上述实施例的原理,本实施例公开一种具体实施方式。
不同的人有不同的说话习惯,导致不同的人具有不同的唇动率和振幅。不同的人的嘴形状本质上是不同的,因而不同人说话的唇动率和振幅被进一步放大,不同的振幅和频域是基于CSI识别的基础。
根据实施例1的原理,本方案的方法分为三个阶段进行,分别为数据预处理阶段、特征提取和选择阶段、训练和分类阶段。
具体的,数据预处理阶段包括:
A1、调用Wi-Fi设备获取发射机发送的CSI跟踪信息,并不是所有的CSI数据都与嘴唇运动相关,而有效的数据只包括捕捉嘴唇运动的CSI数据,此时获得的数据包括目标用户说话时和静止时的CSI数据。
A2、对嘴唇进行定位,以减少与嘴唇运动无关的多径效应,此步骤可使用MIMObeam成形技术将波束定位和聚焦于嘴唇。
A3、删除背景噪音数据和无效的子载波的CSI数据以降低信号处理水平的噪声,此时可得到有效的嘴唇运动的CSI数据。根据生物学,唇部运动的频率在2-5赫兹之间,由于嘴唇运动引起的变异频率位于频谱的低端,而噪声频率位于频谱的高端。因此,可选择了巴特沃斯低通滤波器来去除噪声数据,而不影响唇动信号的相位信息,巴特沃斯低通滤波器的截止频率为人类活动对不同子载波的影响是相关的,尽管这些子载波的波是完全不同的,但它们之间存在很强的相关性,为了提取有效的CSI数据,我们使用主成分分析即PCA来发现CSI数据中的主成分,它代表了所有子载波中最常见的变化,这样就得到了有效的CSI数据,并过滤掉了噪声。
采用IFFT算法对CSI数据进行多径消除,采用FFT算法将CSI数据转换回频域即时间—频率信号。
对CSI数据进行分段,首先判断嘴唇振幅,根据嘴唇振幅幅值分别采用单阈值或双阈值判断语音起始点和结束点;再根据起始点和结束点对数据进行分段。具体的,若嘴唇振幅大于阈值t1,则判定目标用户说话时嘴唇振幅大,则采用阈值t1判断语音起点和终点;若嘴唇振幅小于阈值t1,则判定目标用户说话时嘴唇振幅小,微动作不够清晰,使用单阈值t1会产生较大的误差,此时首先计算两个相邻时间窗的中值绝对偏差值,若两个相邻时间窗的中值绝对偏差值之间的差异超过阈值t2,再计算短时能量e,若短时能量e超过的平均能量值,则得到一个起始点或结束点。其中,优选的,阈值t1为目标用户说话时嘴唇运动振幅的平均值;阈值t2为目标用户说话数据的总体中值绝对偏差。考虑到用户不同的说话习惯会导致相同的发音可能会有不同的运动特征,比如运动的振幅不同,因此不采用固定数值作为阈值而是根据用户的实时数据计算针对当前用户的阈值,这样可以避免用户个体差异导致的误差,提高特征提取的清晰度和可靠性。
基于数据预处理阶段,我们已经获得了可以反映嘴唇运动的有效的CSI数据,为了区分不同人的嘴唇运动,我们需要提取CSI数据中有关嘴唇运动的独特特征,特征提取和选择阶段具体方法为:
利用提取的波形来作为嘴唇运动的特征,因为时间和频率信息都包含在波形的形状中。为了降低计算复杂度,使用离散小波变换即DWT来压缩提取的波形,且对于每个单词,执行13次离散小波变换,可兼顾精度和计算效率。
采用动态时间规整算法计算不同波形形状之间的差异,这是在边界条件和局部路径约束下计算两种波形之间最优弯曲路径的欧几里德距离。
基于特征提取和选择阶段,已经获得嘴唇运动的特征波形,针对双曲面的唇形运动,建立基于DWT形状的分类和训练模型。训练和分类阶段的具体方法为:
将上述特性输入到kNN模型或决策树中,用于对不同用户进行分类。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于CSI数据的语音识别方法,其特征在于,包括以下步骤:
A、通过Wi-Fi设备获取目标用户说话时和静止时的CSI数据并提取目标用户说话时的特征CSI数据;
B、对提取的CSI数据进行多径消除;
C、将CSI数据转换回频域;
D、对CSI数据进行分段;
E、对分段数据进行训练,得到目标用户不同的唇部运动的特征数据;
F、将步骤E中得到的特征数据与特征库中的特征数据进行匹配和识别,实现对用户语音的识别。
2.根据权利要求1所述的一种基于CSI数据的语音识别方法,其特征在于,步骤A具体的包括以下步骤:
A1、获取目标用户说话时和静止时的CSI数据;
A2、对嘴唇进行定位;
A3、删除背景噪音数据和无效的子载波的CSI数据。
3.根据权利要求2所述的一种基于CSI数据的语音识别方法,其特征在于,采用巴特沃斯低通滤波器和主成分分析方法删除背景噪音数据和无效的子载波的CSI数据。
4.根据权利要求1所述的一种基于CSI数据的语音识别方法,其特征在于,对CSI数据进行分段的具体方法为:
判断嘴唇振幅,根据嘴唇振幅幅值分别采用单阈值或双阈值判断语音起始点和结束点;
根据起始点和结束点对数据进行分段。
5.根据权利要求4所述的一种基于CSI数据的语音识别方法,其特征在于,所述起始点和结束点的判断方法具体为:
若嘴唇振幅大于阈值t1,则采用阈值t1判断语音起点和终点;若嘴唇振幅小于阈值t1,首先计算两个相邻时间窗的中值绝对偏差值,若两个相邻时间窗的中值绝对偏差值之间的差异超过阈值t2,再计算短时能量e,若短时能量e超过的平均能量值,则得到一个起始点或结束点。
6.根据权利要求5所述的一种基于CSI数据的语音识别方法,其特征在于,所述阈值t1为目标用户说话时嘴唇运动振幅的平均值;所述阈值t2为目标用户说话数据的总体中值绝对偏差。
7.根据权利要求1所述的一种基于CSI数据的语音识别方法,其特征在于,采用IFFT算法对CSI数据进行多径消除,采用FFT算法将CSI数据转换回频域。
8.根据权利要求1所述的一种基于CSI数据的语音识别方法,其特征在于,对数据进行训练的方法为:
使用离散小波变换来压缩提取的波形;
采用动态时间规整算法计算不同波形形状之间的差异。
CN201711465200.4A 2017-12-28 2017-12-28 一种基于csi数据的语音识别方法 Active CN108198558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711465200.4A CN108198558B (zh) 2017-12-28 2017-12-28 一种基于csi数据的语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711465200.4A CN108198558B (zh) 2017-12-28 2017-12-28 一种基于csi数据的语音识别方法

Publications (2)

Publication Number Publication Date
CN108198558A true CN108198558A (zh) 2018-06-22
CN108198558B CN108198558B (zh) 2021-01-29

Family

ID=62585699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711465200.4A Active CN108198558B (zh) 2017-12-28 2017-12-28 一种基于csi数据的语音识别方法

Country Status (1)

Country Link
CN (1) CN108198558B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110262278A (zh) * 2019-07-31 2019-09-20 珠海格力电器股份有限公司 智能家电设备的控制方法及装置、智能电器设备
CN110365429A (zh) * 2019-07-18 2019-10-22 珠海格力电器股份有限公司 检测方法、装置和系统
CN110635836A (zh) * 2019-09-12 2019-12-31 重庆大学 一种基于波束选择的毫米波大规模mimo系统mmse-pca信道估计方法
CN111753686A (zh) * 2020-06-11 2020-10-09 深圳市三旺通信股份有限公司 基于csi的人数识别方法、装置、设备及计算机存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100280827A1 (en) * 2009-04-30 2010-11-04 Microsoft Corporation Noise robust speech classifier ensemble
US7881927B1 (en) * 2003-09-26 2011-02-01 Plantronics, Inc. Adaptive sidetone and adaptive voice activity detect (VAD) threshold for speech processing
CN104021789A (zh) * 2014-06-25 2014-09-03 厦门大学 一种利用短时时频值的自适应端点检测方法
CN104217218A (zh) * 2014-09-11 2014-12-17 广州市香港科大霍英东研究院 一种唇语识别方法及系统
CN204392078U (zh) * 2014-12-25 2015-06-10 上海新华控制技术集团科技有限公司 一种电压阈值检测电路
CN105261368A (zh) * 2015-08-31 2016-01-20 华为技术有限公司 一种语音唤醒方法及装置
CN105869639A (zh) * 2016-03-21 2016-08-17 广东小天才科技有限公司 一种语音识别的方法及系统
CN106446828A (zh) * 2016-09-22 2017-02-22 西北工业大学 一种基于Wi‑Fi信号的用户身份识别方法
CN106448659A (zh) * 2016-12-19 2017-02-22 广东工业大学 一种基于短时能量和分形维数的语音端点检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7881927B1 (en) * 2003-09-26 2011-02-01 Plantronics, Inc. Adaptive sidetone and adaptive voice activity detect (VAD) threshold for speech processing
US20100280827A1 (en) * 2009-04-30 2010-11-04 Microsoft Corporation Noise robust speech classifier ensemble
CN104021789A (zh) * 2014-06-25 2014-09-03 厦门大学 一种利用短时时频值的自适应端点检测方法
CN104217218A (zh) * 2014-09-11 2014-12-17 广州市香港科大霍英东研究院 一种唇语识别方法及系统
CN204392078U (zh) * 2014-12-25 2015-06-10 上海新华控制技术集团科技有限公司 一种电压阈值检测电路
CN105261368A (zh) * 2015-08-31 2016-01-20 华为技术有限公司 一种语音唤醒方法及装置
CN105869639A (zh) * 2016-03-21 2016-08-17 广东小天才科技有限公司 一种语音识别的方法及系统
CN106446828A (zh) * 2016-09-22 2017-02-22 西北工业大学 一种基于Wi‑Fi信号的用户身份识别方法
CN106448659A (zh) * 2016-12-19 2017-02-22 广东工业大学 一种基于短时能量和分形维数的语音端点检测方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ANNA KATHARINA FUCHS,CLEMENS AMON,MARTIN HAGMULLER: "Speech/Non-Speech Detection for Electro-Larynx Speech Using EMG", 《INTERNATIONAL CONFERENCE ON BIO-INSPIRED SYSTEMS AND SINGAL PROCESSING》 *
KAMRAN ALI,ALEX X.LIU,ET AL: "Keystroke Recognition Using WiFi Signals", 《PROCEEDINGS OF THE 21ST ANNUAL INTERNATIONAL CONFERENCE ON MOBILE COMPUTING AND NETWORKING》 *
于海平: "《内蒙古科技大学学生优秀毕业设计(论文)选编:2006届 (上册)》", 31 December 2007, 赤峰:内蒙古科学技术出版社 *
白顺先,马瑞士: "语音端点检测中判决机制的研究", 《大连民族学院学报》 *
陆虎敏: "《飞机座舱显示与控制技术》", 31 December 2015, 北京:航空工业出版社 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110365429A (zh) * 2019-07-18 2019-10-22 珠海格力电器股份有限公司 检测方法、装置和系统
CN110365429B (zh) * 2019-07-18 2020-09-25 珠海格力电器股份有限公司 检测方法、装置和系统、存储介质及处理器
CN110262278A (zh) * 2019-07-31 2019-09-20 珠海格力电器股份有限公司 智能家电设备的控制方法及装置、智能电器设备
CN110635836A (zh) * 2019-09-12 2019-12-31 重庆大学 一种基于波束选择的毫米波大规模mimo系统mmse-pca信道估计方法
CN111753686A (zh) * 2020-06-11 2020-10-09 深圳市三旺通信股份有限公司 基于csi的人数识别方法、装置、设备及计算机存储介质

Also Published As

Publication number Publication date
CN108198558B (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
AU2021277642B2 (en) Method and apparatus for detecting spoofing conditions
US11869261B2 (en) Robust audio identification with interference cancellation
US9595259B2 (en) Sound source-separating device and sound source-separating method
CN108198558A (zh) 一种基于csi数据的语音识别方法
CN109285538B (zh) 一种基于常q变换域的加性噪声环境下手机来源识别方法
CN106599866A (zh) 一种多维度用户身份识别方法
CN107221325A (zh) 有向性关键字验证方法以及使用该方法的电子装置
CN103236260A (zh) 语音识别系统
CN106531179A (zh) 一种基于语义先验的选择性注意的多通道语音增强方法
Koldovsky et al. Time-domain blind audio source separation using advanced component clustering and reconstruction
CN104217218B (zh) 一种唇语识别方法及系统
CN102930870A (zh) 利用抗噪幂归一化倒谱系数的鸟类声音识别方法
CN110265037A (zh) 身份验证方法、装置、电子设备及计算机可读存储介质
CN109935226A (zh) 一种基于深度神经网络的远场语音识别增强系统及方法
CN103021405A (zh) 基于music和调制谱滤波的语音信号动态特征提取方法
Bach et al. Modulation-based detection of speech in real background noise: Generalization to novel background classes
CN110349593A (zh) 基于波形时频域分析的语义和声纹双重识别的方法及系统
EP3430612A1 (en) Apparatus and method for harmonic-percussive-residual sound separation using a structure tensor on spectrograms
CN203165457U (zh) 一种可用于强噪声环境的语音采集装置
CN110503967A (zh) 一种语音增强方法、装置、介质和设备
US20190324117A1 (en) Content aware audio source localization
Park et al. A noise robust audio fingerprint extraction technique for mobile devices using gradient histograms
KR101552660B1 (ko) 음성구간 검출 장치 및 방법
Chou et al. Automatic birdsong recognition with MFCC based syllable feature extraction
Kumari et al. Audio signal classification based on optimal wavelet and support vector machine

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant