CN111599375B - 一种语音交互中多路语音的白化方法及其装置 - Google Patents

一种语音交互中多路语音的白化方法及其装置 Download PDF

Info

Publication number
CN111599375B
CN111599375B CN202010339154.9A CN202010339154A CN111599375B CN 111599375 B CN111599375 B CN 111599375B CN 202010339154 A CN202010339154 A CN 202010339154A CN 111599375 B CN111599375 B CN 111599375B
Authority
CN
China
Prior art keywords
matrix
voice
frequency domain
whitening
domain data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010339154.9A
Other languages
English (en)
Other versions
CN111599375A (zh
Inventor
关海欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010339154.9A priority Critical patent/CN111599375B/zh
Publication of CN111599375A publication Critical patent/CN111599375A/zh
Application granted granted Critical
Publication of CN111599375B publication Critical patent/CN111599375B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种语音交互中多路语音的白化方法及其装置,包括:将输入多路语音数据转换到频域,获取语音频域数据;将所述语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T1时,使用所缓存的T1时长对应的语音频域数据计算各频带协方差矩阵,并求解所述各频带协方差矩阵的逆矩阵;继续对新获得的语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T2时,根据各频带协方差矩阵的逆矩阵计算白化矩阵;重复迭代执行上述步骤,当检测到唤醒状态时,使用最后一次迭代获得的白化矩阵处理剩余的白化数据。

Description

一种语音交互中多路语音的白化方法及其装置
技术领域
本发明涉及语音交互技术领域,特别涉及一种语音交互中多路语音的白化方法及其装置。
背景技术
目前,在语音交互中,通常需要先唤醒设备,唤醒设备后通过唤醒词对应的语音数据可以计算出空间滤波器系数,对后继信号做空域滤波可提高语音质量,提高语音交互成功率。多通道信号可以通过计算信号、噪声协方差阵估计空间滤波器,但信号和噪声通常是混叠的,需要通过估计方法估计时频点归属,通过白化处理,可以增强不同方向信号的可分性,从而提高信号、噪声协方差计算准确性,提高空间滤波器性能。白化通常做法是拿到足够的信号、噪声数据,全局处理,往往数据越多白化矩阵越稳定,效果越好,但这种做法最大的缺点是延迟较大,瞬间计算量大,且需缓存大量数据,工程应用并不方便。
发明内容
本发明提供一种语音交互中多路语音的白化方法及其装置,用以解决白化累积数据多,计算量大,造成延迟的情况。
一种语音交互中多路语音的白化方法,其特征在于,包括:
步骤1:将输入多路语音数据转换到频域,获取语音频域数据;
步骤2:将所述语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T1时,使用所缓存的T1时长对应的语音频域数据计算各频带协方差矩阵,并求解所述各频带协方差矩阵的逆矩阵;
步骤3:继续对新获得的语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T2时,根据各频带协方差矩阵的逆矩阵计算白化矩阵,通过所述白化矩阵对缓存的语音频域数据进行白化处理;
步骤4:重复迭代执行步骤1至步骤3,当检测到唤醒状态时,使用最后一次迭代获得的白化矩阵处理剩余的白化数据。
作为本发明的一种实施例:所述将输入多路语音数据转换到频域,获取语音频域数据,包括:
通过所述唤醒设备采集所述多路语音;
将所述多路语音进行分帧加窗处理,获取所述分帧后多路语音的频域特征,确定所述多路语音的语音频域数据。
作为本发明的一种实施例所述使用所缓存的T1时长对应的语音频域数据计算各频带协方差矩阵,包括:
获取缓存的时间数据T1;
按照下式(1)计算频带协方差矩阵:
Figure BDA0002467719070000021
其中,Y表示各频带协方差矩阵,所述t表示时刻;所述f表示频带;所述yf,t表示t时刻频带向量;所述yH f,t表示t时刻共轭对称下的频带向量;所述H表示共轭对称。
作为本发明的一种实施例:所述当缓存的语音频域数据对应的时长达到T2时,根据各频带协方差矩阵的逆矩阵计算白化矩阵,包括:
基于矩阵求逆引理,按照下式(2)计算计算各个频带逆矩阵;
Figure BDA0002467719070000031
其中,所述
Figure BDA0002467719070000032
表示协方差矩阵的逆矩阵;所述yf,t表示t时刻的频带向量;所述
Figure BDA0002467719070000033
表示t-1时刻的逆矩阵;所述yf,t-1表示t-1时刻的频带向量;
根据所述逆矩阵,通过乔利斯基分解U=LLH求解白化矩阵;其中,
所述U对应Y-1 f,t;所述LH是L的共轭矩阵,表示乔利斯基分解后的上三角矩阵;所述L表示乔利斯基分解后的下三角矩阵。
作为本发明的一种实施例:所述当检测到所述唤醒设备处于唤醒状态时,使用最后一次迭代获得的白化矩阵处理剩余的白化数据,包括:
步骤10:获取唤醒设备的实际状态特征;
步骤11:根据所述实际状态特征与预设的状态参数进行匹配,获取匹配结果;
步骤12:根据所述匹配结果判断所述唤醒设备处于休眠状态或唤醒状态其中之一;
步骤13:当所述唤醒设备处于休眠状态,转换为监测模式,持续监测所述唤醒设备的状态特征,并重复步骤10和步骤11;
当所述唤醒设备处于唤醒状态,用最后一次迭代获得的白化矩阵处理剩余的白化数据。
一种语音交互中多路语音的白化装置,其特征在于,包括:
第一获取模块:用于将输入多路语音数据转换到频域,获取语音频域数据;
第一处理模块:用于将所述语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T1时,使用所缓存的T1时长对应的语音频域数据计算各频带协方差矩阵,并求解所述各频带协方差矩阵的逆矩阵;
第二处理模块:用于继续对新获得的语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T2时,根据各频带协方差矩阵的逆矩阵计算白化矩阵,通过所述白化矩阵对缓存的语音频域数据进行白化处理;第三处理模块:用于重复迭代上述模块的执行操作,当检测到唤醒状态时,使用最后一次迭代获得的白化矩阵处理剩余的白化数据。
作为本发明的一种实施例,所述第一获取模块包括:
第一采集单元:用于通过所述唤醒设备采集所述多路语音;
第一确定单元:用于将所述多路语音进行分帧加窗处理,获取所述分帧后多路语音的频域特征,确定所述多路语音的语音频域数据。
作为本发明的一种实施例,所述第一处理单元包括:
第一获取单元:用于获取缓存的时间数据T1;
第一处理单元:用于按照下式(1)计算频带协方差矩阵:
Figure BDA0002467719070000041
其中,Y表示各频带协方差矩阵,所述t表示时刻;所述f表示频带;所述yf,t表示t时刻频带向量;所述yH f,t表示t时刻共轭对称下的频带向量;所述H表示共轭对称。
作为本发明的一种实施例,所述第二处理模块包括:
第二处理单元:用于基于矩阵求逆引理,按照下式(2)计算计算各个频带逆矩阵;
Figure BDA0002467719070000051
其中,所述
Figure BDA0002467719070000052
表示协方差矩阵的逆矩阵;所述yf,t表示t时刻的频带向量;所述
Figure BDA0002467719070000053
表示t-1时刻的逆矩阵;所述yf,t-1表示t-1时刻的频带向量;
根据所述逆矩阵,通过乔利斯基分解U=LLH求解白化矩阵;其中,
所述U对应Y-1 f,t;所述LH是L的共轭矩阵,表示乔利斯基分解后的上三角矩阵;所述L表示乔利斯基分解后的下三角矩阵。
步骤10:获取唤醒设备的实际状态特征;
步骤11:根据所述实际状态特征与预设的状态参数进行匹配,获取匹配结果;
步骤12:根据所述匹配结果判断所述唤醒设备处于休眠状态或唤醒状态其中之一;
步骤13:当所述唤醒设备处于休眠状态,转换为监测模式,持续监测所述唤醒设备的状态特征,并重复步骤10和步骤11;
当所述唤醒设备处于唤醒状态,用最后一次迭代获得的白化矩阵处理剩余的白化数据。
本发明的有益效果在于:本专利通过不断迭代更新的方式求解白化矩阵,避免了最后一次性估计白化矩阵,解决了瞬态计算峰值问题,并且包含了累积的数据信息,相比全局求解方法保持了良好的性能。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
在附图中:
图1为本发明实施例中一种语音交互中多路语音的白化方法的方法流程图;
图2为本发明实施例中一种语音交互中多路语音的白化装置的装置结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
如附图1为本发明实施例中一种语音交互中多路语音的白化方法的方法流程图,包括:
步骤1:将输入多路语音数据转换到频域,获取语音频域数据;
步骤2:将所述语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T1时,使用所缓存的T1时长对应的语音频域数据计算各频带协方差矩阵,并求解所述各频带协方差矩阵的逆矩阵;
步骤3:继续对新获得的语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T2时,根据各频带协方差矩阵的逆矩阵计算白化矩阵,通过所述白化矩阵对新缓存的语音频域数据进行白化处理;这个是不断累积数据,达到一段则更新白化矩阵,并处理这部分数据。
步骤4:重复迭代执行步骤1至步骤3,当检测到唤醒状态时,使用最后一次迭代获得的白化矩阵处理剩余的白化数据。当系统返回唤醒状态后,把缓存中的未被处理数据一起处理掉
本发明的原理在于:语音数据包括用户语音和噪声,本发明在不断采集的过程,语音检测的目的也是检测出那一部分是用户语音;本发明通过将多路语音转换为频域,得到语音的频域数据,执行缓存,通过在一定时间内利用协方差矩阵求取多路语音的逆矩阵,根据逆矩阵,再在一定的时长内获取白化矩阵,以重复迭代的方式处理白化矩阵。
在初始阶段会拿到一个初始值,然后不断迭代求解白化矩阵并对数据做白化处理,由于矩阵的逆需要一定数据累积才能计算,所以初始一定时间不断累积数据,然后计算得到初始的逆矩阵,然后在后继的过程中隔一段时间(很短,比如10帧)通过矩阵求逆引理更新逆矩阵,计算白化矩阵,同时对该段数据进行处理得到白化后的数据,不断往复,直到唤醒时刻,把缓存中未处理的数据做白化处理。缓存是一个一直持续的过程,不断有数据进来,不断处理,但总的缓存时长是有限的,比如4秒,满了就把前面的丢掉,先进先出,唤醒时用这4秒数据求解空间滤波器。
本发明的有益效果在于:本发明通过不断迭代更新的方式求解白化矩阵,避免了最后一次性估计白化矩阵,解决了瞬态计算峰值问题,并且包含了累积的数据信息,相比全局求解方法保持了良好的性能。
作为本发明的一种实施例:所述将输入多路语音数据转换到频域,获取语音频域数据,包括:
通过所述唤醒设备采集所述多路语音;
将所述多路语音进行分帧加窗处理,获取所述分帧后多路语音的频域特征,确定所述多路语音的语音频域数据。
本发明的原理在于:本发明获取语音频域数据时,通过时域特征和语音特征,然后转化为数字化语音,数字化语音分帧处理,然后通过提取每帧数字化语音的频域特征,频域特征可以理解为频谱,综合为语音频域数据。
本发明的有益效果在于:本发明根据多路语音的时域特征和语音特征,转化为数字化语音。数字化语音能更加精确的得到频域特征。分帧处理之后,分别获取每帧数字化语音的频域特征,使得频域数据更加精确和全面。
作为本发明的一种实施例所述使用所缓存的T1时长对应的语音频域数据计算各频带协方差矩阵,包括:
获取缓存的时间数据T1;
按照下式(1)计算频带协方差矩阵:
Figure BDA0002467719070000081
其中,Y表示各频带协方差矩阵,所述t表示时刻;所述f表示频带;所述yf,t表示t时刻频带向量;所述yH f,t表示t时刻共轭对称下的频带向量;所述H表示共轭对称。
作为本发明的一种实施例:所述当缓存的语音频域数据对应的时长达到T2时,根据各频带协方差矩阵的逆矩阵计算白化矩阵,包括:
基于矩阵求逆引理,按照下式(2)计算计算各个频带逆矩阵;
Figure BDA0002467719070000091
其中,所述
Figure BDA0002467719070000092
表示协方差矩阵的逆矩阵;所述yf,t表示t时刻的频带向量;所述
Figure BDA0002467719070000093
表示t-1时刻的逆矩阵;所述yf,t-1表示t-1时刻的频带向量;
根据所述逆矩阵,通过乔利斯基分解U=LLH求解白化矩阵;其中,
所述U对应Y-1 f,t;所述LH是L的共轭矩阵,表示乔利斯基分解后的上三角矩阵;所述L表示乔利斯基分解后的下三角矩阵。
作为本发明的一种实施例:所述当检测到所述唤醒设备处于唤醒状态时,使用最后一次迭代获得的白化矩阵处理剩余的白化数据,包括:
步骤10:获取唤醒设备的实际状态特征;
步骤11:根据所述实际状态特征与预设的状态参数进行匹配,获取匹配结果;
步骤12:根据所述匹配结果判断所述唤醒设备处于休眠状态或唤醒状态其中之一;
步骤13:当所述唤醒设备处于休眠状态,转换为监测模式,持续监测所述唤醒设备的状态特征,并重复步骤10和步骤11;
当所述唤醒设备处于唤醒状态,用最后一次迭代获得的白化矩阵处理剩余的白化数据。
如附图2为本发明实施例中一种语音交互中多路语音的白化装置的装置结构图,包括:
第一获取模块:用于将输入多路语音数据转换到频域,获取语音频域数据;
第一处理模块:用于将所述语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T1时,使用所缓存的T1时长对应的语音频域数据计算各频带协方差矩阵,并求解所述各频带协方差矩阵的逆矩阵;
第二处理模块:用于继续对新获得的语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T2时,根据各频带协方差矩阵的逆矩阵计算白化矩阵,通过所述白化矩阵对缓存的语音频域数据进行白化处理;
第三处理模块:用于重复迭代上述模块的执行操作,当检测到唤醒状态时,使用最后一次迭代获得的白化矩阵处理剩余的白化数据。
本发明的原理在于:本发明通过将多路语音转换为频域,得到语音的频域数据,执行缓存,通过在一定时间内利用协方差矩阵求取多路语音的逆矩阵,根据逆矩阵,再在一定的时长内获取白化矩阵,以重复迭代的方式处理白化矩阵。
本发明的有益效果在于:本发明通过不断迭代更新的方式求解白化矩阵,避免了最后一次性估计白化矩阵,解决了瞬态计算峰值问题,并且包含了累积的数据信息,相比全局求解方法保持了良好的性能。
作为本发明的一种实施例,所述第一获取模块包括:
第一采集单元:用于通过所述唤醒设备采集所述多路语音;
第一确定单元:用于将所述多路语音进行分帧加窗处理,获取所述分帧后多路语音的频域特征,确定所述多路语音的语音频域数据。
本发明的原理在于:本发明获取语音频域数据时,通过时域特征和语音特征,然后转化为数字化语音,数字化语音分帧处理,然后通过提取每帧数字化语音的频域特征,综合为语音频域数据。
本发明的有益效果在于:本发明根据多路语音的时域特征和语音特征,转化为数字化语音。数字化语音能更加精确的得到频域特征。分帧处理之后,分别获取每帧数字化语音的频域特征,使得频域数据更加精确和全面。
作为本发明的一种实施例,所述第一处理单元包括:
第一获取单元:用于获取缓存的时间数据T1;
第一处理单元:用于按照下式(1)计算频带协方差矩阵:
Figure BDA0002467719070000111
其中,Y表示各频带协方差矩阵,所述t表示时刻;所述f表示频带;所述yf,t表示t时刻频带向量;所述yH f,t表示t时刻共轭对称下的频带向量;所述H表示共轭对称。
作为本发明的一种实施例,所述第二处理模块包括:
第二处理单元:用于基于矩阵求逆引理,按照下式(2)计算计算各个频带逆矩阵;
Figure BDA0002467719070000112
其中,所述
Figure BDA0002467719070000113
表示协方差矩阵的逆矩阵;所述yf,t表示t时刻的频带向量;所述
Figure BDA0002467719070000121
表示t-1时刻的逆矩阵;所述yf,t-1表示t-1时刻的频带向量;
根据所述逆矩阵,通过乔利斯基分解U=LLH求解白化矩阵;其中,
所述U对应Y-1 f,t;所述LH是L的共轭矩阵,表示乔利斯基分解后的上三角矩阵;所述L表示乔利斯基分解后的下三角矩阵。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种语音交互中多路语音的白化方法,其特征在于,包括:
步骤1:将输入唤醒设备的多路语音数据转换到频域,获取语音频域数据;
步骤2:将所述语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T1时,使用所缓存的T1时长对应的语音频域数据计算各频带协方差矩阵,并求解所述各频带协方差矩阵的逆矩阵;
步骤3:继续对新获得的语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T2时,根据各频带协方差矩阵的逆矩阵计算白化矩阵,通过所述白化矩阵对新缓存的语音频域数据进行白化处理;
步骤4:重复迭代执行步骤1至步骤3,当检测到所述唤醒设备处于唤醒状态时,使用最后一次迭代获得的白化矩阵对剩余数据进行白化处理。
2.根据权利要求1所述的一种语音交互中多路语音的白化方法,其特征在于,所述将输入唤醒设备的多路语音数据转换到频域,获取语音频域数据,包括:
通过所述唤醒设备采集所述多路语音;
将所述多路语音进行分帧加窗处理,获取所述分帧后多路语音的频域特征,确定所述多路语音的语音频域数据。
3.根据权利要求1所述的一种语音交互中多路语音的白化方法,其特征在于,所述使用所缓存的T1时长对应的语音频域数据计算各频带的协方差矩阵,包括:
获取缓存的时间数据T1;
按照下式(1)计算频带协方差矩阵:
Figure QLYQS_1
其中,Y表示各频带协方差矩阵,所述t表示时刻;所述f表示频带;所述yf,t表示t时刻频带向量;所述yH f,t表示t时刻共轭对称下的频带向量;所述H表示共轭对称。
4.根据权利要求1所述的一种语音交互中多路语音的白化方法,其特征在于,所述继续对新获得的语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T2时,根据各频带协方差矩阵的逆矩阵计算白化矩阵,通过所述白化矩阵对缓存的语音频域数据进行白化处理,包括:
基于矩阵求逆引理,按照下式(2)计算计算各个频带逆矩阵;
Figure QLYQS_2
其中,所述
Figure QLYQS_3
表示协方差矩阵的逆矩阵;所述yf,t表示t时刻的频带向量;所述
Figure QLYQS_4
表示t-1时刻的逆矩阵;所述yf,t-1表示t-1时刻的频带向量;
根据所述逆矩阵,通过乔利斯基分解U=LLH求解白化矩阵;其中,
所述U对应Y-1 f,t;所述LH是L的共轭矩阵,表示乔利斯基分解后的上三角矩阵;所述L表示乔利斯基分解后的下三角矩阵。
5.根据权利要求1所述的一种语音交互中多路语音的白化方法,其特征在于,所述当检测到所述唤醒设备处于唤醒状态时,使用最后一次迭代获得的白化矩阵处理剩余的白化数据,包括:
步骤10:获取唤醒设备的实际状态特征;
步骤11:根据所述实际状态特征与预设的状态参数进行匹配,获取匹配结果;
步骤12:根据所述匹配结果判断所述唤醒设备处于休眠状态或唤醒状态其中之一;
步骤13:当所述唤醒设备处于休眠状态,转换为监测模式,持续监测所述唤醒设备的状态特征,并重复步骤10和步骤11;
当所述唤醒设备处于唤醒状态,用最后一次迭代获得的白化矩阵处理剩余的白化数据。
6.一种语音交互中多路语音的白化装置,其特征在于,包括:
第一获取模块:用于将输入多路语音数据转换到频域,获取语音频域数据;
第一处理模块:用于将所述语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T1时,使用所缓存的T1时长对应的语音频域数据计算各频带协方差矩阵,并求解所述各频带协方差矩阵的逆矩阵;
第二处理模块:用于继续对新获得的语音频域数据进行缓存操作,当缓存的语音频域数据对应的时长达到T2时,根据各频带协方差矩阵的逆矩阵计算白化矩阵,通过所述白化矩阵对新缓存的语音频域数据进行白化处理;
第三处理模块:用于重复迭代上述模块的执行操作,当检测到唤醒状态时,使用最后一次迭代获得的白化矩阵处理剩余的白化数据。
7.根据权利要求6所述的一种语音交互中多路语音的白化装置,所述第一获取模块包括:
第一采集单元:用于通过唤醒设备采集所述多路语音;
第一确定单元:用于将所述多路语音进行分帧加窗处理,获取所述分帧后多路语音的频域特征,确定所述多路语音的语音频域数据。
8.根据权利要求6所述的一种语音交互中多路语音的白化装置,其特征在于,所述第一处理模块包括:
第一获取单元:用于获取缓存的时间数据T1;
第一处理单元:用于按照下式(1)计算频带协方差矩阵:
Figure QLYQS_5
其中,Y表示各频带协方差矩阵,所述t表示时刻;所述f表示频带;所述yf,t表示t时刻频带向量;所述yH f,t表示t时刻共轭对称下的频带向量;所述H表示共轭对称。
9.根据权利要求6所述的一种语音交互中多路语音的白化装置,其特征在于,所述第二处理模块包括:
第二处理单元:用于基于矩阵求逆引理,按照下式(2)计算计算各个频带逆矩阵;
Figure QLYQS_6
其中,所述
Figure QLYQS_7
表示协方差矩阵的逆矩阵;所述yf,t表示t时刻的频带向量;所述
Figure QLYQS_8
表示t-1时刻的逆矩阵;所述yf,t-1表示t-1时刻的频带向量;
根据所述逆矩阵,通过乔利斯基分解U=LLH求解白化矩阵;其中,
所述U对应Y-1 f,t;所述LH是L的共轭矩阵,表示乔利斯基分解后的上三角矩阵;所述L表示乔利斯基分解后的下三角矩阵。
10.根据权利要求6所述的一种语音交互中多路语音的白化装置,其特征在于,所述第三处理模块处理白化数据的步骤为:
步骤10:获取唤醒设备的实际状态特征;
步骤11:根据所述实际状态特征与预设的状态参数进行匹配,获取匹配结果;
步骤12:根据所述匹配结果判断所述唤醒设备处于休眠状态或唤醒状态其中之一;
步骤13:当所述唤醒设备处于休眠状态,转换为监测模式,持续监测所述唤醒设备的状态特征,并重复步骤10和步骤11;
当所述唤醒设备处于唤醒状态,用最后一次迭代获得的白化矩阵处理剩余的白化数据。
CN202010339154.9A 2020-04-26 2020-04-26 一种语音交互中多路语音的白化方法及其装置 Active CN111599375B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010339154.9A CN111599375B (zh) 2020-04-26 2020-04-26 一种语音交互中多路语音的白化方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010339154.9A CN111599375B (zh) 2020-04-26 2020-04-26 一种语音交互中多路语音的白化方法及其装置

Publications (2)

Publication Number Publication Date
CN111599375A CN111599375A (zh) 2020-08-28
CN111599375B true CN111599375B (zh) 2023-03-21

Family

ID=72182060

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010339154.9A Active CN111599375B (zh) 2020-04-26 2020-04-26 一种语音交互中多路语音的白化方法及其装置

Country Status (1)

Country Link
CN (1) CN111599375B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113689869A (zh) * 2021-07-26 2021-11-23 浙江大华技术股份有限公司 语音增强方法、电子设备以及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016023323A1 (zh) * 2014-08-12 2016-02-18 北京天籁传音数字技术有限公司 多声道声音信号编码方法、解码方法及装置
CN108074580A (zh) * 2016-11-17 2018-05-25 杭州海康威视数字技术股份有限公司 一种噪声消除方法及装置
CN108717855A (zh) * 2018-04-27 2018-10-30 深圳市沃特沃德股份有限公司 噪音处理方法与装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016023323A1 (zh) * 2014-08-12 2016-02-18 北京天籁传音数字技术有限公司 多声道声音信号编码方法、解码方法及装置
CN108074580A (zh) * 2016-11-17 2018-05-25 杭州海康威视数字技术股份有限公司 一种噪声消除方法及装置
CN108717855A (zh) * 2018-04-27 2018-10-30 深圳市沃特沃德股份有限公司 噪音处理方法与装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王继曾 ; 王婵飞 ; .基于小波变换的自适应语音盲分离新算法.2008,(05),全文. *

Also Published As

Publication number Publication date
CN111599375A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN109767783B (zh) 语音增强方法、装置、设备及存储介质
CN107068161B (zh) 基于人工智能的语音降噪方法、装置和计算机设备
EP3828885B1 (en) Voice denoising method and apparatus, computing device and computer readable storage medium
WO2019101123A1 (zh) 语音活性检测方法、相关装置和设备
CN108335694B (zh) 远场环境噪声处理方法、装置、设备和存储介质
JP4210521B2 (ja) 雑音低減法および装置
CN106328151B (zh) 一种环噪消除系统及其应用方法
CN110265065B (zh) 一种构建语音端点检测模型的方法及语音端点检测系统
EP0871157A2 (en) A method and a device for recognising speech
WO2006070560A1 (ja) 雑音抑圧装置、雑音抑圧方法、雑音抑圧プログラムおよびコンピュータに読み取り可能な記録媒体
US20040148166A1 (en) Noise-stripping device
CN111599375B (zh) 一种语音交互中多路语音的白化方法及其装置
CN110556125B (zh) 基于语音信号的特征提取方法、设备及计算机存储介质
CN111599372B (zh) 一种稳定的在线多通道语音去混响方法及系统
CN109102818B (zh) 一种基于信号频率概率密度函数分布的去噪音频采样算法
CN106571138B (zh) 一种信号端点的检测方法、检测装置及检测设备
CN106847299B (zh) 延时的估计方法及装置
KR100930061B1 (ko) 신호 검출 방법 및 장치
GB2426167A (en) Quantile based noise estimation
CN110221262B (zh) 一种雷达设备lfm信号主瓣降低确定平台及方法
CN107919136B (zh) 一种基于高斯混合模型的数字语音采样频率估计方法
CN117332293A (zh) 一种基于声音Mel频率特征的货车超载检测方法
CN113674752A (zh) 音频信号的降噪方法、装置、可读介质和电子设备
CN110689898A (zh) 用于生猪的音频信号的压缩方法及系统
CN100492495C (zh) 一种噪声检测装置和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant