CN111613247A - 一种基于麦克风阵列的前景语音检测方法及装置 - Google Patents
一种基于麦克风阵列的前景语音检测方法及装置 Download PDFInfo
- Publication number
- CN111613247A CN111613247A CN202010291044.XA CN202010291044A CN111613247A CN 111613247 A CN111613247 A CN 111613247A CN 202010291044 A CN202010291044 A CN 202010291044A CN 111613247 A CN111613247 A CN 111613247A
- Authority
- CN
- China
- Prior art keywords
- frequency domain
- time
- voice
- energy
- voice signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 67
- 238000013145 classification model Methods 0.000 claims abstract description 18
- 238000013136 deep learning model Methods 0.000 claims abstract description 13
- 230000009467 reduction Effects 0.000 claims description 25
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 description 12
- 238000000034 method Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000001094 effect on targets Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明公开了一种基于麦克风阵列的前景语音检测方法及装置,包括:获取经麦克风阵列采集的语音信号;对语音信号进行处理,得到时频域语音信号;基于预设的含噪语音分类模型,得到每一帧时频域语音信号的第一目标语音时频域掩模权值;降噪处理,得到每一帧时频域语音信号降噪处理前的第一能量与降噪处理后的第二能量的第一能量比;计算得到每一帧时频域语音信号的第二能量与预设唤醒平均帧能量的第二能量比;根据第一目标语音时频域掩模权值、第一能量比、第二能量比,得到第二目标语音时频域掩模权值;根据第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测,提高了复杂噪声环境下语音识别系统的可用性。
Description
技术领域
本发明涉及语音检测技术领域,特别涉及一种基于麦克风阵列的前景语音检测方法及装置。
背景技术
对麦克风阵列采集的语音信号中有噪声及目标语音信号,噪声的存在会干扰到目标语音信号唤醒语音设备,比如音箱,现有技术中对语音的检测对目标语音的识别性低,检测不准确,计算量大且复杂度高,不能实现对目标前景语音的检测。
发明内容
本发明旨在至少一定程度上解决上述技术中的技术问题之一。为此,本发明的第一个目的在于提出一种基于麦克风阵列的前景语音检测方法,大幅度提高了复杂噪声环境下语音检测的准确性,降低计算量及复杂度,对目标前景语音的检测效果良好。
本发明的第二个目的在于提出一种基于麦克风阵列的前景语音检测装置。
为达到上述目的,本发明第一方面实施例提出了一种基于麦克风阵列的前景语音检测方法,包括:
获取经所述麦克风阵列采集的语音信号;
对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到时频域语音信号;
根据所述时频域语音信号基于预设的含噪语音分类模型,计算得到每一帧时频域语音信号的第一目标语音时频域掩模权值;
对所述时频域语音信号进行降噪处理,并计算得到每一帧时频域语音信号降噪处理前的第一能量与降噪处理后的第二能量的第一能量比;
根据降噪处理后的时频域语音信号的第二能量及预设唤醒平均帧能量,计算得到每一帧时频域语音信号的第二能量与预设唤醒平均帧能量的第二能量比;
根据所述第一目标语音时频域掩模权值、第一能量比、第二能量比,计算得到第二目标语音时频域掩模权值;
根据所述第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测。
根据本发明第一方面实施例提出的一种基于麦克风阵列的前景语音检测方法,利用麦克风阵列的空域选择特性结合第一目标语音时频域掩模权值与降噪处理前后时频点的能量差异信息及降噪处理后时频域语音信号与预设唤醒平均帧能量,得出了在复杂噪声场景下,鲁棒性更高的第二目标语音时频域掩模权值,大幅度提高了复杂噪声环境下语音检测的准确性,实现了鲁棒性更高的语音检测,降低噪声对语音检测的影响,只对目标语音进行检测,提高了检测效率。
根据本发明的一些实施例,在获取经所述麦克风阵列采集的语音信号之前,还包括:
获取目标人声唤醒语音设备的相关信息;
根据所述相关信息,计算得到预设含噪语音分类模型及预设唤醒平均帧能量。
根据本发明的一些实施例,所述相关信息包括:噪声信息、目标语音信息。
根据本发明的一些实施例,所述深度学习模型包括GMM模型。
根据本发明的一些实施例,所述根据所述第一目标语音时频域掩模权值、第一能量比、第二能量比,计算得到第二目标语音时频域掩模权值,算法包括:
计算第一能量比:
其中,ni为降噪处理前每一帧时频域语音信号的第一能量;mi为降噪处理后每一帧时频域语音信号的第二能量;i为总分帧数,i为正整数;
计算第二能量比:
其中,q为预设唤醒平均帧能量;
计算第二目标语音时频域掩模权值:
M=ai×bi×ci
其中,ai为第i帧的第一目标语音时频域掩模权值。
为达到上述目的,本发明第二方面实施例提出了一种基于麦克风阵列的前景语音检测装置,包括:
第一获取模块,用于获取经所述麦克风阵列采集的语音信号;
语音信号处理模块,用于对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到时频域语音信号;
第一计算模块用于:
根据所述时频域语音信号基于预设的含噪语音分类模型,计算得到每一帧时频域语音信号的第一目标语音时频域掩模权值;
对所述时频域语音信号进行降噪处理,并计算得到每一帧时频域语音信号降噪处理前的第一能量与降噪处理后的第二能量的第一能量比;
根据降噪处理后的时频域语音信号的第二能量及预设唤醒平均帧能量,计算得到每一帧时频域语音信号的第二能量与预设唤醒平均帧能量的第二能量比;
根据所述第一目标语音时频域掩模权值、第一能量比、第二能量比,计算得到第二目标语音时频域掩模权值;
检测模块,用于根据所述第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测。
根据本发明第二方面实施例提出的一种基于麦克风阵列的前景语音检测装置,利用麦克风阵列的空域选择特性结合第一目标语音时频域掩模权值与降噪处理前后时频点的能量差异信息及降噪处理后时频域语音信号与预设唤醒平均帧能量,得出了在复杂噪声场景下,鲁棒性更高的第二目标语音时频域掩模权值,大幅度提高了复杂噪声环境下语音检测的准确性,实现了鲁棒性更高的语音检测,降低噪声对语音检测的影响,只对目标语音进行检测,提高了检测效率。
根据本发明的一些实施例,基于麦克风阵列的前景语音检测装置还包括:
第二获取模块,用于获取目标人声唤醒语音设备的相关信息;
第二计算模块,用于根据所述相关信息,计算得到预设含噪语音分类模型及预设唤醒平均帧能量。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是根据本发明一个实施例的一种基于麦克风阵列的前景语音检测方法的流程图;
图2是根据本发明又一个实施例的一种基于麦克风阵列的前景语音检测方法的流程图;
图3是根据本发明一个实施例的一种基于麦克风阵列的前景语音检测装置;
图4是根据本发明又一个实施例的一种基于麦克风阵列的前景语音检测装置。
附图标记:
第一获取模块1、语音信号处理模块2、第一计算模块3、检测模块4、第二获取模块5、第二计算模块6。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
下面参考图1至图4来描述本发明实施例提出的一种基于麦克风阵列的前景语音检测方法及装置。
图1是根据本发明一个实施例的一种基于麦克风阵列的前景语音检测方法的流程图;如图1所示,本发明第一方面实施例提出了一种基于麦克风阵列的前景语音检测方法,包括步骤S1-S7:
S1、获取经所述麦克风阵列采集的语音信号;
S2、对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到时频域语音信号;
S3、根据所述时频域语音信号基于预设的含噪语音分类模型,计算得到每一帧时频域语音信号的第一目标语音时频域掩模权值;
S4、对所述时频域语音信号进行降噪处理,并计算得到每一帧时频域语音信号降噪处理前的第一能量与降噪处理后的第二能量的第一能量比;
S5、根据降噪处理后的时频域语音信号的第二能量及预设唤醒平均帧能量,计算得到每一帧时频域语音信号的第二能量与预设唤醒平均帧能量的第二能量比;
S6、根据所述第一目标语音时频域掩模权值、第一能量比、第二能量比,计算得到第二目标语音时频域掩模权值;
S7、根据所述第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测。
上述技术方案的工作原理:获取经麦克风阵列采集的语音信号,语音信号包括噪声信息、目标语音信息;对语音信号进行分帧加窗以及短时傅里叶变换处理,得到时频域语音信号,语音信号进行分帧加窗分为N帧语音信号,每帧长度为20ms-30ms,将分帧后的语音信号看做稳态信号,在时频域简化对语音信号的处理步骤,方便计算。时频域语音信号基于预设的含噪语音分类模型,计算得到每一帧时频域语音信号的第一目标语音时频域掩模权值,即在每一个时频点中目标语音信号存在每一帧时频域语音信号的概率,示例的,若在一帧时频域语音信号中,目标语音信号存在概率为50%,则该帧的第一目标语音时频域掩模权值为50%。进入识别交互后,利用波束形成器对时频域语音信号进行降噪处理,并计算得到每一帧时频域语音信号降噪处理前的第一能量与降噪处理后的第二能量的第一能量比,根据降噪处理后的时频域语音信号的第二能量及预设唤醒平均帧能量,计算得到每一帧时频域语音信号的第二能量与预设唤醒平均帧能量的第二能量比,根据第一目标语音时频域掩模权值、第一能量比、第二能量比,计算得到第二目标语音时频域掩模权值,根据第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测。
上述技术方案的有益效果:利用麦克风阵列的空域选择特性结合第一目标语音时频域掩模权值与降噪处理前后时频点的能量差异信息及降噪处理后时频域语音信号与预设唤醒平均帧能量,得出了在复杂噪声场景下,鲁棒性更高的第二目标语音时频域掩模权值,根据第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测,有利于为后端的语音识别给出准确的语音活动检测信息,有效减少人声干扰的误识别问题,提高了复杂噪声环境下语音识别系统的可用性语音检测的准确性,实现了鲁棒性更高的语音检测,降低噪声对语音检测的影响,只对目标语音进行检测,提高了检测效率。
图2是根据本发明又一个实施例的一种基于麦克风阵列的前景语音检测方法的流程图;如图2所示,在获取经所述麦克风阵列采集的语音信号之前,还包括:
S11、获取目标人声唤醒语音设备的相关信息;
S12、根据所述相关信息,计算得到预设含噪语音分类模型及预设唤醒平均帧能量。
上述技术方案的工作原理:具体的,在一应用场景中,在获取经麦克风阵列采集的语音信号之前,通过目标人声唤醒语音设备,语音设备可以是音箱,根据目标人声唤醒语音设备时的相关信息,经过迭代计算得到预设含噪语音分类模型及预设唤醒平均帧能量,相关信息包括:噪声信息、目标语音信息。含噪语音分类模型为含有噪声和目标语音的分类模型,将噪声及目标语音进行有效分类,对噪声及目标语音的类别进行准确区分。
上述技术方案的有益效果:得到预设预设含噪语音分类模型及预设唤醒平均帧能量,有利于筛除噪声,提高对目标语音检测的准确性。
根据本发明的一些实施例,所述深度学习模型包括GMM模型。
GMM模型,为高斯混合模型。高斯混合模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。
上述技术方案的有益效果:通过已经训练好的GMM模型进行语音检测,更加的方便准确。
根据本发明的一些实施例,所述根据所述第一目标语音时频域掩模权值、第一能量比、第二能量比,计算得到第二目标语音时频域掩模权值,算法包括:
计算第一能量比:
其中,ni为降噪处理前每一帧时频域语音信号的第一能量;mi为降噪处理后每一帧时频域语音信号的第二能量;i为总分帧数,i为正整数;
计算第二能量比:
其中,q为预设唤醒平均帧能量;
计算第二目标语音时频域掩模权值:
M=ai×bi×ci
其中,ai为第i帧的第一目标语音时频域掩模权值。
上述技术方案的有益效果:得到最终的语音信号中每一帧的第二目标语音时频域掩模权值,计算量少、复杂度低,通过预先的深度学习模型,对当前帧的前景语音进行检测,得到当前帧前景语音检测结果。
图3是根据本发明一个实施例的一种基于麦克风阵列的前景语音检测装置;如图3所示,本发明第二方面实施例提出了一种基于麦克风阵列的前景语音检测装置,包括:
第一获取模块1,用于获取经所述麦克风阵列采集的语音信号;
语音信号处理模块2,用于对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到时频域语音信号;
第一计算模块3用于:
根据所述时频域语音信号基于预设的含噪语音分类模型,计算得到每一帧时频域语音信号的第一目标语音时频域掩模权值;
对所述时频域语音信号进行降噪处理,并计算得到每一帧时频域语音信号降噪处理前的第一能量与降噪处理后的第二能量的第一能量比;
根据降噪处理后的时频域语音信号的第二能量及预设唤醒平均帧能量,计算得到每一帧时频域语音信号的第二能量与预设唤醒平均帧能量的第二能量比;
根据所述第一目标语音时频域掩模权值、第一能量比、第二能量比,计算得到第二目标语音时频域掩模权值;
检测模块4,用于根据所述第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测。
图4是根据本发明又一个实施例的一种基于麦克风阵列的前景语音检测装置;如图4所示,基于麦克风阵列的前景语音检测装置还包括:
第二获取模块5,用于获取目标人声唤醒语音设备的相关信息;
第二计算模块6,用于根据所述相关信息,计算得到预设含噪语音分类模型及预设唤醒平均帧能量。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (7)
1.一种基于麦克风阵列的前景语音检测方法,其特征在于,包括:
获取经所述麦克风阵列采集的语音信号;
对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到时频域语音信号;
根据所述时频域语音信号基于预设的含噪语音分类模型,计算得到每一帧时频域语音信号的第一目标语音时频域掩模权值;
对所述时频域语音信号进行降噪处理,并计算得到每一帧时频域语音信号降噪处理前的第一能量与降噪处理后的第二能量的第一能量比;
根据降噪处理后的时频域语音信号的第二能量及预设唤醒平均帧能量,计算得到每一帧时频域语音信号的第二能量与预设唤醒平均帧能量的第二能量比;
根据所述第一目标语音时频域掩模权值、第一能量比、第二能量比,计算得到第二目标语音时频域掩模权值;
根据所述第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测。
2.如权利要求1所述的基于麦克风阵列的前景语音检测方法,其特征在于,在获取经所述麦克风阵列采集的语音信号之前,还包括:
获取目标人声唤醒语音设备的相关信息;
根据所述相关信息,计算得到预设含噪语音分类模型及预设唤醒平均帧能量。
3.如权利要求2所述的基于麦克风阵列的前景语音检测方法,其特征在于,所述相关信息包括:噪声信息、目标语音信息。
4.如权利要求1所述的基于麦克风阵列的前景语音检测方法,其特征在于,所述深度学习模型包括GMM模型。
6.一种基于麦克风阵列的前景语音检测装置,其特征在于,包括:
第一获取模块,用于获取经所述麦克风阵列采集的语音信号;
语音信号处理模块,用于对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到时频域语音信号;
第一计算模块用于:
根据所述时频域语音信号基于预设的含噪语音分类模型,计算得到每一帧时频域语音信号的第一目标语音时频域掩模权值;
对所述时频域语音信号进行降噪处理,并计算得到每一帧时频域语音信号降噪处理前的第一能量与降噪处理后的第二能量的第一能量比;
根据降噪处理后的时频域语音信号的第二能量及预设唤醒平均帧能量,计算得到每一帧时频域语音信号的第二能量与预设唤醒平均帧能量的第二能量比;
根据所述第一目标语音时频域掩模权值、第一能量比、第二能量比,计算得到第二目标语音时频域掩模权值;
检测模块,用于根据所述第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测。
7.如权利要求6所述的基于麦克风阵列的前景语音检测装置,其特征在于,还包括:
第二获取模块,用于获取目标人声唤醒语音设备的相关信息;
第二计算模块,用于根据所述相关信息,计算得到预设含噪语音分类模型及预设唤醒平均帧能量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010291044.XA CN111613247B (zh) | 2020-04-14 | 2020-04-14 | 一种基于麦克风阵列的前景语音检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010291044.XA CN111613247B (zh) | 2020-04-14 | 2020-04-14 | 一种基于麦克风阵列的前景语音检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111613247A true CN111613247A (zh) | 2020-09-01 |
CN111613247B CN111613247B (zh) | 2023-03-21 |
Family
ID=72199501
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010291044.XA Active CN111613247B (zh) | 2020-04-14 | 2020-04-14 | 一种基于麦克风阵列的前景语音检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111613247B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112750463A (zh) * | 2020-12-17 | 2021-05-04 | 云知声智能科技股份有限公司 | 一种误识别抑制方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017132958A1 (en) * | 2016-02-04 | 2017-08-10 | Zeng Xinxiao | Methods, systems, and media for voice communication |
WO2019080551A1 (zh) * | 2017-10-23 | 2019-05-02 | 科大讯飞股份有限公司 | 目标语音检测方法及装置 |
CN110136737A (zh) * | 2019-06-18 | 2019-08-16 | 北京拙河科技有限公司 | 一种语音降噪方法及装置 |
CN110648678A (zh) * | 2019-09-20 | 2020-01-03 | 厦门亿联网络技术股份有限公司 | 一种用于具有多麦克风会议的场景识别方法和系统 |
-
2020
- 2020-04-14 CN CN202010291044.XA patent/CN111613247B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017132958A1 (en) * | 2016-02-04 | 2017-08-10 | Zeng Xinxiao | Methods, systems, and media for voice communication |
WO2019080551A1 (zh) * | 2017-10-23 | 2019-05-02 | 科大讯飞股份有限公司 | 目标语音检测方法及装置 |
CN110136737A (zh) * | 2019-06-18 | 2019-08-16 | 北京拙河科技有限公司 | 一种语音降噪方法及装置 |
CN110648678A (zh) * | 2019-09-20 | 2020-01-03 | 厦门亿联网络技术股份有限公司 | 一种用于具有多麦克风会议的场景识别方法和系统 |
Non-Patent Citations (2)
Title |
---|
张健;付中华;谢磊;赵亚丽;: "基于目标声源方位已知的双麦克风噪声抑制" * |
张宁;顾明亮;朱俊梅;周杰;: "语音活动检测对方言辨识系统的影响研究" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112750463A (zh) * | 2020-12-17 | 2021-05-04 | 云知声智能科技股份有限公司 | 一种误识别抑制方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111613247B (zh) | 2023-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106486131B (zh) | 一种语音去噪的方法及装置 | |
CN111445905B (zh) | 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质 | |
CN108597496B (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
Stöter et al. | Countnet: Estimating the number of concurrent speakers using supervised learning | |
De Oliveira et al. | Bird acoustic activity detection based on morphological filtering of the spectrogram | |
CN103503060B (zh) | 使用听觉注意力线索的语音音节/元音/音素边界检测 | |
CN109256144B (zh) | 基于集成学习与噪声感知训练的语音增强方法 | |
CN102968990B (zh) | 说话人识别方法和系统 | |
CN111785288B (zh) | 语音增强方法、装置、设备及存储介质 | |
CN111261183A (zh) | 一种语音去噪的方法及装置 | |
CN111724770B (zh) | 一种基于深度卷积生成对抗网络的音频关键词识别方法 | |
CN109147798B (zh) | 语音识别方法、装置、电子设备及可读存储介质 | |
CN110751955B (zh) | 基于时频矩阵动态选择的声音事件分类方法及系统 | |
CN111341319A (zh) | 一种基于局部纹理特征的音频场景识别方法及系统 | |
CN113571047A (zh) | 一种音频数据的处理方法、装置及设备 | |
Pandharipande et al. | An unsupervised frame selection technique for robust emotion recognition in noisy speech | |
CN111613247B (zh) | 一种基于麦克风阵列的前景语音检测方法及装置 | |
Pandharipande et al. | Robust front-end processing for emotion recognition in noisy speech | |
Tian et al. | Spoofing detection under noisy conditions: a preliminary investigation and an initial database | |
CN111462770A (zh) | 一种基于lstm的后期混响抑制方法及系统 | |
CN116386664A (zh) | 一种语音伪造检测方法、装置、系统及存储介质 | |
Zhou et al. | Robust sound event classification by using denoising autoencoder | |
Sharan et al. | Subband spectral histogram feature for improved sound recognition in low SNR conditions | |
Odelowo et al. | A Mask-Based Post Processing Approach for Improving the Quality and Intelligibility of Deep Neural Network Enhanced Speech | |
CN115376494A (zh) | 一种语音检测方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |