CN111613247A - 一种基于麦克风阵列的前景语音检测方法及装置 - Google Patents

一种基于麦克风阵列的前景语音检测方法及装置 Download PDF

Info

Publication number
CN111613247A
CN111613247A CN202010291044.XA CN202010291044A CN111613247A CN 111613247 A CN111613247 A CN 111613247A CN 202010291044 A CN202010291044 A CN 202010291044A CN 111613247 A CN111613247 A CN 111613247A
Authority
CN
China
Prior art keywords
frequency domain
time
voice
energy
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010291044.XA
Other languages
English (en)
Other versions
CN111613247B (zh
Inventor
马金龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010291044.XA priority Critical patent/CN111613247B/zh
Publication of CN111613247A publication Critical patent/CN111613247A/zh
Application granted granted Critical
Publication of CN111613247B publication Critical patent/CN111613247B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种基于麦克风阵列的前景语音检测方法及装置,包括:获取经麦克风阵列采集的语音信号;对语音信号进行处理,得到时频域语音信号;基于预设的含噪语音分类模型,得到每一帧时频域语音信号的第一目标语音时频域掩模权值;降噪处理,得到每一帧时频域语音信号降噪处理前的第一能量与降噪处理后的第二能量的第一能量比;计算得到每一帧时频域语音信号的第二能量与预设唤醒平均帧能量的第二能量比;根据第一目标语音时频域掩模权值、第一能量比、第二能量比,得到第二目标语音时频域掩模权值;根据第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测,提高了复杂噪声环境下语音识别系统的可用性。

Description

一种基于麦克风阵列的前景语音检测方法及装置
技术领域
本发明涉及语音检测技术领域,特别涉及一种基于麦克风阵列的前景语音检测方法及装置。
背景技术
对麦克风阵列采集的语音信号中有噪声及目标语音信号,噪声的存在会干扰到目标语音信号唤醒语音设备,比如音箱,现有技术中对语音的检测对目标语音的识别性低,检测不准确,计算量大且复杂度高,不能实现对目标前景语音的检测。
发明内容
本发明旨在至少一定程度上解决上述技术中的技术问题之一。为此,本发明的第一个目的在于提出一种基于麦克风阵列的前景语音检测方法,大幅度提高了复杂噪声环境下语音检测的准确性,降低计算量及复杂度,对目标前景语音的检测效果良好。
本发明的第二个目的在于提出一种基于麦克风阵列的前景语音检测装置。
为达到上述目的,本发明第一方面实施例提出了一种基于麦克风阵列的前景语音检测方法,包括:
获取经所述麦克风阵列采集的语音信号;
对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到时频域语音信号;
根据所述时频域语音信号基于预设的含噪语音分类模型,计算得到每一帧时频域语音信号的第一目标语音时频域掩模权值;
对所述时频域语音信号进行降噪处理,并计算得到每一帧时频域语音信号降噪处理前的第一能量与降噪处理后的第二能量的第一能量比;
根据降噪处理后的时频域语音信号的第二能量及预设唤醒平均帧能量,计算得到每一帧时频域语音信号的第二能量与预设唤醒平均帧能量的第二能量比;
根据所述第一目标语音时频域掩模权值、第一能量比、第二能量比,计算得到第二目标语音时频域掩模权值;
根据所述第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测。
根据本发明第一方面实施例提出的一种基于麦克风阵列的前景语音检测方法,利用麦克风阵列的空域选择特性结合第一目标语音时频域掩模权值与降噪处理前后时频点的能量差异信息及降噪处理后时频域语音信号与预设唤醒平均帧能量,得出了在复杂噪声场景下,鲁棒性更高的第二目标语音时频域掩模权值,大幅度提高了复杂噪声环境下语音检测的准确性,实现了鲁棒性更高的语音检测,降低噪声对语音检测的影响,只对目标语音进行检测,提高了检测效率。
根据本发明的一些实施例,在获取经所述麦克风阵列采集的语音信号之前,还包括:
获取目标人声唤醒语音设备的相关信息;
根据所述相关信息,计算得到预设含噪语音分类模型及预设唤醒平均帧能量。
根据本发明的一些实施例,所述相关信息包括:噪声信息、目标语音信息。
根据本发明的一些实施例,所述深度学习模型包括GMM模型。
根据本发明的一些实施例,所述根据所述第一目标语音时频域掩模权值、第一能量比、第二能量比,计算得到第二目标语音时频域掩模权值,算法包括:
计算第一能量比:
Figure BDA0002450401380000031
其中,ni为降噪处理前每一帧时频域语音信号的第一能量;mi为降噪处理后每一帧时频域语音信号的第二能量;i为总分帧数,i为正整数;
计算第二能量比:
Figure BDA0002450401380000032
其中,q为预设唤醒平均帧能量;
计算第二目标语音时频域掩模权值:
M=ai×bi×ci
其中,ai为第i帧的第一目标语音时频域掩模权值。
为达到上述目的,本发明第二方面实施例提出了一种基于麦克风阵列的前景语音检测装置,包括:
第一获取模块,用于获取经所述麦克风阵列采集的语音信号;
语音信号处理模块,用于对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到时频域语音信号;
第一计算模块用于:
根据所述时频域语音信号基于预设的含噪语音分类模型,计算得到每一帧时频域语音信号的第一目标语音时频域掩模权值;
对所述时频域语音信号进行降噪处理,并计算得到每一帧时频域语音信号降噪处理前的第一能量与降噪处理后的第二能量的第一能量比;
根据降噪处理后的时频域语音信号的第二能量及预设唤醒平均帧能量,计算得到每一帧时频域语音信号的第二能量与预设唤醒平均帧能量的第二能量比;
根据所述第一目标语音时频域掩模权值、第一能量比、第二能量比,计算得到第二目标语音时频域掩模权值;
检测模块,用于根据所述第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测。
根据本发明第二方面实施例提出的一种基于麦克风阵列的前景语音检测装置,利用麦克风阵列的空域选择特性结合第一目标语音时频域掩模权值与降噪处理前后时频点的能量差异信息及降噪处理后时频域语音信号与预设唤醒平均帧能量,得出了在复杂噪声场景下,鲁棒性更高的第二目标语音时频域掩模权值,大幅度提高了复杂噪声环境下语音检测的准确性,实现了鲁棒性更高的语音检测,降低噪声对语音检测的影响,只对目标语音进行检测,提高了检测效率。
根据本发明的一些实施例,基于麦克风阵列的前景语音检测装置还包括:
第二获取模块,用于获取目标人声唤醒语音设备的相关信息;
第二计算模块,用于根据所述相关信息,计算得到预设含噪语音分类模型及预设唤醒平均帧能量。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是根据本发明一个实施例的一种基于麦克风阵列的前景语音检测方法的流程图;
图2是根据本发明又一个实施例的一种基于麦克风阵列的前景语音检测方法的流程图;
图3是根据本发明一个实施例的一种基于麦克风阵列的前景语音检测装置;
图4是根据本发明又一个实施例的一种基于麦克风阵列的前景语音检测装置。
附图标记:
第一获取模块1、语音信号处理模块2、第一计算模块3、检测模块4、第二获取模块5、第二计算模块6。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
下面参考图1至图4来描述本发明实施例提出的一种基于麦克风阵列的前景语音检测方法及装置。
图1是根据本发明一个实施例的一种基于麦克风阵列的前景语音检测方法的流程图;如图1所示,本发明第一方面实施例提出了一种基于麦克风阵列的前景语音检测方法,包括步骤S1-S7:
S1、获取经所述麦克风阵列采集的语音信号;
S2、对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到时频域语音信号;
S3、根据所述时频域语音信号基于预设的含噪语音分类模型,计算得到每一帧时频域语音信号的第一目标语音时频域掩模权值;
S4、对所述时频域语音信号进行降噪处理,并计算得到每一帧时频域语音信号降噪处理前的第一能量与降噪处理后的第二能量的第一能量比;
S5、根据降噪处理后的时频域语音信号的第二能量及预设唤醒平均帧能量,计算得到每一帧时频域语音信号的第二能量与预设唤醒平均帧能量的第二能量比;
S6、根据所述第一目标语音时频域掩模权值、第一能量比、第二能量比,计算得到第二目标语音时频域掩模权值;
S7、根据所述第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测。
上述技术方案的工作原理:获取经麦克风阵列采集的语音信号,语音信号包括噪声信息、目标语音信息;对语音信号进行分帧加窗以及短时傅里叶变换处理,得到时频域语音信号,语音信号进行分帧加窗分为N帧语音信号,每帧长度为20ms-30ms,将分帧后的语音信号看做稳态信号,在时频域简化对语音信号的处理步骤,方便计算。时频域语音信号基于预设的含噪语音分类模型,计算得到每一帧时频域语音信号的第一目标语音时频域掩模权值,即在每一个时频点中目标语音信号存在每一帧时频域语音信号的概率,示例的,若在一帧时频域语音信号中,目标语音信号存在概率为50%,则该帧的第一目标语音时频域掩模权值为50%。进入识别交互后,利用波束形成器对时频域语音信号进行降噪处理,并计算得到每一帧时频域语音信号降噪处理前的第一能量与降噪处理后的第二能量的第一能量比,根据降噪处理后的时频域语音信号的第二能量及预设唤醒平均帧能量,计算得到每一帧时频域语音信号的第二能量与预设唤醒平均帧能量的第二能量比,根据第一目标语音时频域掩模权值、第一能量比、第二能量比,计算得到第二目标语音时频域掩模权值,根据第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测。
上述技术方案的有益效果:利用麦克风阵列的空域选择特性结合第一目标语音时频域掩模权值与降噪处理前后时频点的能量差异信息及降噪处理后时频域语音信号与预设唤醒平均帧能量,得出了在复杂噪声场景下,鲁棒性更高的第二目标语音时频域掩模权值,根据第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测,有利于为后端的语音识别给出准确的语音活动检测信息,有效减少人声干扰的误识别问题,提高了复杂噪声环境下语音识别系统的可用性语音检测的准确性,实现了鲁棒性更高的语音检测,降低噪声对语音检测的影响,只对目标语音进行检测,提高了检测效率。
图2是根据本发明又一个实施例的一种基于麦克风阵列的前景语音检测方法的流程图;如图2所示,在获取经所述麦克风阵列采集的语音信号之前,还包括:
S11、获取目标人声唤醒语音设备的相关信息;
S12、根据所述相关信息,计算得到预设含噪语音分类模型及预设唤醒平均帧能量。
上述技术方案的工作原理:具体的,在一应用场景中,在获取经麦克风阵列采集的语音信号之前,通过目标人声唤醒语音设备,语音设备可以是音箱,根据目标人声唤醒语音设备时的相关信息,经过迭代计算得到预设含噪语音分类模型及预设唤醒平均帧能量,相关信息包括:噪声信息、目标语音信息。含噪语音分类模型为含有噪声和目标语音的分类模型,将噪声及目标语音进行有效分类,对噪声及目标语音的类别进行准确区分。
上述技术方案的有益效果:得到预设预设含噪语音分类模型及预设唤醒平均帧能量,有利于筛除噪声,提高对目标语音检测的准确性。
根据本发明的一些实施例,所述深度学习模型包括GMM模型。
GMM模型,为高斯混合模型。高斯混合模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物,将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。
上述技术方案的有益效果:通过已经训练好的GMM模型进行语音检测,更加的方便准确。
根据本发明的一些实施例,所述根据所述第一目标语音时频域掩模权值、第一能量比、第二能量比,计算得到第二目标语音时频域掩模权值,算法包括:
计算第一能量比:
Figure BDA0002450401380000071
其中,ni为降噪处理前每一帧时频域语音信号的第一能量;mi为降噪处理后每一帧时频域语音信号的第二能量;i为总分帧数,i为正整数;
计算第二能量比:
Figure BDA0002450401380000081
其中,q为预设唤醒平均帧能量;
计算第二目标语音时频域掩模权值:
M=ai×bi×ci
其中,ai为第i帧的第一目标语音时频域掩模权值。
上述技术方案的有益效果:得到最终的语音信号中每一帧的第二目标语音时频域掩模权值,计算量少、复杂度低,通过预先的深度学习模型,对当前帧的前景语音进行检测,得到当前帧前景语音检测结果。
图3是根据本发明一个实施例的一种基于麦克风阵列的前景语音检测装置;如图3所示,本发明第二方面实施例提出了一种基于麦克风阵列的前景语音检测装置,包括:
第一获取模块1,用于获取经所述麦克风阵列采集的语音信号;
语音信号处理模块2,用于对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到时频域语音信号;
第一计算模块3用于:
根据所述时频域语音信号基于预设的含噪语音分类模型,计算得到每一帧时频域语音信号的第一目标语音时频域掩模权值;
对所述时频域语音信号进行降噪处理,并计算得到每一帧时频域语音信号降噪处理前的第一能量与降噪处理后的第二能量的第一能量比;
根据降噪处理后的时频域语音信号的第二能量及预设唤醒平均帧能量,计算得到每一帧时频域语音信号的第二能量与预设唤醒平均帧能量的第二能量比;
根据所述第一目标语音时频域掩模权值、第一能量比、第二能量比,计算得到第二目标语音时频域掩模权值;
检测模块4,用于根据所述第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测。
图4是根据本发明又一个实施例的一种基于麦克风阵列的前景语音检测装置;如图4所示,基于麦克风阵列的前景语音检测装置还包括:
第二获取模块5,用于获取目标人声唤醒语音设备的相关信息;
第二计算模块6,用于根据所述相关信息,计算得到预设含噪语音分类模型及预设唤醒平均帧能量。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (7)

1.一种基于麦克风阵列的前景语音检测方法,其特征在于,包括:
获取经所述麦克风阵列采集的语音信号;
对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到时频域语音信号;
根据所述时频域语音信号基于预设的含噪语音分类模型,计算得到每一帧时频域语音信号的第一目标语音时频域掩模权值;
对所述时频域语音信号进行降噪处理,并计算得到每一帧时频域语音信号降噪处理前的第一能量与降噪处理后的第二能量的第一能量比;
根据降噪处理后的时频域语音信号的第二能量及预设唤醒平均帧能量,计算得到每一帧时频域语音信号的第二能量与预设唤醒平均帧能量的第二能量比;
根据所述第一目标语音时频域掩模权值、第一能量比、第二能量比,计算得到第二目标语音时频域掩模权值;
根据所述第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测。
2.如权利要求1所述的基于麦克风阵列的前景语音检测方法,其特征在于,在获取经所述麦克风阵列采集的语音信号之前,还包括:
获取目标人声唤醒语音设备的相关信息;
根据所述相关信息,计算得到预设含噪语音分类模型及预设唤醒平均帧能量。
3.如权利要求2所述的基于麦克风阵列的前景语音检测方法,其特征在于,所述相关信息包括:噪声信息、目标语音信息。
4.如权利要求1所述的基于麦克风阵列的前景语音检测方法,其特征在于,所述深度学习模型包括GMM模型。
5.如权利要求1所述的基于麦克风阵列的前景语音检测方法,其特征在于,所述根据所述第一目标语音时频域掩模权值、第一能量比、第二能量比,计算得到第二目标语音时频域掩模权值,算法包括:
计算第一能量比:
Figure FDA0002450401370000021
其中,ni为降噪处理前每一帧时频域语音信号的第一能量;mi为降噪处理后每一帧时频域语音信号的第二能量;i为总分帧数,i为正整数;
计算第二能量比:
Figure FDA0002450401370000022
其中,q为预设唤醒平均帧能量;
计算第二目标语音时频域掩模权值:
M=ai×bi×ci
其中,ai为第i帧的第一目标语音时频域掩模权值。
6.一种基于麦克风阵列的前景语音检测装置,其特征在于,包括:
第一获取模块,用于获取经所述麦克风阵列采集的语音信号;
语音信号处理模块,用于对所述语音信号进行分帧加窗以及短时傅里叶变换处理,得到时频域语音信号;
第一计算模块用于:
根据所述时频域语音信号基于预设的含噪语音分类模型,计算得到每一帧时频域语音信号的第一目标语音时频域掩模权值;
对所述时频域语音信号进行降噪处理,并计算得到每一帧时频域语音信号降噪处理前的第一能量与降噪处理后的第二能量的第一能量比;
根据降噪处理后的时频域语音信号的第二能量及预设唤醒平均帧能量,计算得到每一帧时频域语音信号的第二能量与预设唤醒平均帧能量的第二能量比;
根据所述第一目标语音时频域掩模权值、第一能量比、第二能量比,计算得到第二目标语音时频域掩模权值;
检测模块,用于根据所述第二目标语音时频域掩模权值基于预先训练的深度学习模型进行前景语音检测。
7.如权利要求6所述的基于麦克风阵列的前景语音检测装置,其特征在于,还包括:
第二获取模块,用于获取目标人声唤醒语音设备的相关信息;
第二计算模块,用于根据所述相关信息,计算得到预设含噪语音分类模型及预设唤醒平均帧能量。
CN202010291044.XA 2020-04-14 2020-04-14 一种基于麦克风阵列的前景语音检测方法及装置 Active CN111613247B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010291044.XA CN111613247B (zh) 2020-04-14 2020-04-14 一种基于麦克风阵列的前景语音检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010291044.XA CN111613247B (zh) 2020-04-14 2020-04-14 一种基于麦克风阵列的前景语音检测方法及装置

Publications (2)

Publication Number Publication Date
CN111613247A true CN111613247A (zh) 2020-09-01
CN111613247B CN111613247B (zh) 2023-03-21

Family

ID=72199501

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010291044.XA Active CN111613247B (zh) 2020-04-14 2020-04-14 一种基于麦克风阵列的前景语音检测方法及装置

Country Status (1)

Country Link
CN (1) CN111613247B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112750463A (zh) * 2020-12-17 2021-05-04 云知声智能科技股份有限公司 一种误识别抑制方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017132958A1 (en) * 2016-02-04 2017-08-10 Zeng Xinxiao Methods, systems, and media for voice communication
WO2019080551A1 (zh) * 2017-10-23 2019-05-02 科大讯飞股份有限公司 目标语音检测方法及装置
CN110136737A (zh) * 2019-06-18 2019-08-16 北京拙河科技有限公司 一种语音降噪方法及装置
CN110648678A (zh) * 2019-09-20 2020-01-03 厦门亿联网络技术股份有限公司 一种用于具有多麦克风会议的场景识别方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017132958A1 (en) * 2016-02-04 2017-08-10 Zeng Xinxiao Methods, systems, and media for voice communication
WO2019080551A1 (zh) * 2017-10-23 2019-05-02 科大讯飞股份有限公司 目标语音检测方法及装置
CN110136737A (zh) * 2019-06-18 2019-08-16 北京拙河科技有限公司 一种语音降噪方法及装置
CN110648678A (zh) * 2019-09-20 2020-01-03 厦门亿联网络技术股份有限公司 一种用于具有多麦克风会议的场景识别方法和系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张健;付中华;谢磊;赵亚丽;: "基于目标声源方位已知的双麦克风噪声抑制" *
张宁;顾明亮;朱俊梅;周杰;: "语音活动检测对方言辨识系统的影响研究" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112750463A (zh) * 2020-12-17 2021-05-04 云知声智能科技股份有限公司 一种误识别抑制方法

Also Published As

Publication number Publication date
CN111613247B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
CN106486131B (zh) 一种语音去噪的方法及装置
CN111445905B (zh) 混合语音识别网络训练方法、混合语音识别方法、装置及存储介质
CN108597496B (zh) 一种基于生成式对抗网络的语音生成方法及装置
Stöter et al. Countnet: Estimating the number of concurrent speakers using supervised learning
De Oliveira et al. Bird acoustic activity detection based on morphological filtering of the spectrogram
CN103503060B (zh) 使用听觉注意力线索的语音音节/元音/音素边界检测
CN109256144B (zh) 基于集成学习与噪声感知训练的语音增强方法
CN102968990B (zh) 说话人识别方法和系统
CN111785288B (zh) 语音增强方法、装置、设备及存储介质
CN111261183A (zh) 一种语音去噪的方法及装置
CN111724770B (zh) 一种基于深度卷积生成对抗网络的音频关键词识别方法
CN109147798B (zh) 语音识别方法、装置、电子设备及可读存储介质
CN110751955B (zh) 基于时频矩阵动态选择的声音事件分类方法及系统
CN111341319A (zh) 一种基于局部纹理特征的音频场景识别方法及系统
CN113571047A (zh) 一种音频数据的处理方法、装置及设备
Pandharipande et al. An unsupervised frame selection technique for robust emotion recognition in noisy speech
CN111613247B (zh) 一种基于麦克风阵列的前景语音检测方法及装置
Pandharipande et al. Robust front-end processing for emotion recognition in noisy speech
Tian et al. Spoofing detection under noisy conditions: a preliminary investigation and an initial database
CN111462770A (zh) 一种基于lstm的后期混响抑制方法及系统
CN116386664A (zh) 一种语音伪造检测方法、装置、系统及存储介质
Zhou et al. Robust sound event classification by using denoising autoencoder
Sharan et al. Subband spectral histogram feature for improved sound recognition in low SNR conditions
Odelowo et al. A Mask-Based Post Processing Approach for Improving the Quality and Intelligibility of Deep Neural Network Enhanced Speech
CN115376494A (zh) 一种语音检测方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant