CN112614513B - 一种语音检测方法、装置、电子设备及存储介质 - Google Patents

一种语音检测方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112614513B
CN112614513B CN202110248590.XA CN202110248590A CN112614513B CN 112614513 B CN112614513 B CN 112614513B CN 202110248590 A CN202110248590 A CN 202110248590A CN 112614513 B CN112614513 B CN 112614513B
Authority
CN
China
Prior art keywords
audio signals
signal
speech
audio
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110248590.XA
Other languages
English (en)
Other versions
CN112614513A (zh
Inventor
张奇
杨国全
廖焕柱
王克彦
曹亚曦
俞鸣园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Huachuang Video Signal Technology Co Ltd
Original Assignee
Zhejiang Huachuang Video Signal Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Huachuang Video Signal Technology Co Ltd filed Critical Zhejiang Huachuang Video Signal Technology Co Ltd
Priority to CN202110248590.XA priority Critical patent/CN112614513B/zh
Publication of CN112614513A publication Critical patent/CN112614513A/zh
Application granted granted Critical
Publication of CN112614513B publication Critical patent/CN112614513B/zh
Priority to EP22766237.6A priority patent/EP4307297A1/en
Priority to PCT/CN2022/079321 priority patent/WO2022188712A1/zh
Priority to US18/240,493 priority patent/US20230412977A1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

本发明公开一种语音检测方法、装置、电子设备及存储介质,涉及语音检测领域,包括:通过N个麦克风在对应角度上对第一音频信号进行采集,获得对应的N个第二音频信号,每个第二音频信号包括一个音频帧;对N个第二音频信号进行语音端点检测,确定其中X个第二音频信号为语音帧,确定其中Y个第二音频信号为噪声帧,X加Y等于N,X和Y为大于等于0的整数,N为大于0的整数;若X和Y都不等于0,则检测N个第二音频信号中是否包含语音基频与谐波;若任意一个第二音频信号中包含语音基频与谐波,则将第一音频信号确定为语音信号,以过滤掉传统算法无法判断的非稳态噪声,能够稳定识别多种现实噪音。

Description

一种语音检测方法、装置、电子设备及存储介质
技术领域
本发明涉及语音检测领域,尤其涉及一种语音检测方法、装置、电子设备及存储介质。
背景技术
语音端点检测(VAD)算法通常用于判断给定的音频信号是语音还是噪声,其结果常用在语音编解码、语音增强、增益控制以及语音唤醒识别等算法中。基于深度学习的语音端点检测方法在高信噪比环境下效果很好,但是在低信噪比的环境下存在清音(发声时声带不振动发出的声音,能量较低)因为包含非稳态噪声而被误判为噪声的情况,因此,语音检测领域急需一种能够稳定识别多种现实噪音,并且不会因为包含非稳态噪声而将语音信号误判为噪声信号的语音检测方法。
发明内容
本发明提供一种语音检测方法、装置、电子设备及存储介质,以至少解决现有技术中存在的以上技术问题。
本发明一方面提供一种语音检测方法,包括:
通过N个麦克风在对应角度上对第一音频信号进行采集,获得对应的N个第二音频信号,每个所述第二音频信号包括一个音频帧;
对所述N个第二音频信号进行语音端点检测,确定其中X个第二音频信号为语音帧,确定其中Y个第二音频信号为噪声帧,所述X加Y等于N,所述X和Y为大于等于0的整数,N为大于0的整数;
若X和Y都不等于0,则检测所述N个第二音频信号中是否包含语音基频与谐波;
若任意一个所述第二音频信号中包含语音基频与谐波,则将所述第一音频信号确定为语音信号。
其中,所述N个麦克风组成均匀环形麦克风阵列,其中每个麦克风均为角度360°/N的指向性麦克风。
其中,所述对所述N个第二音频信号进行语音端点检测,确定其中X个第二音频信号为语音帧,确定其中Y个第二音频信号为噪声帧后,该方法还包括:
若Y等于0,则将所述第一音频信号确定为语音信号。
其中,所述对所述N个第二音频信号进行语音端点检测,确定其中X个第二音频信号为语音帧,确定其中Y个第二音频信号为噪声帧后,该方法还包括:
若X等于0,则将所述第一音频信号确定为噪声信号。
其中,所述将所述第一音频信号确定为语音信号后,该方法还包括:
选取所述N个第二音频信号中信噪比最高的第二音频信号,进行语音识别。
本发明另一方面提供一种语音检测装置,包括:
采集模块,用于通过N个麦克风在对应角度上对第一音频信号进行采集,获得对应的N个第二音频信号,每个所述第二音频信号包括一个音频帧;
第一检测模块,用于对所述N个第二音频信号进行语音端点检测,确定其中X个第二音频信号为语音帧,确定其中Y个第二音频信号为噪声帧,所述X加Y等于N,所述X和Y为大于等于0的整数,N为大于0的整数;
第二检测模块,用于若X和Y都不等于0,则检测所述N个第二音频信号中是否包含语音基频与谐波;
处理模块,用于在所述任意一个第二音频信号中包含语音基频与谐波时,将所述第一音频信号确定为语音信号。
其中,所述采集模块包括N个麦克风,所述N个麦克风组成均匀环形麦克风阵列,其中每个麦克风均为角度360°/N的指向性麦克风;
所述N个麦克风用于在对应角度上对第一音频信号进行采集,获得对应的N个第二音频信号,每个所述第二音频信号包括一个音频帧。
其中,所述处理模块,还用于若Y等于0,则将所述第一音频信号确定为语音信号。
其中,所述处理模块,还用于在所述Y等于0时,将所述第一音频信号确定为语音信号。
其中,所述处理模块,还用于在X等于0时,将所述第一音频信号确定为噪声信号。
本发明再一方面提供一种电子设备,包括:处理器、通信接口、存储器和通信总线;
其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现本发明所述的语音检测方法。
本发明还一方面提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序用于执行本发明所述的语音检测方法。
在本发明上述的方案中,利用麦克风阵列对第一音频信号进行采集,得到多个第二音频信号,通过对多个第二音频信号进行语音端点检测,判断多个第二音频信号是语音帧还是噪声帧,若同时存在语音帧和噪声帧,则可能是部分方向的麦克风接收到了一些指向性的非稳态噪声,所以需要进一步检测多个第二音频信号中是否包含语音基频与谐波,若其中任意一个第二音频信号中包含语音基频与谐波,则确定第一音频信号是语音信号,如此,可以过滤掉传统算法无法判断的非稳态噪声,能够稳定识别多种现实噪音。
附图说明
图1示出了一实施例所示的语音检测方法流程图;
图2示出了另一实施例所示的语音检测方法流程图;
图3示出了另一实施例所示的麦克风阵列装置结构示意图;
图4示出了一实施例所示的语音检测装置结构示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了提高语音检测中对语音识别的稳定性,减少对语音和噪声的误判,如图1所示,本发明一实施例提供了一种语音检测方法,该方法包括:
步骤101,通过N个麦克风在对应角度上对第一音频信号进行采集,获得对应的N个第二音频信号,每个所述第二音频信号包括一个音频帧。
由N个指向性麦克风采集第一音频信号获得N个第二音频信号,每个第二音频信号包括一个音频帧,音频信号中的非稳态噪声由于能量较低所以衰减较快,且一般无法在室内进行反射,而语音的能量较高且可以经过反射被麦克风采集到,所以语音可以被所有麦克风采集到,但也可能有一部分指向性的非稳态噪声被部分方向的麦克风采集到,所以需要进行下一步处理,去除这部分非稳态噪声对语音的影响,至少需要3个以上的指向性麦克风,麦克风越多,最终效果就越好。
步骤102,对所述N个第二音频信号进行语音端点检测,确定其中X个第二音频信号为语音帧,确定其中Y个第二音频信号为噪声帧,所述X加Y等于N,所述X和Y为大于等于0的整数,N为大于0的整数。
对N个第二音频信号进行语音端点检测,语音端点检测是对语音和非语音的区域进行区分,一般用来从带有噪声的语音中准确的定位出语音的开始点和结束点,去掉静音的部分,去掉噪声的部分,找到一段语音真正有效的内容,而在本实施例中,可使用现有任一成熟的语音端点检测方法,对N个第二音频信号进行语音端点检测,以判断这N个第二音频信号是语音帧还是噪声帧,在一实施例中,检测结果为N个第二音频信号中有X个语音帧和Y个噪声帧。N个麦克风采集时可能有一部分指向性的非稳态噪声被部分方向的麦克风采集到,所以可能会出现N个第二音频信号中同时有语音帧和噪声帧的情况,通过语音端点检测判断单个第二音频信号是语音帧还是噪声帧的结果并不是非常准确的,所以本实施例通过语音端点检测对多个第二音频信号进行检测,若其中有至少一个第二音频信号是语音帧,那么就对多个第二音频信号做下一步处理。
步骤103,若X和Y都不等于0,则检测所述N个第二音频信号中是否包含语音基频与谐波。
若X和Y都不等于0,也就是N个第二音频信号中同时有语音帧和噪声帧,则对N个第二音频信号进行语音基频与谐波检测,语音包含声调,声调是重要的声学参数,声调是由调值和调型组成的,而调值由基频数值决定,调型由调值的走向决定,所以基频是语音信号的一个重要参数,而在本实施例中,语音基频与谐波检测就是检测第二音频信号中是否包含声调等声学参数,进一步确定该第一音频信号是否是语音信号,以去除麦克风采集时一部分指向性的非稳态噪声对最终结果的影响。
步骤104,若所述任意一个第二音频信号中包含语音基频与谐波,则将所述第一音频信号确定为语音信号。
若N个第二音频信号中有任意一个包含语音基频与谐波,也就是声调等声学参数,那么就意味着该第二音频信号是语音信号,即第一音频信号包含语音信号,则将第一音频信号确定为语音信号。
通过上述的方法,即使音频信号中包含部分噪声信号,即使音频信号中的语音信号的能量较弱,也可以避免将语音识别为噪声。
上述步骤101中,在一可实施方式中,所述N个麦克风组成均匀环形麦克风阵列,其中每个麦克风均为角度360°/N的指向性麦克风。
将N个指向性麦克风按360°/N的均匀角度组成环形麦克风阵列,水平放置,声源处于麦克风阵列外围水平面上的任意位置,对声源发出的第一音频信号进行采集,每个方向的指向性麦克风可以接收来自所在方向360°/N角度的信号,所以多个指向性麦克风采集的第二音频信号在方向上不同,采集的第二音频信号也不同,可以规避大部分非稳态噪声,而接收到的一些指向性的非稳态噪声也能够通过进一步的处理进而消除掉对最终结果的影响。
在步骤102中,所述对所述N个第二音频信号进行语音端点检测,确定其中X个第二音频信号为语音帧,确定其中Y个第二音频信号为噪声帧后:
在一可实施方式中,若Y等于0,则将所述第一音频信号确定为语音信号。
若Y等于0,也就是N个第二音频信号都是语音帧,那么第一音频信号毫无疑义就是语音信号,将第一音频信号确定为语音信号。
在另一可实施方式中,若X等于0,则将所述第一音频信号确定为噪声信号。
若X等于0,也就是N个第二音频信号都是噪声帧,那么第一音频信号毫无疑义就是噪声信号,将第一音频信号确定为噪声信号。
在步骤104中,所述将所述第一音频信号确定为语音信号后,在一可实施方式中,选取所述N个第二音频信号中信噪比最高的第二音频信号进行语音识别。
选取N个第二音频信号中信噪比最高的第二音频信号,信噪比指的是信号跟噪声的比例,该比值越高说明该信号中噪声部分越少,那么该信号质量就越高,选取N个第二音频信号中质量最高的进行语音识别。
在本发明上述的方案中,由于非稳态噪声能量较低衰减较快,且一般无法在室内进行反射,而语音能量较高且可以经过反射到达麦克风,所以语音可以被所有麦克风采集到,但是一些指向性的非稳态噪声会被部分方向麦克风采集到,所以本方法利用麦克风阵列对第一音频信号进行采集,得到多个第二音频信号,通过对多个第二音频信号进行语音端点检测,判断多个第二音频信号是语音帧还是噪声帧,若全是语音帧,则确定第一音频信号是语音信号,全是噪声帧,则确定第一音频信号是噪声信号,若同时存在语音帧和噪声帧则可能是部分方向的麦克风接收到了一些指向性的非稳态噪声,所以需要进一步检测多个第二音频信号中是否包含语音基频与谐波,若其中任意一个第二音频信号中包含语音基频与谐波,则确定第一音频信号是语音信号,本方法针对不同结果归纳为3种场景,并分别作出语音判断,可以过滤掉传统算法无法判断的非稳态噪声,能够稳定识别多种现实噪音。
下面通过一个具体的实施例对上述的语音检测方法进行详细的说明,如图3所示,将4个指向性麦克风按90°的均匀角度组成环形麦克风阵列,水平放置,声源处于麦克风阵列外围水平面上的任意位置,对第一音频信号进行采集,每个方向的指向性麦克风可以接收来自所在方向90°角度的信号,如图2所示,语音检测过程包括:
步骤201,通过4个麦克风在对应角度上对第一音频信号进行采集,获得对应的4个第二音频信号,每个所述第二音频信号包括一个音频帧。
如图3所示,麦克风1和麦克风2采集声源发射出的包含非稳态噪声的第一音频信号,因为麦克风1和麦克风2的信号接收方向与声源发射信号的方向相对,所以麦克风1和麦克风2接收到的第二音频信号可能会包含声源直线发射出的非稳态噪声,而麦克风3和麦克风4的信号接收方向与声源发射信号的方向不相对,所以麦克风3和麦克风4采集的第一音频信号经过多次反射后,第一音频信号中的非稳态噪声由于能量过低,未被麦克风3和麦克风4所接收到,所以麦克风3和麦克风4接收到的第二音频信号不包含非稳态噪声。
步骤202,对所述4个第二音频信号进行语音端点检测,确定其中X个第二音频信号为语音帧,确定其中Y个第二音频信号为噪声帧,所述X加Y等于4,所述X和Y为大于等于0的整数。
如图3所示,对4个麦克风所接收到的第二音频信号进行语音端点检测,麦克风1和麦克风2所接收到的第二音频信号中包含非稳态噪声,经过检测可能会被判定为噪声帧,而麦克风3和麦克风4所接收到的第二音频信号中不包含非稳态噪声,检测后一定是语音帧。
步骤203,若X和Y都不等于0,则检测所述4个第二音频信号中是否包含语音基频与谐波。
如图3所示,麦克风1和麦克风2接收到的第二音频信号因为包含非稳态噪声经过检测后可能被判定为噪声帧,而麦克风3和麦克风4接收到的第二音频信号不包含非稳态噪声经过检测后被判定为语音帧,所以要对4个麦克风接收到的信号做语音基频与谐波检测。
步骤204,若任意一个所述第二音频信号中包含语音基频与谐波,则将所述第一音频信号确定为语音信号。
若4个第二音频信号中有任意一个包含语音基频与谐波,也就是声调等声学参数,那么就意味着该第二音频信号是语音信号,则将第一音频信号确定为语音信号。
步骤205,选取所述4个第二音频信号中信噪比最高的第二音频信号进行语音识别。
选取4个第二音频信号中信噪比最高的第二音频信号信号,信噪比指的是信号中信号部分跟噪声部分的比例,该比值越高说明该信号中噪声部分越少,那么该信号质量就越高,选取4个第二音频信号中质量最高的进行语音识别。
在步骤201中,所述通过4个麦克风在对应角度上对第一音频信号进行采集,获得对应的4个第二音频信号,
在一可实施方式中,所述4个麦克风组成均匀环形麦克风阵列,其中每个麦克风均为角度90°的指向性麦克风。
如图3所示,将4个指向性麦克风按90°的均匀角度组成环形麦克风阵列,水平放置,声源处于麦克风阵列外围水平面上的任意位置,对第一音频信号进行采集,每个方向的指向性麦克风可以接收来自所在方向90°角度的信号,所以多个指向性麦克风采集的第二音频信号在方向上不同,采集的第二音频信号也不同,可以规避大部分非稳态噪声,而接收到的一些指向性的非稳态噪声也能够通过进一步的处理进而消除掉对最终结果的影响。
在步骤202中,所述对所述4个第二音频信号进行语音端点检测,确定其中X个第二音频信号为语音帧,确定其中Y个第二音频信号为噪声帧后,
在一可实施方式中,若Y等于0,则将所述第一音频信号确定为语音信号。
若Y等于0,也就是4个第二音频信号都是语音帧,那么第一音频信号毫无疑义就是语音信号,将第一音频信号确定为语音信号,如图3所示,4个麦克风接收到的第二音频信号经过检测都被判定为语音帧,那么声源发射出的第一音频信号就是语音信号。
在一可实施方式中,若X等于0,则将所述第一音频信号确定为噪声信号。
若X等于0,也就是4个第二音频信号都是噪声帧,那么第一音频信号毫无疑义就是噪声信号,将第一音频信号确定为噪声信号,如图3所示,4个麦克风接收到的第二音频信号经过检测都被判定为噪声帧,那么声源发射出的第一音频信号就是噪声信号。
在本发明上述的方案中,由于非稳态噪声能量较低衰减较快,且一般无法在室内进行反射,而语音能量较高且可以经过反射到达麦克风,所以语音可以被所有麦克风采集到,但是一些指向性的非稳态噪声会被部分方向麦克风采集到,所以本方法利用麦克风阵列对第一音频信号进行采集,得到多个第二音频信号,通过对多个第二音频信号进行语音端点检测,判断多个第二音频信号是语音帧还是噪声帧,若全是语音帧,则确定第一音频信号是语音信号,全是噪声帧,则确定第一音频信号是噪声信号,若同时存在语音帧和噪声帧则可能是部分方向的麦克风接收到了一些指向性的非稳态噪声,所以需要进一步检测多个第二音频信号中是否包含语音基频与谐波,若其中任意一个第二音频信号中包含语音基频与谐波,则确定第一音频信号是语音信号,本方法针对不同结果归纳为3种场景,并分别作出语音判断,可以过滤掉传统算法无法判断的非稳态噪声,能够稳定识别多种现实噪音。
本发明一实施例还提供了一种语音检测装置,如图4所示,该装置包括:
采集模块10,用于通过N个麦克风在对应角度上对第一音频信号进行采集,获得对应的N个第二音频信号,每个所述第二音频信号包括一个音频帧;
第一检测模块20,用于对所述N个第二音频信号进行语音端点检测,确定其中X个第二音频信号为语音帧,确定其中Y个第二音频信号为噪声帧,所述X加Y等于N,所述X和Y为大于等于0的整数,N为大于0的整数;
第二检测模块30,用于若X和Y都不等于0,则检测所述N个第二音频信号中是否包含语音基频与谐波;
处理模块40,用于若任意一个所述第二音频信号中包含语音基频与谐波,则将所述第一音频信号确定为语音信号。
其中,该装置包括:
所述采集模块10包括N个麦克风,所述N个麦克风组成均匀环形麦克风阵列,其中每个麦克风均为角度360°/N的指向性麦克风;
所述N个麦克风用于在对应角度上对第一音频信号进行采集,获得对应的N个第二音频信号,每个所述第二音频信号包括一个音频帧。
其中,该装置包括:
所述处理模块40,还用于若Y等于0,则将所述第一音频信号确定为语音信号。
其中,该装置包括:
所述处理模块40,还用于若X等于0,则将所述第一音频信号确定为噪声信号。
其中,该装置包括:
所述处理模块40,还用于选取所述N个第二音频信号中信噪比最高的第二音频信号进行语音识别。
除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (9)

1.一种语音检测方法,其特征在于,包括:
N个麦克风组成均匀环形麦克风阵列,其中每个麦克风均为角度360°/N的指向性麦克风;
每个方向的指向性麦克风接收来自所在方向360°/N角度的声源发出的第一音频信号,获得对应的N个第二音频信号,每个所述第二音频信号包括一个音频帧;
对所述N个第二音频信号进行语音端点检测,确定其中X个第二音频信号为语音帧,确定其中Y个第二音频信号为噪声帧,所述X加Y等于N,所述X和Y为大于等于0的整数,N为大于0的整数;
若X和Y都不等于0,则检测所述N个第二音频信号中是否包含语音基频与谐波;
若任意一个所述第二音频信号中包含语音基频与谐波,则将所述第一音频信号确定为语音信号。
2.根据权利要求1所述的语音检测方法,其特征在于,所述对所述N个第二音频信号进行语音端点检测,确定其中X个第二音频信号为语音帧,确定其中Y个第二音频信号为噪声帧后,该方法还包括:
若Y等于0,则将所述第一音频信号确定为语音信号。
3.根据权利要求1所述的语音检测方法,其特征在于,所述对所述N个第二音频信号进行语音端点检测,确定其中X个第二音频信号为语音帧,确定其中Y个第二音频信号为噪声帧后,该方法还包括:
若X等于0,则将所述第一音频信号确定为噪声信号。
4.根据权利要求1或2所述的语音检测方法,其特征在于,所述将所述第一音频信号确定为语音信号后,该方法还包括:
选取所述N个第二音频信号中信噪比最高的第二音频信号,进行语音识别。
5.一种语音检测装置,其特征在于,包括:
N个麦克风组成均匀环形麦克风阵列,其中每个麦克风均为角度360°/N的指向性麦克风;
采集模块,用于通过每个方向的指向性麦克风接收来自所在方向360°/N角度的声源发出的第一音频信号,获得对应的N个第二音频信号,每个所述第二音频信号包括一个音频帧;
第一检测模块,用于对所述N个第二音频信号进行语音端点检测,确定其中X个第二音频信号为语音帧,确定其中Y个第二音频信号为噪声帧,所述X加Y等于N,所述X和Y为大于等于0的整数,N为大于0的整数;
第二检测模块,用于在X和Y都不等于0时,检测所述N个第二音频信号中是否包含语音基频与谐波;
处理模块,用于在任意一个第二音频信号中包含语音基频与谐波时,将所述第一音频信号确定为语音信号。
6.根据权利要求5所述的语音检测装置,其特征在于,所述处理模块,还用于在所述Y等于0时,将所述第一音频信号确定为语音信号。
7.根据权利要求5所述的语音检测装置,其特征在于,所述处理模块,还用于在X等于0时,将所述第一音频信号确定为噪声信号。
8.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现权利要求1-4任一项所述的方法步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一项所述的方法步骤。
CN202110248590.XA 2021-03-08 2021-03-08 一种语音检测方法、装置、电子设备及存储介质 Active CN112614513B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202110248590.XA CN112614513B (zh) 2021-03-08 2021-03-08 一种语音检测方法、装置、电子设备及存储介质
EP22766237.6A EP4307297A1 (en) 2021-03-08 2022-03-04 Method and apparatus for switching main microphone, voice detection method and apparatus for microphone, microphone-loudspeaker integrated device, and readable storage medium
PCT/CN2022/079321 WO2022188712A1 (zh) 2021-03-08 2022-03-04 主麦克风的切换方法和装置、麦克风的语音检测方法和装置、麦克风扬声器一体设备及可读存储介质
US18/240,493 US20230412977A1 (en) 2021-03-08 2023-08-31 Method and apparatus for switching main microphone, voice detection method and apparatus for microphone, microphone-loudspeaker integrated device, and readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110248590.XA CN112614513B (zh) 2021-03-08 2021-03-08 一种语音检测方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112614513A CN112614513A (zh) 2021-04-06
CN112614513B true CN112614513B (zh) 2021-06-08

Family

ID=75254519

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110248590.XA Active CN112614513B (zh) 2021-03-08 2021-03-08 一种语音检测方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112614513B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022188712A1 (zh) * 2021-03-08 2022-09-15 浙江华创视讯科技有限公司 主麦克风的切换方法和装置、麦克风的语音检测方法和装置、麦克风扬声器一体设备及可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9064497B2 (en) * 2012-02-22 2015-06-23 Htc Corporation Method and apparatus for audio intelligibility enhancement and computing apparatus
US20130282373A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
US11120821B2 (en) * 2016-08-08 2021-09-14 Plantronics, Inc. Vowel sensing voice activity detector
CN110706693B (zh) * 2019-10-18 2022-04-19 浙江大华技术股份有限公司 语音端点的确定方法及装置、存储介质、电子装置
CN110827858B (zh) * 2019-11-26 2022-06-10 思必驰科技股份有限公司 语音端点检测方法及系统

Also Published As

Publication number Publication date
CN112614513A (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
US9805714B2 (en) Directional keyword verification method applicable to electronic device and electronic device using the same
CN109599124B (zh) 一种音频数据处理方法、装置及存储介质
KR102339594B1 (ko) 객체 인식 방법, 컴퓨터 디바이스 및 컴퓨터 판독 가능 저장 매체
JP7011075B2 (ja) マイク・アレイに基づく対象音声取得方法及び装置
CN107577449B (zh) 唤醒语音的拾取方法、装置、设备及存储介质
CN104637489B (zh) 声音信号处理的方法和装置
US9699549B2 (en) Audio capturing enhancement method and audio capturing system using the same
JP2012150237A (ja) 音信号処理装置、および音信号処理方法、並びにプログラム
WO2016176329A1 (en) Impulsive noise suppression
CN105976810B (zh) 一种检测语音有效话语段端点的方法和装置
CN109361995B (zh) 一种电器设备的音量调节方法、装置、电器设备和介质
CN112614513B (zh) 一种语音检测方法、装置、电子设备及存储介质
KR101762723B1 (ko) 피치 주기의 정확도를 검출하는 방법 및 장치
CN112530410A (zh) 一种命令词识别方法及设备
CN111081223A (zh) 一种语音识别方法、装置、设备和存储介质
CN114093358A (zh) 语音识别方法和装置、电子设备和存储介质
WO2015084658A1 (en) Systems and methods for enhancing an audio signal
CN110085264B (zh) 语音信号检测方法、装置、设备及存储介质
WO2022188712A1 (zh) 主麦克风的切换方法和装置、麦克风的语音检测方法和装置、麦克风扬声器一体设备及可读存储介质
CN109410928B (zh) 一种基于语音识别的去噪方法和芯片
CN113316074B (zh) 一种啸叫检测方法、装置及电子设备
Lee et al. Space-time voice activity detection
KR102218151B1 (ko) 음성 인식률을 향상시키기 위한 타겟 음성 신호 출력 장치 및 방법
US11600273B2 (en) Speech processing apparatus, method, and program
CN114678040B (zh) 语音一致性检测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant