CN109243495A - 语音检测方法及装置 - Google Patents

语音检测方法及装置 Download PDF

Info

Publication number
CN109243495A
CN109243495A CN201811048024.9A CN201811048024A CN109243495A CN 109243495 A CN109243495 A CN 109243495A CN 201811048024 A CN201811048024 A CN 201811048024A CN 109243495 A CN109243495 A CN 109243495A
Authority
CN
China
Prior art keywords
signal
voice signal
sound
voice
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811048024.9A
Other languages
English (en)
Inventor
李波
夏波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vodysound Technology (Sichuan) Co.,Ltd.
Original Assignee
Chengdu Bi Sheng Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Bi Sheng Technology Co Ltd filed Critical Chengdu Bi Sheng Technology Co Ltd
Priority to CN201811048024.9A priority Critical patent/CN109243495A/zh
Publication of CN109243495A publication Critical patent/CN109243495A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明提供一种语音检测方法及装置,涉及语音处理技术领域。该语音检测方法及装置包括:获取采集到的声音信号;将声音信号进行分帧加窗处理,获取分段后的多段声音信号;测量获取该多段声音信号中待处理分段声音信号的特真信号,其中,特真信号指示待处理分段声音信号的相关性;采用语音分类模块对特真信号进行分类,确定特真信号的分类,特真信号的分类用于指示待处理分段声音信号中是否包含预设使用者的语音信号;若该特真信号中包含预设使用者的语音信号,则输出待处理分段声音信号含有使用者语音信号的触发信号。使用该语音检测方法及装置,可以从采集到的环境语音中检测是否包含使用者的语音信号。

Description

语音检测方法及装置
技术领域
本发明涉及语音处理技术领域,特别涉及一种语音检测方法及装置。
背景技术
环境声音可看出是人声和环境噪音的叠加。当前有很多电子设备(比如蓝牙耳机/蓝牙头盔),利用麦克风(microphone,简称MIC)接收设备附近的环境声音,然后识别这些采集到的环境声音是使用者发音还是环境噪音,这种识别可以指导设备或者是该设备连接的设备(比如蓝牙耳机连接的手机)做出各种设备使用者想要的操作。也就是所说的设备具有语音识别技术,这种语音识别可能会在各种环境下进行,比如吵闹的商城,各种人声的会议室,办公室等。在这些语音信号复杂的环境中,电子设备的MIC会采集到各种各样的噪音,导致该电子设备使用者的语音识别率很低,甚至完全不能识别该使用者的语音。
另外还有一些特殊情况,比如在有风的时候,特别是大风,会破坏使用者的发音,使设别接收到的语音信号使被破坏的,功率谱和正常说话时候的功率谱大不一样,极大地降低设备的识别率。
现有技术中可以采用浊音检测来区分MIC收集语音信号中的人声和环境噪音。虽然一般情况下环境噪音是无规律、无周期的,和人声的浊音周期性谐波特性有比较明显的区别,但是也不排除一些环境中有一些稳定周期的以及谐波的噪音,因此浊音检测也不能有效地区分使用者发音和周围人声的发音。
发明内容
本发明的目的在于,针对上述现有技术中的不足,提供一种语音检测方法,通过对环境声音信息的采集,分帧加窗的处理,再将分帧加窗后的声音信息进行特真信息统计,并将特真信息统计的语音信息用语音分类模块进行分类,根据分类来判断是否有使用者是否发音。
为实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种语音检测方法,包括:获取采集到的声音信号;将所述声音信号进行分帧加窗处理,获取分段后的多段声音信号;测量获取所述多段声音信号中待处理分段声音信号的特真信号,其中,所述特真信号指示所述待处理分段声音信号的相关性;采用语音分类模块对所述特真信号进行分类,确定所述特真信号的分类,所述特真信号的分类用于指示所述待处理分段声音信号中是否包含预设使用者的语音信号;若所述特真信号中包含预设使用者的语音信号,则输出所述待处理分段声音信号含有使用者语音信号的触发信号。
进一步地,获取采集到的声音信号,包括:获取第一麦克风采集的第一声音信号、以及第二麦克风采集的第二声音信号;其中,所述第一声音信号包括:模拟信号、和/或数字信号;所述第二声音信号包括:模拟信号、和/或数字信号。
进一步地,所述第一声音信号包括模拟信号时,所述采集到第一声音信号之后,还包括:将所述第一声音信号中的模拟信号转换为数字信号;所述第二声音信号包括模拟信号时,所述采集到第二声音信号之后,还包括:将所述第二声音信号中的模拟信号转换为数字信号。
进一步地,所述获取第一麦克风采集的第一声音信号、以及第二麦克风采集的第二声音信号之后,还包括:对所述第一声音信号进行滤波处理,得到滤波后的第一声音信号;对所述第二声音信号进行滤波处理,得到滤波后的第二声音信号。
进一步地,对所述第二声音信号进行滤波处理,得到滤波后的第二声音信号之后,还包括:对所述滤波后的第二声音信号进行延时。
第二方面,本发明实施例还提供一种语音检测装置,包括:采集模块,用于获取采集到的声音信号;分帧加窗模块,将所述声音信号进行分帧加窗处理,获取分段后的多段声音信号;特真统计模块,用于测量统计所述多段声音信号中待处理分段声音信号的特真信号;分类模块,用于对所述特真信号进行分类,确定所述特真信号的分类;输出模块,用于当所述特真信号中包含预设使用者的语音信号时,则输出所述待处理分段声音信号含有预设语音信号。
进一步地,所述采集模块,具体用于获取第一麦克风采集的第一声音信号、以及第二麦克风采集的第二声音信号;其中,所述第一声音信号包括:模拟信号、和/或数字信号;所述第二声音信号包括:模拟信号、和/或数字信号。
进一步地,所述装置还包括:第一模/数转换模块和第二模/数转换模块;所述第一模/数转换模块,用于当所述第一声音信号包括模拟信号时,将所述第一声音信号中的模拟信号转换为数字信号;所述第二模/数转换模块,用于当所述第二声音信号包括模拟信号时,将所述第二声音信号中的模拟信号转换为数字信号。
进一步地,所述装置还包括:第一滤波模块和第二滤波模块;所述第一滤波模块,用于对所述第一声音信号进行滤波处理,得到滤波后的第一声音信号;所述第二滤波模块,用于对所述第二声音信号进行滤波处理,得到滤波后的第二声音信号。
进一步地,所述装置还包括:延时模块;所述延时模块,用于在所述第二滤波模块对所述第二声音信号进行滤波处理后,对所述滤波后的第二声音信号进行延时。
本发明实施例提供的语音检测方法,将采集的声音信号进行分帧加窗处理,获取分段后的多段声音信号,采集多段声音信号的特真信号,并且对特真信号进行分类,从而更精确地判断采集到的声音信号是否包含使用者的声音信号。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的语音检测方法流程示意图一;
图2为本发明实施例提供的语音检测方法流程示意图二;
图3为本发明实施例提供的语音检测装置结构示意图一;
图4为本发明实施例提供的语音检测装置结构示意图二;
图5为本发明实施例提供的语音检测装置结构示意图三;
图6为本发明实施例提供的语音检测装置结构示意图四;
图7为本发明实施例提供的语音检测装置实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1为本发明一实施例提供的语音检测技术流程示意图。该方法的执行主体可以是终端设备,例如计算机、手机、平板电脑等设备。
如图1所示,该方法包括:
S101、获取采集到的声音信号。
可选地,通过语音输入设备采集环境中的声音信号,为后期的声音信号的处理拾音。
S102、将声音信号进行分帧加窗处理,获取分段后的多段声音信号。
需要说明的是,为了便于处理采集到的声音信号,将采集的声音信号进行分帧加窗处理,将采集的声音信号分为多段声音信号,为后期的特真的提取做预处理准备。
可选地,分帧加窗处理时,可以选用汉明窗作为窗函数。
S103、测量获取多段声音信号中待处理分段声音信号的特真信号。
其中,特真信号指示待处理分段声音信号的相关性。
当只有一个声音采集设备,例如只有一个麦克风采集到的声音信号时,特真信号的相关性为采集到的声音信号的自相关性。当由多个声音采集设备采集到的声音信号时,特真信号的相关性为每个声音采集设备所采集到声音信号的自相关性以及不同声音采集设备采集到声音信号之间的互相关性。
S104、采用语音分类模块对特真信号进行分类,确定特真信号的分类,特真信号的分类用于指示待处理分段声音信号中是否包含预设使用者的语音信号。
其中,通过采集大量的语音场景对语音分类模块进行训练,使得语音分类模块具有多样的训练向量可以适用于多种语音场景,训练的场景越多,对特真信号的分类越精确。
S105、若特真信号中包含预设使用者的语音信号,则输出待处理分段声音信号含有使用者语音信号的触发信号。
其中,触发信号可以为电平的形式输出。当输出电平为低电平时,无触发信号产生,表示采集到的声音信号中无使用者的声音信号;当输出电平为高电平时,有触发信号产生,表示采集到的声音信号中有使用者的声音信号。
在本实施例中,通过对环境声音信息的采集,分帧加窗的处理,再将分帧加窗后的声音信息进行特真信息统计,并将特真信息统计的语音信息用语音分类模块进行分类,根据语音分类的结果来判断是否有使用者是否发音,实现了对采集到的声音信号更精确的识别是否包含有使用者的声音。
上述获取采集到的声音信号,可以是由多个麦克风分别采集的声音信号,例如获取第一麦克风采集的第一声音信号、以及第二麦克风采集的第二声音信号。
其中,第一声音信号包括:模拟信号、和/或数字信号;第二声音信号包括:模拟信号、和/或数字信号。
可选地,第一声音信号包括:模拟信号时,还可以将第一声音信号中的模拟信号转换为数字信号。类似地,第二声音信号包括模拟信号时,还可以将第二声音信号中的模拟信号转换为数字信号。
具体实现时,为了更好地识别语音,还可以对第一声音信号进行滤波处理,得到滤波后的第一声音信号;对第二声音信号进行滤波处理,得到滤波后的第二声音信号。
需要说明的是,不同麦克风采集的声音信号在传输时可能不同步,可以通过延时来进行同步。
可选地,假设第二麦克风采集的第二声音信号传输较慢,可以对滤波后的第二声音信号进行延时。以保证两个麦克风采集的声音信号同步。
当然,本发明实施例中不作限制,若第一麦克风采集的第一声音信号传输较慢,也可以对滤波后的第一声音信号进行延时。
图2为本发明另一实施例提供的语音检测方法流程示意图,以图2为例,示出一个声音识别的过程为:
S201、获取第一麦克风1采集的第一声音信号、以及第二麦克风采集的第二声音信号。
其中,第一麦克风置于环境中,用于采集环境中的声音信号,第一麦克风采集的第一声音信号包括:模拟信号、和/或数字信号。类似地,第二麦克风置于环境中,用于采集环境中的声音信号,第二麦克风采集的第二声音信号包括:模拟信号、和/或数字信号。
可选的,第一麦克风为MIC,第二麦克风为语音拾取传感器(voice pick upsensor,简称VPU),可以为重力传感器(Gravity-sensor,简称G-sensor),本说明书第二麦克风以VPU为例进行说明。
上述两种麦克风的拾音特性不同,MIC主要是采集空气中传播的声音信号,并且将采集的信号转化为电信号。VPU主要采集的是使用者说话时,骨头或者皮肤震动的信号,并且将采集的信号转化为电信号。两种传感器采集的是不同传输特性的声音信号,利用这种特性差异来区分使用者是否在发声。
其中,两种不同拾音特性的麦克风MIC和VPU的使用,可以采集不同特性的声音信号,特真统计模块统计MIC的自相关性,VPU的自相关性以及MIC和VPU的互相关性。利用混合高斯模型对统计的特真信号进行分类,分辨出环境声音信号下使用者的声音信号,使得语音检测装置发出有使用者声音信号的触发信号。
采集到的第一声音信号包括模拟信号时,采集到第一声音信号之后,还可以执行S211。
S211、将第一声音信号中的模拟信号转换为数字信号。
需要说明的是,第一麦克风采集到的声音信号可能为模拟信号,可能为数字信号。
当第一麦克风采集到的声音信号包括模拟信号时,由于采集到的模拟信号不能被设备直接处理,故可以由第一模/数转换模块,用于当第一声音信号包括模拟信号时,将模拟信号转换为数字信号,将转换为数字信号之后的第一声音信号输入检测装置。
当第一麦克风采集到的声音信号包括数字信号时,由于数字信号可以被直接处理,故第一模/数转换模块将数字信号直接输入检测装置。
类似地,采集到的第二声音信号包括模拟信号时,采集到第二声音信号之后,还可以执行S212。
S212、将第二声音信号中的模拟信号转换为数字信号。
同样的,第二麦克风采集到的声音信号可能为模拟信号,可能为数字信号。
当第二麦克风采集到的声音信号包括模拟信号时,由于第二麦克风采集到的模拟信号不能被设备直接处理,故第二模/数转换模块,用于当第二声音信号包括模拟信号时,将模拟信号转换为数字信号,将转换为数字信号之后的第二声音信号输入检测装置。
当第二麦克风采集到的声音信号包括数字信号时,由于数字信号可以被直接处理,故第二模/数转换模块将数字信号直接输入检测装置。
S211、S212的执行不分先后顺序,可以交换。
S221、对第一声音信号进行滤波处理,得到滤波后的第一声音信号。
其中,第一麦克风采集到的声音信号包含一种或多种干扰波,可以使用第一滤波模块对第一麦克风采集到的声音信号进行滤波,第一滤波模块让第一麦克风采集到的声音信号中有用的声音信号尽可能无衰减的通过;让第一麦克风采集到的声音信号中无用的声音信号尽可能最大的衰减。通过第一滤波模块5对第一麦克风采集到的声音信号进行滤波后,尽可能得到较为纯净的音频信号。
可选地,第一滤波模块可以为带通滤波器或者低通滤波器对语音信号进行滤波处理。
S222、对第二声音信号进行滤波处理,得到滤波后的第二声音信号。
其中,第二麦克风采集到的声音信号包含一种或多种干扰波,可以使用第二滤波模块对第二麦克风采集到的声音信号进行滤波,第二滤波模块让第二麦克风采集到的声音信号中有用的声音信号尽可能无衰减的通过;让第二麦克风采集到的声音信号中无用的声音信号尽可能最大的衰减。通过第二滤波模块对第二麦克风采集到的声音信号进行滤波后,尽可能得到较为纯净的音频信号。
可选地,第二滤波模块可以为带通滤波器或者低通滤波器对语音信号进行滤波处理。
S221、S222的执行不分先后顺序,可以交换。
S230、对滤波后的第二声音信号进行延时。
其中,第一麦克风为MIC,主要是采集空气中传播的声音信号,并且将采集的信号转化为电信号。第二麦克风为VPU,主要采集的是使用者说话时,骨头或者皮肤震动的信号,并且将采集的信号转化为电信号。两种麦克风声电转化特性不同,使得两麦克风之间的物理特性不同,故VPU采集的信号要进行延时。延时后,使得VPU和MIC采集的信号同时到达下一个处理步骤。
S241、对滤波后的第一声音信号进行分帧加窗处理,获取分段后的多段声音信号。
其中,分帧加窗模块包括:第一分帧加窗模块。
第一分帧加窗模块,用于对第一滤波模块滤波后的第一声音信号进行分帧加窗处理,分帧加窗处理后,滤波后的第一声音信号被分为多段声音信号,并获取分段后的多段声音信号。
S242、对滤波后的第二声音信号进行分帧加窗处理,获取分段后的多段声音信号。
其中,分帧加窗模块还包括:第二分帧加窗模块。
第二分帧加窗模块,用于对第二滤波模块滤波后的第二声音信号进行分帧加窗处理,分帧加窗处理后,滤波后的第二声音信号被分为多段声音信号,并获取分段后的多段声音信号。
S241、S242的执行不分先后,可以交换。
S250、测量获取第一声音信号分帧处理后获取的多段声音信号中待处理的分段声音信号和测量获取第二声音信号分帧处理后获取的多段声音信号中待处理的分段声音信号的特真信号。
可选地,特真信号包括MIC的自相关性、VPU的自相关性和MIC与VPU的互相关性,具体而言,对特真信号统计的函数包括:
MIC的自相关函数:
M(n,k)=E(E(n)*E(k));
VPU的自相关函数:
V(n,k)=E(E(n)*E(k));
MIC与VIP的互相关函数:
C(m,v)=E(E(m)*E(v));
采集到的特真信号的场景如表1所示可以为:
表1
S260、采用语音分类模块对采集到的特真信号进行分类,识别采集到的语音信号中使用者的语音信号。
可选地,语音分类模块可以采用混合高斯模型(Gaussian Mixed Model,GMM)。通过在大量的语音场景采集训练向量对混合高斯模型做训练。其中,采集的训练向量越多,GMM模型参数估计越准确,则对特真信号的分类越精确。
其中,GMM模型可以表示为:
式中,I为此GMM模型的个数;Ai为为第i个高斯的权重;P(X|i)为第i个高斯概率密度。
对应以上采集的特真信号,GMM模型的输出为:
P(X|H0)、在第一个高斯模型上概率最大,即使用者没发音/轻音,不产生触发信号。
P(X|H1)、在第二个高斯模型上概率最大,即使用者没发音/轻音+吵闹环境,不产生触发信号。
P(X|H2)、在第三个高斯模型上概率最大,即使用者发音/浊音+安静环境,产生触发信号。
P(X|H3)、在第四个高斯模型上概率最大,即使用者发音/浊音+一般吵闹环境,产生触发信号。
P(X|H4)、在第五个高斯模型上概率最大,即使用者发音/浊音+吵闹环境,产生触发信号。
S270、若特真信号中包含预设使用者的语音信号,则输出待处理分段声音信号含有使用者语音信号的触发信号。
其中,未产生触发信号时,即采集到的声音信号中无使用者的语音信号。产生触发信号是,即采集的声音信号包括使用者的语音信号。
图3为本发明一实施例提供的语音检测装置结构示意图。如图3所示,该装置包括:采集模块301、分帧加窗模块302、特真统计模块303、分类模块304和输出模块305。
采集模块301,用于获取采集到的声音信号。
分帧加窗模块302,用于将声音信号进行分帧加窗处理,获取分段后的多段声音信号。
特真统计模块303,用于测量统计多段声音信号中待处理分段声音信号的特真信号。
语音分类模块304,用于对统计所得的特真信号进行分类,确定特真信号的分类。
输出模块305,用于当特真信号中包含预设使用者的语音信号时,则输出待处理分段声音信号含有使用者语音信号的触发信号。
本实施例中,通过采集模块301对声音信号进行采集,分帧加窗模块302将采集的声音信号进行分段处理,特真统计模块303将分段后的声音信号进行特真统计,采集分段后声音信号的特真信息,语音分类模块304将采集的特真信息进行分类,识别出其中是否包含使用者的语音信号。
采集模块301,具体用于获取第一麦克风采集的第一声音信号、以及第二麦克风采集的第二声音信号。
其中,第一声音信号包括:模拟信号、和/或数字信号;第二声音信号包括:模拟信号、和/或数字信号。
图4为本发明另一实施例提供的语音检测装置结构示意图,如图4所示,在图3的基础上,该装置还可以包括:第一模/数转换模块401和第二模/数转换模块402,其中:
第一模/数转换模块401,用于当第一声音信号包括模拟信号时,将第一声音信号中的模拟信号转换为数字信号。
第二模/数转换模块402,用于当第二声音信号包括模拟信号时,将第二声音信号中的模拟信号转换为数字信号。
图5为本发明另一实施例提供的语音检测装置结构示意图,如图5所示,上述装置还可以包括:第一滤波模块501和第二滤波模块502,其中:
第一滤波模块501,用于对第一声音信号进行滤波处理,得到滤波后的第一声音信号;
第二滤波模块502,用于对第二声音信号进行滤波处理,得到滤波后的第二声音信号。
图6为本发明另一实施例提供的语音检测装置结构示意图,如图6所示,上述装置还可以包括:延时模块601。
延时模块601,用于在第二滤波模块501对第二声音信号进行滤波处理后,对滤波后的第二声音信号进行延时。
图7为本发明另一实施例提供的语音检测装置实体结构示意图。
如图7所示,该装置包括:第一麦克风311、第二麦克风321、第一模/数转换器711、第二模/数转换器712、第一滤波器721、第二滤波器722、延时器730、第一分帧加窗器741、第二分帧加窗器742、特真统计器750、语音分类器760、输出接口770和处理器780。
举例说明,第一麦克风311是MIC,第二麦克风321是VPU。MIC和VPU用于采集外界声音信号。
其中,第一麦克风311、第二麦克风321用于语音信号的采集。
可选地,当第一麦克风311采集到的语音信号包括模拟信号时,第一模/数转换器711用于对第一麦克风311采集的模拟信号进行模/数转换,转换成数字信号。
类似的,当第二麦克风321采集到的语音信号包括模拟信号时,第二模/数转换器712对第二麦克风321采集的模拟信号进行模/数转换,转换成数字信号。
第一滤波器721和第二滤波器722分别用于对第一模/数转换器711、第二模/数转换器712模/数转换后所得的数字信号进行滤波处理。
延时器730用于对集到的两路信号中较快一路信号进行延时,这一路信号可以是第一麦克风311采集的声音信号。
第一分帧加窗器742用于对第一滤波器721滤波后的声音信号进行分帧加窗处理,第二分帧加窗器742用于对第二滤波器722滤波后的声音信号进行分帧加窗处理。
用于特真统计器750用于第一分帧加窗器741和第二分帧加窗器742处理后的信号对声音信号进行特真统计。
语音分类器760用于对特真统计器750统计的特真信号进行分类。
输出接口770用于将语音分类器760的分类结果进行输出。输出接口770输出的触发信号用于指导处理器780的工作。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
本发明提供的语音检测方法及装置,通过第一麦克风311和第二麦克风321采集环境声音信号,并将采集的声音信号分别通过对应的第一模/数转换模块401和第二模/数转换模块402输入,第一模/数转换模块401,输入的声音信号通过第一滤波模块501进行滤波处理后,进入第一分帧加窗模块312进行分帧加窗处理。第二语音采集模块321采集到的声音信号滤波处理后进行延时模块601进行延时处理后,再通过第二分帧加窗模块322进行分帧加窗处理,将分帧加窗后的声音信号通过特征统计模块303和语音分类模块304进行分类处理,使得采集到的声音信号得到识别,从而判断采集到的声音信号是否包含使用者的声音信号。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种语音检测方法,其特征在于,包括:
获取采集到的声音信号;
将所述声音信号进行分帧加窗处理,获取分段后的多段声音信号;
测量获取所述多段声音信号中待处理分段声音信号的特真信号,其中,所述特真信号指示所述待处理分段声音信号的相关性;
采用语音分类模块对所述特真信号进行分类,确定所述特真信号的分类,所述特真信号的分类用于指示所述待处理分段声音信号中是否包含预设使用者的语音信号;
若所述特真信号中包含预设使用者的语音信号,则输出所述待处理分段声音信号含有使用者语音信号的触发信号。
2.根据权利要求1所述的语音检测方法,其特征在于,所述获取采集到的声音信号,包括:
获取第一麦克风采集的第一声音信号、以及第二麦克风采集的第二声音信号;
其中,所述第一声音信号包括:模拟信号、和/或数字信号;
所述第二声音信号包括:模拟信号、和/或数字信号。
3.根据权利要求2所述的语音检测方法,其特征在于,所述第一声音信号包括模拟信号时,所述获取第一麦克风采集的第一声音信号、以及第二麦克风采集的第二声音信号之后,还包括:
将所述第一声音信号中的模拟信号转换为数字信号;
所述第二声音信号包括模拟信号时,所述获取第一麦克风采集的第一声音信号、以及第二麦克风采集的第二声音信号之后,还包括:
将所述第二声音信号中的模拟信号转换为数字信号。
4.根据权利要求2所述的语音检测方法,其特征在于,所述获取第一麦克风采集的第一声音信号、以及第二麦克风采集的第二声音信号之后,还包括:
对所述第一声音信号进行滤波处理,得到滤波后的第一声音信号;
对所述第二声音信号进行滤波处理,得到滤波后的第二声音信号。
5.根据权利要求4所述的语音检测方法,其特征在于,对所述第二声音信号进行滤波处理,得到滤波后的第二声音信号之后,还包括:
对所述滤波后的第二声音信号进行延时。
6.一种语音检测装置,其特征在于,包括:
采集模块,用于获取采集到的声音信号;
分帧加窗模块,用于将所述声音信号进行分帧加窗处理,获取分段后的多段声音信号;
特真统计模块,用于测量统计所述多段声音信号中待处理分段声音信号的特真信号;
分类模块,用于对所述特真信号进行分类,确定所述特真信号的分类;
输出模块,用于当所述特真信号中包含预设使用者的语音信号时,则输出所述待处理分段声音信号含有预设语音信号。
7.根据权利要求6所述的语音检测装置,其特征在于,所述采集模块,具体用于获取第一麦克风采集的第一声音信号、以及第二麦克风采集的第二声音信号;其中,所述第一声音信号包括:模拟信号、和/或数字信号;所述第二声音信号包括:模拟信号、和/或数字信号。
8.根据权利要求7所述的语音检测装置,其特征在于,还包括:第一模/数转换模块和第二模/数转换模块;
所述第一模/数转换模块,用于当所述第一声音信号包括模拟信号时,将所述第一声音信号中的模拟信号转换为数字信号;
所述第二模/数转换模块,用于当所述第二声音信号包括模拟信号时,将所述第二声音信号中的模拟信号转换为数字信号。
9.根据权利要求8所述的语音检测装置,其特征在于,还包括:第一滤波模块和第二滤波模块;
所述第一滤波模块,用于对所述第一声音信号进行滤波处理,得到滤波后的第一声音信号;
所述第二滤波模块,用于对所述第二声音信号进行滤波处理,得到滤波后的第二声音信号。
10.根据权利要求9所述的语音检测装置,其特征在于,还包括:延时模块;
所述延时模块,用于在所述第二滤波模块对所述第二声音信号进行滤波处理后,对所述滤波后的第二声音信号进行延时。
CN201811048024.9A 2018-09-07 2018-09-07 语音检测方法及装置 Pending CN109243495A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811048024.9A CN109243495A (zh) 2018-09-07 2018-09-07 语音检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811048024.9A CN109243495A (zh) 2018-09-07 2018-09-07 语音检测方法及装置

Publications (1)

Publication Number Publication Date
CN109243495A true CN109243495A (zh) 2019-01-18

Family

ID=65067629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811048024.9A Pending CN109243495A (zh) 2018-09-07 2018-09-07 语音检测方法及装置

Country Status (1)

Country Link
CN (1) CN109243495A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109785866A (zh) * 2019-03-07 2019-05-21 上海电力学院 基于相关函数最大值的广播语音与噪声检测的方法
CN111415442A (zh) * 2020-03-16 2020-07-14 恒玄科技(上海)股份有限公司 一种门禁控制方法、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105261359A (zh) * 2015-12-01 2016-01-20 南京师范大学 手机麦克风的消噪系统和消噪方法
CN106128480A (zh) * 2016-06-21 2016-11-16 安徽师范大学 一种对带噪语音进行语音活动检测的方法
CN107071647A (zh) * 2016-11-18 2017-08-18 北京金锐德路科技有限公司 一种声音采集方法、系统和装置
US20170243602A1 (en) * 2016-02-19 2017-08-24 Samsung Electronics Co., Ltd. Electronic device and method for classifying voice and noise

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105261359A (zh) * 2015-12-01 2016-01-20 南京师范大学 手机麦克风的消噪系统和消噪方法
US20170243602A1 (en) * 2016-02-19 2017-08-24 Samsung Electronics Co., Ltd. Electronic device and method for classifying voice and noise
CN106128480A (zh) * 2016-06-21 2016-11-16 安徽师范大学 一种对带噪语音进行语音活动检测的方法
CN107071647A (zh) * 2016-11-18 2017-08-18 北京金锐德路科技有限公司 一种声音采集方法、系统和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109785866A (zh) * 2019-03-07 2019-05-21 上海电力学院 基于相关函数最大值的广播语音与噪声检测的方法
CN111415442A (zh) * 2020-03-16 2020-07-14 恒玄科技(上海)股份有限公司 一种门禁控制方法、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN102388416B (zh) 信号处理装置及信号处理方法
WO2021139327A1 (zh) 一种音频信号处理方法、模型训练方法以及相关装置
CN107799126A (zh) 基于有监督机器学习的语音端点检测方法及装置
CN110600059B (zh) 声学事件检测方法、装置、电子设备及存储介质
CN103886861B (zh) 一种控制电子设备的方法及电子设备
CN109346075A (zh) 通过人体振动识别用户语音以控制电子设备的方法和系统
CN110364143A (zh) 语音唤醒方法、装置及其智能电子设备
CN106782591A (zh) 一种在背景噪音下提高语音识别率的装置及其方法
US9640193B2 (en) Systems and methods for enhancing place-of-articulation features in frequency-lowered speech
CN110097890A (zh) 一种语音处理方法、装置和用于语音处理的装置
CN106653048B (zh) 基于人声模型的单通道声音分离方法
CN109104683A (zh) 一种双麦克风相位测量校正的方法及校正系统
CN109360585A (zh) 一种语音激活检测方法
CN106548786A (zh) 一种音频数据的检测方法及系统
CN109243495A (zh) 语音检测方法及装置
CN110946554A (zh) 咳嗽类型识别方法、装置及系统
CN110858476A (zh) 一种基于麦克风阵列的声音采集方法及装置
WO2012040577A1 (en) Systems and methods for multiple pitch tracking
CN112397090B (zh) 一种基于fpga的实时声音分类方法及系统
CN111326159B (zh) 一种语音识别方法、装置、系统
EP4131256A1 (en) Voice recognition system and method using accelerometers for sensing bone conduction
CN114023352B (zh) 一种基于能量谱深度调制的语音增强方法及装置
CN114189781A (zh) 双麦神经网络降噪耳机的降噪方法及系统
Pan et al. Cyclegan with dual adversarial loss for bone-conducted speech enhancement
JP4381404B2 (ja) 音声合成システム、音声合成方法、音声合成プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210421

Address after: Unit 2414-2416, main building, no.371, Wushan Road, Tianhe District, Guangzhou City, Guangdong Province

Applicant after: GUANGDONG GAOHANG INTELLECTUAL PROPERTY OPERATION Co.,Ltd.

Address before: 610000 Chengdu, Sichuan Tianfu New District, Huayang street, No. 88 Chengxi street, Chengnan 1, 1 units, 2 stories 205.

Applicant before: CHENGDU BISHENG TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210513

Address after: No.6 Kechuang Road, Jiangyang District, Luzhou City, Sichuan Province

Applicant after: Vodysound Technology (Sichuan) Co.,Ltd.

Address before: Unit 2414-2416, main building, no.371, Wushan Road, Tianhe District, Guangzhou City, Guangdong Province

Applicant before: GUANGDONG GAOHANG INTELLECTUAL PROPERTY OPERATION Co.,Ltd.

WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190118