CN110706693A - 语音端点的确定方法及装置、存储介质、电子装置 - Google Patents
语音端点的确定方法及装置、存储介质、电子装置 Download PDFInfo
- Publication number
- CN110706693A CN110706693A CN201910995464.3A CN201910995464A CN110706693A CN 110706693 A CN110706693 A CN 110706693A CN 201910995464 A CN201910995464 A CN 201910995464A CN 110706693 A CN110706693 A CN 110706693A
- Authority
- CN
- China
- Prior art keywords
- audio signal
- frame
- ratio
- sub
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000005236 sound signal Effects 0.000 claims abstract description 260
- 230000003595 spectral effect Effects 0.000 claims abstract description 141
- 238000001514 detection method Methods 0.000 claims abstract description 35
- 238000007781 pre-processing Methods 0.000 claims abstract description 20
- 238000012545 processing Methods 0.000 claims description 25
- 238000004590 computer program Methods 0.000 claims description 18
- 238000001228 spectrum Methods 0.000 claims description 11
- 238000009499 grossing Methods 0.000 claims description 9
- 238000012935 Averaging Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000005540 biological transmission Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 230000036039 immunity Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明实施例提供了一种语音端点的确定方法及装置、存储介质、电子装置,所述方法包括:对获取的音频信号进行预处理,得到多个子带,其中,音频信号包括N个音频信号帧,N为大于1的整数,子带是基于频带对音频信号帧进行划分得到的;根据子带的信噪比与谱熵之比,得到音频信号帧的信噪比与谱熵之比;根据音频信号帧的信噪比与谱熵之比,使用双门限检测算法判断音频信号帧是否为语音帧;若是,将音频信号的第一帧语音帧和最后一帧语音帧分别确定为音频信号的语音起始端点和语音终止端点。解决了相关技术中语音端点检测只针对某单一特征进行检测导致准确率较低的问题。
Description
技术领域
本发明涉及音视频及通信技术领域,具体而言,涉及一种语音端点的确定方法及装置、存储介质、电子装置。
背景技术
语音端点检测是语音信息处理领域中的一个重要环节,在许多实际应用中如语音应答系统、说话人识别系统和语音识别系统等都要求首先对系统的输入信号进行判断,准确找出语音段的起始点和终止点,这样可以使采集的数据真正是有效的语音信号,从而可减少传输数据量和运算量并减少处理时间。目前的相关技术中,语音端点检测只针对某单一特征进行检测,准确率较低。
针对相关技术中,语音端点检测只针对某单一特征进行检测导致准确率较低的问题,目前尚未有合理的解决办法。
发明内容
本发明实施例提供了一种语音端点的确定方法及装置、存储介质、电子装置,以至少解决相关技术中语音端点检测只针对某单一特征进行检测导致准确率较低的问题。
根据本发明的一个实施例,提供了一种语音端点的确定方法,包括:对获取的音频信号进行预处理,得到多个子带,其中,所述音频信号包括N个音频信号帧,N为大于1的整数,所述子带是基于频带对所述音频信号帧进行划分得到的;根据所述子带的信噪比与谱熵之比,得到所述音频信号帧的信噪比与谱熵之比;根据所述音频信号帧的信噪比与谱熵之比,使用双门限检测算法判断所述音频信号帧是否为语音帧;若是,将所述音频信号的第一帧语音帧和最后一帧语音帧分别确定为所述音频信号的语音起始端点和语音终止端点。
可选地,得到所述音频信号帧的谱熵和信噪比之后,所述方法还包括:使用基频提取算法获取所述音频信号帧中基频出现的位置,根据所述基频出现的位置确定基音和谐波出现的位置,其中,所述基频出现的位置存在基音和谐波;获取所述音频信号帧的谱平坦度,其中,所述谱平坦度的大小用于区分噪声和语音;根据所述音频信号帧的信噪比与谱熵之比,使用双门限检测算法判断所述音频信号帧是否为语音帧包括:根据所述音频信号帧的信噪比与谱熵之比、所述基音和谐波出现的位置以及所述音频信号帧的谱平坦度,使用双门限检测算法判断所述音频信号帧是否为语音帧。
可选地,根据所述音频信号帧的信噪比与谱熵之比、所述基频出现的位置以及所述音频信号帧的谱平坦度,使用双门限检测算法判断所述音频信号帧是否为语音帧:从所述音频信号的音频信号帧中获取第一音频信号帧;若第一音频信号帧的信噪比与谱熵之比大于第一阈值,依次检测后续M个音频信号帧,若所述后续M个音频信号帧存在基音与谐波,和/或所述后续M个音频信号帧的所述谱平坦度小于预设阈值,确定所述第一音频信号帧为语音帧,其中,M为大于1的整数,且M<N;若所述第一音频信号帧的信噪比与谱熵之比小于所述第一阈值,且所述第一音频信号帧的信噪比与谱熵之比大于第二阈值,确定所述第一音频信号帧为疑似语音帧,其中,所述第一阈值大于所述第二阈值;若所述疑似语音帧后续M个音频信号帧存在基音与谐波,和/或所述后续M个音频信号帧的所述谱平坦度小于预设阈值,确定所述疑似语音帧为语音帧;若所述第一音频信号帧的信噪比与谱熵之比小于所述第二阈值,确定所述第一音频信号帧为非语音帧。
可选地,对获取的音频信号进行预处理,得到多个子带包括:对获取的所述音频信号进行分帧、加窗和傅里叶变换处理,其中,所述音频信号经过分帧后得到N帧音频信号帧,所述傅里叶变换处理用于将所述音频信号帧从时域信号变更为频域信号;基于频带将经过傅里叶变换处理的所述音频信号帧划分为多个子带。
可选地,根据所述子带的子带谱熵和所述子带的信噪比,得到所述音频信号帧的谱熵和信噪比包括:使用预设的起始频率和截止频率计算所述子带谱熵;获取所述子带的信噪比,其中,所述子带的信噪比为所述子带的子带能量与所述子带的噪声能量之比;获取所述子带的信噪比与谱熵之比;对所述音频信号帧中所述子带的信噪比与谱熵之比进行平均,得到所述音频信号帧的信噪比与谱熵之比。
可选地,获取所述子带的信噪比包括:通过对所述子带进行能量平滑处理,获取所述子带的子带能量和/或噪声能量;根据所述子带能量与所述子带的噪声能量之比,得到所述子带的信噪比。
可选地,对所述音频信号帧中所述子带的信噪比与谱熵之比进行平均,得到所述音频信号帧的信噪比与谱熵之比包括:通过对所述音频信号帧的信噪比与谱熵之比进行平滑处理,得到所述音频信号帧的信噪比与谱熵之比。
根据本发明的另一个实施例,还提供了一种语音端点的确定装置,包括:预处理模块,用于对获取的音频信号进行预处理,得到多个子带,其中,所述音频信号包括N个音频信号帧,N为大于1的整数,所述子带是基于频带对所述音频信号帧进行划分得到的;得到模块,用于根据所述子带的信噪比与谱熵之比,得到所述音频信号帧的信噪比与谱熵之比;判断模块,用于根据所述音频信号帧的信噪比与谱熵之比,使用双门限检测算法判断所述音频信号帧是否为语音帧;确定模块,用于将所述音频信号的第一帧语音帧和最后一帧语音帧分别确定为所述音频信号的语音起始端点和语音终止端点。
根据本发明的另一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
根据本发明的另一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明实施例,对获取的音频信号进行预处理,得到多个子带,其中,音频信号包括N个音频信号帧,N为大于1的整数,子带是基于频带对音频信号帧进行划分得到的;根据子带的信噪比与谱熵之比,得到音频信号帧的信噪比与谱熵之比;根据音频信号帧的信噪比与谱熵之比,使用双门限检测算法判断音频信号帧是否为语音帧;将音频信号的第一帧语音帧和最后一帧语音帧分别确定为音频信号的语音起始端点和语音终止端点。通过使用信噪比与谱熵之比和双门限检测算法对语音帧进行识别,可以有效提高语音帧的识别精准度,解决了相关技术中语音端点检测只针对某单一特征进行检测导致准确率较低的问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明实施例的一种语音端点的确定方法的移动终端的硬件结构框图;
图2是本发明实施例中语音端点的确定方法的流程图;
图3是根据本发明实施例的语音帧判决状态转换流程示意图;
图4是根据本发明实施例的更新噪声和谱熵方法的流程图;
图5是根据本发明实施例的语音端点的确定装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种语音端点的确定方法的移动终端的硬件结构框图。如图1所示,移动终端10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的调度吞吐量的获取方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端10的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
本发明实施例提供了一种语音端点的确定方法。图2是本发明实施例中语音端点的确定方法的流程图,如图2所示,该方法包括:
步骤S201,对获取的音频信号进行预处理,得到多个子带,其中,音频信号包括N个音频信号帧,N为大于1的整数,子带是基于频带对音频信号帧进行划分得到的;
步骤S203,根据子带的信噪比与谱熵之比,得到音频信号帧的信噪比与谱熵之比;
步骤S205,根据音频信号帧的信噪比与谱熵之比,使用双门限检测算法判断音频信号帧是否为语音帧;
步骤S207,若是,将音频信号的第一帧语音帧和最后一帧语音帧分别确定为音频信号的语音起始端点和语音终止端点。
需要说明的是,音频信号中包括但不限于语音信号和噪声信号,通过本发明实施例提供的方案,可以有效提取音频信号中的语音信号,滤除噪声信号。
可选地,得到音频信号帧的谱熵和信噪比之后,所述方法还包括:使用基频提取算法获取音频信号帧中基频出现的位置,根据基频出现的位置确定基音和谐波出现的位置,其中,基频出现的位置存在基音和谐波;获取音频信号帧的谱平坦度,其中,谱平坦度的大小用于区分噪声和语音;根据音频信号帧的信噪比与谱熵之比,使用双门限检测算法判断所述音频信号帧是否为语音帧包括:根据音频信号帧的信噪比与谱熵之比、基音和谐波出现的位置以及音频信号帧的谱平坦度,使用双门限检测算法判断所述音频信号帧是否为语音帧。
需要说明的是,本发明实施例可以通过基频提取算法得到基频出现的所有可能位置并确定基频,例如,人说话的基音频率大概在100—500hz,那么可以确定频率在这个范围内的音频信号帧的位置为基频位置,利用基频出现的位置应该有谐波结构的特点来辅助判断该点是否为语音。语音和噪声在频域的特征差异较大,噪声谱较为平坦,而语音谱起伏变化大,通过这一特性可以通过两个参数来辅助判断音频信号是否为语音,一是频带方差,二是谱平坦度。频带方差包含了两个信息:其一反映了当前帧各个频带间的起伏程度;其二说明了这一帧信号的短时能量。噪声的谱平坦度要远大于语音的谱平坦度,通过谱平坦度这个特征参数可以判断该音频信号帧是否为语音。因此,也可以根据音频信号帧的信噪比与谱熵之比、基音和谐波出现的位置、音频信号帧的频带方差以及音频信号帧的谱平坦度,使用双门限检测算法判断所述音频信号帧是否为语音帧。
可选地,根据音频信号帧的信噪比与谱熵之比、基频出现的位置以及音频信号帧的谱平坦度,使用双门限检测算法判断音频信号帧是否为语音帧包括:从音频信号的音频信号帧中获取第一音频信号帧;若第一音频信号帧的信噪比与谱熵之比大于第一阈值,依次检测后续M个音频信号帧,若所述后续M个音频信号帧存在基音与谐波,和/或所述后续M个音频信号帧的所述谱平坦度小于预设阈值,确定所述第一音频信号帧为语音帧,其中,M为大于1的整数,且M<N;若所述第一音频信号帧的信噪比与谱熵之比小于所述第一阈值,且所述第一音频信号帧的信噪比与谱熵之比大于第二阈值,确定所述第一音频信号帧为疑似语音帧,其中,所述第一阈值大于所述第二阈值;若所述疑似语音帧后续M个音频信号帧存在基音与谐波,和/或所述后续M个音频信号帧的所述谱平坦度小于预设阈值,确定所述疑似语音帧为语音帧;若所述第一音频信号帧的信噪比与谱熵之比小于所述第二阈值,确定所述第一音频信号帧为非语音帧。
需要说明的是,此处对于第一音频信号帧的判断不是实时输出,而是延迟M帧输出。对于第一音频信号帧的的判断需要结合后续的M帧音频信号帧的参数进行判断,第一音频信号帧的状态包括三个:状态0,非语音,状态1,疑似语音,状态2,语音。在对后续M帧音频信号帧的参数进行判断的过程中,第一音频信号帧的状态可能会发生跳转。例如,当M取值为5时,第一音频信号帧的信噪比与谱熵之比小于第一阈值且大于第二阈值,设置第一音频信号帧的状态为状态1疑似语音,若后续5个音频信号帧均存在基音与谐波,将第一音频信号帧的状态设置为状态2语音,若后续2个音频信号帧不存在基音与谐波,且后续2个音频信号帧的谱平坦度大于预设阈值,将第一音频信号帧的状态设置为状态0非语音。
可选地,对获取的音频信号进行预处理,得到多个子带包括:对获取的音频信号进行分帧、加窗和傅里叶变换处理,其中,音频信号经过分帧后得到N帧音频信号帧,傅里叶变换处理用于将音频信号帧从时域信号变更为频域信号;基于频带将经过傅里叶变换处理的音频信号帧划分为多个子带。此处对于子带的划分可以是均匀划分,也可以是不均匀的,按照实际应用场景进行设置,本发明实施例对此不做限定。
可选地,根据子带的子带谱熵和子带的信噪比,得到音频信号帧的谱熵和信噪比包括:使用预设的起始频率和截止频率计算子带谱熵;获取所述子带的信噪比,其中,子带的信噪比为子带的子带能量与子带的噪声能量之比;获取子带的信噪比与谱熵之比;对音频信号帧中子带的信噪比与谱熵之比进行平均,得到音频信号帧的信噪比与谱熵之比。
确定计算谱熵的起始、截止频率,例如,如果语音的主要能量集中在中低频,为了排除低频干扰,可以把谱熵的起始频率确定为600Hz,截止频率确定为3750Hz,当然,在其他应用场景中也可以其他的频率数值,本发明实施例对此不做限定。
可选地,获取所述子带的信噪比包括:通过对所述子带进行能量平滑处理,获取所述子带的子带能量和噪声能量;根据所述子带能量与所述子带的噪声能量之比,得到所述子带的信噪比。
由于相邻音频信号帧的噪声或语音波动较大,对子带进行能量平滑可以减小误判,例如,如果当前帧小于1500Hz的频段能量超过当前帧总能量的99.5%,采用前一帧能量乘以0.85作为当前帧能量的估计,当然,在其他应用场景中也可以其他的数值,本发明实施例对此不做限定。
可选地,对所述音频信号帧中所述子带的信噪比与谱熵之比进行平均,得到所述音频信号帧的信噪比与谱熵之比包括:通过对音频信号帧的信噪比与谱熵之比进行平滑处理,得到音频信号帧的信噪比与谱熵之比。
做信噪比与谱熵之比平滑,可以利用前P帧信噪比与谱熵之比的值对当前帧进行平滑,其中,P为大于或等于0的整数。
图3是根据本发明实施例的语音帧判决状态转换流程示意图,如图3所示,上述步骤S205可以通过以下步骤实现:
预先设定两个阈值,阈值2大于阈值1;
S1,得到当前帧的信号的信噪比/谱熵,判断该值是否大于阈值2;
S2,若信噪比与谱熵之比大于阈值2,则依次检测后续预设的N个分帧,若连续N帧基音及其谐波存在或者连续N帧谱平坦度小于设定门限,那么当前帧信号被判为语音(Status=2),若连续N帧基音及其谐波存在或者连续N帧谱平坦度小于设定门限这个条件不存在,这判定为疑似语音(Status=1);
S3,若信噪比与谱熵之比小于阈值2,判断该值是否大于阈值1;
S4,若信噪比与谱熵之比大于阈值1,判定为疑似语音(Status=1),当信噪比与谱熵之比大于阈值2或者连续N帧基音及其谐波存在或者连续N帧谱平坦度小于设定门限这三个条件满足其中一个时,跳转到语音状态(Status=2);
S5,若信噪比与谱熵之比小于阈值1,则依次检测后续预设的N个分帧,若连续N帧均满足当前条件,则判定为非语音(Status=0),其中,状态的跳转需进行帧计数,必须固定帧数满足条件(N帧)才进行跳转。
图4是根据本发明实施例的更新噪声和谱熵方法的流程图,如图4所示,本发明实施例还提供了一种更新噪声和谱熵的方法,包括以下步骤:
S401,对音频信号进行预处理,包括分帧、加窗、傅里叶变换FFT等;
S402,划分频带,计算各子带谱熵和子带能量,预估噪声能量,得到信噪比/谱熵(信噪比与谱熵之比);
S403,通过基频提取算法得到基频出现的所有可能位置并确定基音和谐波,同时计算得到谱平坦度;
S404,将上述几个特征参数和双门限检测算法结合在一起综合判断输入信号是否为语音帧;
S405,输出判决结果并更新噪声和谱熵。
通过上述实施例,在基于能熵比的端点检测的基础上,采用信噪比/谱熵(信噪比与谱熵之比)作为判决依据,防止当噪声能量大并且熵很大的情况下,噪声段被错误判决为语音,当语音的能量很小而对应的熵较小,语音段被错误判决为噪声。
除了利用信噪比/谱熵这个特征参数,选择基音频率和谐波检测、谱平坦度等多个抗噪性强的语音特征参数融合成新的特征来进行端点检测。
端点检测的判决方法也由原来的单一门限检测变为双门限检测。
根据本发明的另一个实施例,还提供了一种语音端点的确定装置,用于实现上述任一项方法实施例,已经说明过的内容此处不再重复。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图5是根据本发明实施例的语音端点的确定装置的结构框图,如图5所示,该装置包括:
预处理模块502,用于对获取的音频信号进行预处理,得到多个子带,其中,音频信号包括N个音频信号帧,N为大于1的整数,子带是基于频带对音频信号帧进行划分得到的;
得到模块504,用于根据子带的信噪比与谱熵之比,得到音频信号帧的信噪比与谱熵之比;
判断模块506,用于根据音频信号帧的信噪比与谱熵之比,使用双门限检测算法判断音频信号帧是否为语音帧;
确定模块508,用于将音频信号的第一帧语音帧和最后一帧语音帧分别确定为音频信号的语音起始端点和语音终止端点。
可选地,所述装置还包括:第一获取模块,用于使用基频提取算法获取所述音频信号帧中基频出现的位置,根据基频出现的位置确定基音和谐波出现的位置,其中,基频出现的位置存在基音和谐波;第二获取模块,用于获取音频信号帧的谱平坦度,其中,谱平坦度的大小用于区分噪声和语音;所述判断模块包括:判断单元,用于根据所述音频信号帧的信噪比与谱熵之比、所述基音和谐波出现的位置以及所述音频信号帧的谱平坦度,使用双门限检测算法判断所述音频信号帧是否为语音帧。
可选地,所述判断单元包括:
获取子单元,用于从所述音频信号的音频信号帧中获取第一音频信号帧;
第一确定子单元,用于若第一音频信号帧的信噪比与谱熵之比大于第一阈值,依次检测后续M个音频信号帧,若所述后续M个音频信号帧存在基音与谐波,和/或所述后续M个音频信号帧的所述谱平坦度小于预设阈值,确定所述第一音频信号帧为语音帧,其中,M为大于1的整数,且M<N;
第二确定子单元,用于若所述第一音频信号帧的信噪比与谱熵之比小于所述第一阈值,且所述第一音频信号帧的信噪比与谱熵之比大于第二阈值,确定所述第一音频信号帧为疑似语音帧,其中,所述第一阈值大于所述第二阈值;
第三确定子单元,用于若所述疑似语音帧后续M个音频信号帧存在基音与谐波,和/或所述后续M个音频信号帧的所述谱平坦度小于预设阈值,确定所述疑似语音帧为语音帧;
第四确定子单元,用于若所述第一音频信号帧的信噪比与谱熵之比小于所述第二阈值,确定所述第一音频信号帧为非语音帧。
可选地,预处理模块包括:预处理单元,用于对获取的音频信号进行分帧、加窗和傅里叶变换处理,其中,音频信号经过分帧后得到N帧音频信号帧,傅里叶变换处理用于将所述音频信号帧从时域信号变更为频域信号;划分单元,用于基于频带将经过傅里叶变换处理的音频信号帧划分为多个子带。
可选地,得到模块包括:计算单元,用于使用预设的起始频率和截止频率计算子带谱熵;第一获取单元,用于获取子带的信噪比,其中,子带的信噪比为子带的子带能量与子带的噪声能量之比;第二获取单元,用于获取子带的信噪比与谱熵之比;得到单元,用于对音频信号帧中子带的信噪比与谱熵之比进行平均,得到音频信号帧的信噪比与谱熵之比。
可选地,第一获取单元包括:获取子单元,用于通过对子带进行能量平滑处理,获取子带的子带能量和噪声能量;第一得到子单元,用于根据子带能量与子带的噪声能量之比,得到子带的信噪比。
可选地,得到单元包括:第二得到子单元,通过对音频信号帧的信噪比与谱熵之比进行平滑处理,得到音频信号帧的信噪比与谱熵之比。
实施例2
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,对获取的音频信号进行预处理,得到多个子带,其中,音频信号包括N个音频信号帧,N为大于1的整数,子带是基于频带对音频信号帧进行划分得到的;
S2,根据子带的信噪比与谱熵之比,得到音频信号帧的信噪比与谱熵之比;
S3,根据音频信号帧的信噪比与谱熵之比,使用双门限检测算法判断音频信号帧是否为语音帧;
S4,若是,将音频信号的第一帧语音帧和最后一帧语音帧分别确定为音频信号的语音起始端点和语音终止端点。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,对获取的音频信号进行预处理,得到多个子带,其中,音频信号包括N个音频信号帧,N为大于1的整数,子带是基于频带对音频信号帧进行划分得到的;
S2,根据子带的信噪比与谱熵之比,得到音频信号帧的信噪比与谱熵之比;
S3,根据音频信号帧的信噪比与谱熵之比,使用双门限检测算法判断音频信号帧是否为语音帧;
S4,若是,将音频信号的第一帧语音帧和最后一帧语音帧分别确定为音频信号的语音起始端点和语音终止端点。
本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音端点的确定方法,其特征在于,包括:
对获取的音频信号进行预处理,得到多个子带,其中,所述音频信号包括N个音频信号帧,N为大于1的整数,所述子带是基于频带对所述音频信号帧进行划分得到的;
根据所述子带的信噪比与谱熵之比,得到所述音频信号帧的信噪比与谱熵之比;
根据所述音频信号帧的信噪比与谱熵之比,使用双门限检测算法判断所述音频信号帧是否为语音帧;
若是,将所述音频信号的第一帧语音帧和最后一帧语音帧分别确定为所述音频信号的语音起始端点和语音终止端点。
2.根据权利要求1所述的方法,其特征在于,所述得到所述音频信号帧的谱熵和信噪比之后,所述方法还包括:
使用基频提取算法获取所述音频信号帧中基频出现的位置,根据所述基频出现的位置确定基音和谐波出现的位置,其中,所述基频出现的位置存在基音和谐波;
获取所述音频信号帧的谱平坦度,其中,所述谱平坦度的大小用于区分噪声和语音;
根据所述音频信号帧的信噪比与谱熵之比,使用双门限检测算法判断所述音频信号帧是否为语音帧包括:
根据所述音频信号帧的信噪比与谱熵之比、所述基音和谐波出现的位置以及所述音频信号帧的谱平坦度,使用双门限检测算法判断所述音频信号帧是否为语音帧。
3.根据权利要求2所述的方法,其特征在于,所述根据所述音频信号帧的信噪比与谱熵之比、所述基频出现的位置以及所述音频信号帧的谱平坦度,使用双门限检测算法判断所述音频信号帧是否为语音帧包括:
从所述音频信号的音频信号帧中获取第一音频信号帧;
若第一音频信号帧的信噪比与谱熵之比大于第一阈值,依次检测后续M个音频信号帧,若所述后续M个音频信号帧存在基音与谐波,和/或所述后续M个音频信号帧的所述谱平坦度小于预设阈值,确定所述第一音频信号帧为语音帧,其中,M为大于1的整数,且M<N;
若所述第一音频信号帧的信噪比与谱熵之比小于所述第一阈值,且所述第一音频信号帧的信噪比与谱熵之比大于第二阈值,确定所述第一音频信号帧为疑似语音帧,其中,所述第一阈值大于所述第二阈值;
若所述疑似语音帧后续M个音频信号帧存在基音与谐波,和/或所述后续M个音频信号帧的所述谱平坦度小于预设阈值,确定所述疑似语音帧为语音帧;
若所述第一音频信号帧的信噪比与谱熵之比小于所述第二阈值,确定所述第一音频信号帧为非语音帧。
4.根据权利要求1所述的方法,其特征在于,所述对获取的音频信号进行预处理,得到多个子带包括:
对获取的所述音频信号进行分帧、加窗和傅里叶变换处理,其中,所述音频信号经过分帧后得到N帧音频信号帧,所述傅里叶变换处理用于将所述音频信号帧从时域信号变更为频域信号;
基于频带将经过傅里叶变换处理的所述音频信号帧划分为多个子带。
5.根据权利要求1所述的方法,其特征在于,所述根据所述子带的子带谱熵和所述子带的信噪比,得到所述音频信号帧的谱熵和信噪比包括:
使用预设的起始频率和截止频率计算所述子带谱熵;
获取所述子带的信噪比,其中,所述子带的信噪比为所述子带的子带能量与所述子带的噪声能量之比;
获取所述子带的信噪比与谱熵之比;
对所述音频信号帧中所述子带的信噪比与谱熵之比进行平均,得到所述音频信号帧的信噪比与谱熵之比。
6.根据权利要求5所述的方法,其特征在于,所述获取所述子带的信噪比包括:
通过对所述子带进行能量平滑处理,获取所述子带的子带能量和所述子带的噪声能量;
根据所述子带能量与所述子带的噪声能量之比,得到所述子带的信噪比。
7.根据权利要求5所述的方法,其特征在于,所述对所述音频信号帧中所述子带的信噪比与谱熵之比进行平均,得到所述音频信号帧的信噪比与谱熵之比包括:
通过对所述音频信号帧的信噪比与谱熵之比进行平滑处理,得到所述音频信号帧的信噪比与谱熵之比。
8.一种语音端点的确定装置,其特征在于,包括:
预处理模块,用于对获取的音频信号进行预处理,得到多个子带,其中,所述音频信号包括N个音频信号帧,N为大于1的整数,所述子带是基于频带对所述音频信号帧进行划分得到的;
得到模块,用于根据所述子带的信噪比与谱熵之比,得到所述音频信号帧的信噪比与谱熵之比;
判断模块,用于根据所述音频信号帧的信噪比与谱熵之比,使用双门限检测算法判断所述音频信号帧是否为语音帧;
确定模块,用于将所述音频信号的第一帧语音帧和最后一帧语音帧分别确定为所述音频信号的语音起始端点和语音终止端点。
9.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至7任一项中所述的方法。
10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910995464.3A CN110706693B (zh) | 2019-10-18 | 2019-10-18 | 语音端点的确定方法及装置、存储介质、电子装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910995464.3A CN110706693B (zh) | 2019-10-18 | 2019-10-18 | 语音端点的确定方法及装置、存储介质、电子装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110706693A true CN110706693A (zh) | 2020-01-17 |
CN110706693B CN110706693B (zh) | 2022-04-19 |
Family
ID=69200625
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910995464.3A Active CN110706693B (zh) | 2019-10-18 | 2019-10-18 | 语音端点的确定方法及装置、存储介质、电子装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110706693B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111613223A (zh) * | 2020-04-03 | 2020-09-01 | 厦门快商通科技股份有限公司 | 语音识别方法、系统、移动终端及存储介质 |
CN112086104A (zh) * | 2020-08-18 | 2020-12-15 | 珠海市杰理科技股份有限公司 | 音频信号的基频获取方法、装置、电子设备和存储介质 |
CN112102818A (zh) * | 2020-11-19 | 2020-12-18 | 成都启英泰伦科技有限公司 | 结合语音活性检测和滑动窗噪声估计的信噪比计算方法 |
CN112614513A (zh) * | 2021-03-08 | 2021-04-06 | 浙江华创视讯科技有限公司 | 一种语音检测方法、装置、电子设备及存储介质 |
CN112802463A (zh) * | 2020-12-24 | 2021-05-14 | 北京猿力未来科技有限公司 | 一种音频信号筛选方法、装置及设备 |
CN114740460A (zh) * | 2022-03-23 | 2022-07-12 | 湖南大学 | 水声信号处理方法、计算机装置、产品及存储介质 |
WO2022188712A1 (zh) * | 2021-03-08 | 2022-09-15 | 浙江华创视讯科技有限公司 | 主麦克风的切换方法和装置、麦克风的语音检测方法和装置、麦克风扬声器一体设备及可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090254341A1 (en) * | 2008-04-03 | 2009-10-08 | Kabushiki Kaisha Toshiba | Apparatus, method, and computer program product for judging speech/non-speech |
US8130978B2 (en) * | 2008-10-15 | 2012-03-06 | Microsoft Corporation | Dynamic switching of microphone inputs for identification of a direction of a source of speech sounds |
CN204014077U (zh) * | 2014-08-07 | 2014-12-10 | 桂林电子科技大学 | 一种频谱感知装置 |
CN105023572A (zh) * | 2014-04-16 | 2015-11-04 | 王景芳 | 一种含噪语音端点鲁棒检测方法 |
CN106653062A (zh) * | 2017-02-17 | 2017-05-10 | 重庆邮电大学 | 一种低信噪比环境下基于谱熵改进的语音端点检测方法 |
CN109412763A (zh) * | 2018-11-15 | 2019-03-01 | 电子科技大学 | 一种基于信号能熵比的数字信号存在性检测方法 |
CN109545188A (zh) * | 2018-12-07 | 2019-03-29 | 深圳市友杰智新科技有限公司 | 一种实时语音端点检测方法及装置 |
-
2019
- 2019-10-18 CN CN201910995464.3A patent/CN110706693B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090254341A1 (en) * | 2008-04-03 | 2009-10-08 | Kabushiki Kaisha Toshiba | Apparatus, method, and computer program product for judging speech/non-speech |
US8130978B2 (en) * | 2008-10-15 | 2012-03-06 | Microsoft Corporation | Dynamic switching of microphone inputs for identification of a direction of a source of speech sounds |
CN105023572A (zh) * | 2014-04-16 | 2015-11-04 | 王景芳 | 一种含噪语音端点鲁棒检测方法 |
CN204014077U (zh) * | 2014-08-07 | 2014-12-10 | 桂林电子科技大学 | 一种频谱感知装置 |
CN106653062A (zh) * | 2017-02-17 | 2017-05-10 | 重庆邮电大学 | 一种低信噪比环境下基于谱熵改进的语音端点检测方法 |
CN109412763A (zh) * | 2018-11-15 | 2019-03-01 | 电子科技大学 | 一种基于信号能熵比的数字信号存在性检测方法 |
CN109545188A (zh) * | 2018-12-07 | 2019-03-29 | 深圳市友杰智新科技有限公司 | 一种实时语音端点检测方法及装置 |
Non-Patent Citations (2)
Title |
---|
YI ZHANG等: ""Speech endpoint detection algorithm with low signal-to-noise based on improved conventional spectral entropy"", 《2016 12TH WORLD CONGRESS ON INTELLIGENT CONTROL AND AUTOMATION (WCICA)》 * |
李晔 等: ""低信噪比下基于谱熵的语音端点检测算法"", 《清华大学学报(自然科学版)》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111613223A (zh) * | 2020-04-03 | 2020-09-01 | 厦门快商通科技股份有限公司 | 语音识别方法、系统、移动终端及存储介质 |
CN112086104A (zh) * | 2020-08-18 | 2020-12-15 | 珠海市杰理科技股份有限公司 | 音频信号的基频获取方法、装置、电子设备和存储介质 |
CN112086104B (zh) * | 2020-08-18 | 2022-04-29 | 珠海市杰理科技股份有限公司 | 音频信号的基频获取方法、装置、电子设备和存储介质 |
CN112102818A (zh) * | 2020-11-19 | 2020-12-18 | 成都启英泰伦科技有限公司 | 结合语音活性检测和滑动窗噪声估计的信噪比计算方法 |
CN112802463A (zh) * | 2020-12-24 | 2021-05-14 | 北京猿力未来科技有限公司 | 一种音频信号筛选方法、装置及设备 |
CN112802463B (zh) * | 2020-12-24 | 2023-03-31 | 北京猿力未来科技有限公司 | 一种音频信号筛选方法、装置及设备 |
CN112614513A (zh) * | 2021-03-08 | 2021-04-06 | 浙江华创视讯科技有限公司 | 一种语音检测方法、装置、电子设备及存储介质 |
WO2022188712A1 (zh) * | 2021-03-08 | 2022-09-15 | 浙江华创视讯科技有限公司 | 主麦克风的切换方法和装置、麦克风的语音检测方法和装置、麦克风扬声器一体设备及可读存储介质 |
CN114740460A (zh) * | 2022-03-23 | 2022-07-12 | 湖南大学 | 水声信号处理方法、计算机装置、产品及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110706693B (zh) | 2022-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110706693B (zh) | 语音端点的确定方法及装置、存储介质、电子装置 | |
CN109767783B (zh) | 语音增强方法、装置、设备及存储介质 | |
US8484020B2 (en) | Determining an upperband signal from a narrowband signal | |
US11715481B2 (en) | Encoding parameter adjustment method and apparatus, device, and storage medium | |
CN106878866A (zh) | 音频信号处理方法、装置及终端 | |
CN108305637B (zh) | 耳机语音处理方法、终端设备及存储介质 | |
EP3364413B1 (en) | Method of determining noise signal and apparatus thereof | |
CN112969134B (zh) | 麦克风异常检测方法、装置、设备及存储介质 | |
CN108234793B (zh) | 一种通讯方法、装置、电子设备和存储介质 | |
CN108847253B (zh) | 车辆型号识别方法、装置、计算机设备及存储介质 | |
CN110428835B (zh) | 一种语音设备的调节方法、装置、存储介质及语音设备 | |
CN111796790B (zh) | 一种音效调节方法、装置、可读存储介质及终端设备 | |
CN109493883A (zh) | 一种智能设备及其智能设备的音频时延计算方法和装置 | |
CN115348507A (zh) | 脉冲噪声抑制方法、系统、可读存储介质及计算机设备 | |
JP2005531811A (ja) | 音声の聴覚明瞭度分析を実施する方法 | |
CN113012710A (zh) | 一种音频降噪方法及存储介质 | |
US9251803B2 (en) | Voice filtering method, apparatus and electronic equipment | |
CN114627899A (zh) | 声音信号检测方法及装置、计算机可读存储介质、终端 | |
JP6789827B2 (ja) | 音声信号を明瞭化するためのマルチ聴覚mmse分析技法 | |
CN105869652B (zh) | 心理声学模型计算方法和装置 | |
CN115223584B (zh) | 音频数据处理方法、装置、设备及存储介质 | |
CN111968651A (zh) | 一种基于wt的声纹识别方法及系统 | |
US20190348060A1 (en) | Apparatus and method for enhancing a wanted component in a signal | |
US9330674B2 (en) | System and method for improving sound quality of voice signal in voice communication | |
WO2016007947A1 (en) | Fast computation of excitation pattern, auditory pattern and loudness |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |