CN115424626A - 一种语音活性检测的方法及设备 - Google Patents

一种语音活性检测的方法及设备 Download PDF

Info

Publication number
CN115424626A
CN115424626A CN202210940185.9A CN202210940185A CN115424626A CN 115424626 A CN115424626 A CN 115424626A CN 202210940185 A CN202210940185 A CN 202210940185A CN 115424626 A CN115424626 A CN 115424626A
Authority
CN
China
Prior art keywords
audio frame
frequency domain
domain audio
nth
nth frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210940185.9A
Other languages
English (en)
Inventor
陈庭威
黄景标
林聚财
方瑞东
刘克柱
毛亚朋
黄威震
殷俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dahua Technology Co Ltd
Original Assignee
Zhejiang Dahua Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dahua Technology Co Ltd filed Critical Zhejiang Dahua Technology Co Ltd
Priority to CN202210940185.9A priority Critical patent/CN115424626A/zh
Publication of CN115424626A publication Critical patent/CN115424626A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种语音活性检测的方法及设备,用于结合历史音频帧信息确定当前音频帧的差熵信息,根据当前音频帧的差熵信息判断语音活性,提高语音活性检测的精度。该方法包括:获取待检测音频数据,将所述待检测音频数据划分成N个音频帧;根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,其中所述差熵信息表征所述第n个音频帧的能量信息,所述参考音频帧为所述N个音频中所述第n个音频帧之前的音频帧;根据所述第n个音频帧的差熵信息,确定所述第n个音频帧是否是语音。

Description

一种语音活性检测的方法及设备
技术领域
本发明涉及音频处理技术领域,特别涉及一种语音活性检测的方法及设备。
背景技术
语音活性检测(Voice Activity Detection,VAD)是一项用于语音处理的技术,主要的功能是检测在当前信号中是否存在着语音。VAD技术在语音处理系统中得到了广泛的应用,比如在语音增强系统中估计噪声、语音识别应用中进行语音端点检测等。
现有的VAD技术通常基于简单的时域或者频域特征进行语音检测,比如基于短时能量和过零率的双门限端点检测,通过将计算得到的特征与预设的阈值进行比较来判定当前信号是否存在语音,该类技术在低信噪比情形下,判决精度就会极度下降;也有利用信号处理方法(如高斯混合模型)去检测噪声和语音,但是该类技术在低信噪比条件下也存在着精度急剧下降的现象。
发明内容
本发明提供一种语音活性检测的方法及设备,用于结合历史音频帧信息确定当前音频帧的差熵信息,根据当前音频帧的差熵信息判断语音活性,提高语音活性检测的精度。
第一方面,本发明实施例提供的一种语音活性检测的方法,该方法包括:
获取待检测音频数据,将所述待检测音频数据划分成N个音频帧,其中所述N为大于或等于1的整数;
根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,其中所述差熵信息表征所述第n个音频帧的能量信息,所述n为大于或等于1且小于或等于N的整数,所述参考音频帧为所述N个音频中所述第n个音频帧之前的音频帧;
根据所述第n个音频帧的差熵信息,确定所述第n个音频帧是否是语音。
本发明实施例提供的一种语音活性检测的方法,能够结合历史帧和当前帧的信息确定差熵信息,利用差熵信息对音频帧的活性进行检测,由于结合了历史帧信息,因此能够在一定程度提高VAD检测的准确性和鲁棒性,并利用差熵信息检测,由于差熵信息表征了音频帧的能量信息,相对于传统基于时域或频域特征进行VAD检测的技术而言,准确性更高。
作为一种可选的实施方式,所述根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,包括:
分别对所述第n个音频帧和所述参考音频帧进行短时傅里叶变换,得到第n个频域音频帧和参考频域音频帧;
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的差熵信息,包括:
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的功率谱;
根据所述第n个频域音频帧的功率谱,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述参考频域音频帧包括M个,1≤M≤(n-1);所述根据所述第n个频域音频帧的功率谱,确定所述第n个频域音频帧的差熵信息,包括:
根据所述第n个频域音频帧的功率谱,以及多个参考频域音频帧中的R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱均值,其中1≤R≤M;
根据所述第n个频域音频帧的功率谱均值、所述第n个频域音频帧的功率谱,以及所述R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱方差;
根据所述第n个频域音频帧的功率谱方差,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,还包括:
将所述第n个音频帧进行短时傅里叶变换,得到第n个频域音频帧;
确定所述第n个频域音频帧中存在语音的概率;
所述根据所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音,包括:
根据所述第n个频域音频帧中存在语音的概率和所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述确定所述第n个频域音频帧中存在语音的概率,包括:
根据噪声估计算法,计算所述第n个频域音频帧中噪声和除所述噪声以外的音频数据的期望值;
根据所述第n个频域音频帧中噪声和所述音频数据的期望值,确定所述第n个频域音频帧中存在语音的概率。
作为一种可选的实施方式,所述根据所述第n个频域音频帧是语音的概率和所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音,包括:
根据所述概率和所述差熵信息分别对应的权重参数,对所述概率和所述差熵信息进行加权求和,得到加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述根据所述第n个频域音频帧的加权差熵信息,确定所述第n个频域音频帧是否是语音,包括:
确定参考频域音频帧的加权差熵信息;
根据所述参考频域音频帧的加权差熵信息,以及所述第n个频域音频帧的加权差熵信息,确定平均加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息和所述平均加权差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述根据所述第n个频域音频帧的加权差熵信息和所述平均加权差熵信息,确定所述第n个频域音频帧是否是语音,包括:
若所述第n个频域音频帧的加权差熵信息大于所述平均加权差熵信息,则确定所述第n个频域音频帧为噪声;
若所述第n个频域音频帧的加权差熵信息小于或等于所述平均加权差熵信息,则确定所述第n个频域音频帧为语音。
作为一种可选的实施方式,所述参考音频帧包括多个,所述多个参考音频帧是按照划分的N个音频帧的顺序依次从第n个音频帧之前的音频帧中筛选得到的。
第二方面,本发明实施例提供的一种语音活性检测的设备,包括处理器和存储器,所述存储器用于存储所述处理器可执行的程序,所述处理器用于读取所述存储器中的程序并执行如下步骤:
获取待检测音频数据,将所述待检测音频数据划分成N个音频帧,其中所述N为大于或等于1的整数;
根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,其中所述差熵信息表征所述第n个音频帧的能量信息,所述n为大于或等于1且小于或等于N的整数,所述参考音频帧为所述N个音频中所述第n个音频帧之前的音频帧;
根据所述第n个音频帧的差熵信息,确定所述第n个音频帧是否是语音。
作为一种可选的实施方式,所述处理器具体被配置为执行:
分别对所述第n个音频帧和所述参考音频帧进行短时傅里叶变换,得到第n个频域音频帧和参考频域音频帧;
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述处理器具体被配置为执行:
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的功率谱;
根据所述第n个频域音频帧的功率谱,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述参考频域音频帧包括M个,1≤M≤(n-1);所述处理器具体被配置为执行:
根据所述第n个频域音频帧的功率谱,以及多个参考频域音频帧中的R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱均值,其中1≤R≤M;
根据所述第n个频域音频帧的功率谱均值、所述第n个频域音频帧的功率谱,以及所述R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱方差;
根据所述第n个频域音频帧的功率谱方差,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述处理器具体还被配置为执行:
将所述第n个音频帧进行短时傅里叶变换,得到第n个频域音频帧;
确定所述第n个频域音频帧中存在语音的概率;
所述处理器具体被配置为执行:
根据所述第n个频域音频帧中存在语音的概率和所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述处理器具体被配置为执行:
根据噪声估计算法,计算所述第n个频域音频帧中噪声和除所述噪声以外的音频数据的期望值;
根据所述第n个频域音频帧中噪声和所述音频数据的期望值,确定所述第n个频域音频帧中存在语音的概率。
作为一种可选的实施方式,所述处理器具体被配置为执行:
根据所述概率和所述差熵信息分别对应的权重参数,对所述概率和所述差熵信息进行加权求和,得到加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述处理器具体被配置为执行:
确定参考频域音频帧的加权差熵信息;
根据所述参考频域音频帧的加权差熵信息,以及所述第n个频域音频帧的加权差熵信息,确定平均加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息和所述平均加权差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述处理器具体被配置为执行:
若所述第n个频域音频帧的加权差熵信息大于所述平均加权差熵信息,则确定所述第n个频域音频帧为噪声;
若所述第n个频域音频帧的加权差熵信息小于或等于所述平均加权差熵信息,则确定所述第n个频域音频帧为语音。
作为一种可选的实施方式,所述参考音频帧包括多个,所述多个参考音频帧是按照划分的N个音频帧的顺序依次从第n个音频帧之前的音频帧中筛选得到的。
第三方面,本发明实施例还提供的一种语音活性检测的装置,该装置包括:
获取数据单元,用于获取待检测音频数据,将所述待检测音频数据划分成N个音频帧,其中所述N为大于或等于1的整数;
确定差熵单元,用于根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,其中所述差熵信息表征所述第n个音频帧的能量信息,所述n为大于或等于1且小于或等于N的整数,所述参考音频帧为所述N个音频中所述第n个音频帧之前的音频帧;
检测语音单元,用于根据所述第n个音频帧的差熵信息,确定所述第n个音频帧是否是语音。
作为一种可选的实施方式,所述确定差熵单元具体用于:
分别对所述第n个音频帧和所述参考音频帧进行短时傅里叶变换,得到第n个频域音频帧和参考频域音频帧;
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述确定差熵单元具体用于:
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的功率谱;
根据所述第n个频域音频帧的功率谱,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述参考频域音频帧包括M个,1≤M≤(n-1);所述确定差熵单元具体用于:
根据所述第n个频域音频帧的功率谱,以及多个参考频域音频帧中的R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱均值,其中1≤R≤M;
根据所述第n个频域音频帧的功率谱均值、所述第n个频域音频帧的功率谱,以及所述R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱方差;
根据所述第n个频域音频帧的功率谱方差,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述确定差熵单元具体还用于:
将所述第n个音频帧进行短时傅里叶变换,得到第n个频域音频帧;
确定所述第n个频域音频帧中存在语音的概率;
所述检测语音单元具体用于:
根据所述第n个频域音频帧中存在语音的概率和所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述检测语音单元具体用于:
根据噪声估计算法,计算所述第n个频域音频帧中噪声和除所述噪声以外的音频数据的期望值;
根据所述第n个频域音频帧中噪声和所述音频数据的期望值,确定所述第n个频域音频帧中存在语音的概率。
作为一种可选的实施方式,所述检测语音单元具体用于:
根据所述概率和所述差熵信息分别对应的权重参数,对所述概率和所述差熵信息进行加权求和,得到加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述检测语音单元具体用于:
确定参考频域音频帧的加权差熵信息;
根据所述参考频域音频帧的加权差熵信息,以及所述第n个频域音频帧的加权差熵信息,确定平均加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息和所述平均加权差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述检测语音单元具体用于:
若所述第n个频域音频帧的加权差熵信息大于所述平均加权差熵信息,则确定所述第n个频域音频帧为噪声;
若所述第n个频域音频帧的加权差熵信息小于或等于所述平均加权差熵信息,则确定所述第n个频域音频帧为语音。
作为一种可选的实施方式,所述参考音频帧包括多个,所述多个参考音频帧是按照划分的N个音频帧的顺序依次从第n个音频帧之前的音频帧中筛选得到的。
第四方面,本发明实施例还提供计算机存储介质,其上存储有计算机程序,该程序被处理器执行时用于实现上述第一方面所述方法的步骤。
本申请的这些方面或其他方面在以下的实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种语音活性检测的方法的实施流程图;
图2为本发明实施例提供的一种详细的语音活性检测的方法实施流程图;
图3为本发明实施例提供的一种语音活性检测的设备示意图;
图4为本发明实施例提供的一种语音活性检测的装置示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本发明实施例描述的应用场景是为了更加清楚的说明本发明实施例的技术方案,并不构成对于本发明实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。其中,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
示例的,语音活性检测(Voice Activity Detection,VAD)是一项用于语音处理的技术,主要的功能是检测在当前信号中是否存在着语音。VAD技术在语音处理系统中得到了广泛的应用,比如在语音增强系统中估计噪声、语音识别应用中进行语音端点检测等。现有的VAD技术通常基于简单的时域或者频域特征进行语音检测,比如基于短时能量和过零率的双门限端点检测,通过将计算得到的特征与预设的阈值进行比较来判定当前信号是否存在语音,该类技术在低信噪比情形下,判决精度就会极度下降;也有利用信号处理方法(如高斯混合模型)去检测噪声和语音,但是该类技术在低信噪比条件下也存在着精度急剧下降的现象。
为了解决上述问题,本发明实施例提供一种语音活性检测的方法,该方法设计的核心思想是结合历史帧和当前帧的信息确定差熵信息,利用差熵信息对音频帧的活性进行检测,由于结合了历史帧信息,因此能够在一定程度提高VAD检测的准确性和鲁棒性,并利用差熵信息检测,由于差熵信息表征了音频帧的能量信息,相对于传统基于时域或频域特征进行VAD检测的技术而言,准确性更高。
如图1所示,本发明实施例提供的一种语音活性检测的方法的实施流程如下所示:
步骤100、获取待检测音频数据,将所述待检测音频数据划分成N个音频帧,其中所述N为大于或等于1的整数;
作为一种可选的实施方式,将所述待检测的音频数据通过如下方式划分成N个音频帧:
通过分帧加窗处理,将所述待检测音频数据划分成N个音频帧。
其中,对音频数据分帧的目的是把若干个音频采样点分为一帧,在这一帧内,音频数据的特性可视为是稳定的。其中,一帧的长度应该小于一个音素的长度,正常语速下一个音素持续时间大约为50ms,一般分帧的长度取10~40ms左右,为了使得分帧之间有一个平滑的过度,一般分帧与分帧之间有一定的重叠,相邻两分帧的起始位置的时间差叫做帧移。谱泄露一般是由信号(如音频数据)被非周期截断产生的,为了避免谱泄露,引入窗函数,不同的窗函数对频谱泄露的缓解程度不同,其总泄漏是通过等效噪声带宽来衡量的;可选的,本实例中所使用的窗函数为汉宁窗且帧移为窗长的一半。通过对音频数据进行分帧加窗处理,来保证信号的短时平稳特性,并防止频谱能量泄露。
在一些实施例中,由于获取的待检测音频数据为时域信号,因此为了便于对音频数据进行处理,将划分得到的N个音频帧进行短时傅里叶变换,得到N个频域音频帧。完成音频数据从时域到频域的转换。
实施中,假设待检测音频数据y(n)通过如下公式表示:
y(n)=x(n)+d(n) 公式(1);
其中,d(n)表示待检测音频数据中包含的噪声,x(n)表示待检测音频数据中除噪声以外的音频数据;
由于音频数据的短时平稳性,因此需要将其进行分帧加窗,然后利用短时傅里叶变换方法将时域音频数据变换到频域,公式如下所示:
Y(n,k)=X(n,k)+D(n,k) 公式(2);
其中,n表示分帧后得到的音频帧的帧索引,k表示音频数据的频点索引,Y(n,k)表示待检测音频数据转换到频域的频域音频数据,x(n,k)表示待检测音频数据中除噪声以外的音频数据转换到频域的频域音频数据,D(n,k)表示待检测音频数据中包含的噪声转换到频域的频域噪声,其中Y,X,D均为复数。
步骤101、根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,其中所述差熵信息表征所述第n个音频帧的能量信息,所述n为大于或等于1且小于或等于N的整数,所述参考音频帧为所述N个音频中所述第n个音频帧之前的音频帧;
在一些实施例中,所述参考音频帧包括一个或多个,多个参考音频帧是按照划分的N个音频帧的顺序依次从第n个音频帧之前的音频帧中筛选得到的。其中,可以从第n个音频帧之前的音频帧中按顺序选取连续的多个音频帧,也可以按设定间隔,从第n个音频帧之前的音频帧中顺序选取多个音频帧,也可以从第n个音频帧之前的音频帧中随机选取多个音频帧,作为参考音频帧。本实施例对如何选取音频帧不作过多限定。实施中,可以选取在第n个音频帧之前的M个音频帧,其中1≤M≤(n-1),M为常数。
在一些实施例中,通过如下步骤确定所述第n个音频帧的差熵信息:
第1步、分别对所述第n个音频帧和所述参考音频帧进行短时傅里叶变换,得到第n个频域音频帧和参考频域音频帧;
实施中,也可以先将所述N个音频帧都进行短时傅里叶变换,得到N个频域音频帧;进而确定出第n个频域音频帧和参考频域音频帧。其中,参考频域音频帧包括多个,如M个。
实施中,第n个频域音频帧通过Y(n,k)如下公式表示:
Y(n,k)=X(n,k)+D(n,k) 公式(3);
其中,n表示第n个频域音频帧的帧索引,k表示第n个频域音频帧的频点索引,Y(n,k)表示第n个频域音频帧,x(n,k)表示第n个频域音频帧中除噪声以外的频域音频数据,D(n,k)表示第n个频域音频帧包含的噪声对应的频域噪声,其中Y,X,D均为复数。
第2步、根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的差熵信息。
实施中,可以根据第n个频域音频帧以及M个参考频域音频帧的幅度信息,确定所述第n个频域音频帧的差熵信息,其中1≤M≤(n-1)。
在一些实施例中,通过如下步骤根据幅度信息确定所述第n个频域音频帧的差熵信息:
第2a步、根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的功率谱;其中,参考频域音频帧包括M个。
实施中,可以选取第n个频域音频帧之前的M个频域音频帧作为M个参考频域音频帧,通过如下公式确定第n个频域音频帧的功率谱:
Figure BDA0003785194780000131
其中,S(n,k)表示第n个频域音频帧的功率谱,
Figure BDA0003785194780000132
表示第n个频域音频帧和第n个频域音频帧的前M个参考频域音频帧的幅度信息。
第2b步、根据所述第n个频域音频帧的功率谱,确定所述第n个频域音频帧的差熵信息。
在一些实施例中,通过如下步骤根据第n个频域音频帧的功率谱,确定所述第n个频域音频帧的差熵信息:
第2b1步、根据所述第n个频域音频帧的功率谱,以及多个参考频域音频帧中的R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱均值,其中1≤R≤M;
实施中,根据所述第n个频域音频帧的功率谱,以及所述第n个频域音频帧之前的M个参考频域音频帧中的R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱均值,其中1≤R≤M;R为常数。
可选的,按照N个频域音频帧的顺序,依次选取第n个频域音频帧之前的R个参考频域音频帧的功率谱,实施中,通过如下公式确定第n个频域音频帧的功率谱均值:
Figure BDA0003785194780000141
其中,
Figure BDA0003785194780000142
表示第n个频域音频帧的功率谱均值,
Figure BDA0003785194780000143
表示第n个频域音频帧以及R个参考频域音频帧的功率谱。
第2b2步、根据所述第n个频域音频帧的功率谱均值、所述第n个频域音频帧的功率谱,以及所述R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱方差;
实施中,通过如下公式确定第n个频域音频帧的功率谱方差:
Figure BDA0003785194780000144
其中,δ2(n,k)表示第n个频域音频帧的功率谱方差,
Figure BDA0003785194780000145
表示第n个频域音频帧的功率谱均值,S(r,k)表示第r个参考频域音频帧的功率谱;其中,第r个频域音频帧是指第n个频域音频帧之前的R个参考频域音频帧中的第r帧。
第2b3步、根据所述第n个频域音频帧的功率谱方差,确定所述第n个频域音频帧的差熵信息。
实施中,通过如下公式确定第n个频域音频帧的差熵信息:
Figure BDA0003785194780000146
其中,h(n,k)表示第n个频域音频帧的差熵信息,R表示用到的第n个频域音频帧之前的参考音频帧的数量,δ2(n,k)表示第n个频域音频帧的功率谱方差,e表示自然指数。
步骤102、根据所述第n个音频帧的差熵信息,确定所述第n个音频帧是否是语音。
在一些实施例中,本发明实施例还可以利用语音存在的概率,结合差熵信息,确定第n个音频帧是否是语音,实施中,具体步骤如下所示:
将所述第n个音频帧进行短时傅里叶变换,得到第n个频域音频帧;实施中,可以获取待检测音频数据,将所述待检测音频数据划分成N个频域音频帧,将所述N个音频帧进行短时傅里叶变换,得到N个频域音频帧;从而确定第n个频域音频帧;
确定所述第n个频域音频帧中存在语音的概率;根据所述第n个频域音频帧中存在语音的概率和所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音。
在一些实施例中,通过如下步骤确定所述第n个频域音频帧中存在语音的概率:
根据噪声估计算法,计算第n个频域音频帧中噪声和除所述噪声以外的音频数据的期望值;根据所述第n个频域音频帧中噪声和所述音频数据的期望值,确定所述第n个频域音频帧中存在语音的概率。
实施中,先对N个频域音频帧进行短时傅里叶变换,得到N个频域音频帧,从而确定第n个频域音频帧,然后根据噪声估计算法,计算第n个频域音频帧中噪声和除所述噪声以外的音频数据的期望值;根据所述第n个频域音频帧中噪声和所述音频数据的期望值,确定所述第n个频域音频帧中存在语音的概率。
实施中,在对N个频域音频帧进行短时傅里叶变换时,假设傅里叶变换系数满足预设分布,如满足高斯分布,则可以根据贝叶斯理论,通过如下公式确定第n个频域音频帧中存在语音的概率,也即第n个频域音频帧中存在语音的概率:
Figure BDA0003785194780000151
Figure BDA0003785194780000152
Figure BDA0003785194780000161
λx=E{|X|2},λd=E{|D|2} 公式(11);
其中,p(H1|Y)表示第n个频域音频帧中存在语音的概率,E{·}表示求期望运算,exp{·}表示求指数运算,且底数为e。
将公式(9)和公式(10)代入到公式(8)中,可得到第n个频域音频帧中存在语音的概率为:
Figure BDA0003785194780000162
Figure BDA0003785194780000163
其中,q=P(H0),表示语音不存在的概率,在计算第1个频域音频帧时可以赋为预设值如q=0.1,再计算后续的频域音频帧时q的值是在不断更新的,ξ和γ分别表示先验信噪比和后验信噪比。ξ和γ可以利用噪声估计算法对第n个频域音频帧进行噪声估计后得到。其中噪声估计算法包括但不限于最小值控制的递归平均算法(Minima ControlledRecursive Averaging,MCRA)等。
在一些实施例中,本实施例根据所述第n个频域音频帧中存在语音的概率和所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音,具体步骤如下:
(1)根据所述概率和所述差熵信息分别对应的权重参数,对所述概率和所述差熵信息进行加权求和,得到加权差熵信息;
其中加权差熵信息可以表示为如下公式:
Figure BDA0003785194780000164
其中,L(n)表示第n个频域音频帧的加权差熵信息,P(H1|Y)表示第n个频域音频帧中存在语音的概率,h(n,k)表示第n个频域音频帧的差熵信息。
(2)根据所述第n个频域音频帧的加权差熵信息,确定所述第n个频域音频帧是否是语音。
需要说明的是,本实施例中的音频帧表示时域信号,频域音频帧表示频域信号,只是信号所在域不同,例如第n个音频帧的加权差熵信息等同于第n个频域音频帧的加权差熵信息。
在一些实施例中,本发明实施例可以设定判决门限值,将第n个音频帧的加权差熵信息和判决门限值进行比较,根据比较结果,确定第n个音频帧是否是语音,例如,当加权差熵信息大于判决门限值,则确定第n个音频帧是噪声,当加权差熵信息小于或等于判决门限值,则确定第n个音频帧是语音。但是由于设定判决门限值的方式很难适用于多个场景,因此,本实施例还提出一种自适应门限策略为将当前音频帧的加权差熵信息与历史帧的加权差熵信息均值进行比较,能够适应更多的应用场景。
在一些实施例中,根据所述第n个频域音频帧的加权差熵信息,确定所述第n个频域音频帧是否是语音,具体步骤如下:
步骤2a、确定参考频域音频帧的加权差熵信息;
实施中,可以按上述计算第n个频域音频帧的加权差熵信息,计算N个音频帧对应的N个频域音频帧中的每个频域音频帧的加权差熵信息,从而得到第n个频域音频帧之前的参考频域音频帧的加权差熵信息。
步骤2b、根据所述参考频域音频帧的加权差熵信息,以及所述第n个频域音频帧的加权差熵信息,确定平均加权差熵信息;
实施中,根据所述第n个频域音频帧之前的多个参考频域音频帧的加权差熵信息,以及所述第n个频域音频帧的加权差熵信息,确定平均加权差熵信息;
步骤2b、根据所述第n个频域音频帧的加权差熵信息和所述平均加权差熵信息,确定所述第n个频域音频帧是否是语音。
具体实施中,可以通过上述实施例中计算第n个频域音频帧的加权差熵信息的方式,计算每个频域音频帧的加权差熵信息,然后利用当前音频帧的加权差熵信息和历史音频帧(即参考音频帧)的加权差熵信息的均值进行比对,从而判断是否是语音。
在一些实施例中,根据所述第n个频域音频帧的加权差熵信息和所述平均加权差熵信息,确定所述第n个频域音频帧是否是语音,具体判断方式如下:
方式1、若所述第n个频域音频帧的加权差熵信息大于所述平均加权差熵信息,则确定所述第n个频域音频帧为噪声;
方式2、若所述第n个频域音频帧的加权差熵信息小于或等于所述平均加权差熵信息,则确定所述第n个频域音频帧为语音。
本实施例中的差熵信息在计算时涉及到当前音频帧的历史音频帧信息,因此基于差熵信息的VAD模型的鲁棒性更好,本实施例还可以将语音存在概率和差熵信息进行加权,利用加权差熵信息进行语音活性检测,能够进一步提高VAD的判决精度,本实施例还可以基于加权差熵信息的自适应门限策略,进一步增加VAD模型的应用场景,有效提升语音活性检测的正确率。
如图2所示,本发明实施例提供一种详细的语音活性检测的方法,该方法的具体实施方式如下所示:
步骤200、获取待检测音频数据,通过分帧加窗处理,将所述待检测音频数据划分成N个音频帧;
步骤201、将所述N个音频帧进行短时傅里叶变换,得到N个频域音频帧;
其中,步骤201之后同时执行步骤202和步骤203;
步骤202、确定第n个频域音频帧中存在语音的概率;
其中,步骤202之后,执行步骤207;
步骤203、根据第n个频域音频帧以及第n个频域音频帧之前的M个参考频域音频帧的幅度信息,确定第n个频域音频帧的功率谱;
其中,1≤n≤N,n为整数。
步骤204、根据第n个频域音频帧的功率谱,以及M个参考频域音频帧中的R个参考频域音频帧的功率谱,确定第n个频域音频帧的功率谱均值;
步骤205、根据第n个频域音频帧的功率谱均值,第n个频域音频帧的功率谱,以及R个参考频域音频帧的功率谱,确定第n个频域音频帧的功率谱方差;
步骤206、根据第n个频域音频帧的功率谱方差,确定第n个频域音频帧的差熵信息;
步骤207、根据概率和差熵信息分别对应的权重参数,对概率和差熵信息进行加权求和,得到加权差熵信息;
步骤208、根据R个参考频域音频帧的加权差熵信息,以及第n个频域音频帧的加权差熵信息,确定平均加权差熵信息;
步骤209、判断第n个频域音频帧的加权差熵信息是否大于平均加权差熵信息,若是执行步骤210,否则执行步骤211;
步骤210、确定所述第n个频域音频帧为噪声;
步骤211、确定所述第n个频域音频帧为语音。
示例的,基于相同的发明构思,本发明实施例还提供了的一种语音活性检测的设备,由于该设备即是本发明实施例中的方法中的设备,并且该设备解决问题的原理与该方法相似,因此该设备的实施可以参见方法的实施,重复之处不再赘述。
如图3所示,该设备包括处理器300和存储器301,所述存储器301用于存储所述处理器300可执行的程序,所述处理器300用于读取所述存储器301中的程序并执行如下步骤:
获取待检测音频数据,将所述待检测音频数据划分成N个音频帧,其中所述N为大于或等于1的整数;
根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,其中所述差熵信息表征所述第n个音频帧的能量信息,所述n为大于或等于1且小于或等于N的整数,所述参考音频帧为所述N个音频中所述第n个音频帧之前的音频帧;
根据所述第n个音频帧的差熵信息,确定所述第n个音频帧是否是语音。
作为一种可选的实施方式,所述处理器300具体被配置为执行:
分别对所述第n个音频帧和所述参考音频帧进行短时傅里叶变换,得到第n个频域音频帧和参考频域音频帧;
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述处理器300具体被配置为执行:
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的功率谱;
根据所述第n个频域音频帧的功率谱,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述参考频域音频帧包括M个,1≤M≤(n-1);所述处理器300具体被配置为执行:
根据所述第n个频域音频帧的功率谱,以及多个参考频域音频帧中的R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱均值,其中1≤R≤M;
根据所述第n个频域音频帧的功率谱均值、所述第n个频域音频帧的功率谱,以及所述R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱方差;
根据所述第n个频域音频帧的功率谱方差,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述处理器300具体还被配置为执行:
将所述第n个音频帧进行短时傅里叶变换,得到第n个频域音频帧;
确定所述第n个频域音频帧中存在语音的概率;
所述处理器300具体被配置为执行:
根据所述第n个频域音频帧中存在语音的概率和所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述处理器300具体被配置为执行:
根据噪声估计算法,计算所述第n个频域音频帧中噪声和除所述噪声以外的音频数据的期望值;
根据所述第n个频域音频帧中噪声和所述音频数据的期望值,确定所述第n个频域音频帧中存在语音的概率。
作为一种可选的实施方式,所述处理器300具体被配置为执行:
根据所述概率和所述差熵信息分别对应的权重参数,对所述概率和所述差熵信息进行加权求和,得到加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述处理器300具体被配置为执行:
确定参考频域音频帧的加权差熵信息;
根据所述参考频域音频帧的加权差熵信息,以及所述第n个频域音频帧的加权差熵信息,确定平均加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息和所述平均加权差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述处理器300具体被配置为执行:
若所述第n个频域音频帧的加权差熵信息大于所述平均加权差熵信息,则确定所述第n个频域音频帧为噪声;
若所述第n个频域音频帧的加权差熵信息小于或等于所述平均加权差熵信息,则确定所述第n个频域音频帧为语音。
作为一种可选的实施方式,所述参考音频帧包括多个,所述多个参考音频帧是按照划分的N个音频帧的顺序依次从第n个音频帧之前的音频帧中筛选得到的。
示例的,基于相同的发明构思,本发明实施例还提供了的一种语音活性检测的装置,由于该装置即是本发明实施例中的方法中的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
如图4所示,该装置包括:
获取数据单元400,用于获取待检测音频数据,将所述待检测音频数据划分成N个音频帧,其中所述N为大于或等于1的整数;
确定差熵单元401,用于根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,其中所述差熵信息表征所述第n个音频帧的能量信息,所述n为大于或等于1且小于或等于N的整数,所述参考音频帧为所述N个音频中所述第n个音频帧之前的音频帧;
检测语音单元402,用于根据所述第n个音频帧的差熵信息,确定所述第n个音频帧是否是语音。
作为一种可选的实施方式,所述确定差熵单元401具体用于:
分别对所述第n个音频帧和所述参考音频帧进行短时傅里叶变换,得到第n个频域音频帧和参考频域音频帧;
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述确定差熵单元401具体用于:
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的功率谱;
根据所述第n个频域音频帧的功率谱,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述参考频域音频帧包括M个,1≤M≤(n-1);所述确定差熵单元401具体用于:
根据所述第n个频域音频帧的功率谱,以及多个参考频域音频帧中的R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱均值,其中1≤R≤M;
根据所述第n个频域音频帧的功率谱均值、所述第n个频域音频帧的功率谱,以及所述R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱方差;
根据所述第n个频域音频帧的功率谱方差,确定所述第n个频域音频帧的差熵信息。
作为一种可选的实施方式,所述确定差熵单元401具体还用于:
将所述第n个音频帧进行短时傅里叶变换,得到第n个频域音频帧;
确定所述第n个频域音频帧中存在语音的概率;
所述检测语音单元402具体用于:
根据所述第n个频域音频帧中存在语音的概率和所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述检测语音单元402具体用于:
根据噪声估计算法,计算所述第n个频域音频帧中噪声和除所述噪声以外的音频数据的期望值;
根据所述第n个频域音频帧中噪声和所述音频数据的期望值,确定所述第n个频域音频帧中存在语音的概率。
作为一种可选的实施方式,所述检测语音单元402具体用于:
根据所述概率和所述差熵信息分别对应的权重参数,对所述概率和所述差熵信息进行加权求和,得到加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述检测语音单元402具体用于:
确定参考频域音频帧的加权差熵信息;
根据所述参考频域音频帧的加权差熵信息,以及所述第n个频域音频帧的加权差熵信息,确定平均加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息和所述平均加权差熵信息,确定所述第n个频域音频帧是否是语音。
作为一种可选的实施方式,所述检测语音单元402具体用于:
若所述第n个频域音频帧的加权差熵信息大于所述平均加权差熵信息,则确定所述第n个频域音频帧为噪声;
若所述第n个频域音频帧的加权差熵信息小于或等于所述平均加权差熵信息,则确定所述第n个频域音频帧为语音。
作为一种可选的实施方式,所述参考音频帧包括多个,所述多个参考音频帧是按照划分的N个音频帧的顺序依次从第n个音频帧之前的音频帧中筛选得到的。
基于相同的发明构思,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如下步骤:
获取待检测音频数据,将所述待检测音频数据划分成N个音频帧,其中所述N为大于或等于1的整数;
根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,其中所述差熵信息表征所述第n个音频帧的能量信息,所述n为大于或等于1且小于或等于N的整数,所述参考音频帧为所述N个音频中所述第n个音频帧之前的音频帧;
根据所述第n个音频帧的差熵信息,确定所述第n个音频帧是否是语音。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (12)

1.一种语音活性检测的方法,其特征在于,该方法包括:
获取待检测音频数据,将所述待检测音频数据划分成N个音频帧,其中所述N为大于或等于1的整数;
根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,其中所述差熵信息表征所述第n个音频帧的能量信息,所述n为大于或等于1且小于或等于N的整数,所述参考音频帧为所述N个音频中所述第n个音频帧之前的音频帧;
根据所述第n个音频帧的差熵信息,确定所述第n个音频帧是否是语音。
2.根据权利要求1所述的方法,其特征在于,所述根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,包括:
分别对所述第n个音频帧和所述参考音频帧进行短时傅里叶变换,得到第n个频域音频帧和参考频域音频帧;
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的差熵信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的差熵信息,包括:
根据所述第n个频域音频帧以及所述参考频域音频帧的幅度信息,确定所述第n个频域音频帧的功率谱;
根据所述第n个频域音频帧的功率谱,确定所述第n个频域音频帧的差熵信息。
4.根据权利要求3所述的方法,其特征在于,所述参考频域音频帧包括M个,1≤M≤(n-1);所述根据所述第n个频域音频帧的功率谱,确定所述第n个频域音频帧的差熵信息,包括:
根据所述第n个频域音频帧的功率谱,以及多个参考频域音频帧中的R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱均值,其中1≤R≤M;
根据所述第n个频域音频帧的功率谱均值、所述第n个频域音频帧的功率谱,以及所述R个参考频域音频帧的功率谱,确定所述第n个频域音频帧的功率谱方差;
根据所述第n个频域音频帧的功率谱方差,确定所述第n个频域音频帧的差熵信息。
5.根据权利要求1~4任一所述的方法,其特征在于,所述根据所述N个音频帧中第n个音频帧以及参考音频帧的信息,确定所述第n个音频帧的差熵信息,还包括:
将所述第n个音频帧进行短时傅里叶变换,得到第n个频域音频帧;
确定所述第n个频域音频帧中存在语音的概率;
所述根据所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音,包括:
根据所述第n个频域音频帧中存在语音的概率和所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音。
6.根据权利要求5所述的方法,其特征在于,所述确定所述第n个频域音频帧中存在语音的概率,包括:
根据噪声估计算法,计算所述第n个频域音频帧中噪声和除所述噪声以外的音频数据的期望值;
根据所述第n个频域音频帧中噪声和所述音频数据的期望值,确定所述第n个频域音频帧中存在语音的概率。
7.根据权利要求5所述的方法,其特征在于,所述根据所述第n个频域音频帧是语音的概率和所述第n个频域音频帧的差熵信息,确定所述第n个频域音频帧是否是语音,包括:
根据所述概率和所述差熵信息分别对应的权重参数,对所述概率和所述差熵信息进行加权求和,得到加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息,确定所述第n个频域音频帧是否是语音。
8.根据权利要求7所述的方法,其特征在于,所述根据所述第n个频域音频帧的加权差熵信息,确定所述第n个频域音频帧是否是语音,包括:
确定参考频域音频帧的加权差熵信息;
根据所述参考频域音频帧的加权差熵信息,以及所述第n个频域音频帧的加权差熵信息,确定平均加权差熵信息;
根据所述第n个频域音频帧的加权差熵信息和所述平均加权差熵信息,确定所述第n个频域音频帧是否是语音。
9.根据权利要求8所述的方法,其特征在于,所述根据所述第n个频域音频帧的加权差熵信息和所述平均加权差熵信息,确定所述第n个频域音频帧是否是语音,包括:
若所述第n个频域音频帧的加权差熵信息大于所述平均加权差熵信息,则确定所述第n个频域音频帧为噪声;
若所述第n个频域音频帧的加权差熵信息小于或等于所述平均加权差熵信息,则确定所述第n个频域音频帧为语音。
10.根据权利要求1~4任一所述的方法,其特征在于,所述参考音频帧包括多个,所述多个参考音频帧是按照划分的N个音频帧的顺序依次从第n个音频帧之前的音频帧中筛选得到的。
11.一种语音活性检测的设备,其特征在于,该设备包括处理器和存储器,所述存储器用于存储所述处理器可执行的程序,所述处理器用于读取所述存储器中的程序并执行权利要求1~10任一所述方法的步骤。
12.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~10任一所述方法的步骤。
CN202210940185.9A 2022-08-05 2022-08-05 一种语音活性检测的方法及设备 Pending CN115424626A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210940185.9A CN115424626A (zh) 2022-08-05 2022-08-05 一种语音活性检测的方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210940185.9A CN115424626A (zh) 2022-08-05 2022-08-05 一种语音活性检测的方法及设备

Publications (1)

Publication Number Publication Date
CN115424626A true CN115424626A (zh) 2022-12-02

Family

ID=84196791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210940185.9A Pending CN115424626A (zh) 2022-08-05 2022-08-05 一种语音活性检测的方法及设备

Country Status (1)

Country Link
CN (1) CN115424626A (zh)

Similar Documents

Publication Publication Date Title
US10891944B2 (en) Adaptive and compensatory speech recognition methods and devices
CN109767783B (zh) 语音增强方法、装置、设备及存储介质
CN110739002B (zh) 基于生成对抗网络的复数域语音增强方法、系统及介质
KR101060533B1 (ko) 신호 변화 검출을 위한 시스템, 방법 및 장치
Kwon et al. NMF-based speech enhancement using bases update
EP3171363B1 (en) Voice activity detection methods and apparatuses
RU2684194C1 (ru) Способ получения кадра модификации речевой активности, устройство и способ обнаружения речевой активности
Pang Spectrum energy based voice activity detection
EP3118852B1 (en) Method and device for detecting audio signal
EP4189677B1 (en) Noise reduction using machine learning
CN110060665A (zh) 语速检测方法及装置、可读存储介质
CN108682432B (zh) 语音情感识别装置
TWI467979B (zh) 用於信號改變偵測之系統、方法及裝置
Lee et al. Dynamic noise embedding: Noise aware training and adaptation for speech enhancement
CN115424626A (zh) 一种语音活性检测的方法及设备
Brunner et al. Monaural music source separation using a resnet latent separator network
Harvilla et al. Efficient audio declipping using regularized least squares
Gaultier et al. Audascity: Audio denoising by adaptive social cosparsity
CN110070887B (zh) 一种语音特征重建方法及装置
CN108848435B (zh) 一种音频信号的处理方法和相关装置
Elton et al. A novel voice activity detection algorithm using modified global thresholding
CN112489692A (zh) 语音端点检测方法和装置
Doire Online singing voice separation using a recurrent one-dimensional U-NET trained with deep feature losses
KR20200026587A (ko) 음성 구간을 검출하는 방법 및 장치
CN117711419B (zh) 用于数据中台的数据智能清洗方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination