CN117275528A - 语音存在概率的估计方法及装置 - Google Patents
语音存在概率的估计方法及装置 Download PDFInfo
- Publication number
- CN117275528A CN117275528A CN202311537173.2A CN202311537173A CN117275528A CN 117275528 A CN117275528 A CN 117275528A CN 202311537173 A CN202311537173 A CN 202311537173A CN 117275528 A CN117275528 A CN 117275528A
- Authority
- CN
- China
- Prior art keywords
- speech
- covariance matrix
- frame
- noise
- estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000011159 matrix material Substances 0.000 claims abstract description 153
- 238000004590 computer program Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 13
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000004364 calculation method Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 15
- 230000005540 biological transmission Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000712899 Lymphocytic choriomeningitis mammarenavirus Species 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Complex Calculations (AREA)
Abstract
本发明实施例提供了一种语音存在概率的估计方法及装置,包括:获取第帧语音的噪声协方差矩阵的估计和带噪语音协方差矩阵的估计,其中,是大于1的整数;通过所述第帧语音的噪声协方差矩阵的估计、所述带噪语音协方差矩阵的估计,得到先验信噪比;通过所述第帧语音的噪声协方差矩阵的估计、带噪语音协方差矩阵的估计,以及所述先验信噪比对第帧语音的语音存在概率进行估计。通过本发明,解决了相关技术中语音存在概率估计不实时、计算复杂度高的问题。
Description
技术领域
本发明实施例涉及通信领域,具体而言,涉及一种语音存在概率的估计方法及装置。
背景技术
在基于麦克风阵列的语音降噪算法中,如MVDR、LCMV或GSC,语音信号和噪声协方差矩阵的准确估计十分重要,如果估计不准确甚至会导致严重的语音损伤,这就需要准确区分语音和噪声,进而需要对语音存在概率进行估计。
目前的语音存在概率估计算法存在复杂度高、估计不实时的问题,特别当麦克风数目较多时,算法复杂度急剧上升。
针对上述问题,目前尚未存在有效的解决方案。
发明内容
本发明实施例提供了一种语音存在概率的估计方法及装置,以至少解决相关技术中语音存在概率估计算法存在复杂度高的问题。
根据本发明的一个实施例,提供了一种语音存在概率的估计方法,包括:获取第帧语音的噪声协方差矩阵的估计和带噪语音协方差矩阵的估计,其中,/>是大于1的整数;通过所述第/>帧语音的噪声协方差矩阵的估计、带噪语音协方差矩阵的估计,得到先验信噪比;通过所述第/>帧语音的噪声协方差矩阵的估计、带噪语音协方差矩阵的估计,以及所述先验信噪比对第/>帧语音的语音存在概率进行估计。
在一个示例性实施例中,通过所述第帧语音的噪声协方差矩阵的估计、带噪语音协方差矩阵的估计,以及所述先验信噪比对第/>帧语音的语音存在概率进行估计,包括:通过所述第/>帧语音的噪声协方差矩阵的估计、带噪语音协方差矩阵的估计,得到纯净语音协方差矩阵的估计;通过通过所述第/>帧语音的噪声协方差矩阵的估计、所述纯净语音协方差矩阵的估计,得到中间参数;通过所述先验信噪比、所述中间参数得到所述第/>帧语音的语音存在概率。
在一个示例性实施例中,通过所述第帧语音的噪声协方差矩阵的估计、带噪语音协方差矩阵的估计,得到纯净语音协方差矩阵的估计,包括:将所述第/>帧语音的噪声协方差矩阵的估计与所述带噪语音协方差矩阵的估计的差确定为所述纯净语音协方差矩阵的估计。
在一个示例性实施例中,通过以下公式得到所述中间参数:
其中,为第/>帧语音向量,/>是第/>帧语音的噪声协方差矩阵的估计,/>是所述纯净语音协方差矩阵的估计,/>是所述中间参数,是/>的转置,/>是/>的求逆。
在一个示例性实施例中,通过以下公式得到所述第帧语音的语音存在概率:
其中,是在/>频点第/>帧语音的先验信噪比,/>是所述中间参数,/>是第/>帧语音的语音存在概率,exp是指数函数。
在一个示例性实施例中,通过以下公式得到所述先验信噪比:
其中,是频点,/>是在/>频点第/>帧语音的先验信噪比,/>是第/>帧语音的噪声协方差矩阵的估计,/>是第/>帧语音的带噪语音协方差矩阵的估计,/>是麦克风数目,tr是矩阵的迹。
在一个示例性实施例中,在所述的情况下,通过以下公式得到所述第/>帧语音的噪声协方差矩阵/>,/>是大于或等于1的整数:
是在/>频点第i帧语音,/>是预设的递归因子,/>是/>的转置;
通过以下公式得到所述第帧语音的带噪语音协方差矩阵的估计/>:
其中,是预设固定增益;
在一个示例性实施例中,在所述的情况下,通过以下公式得到所述第/>帧的噪声协方差矩阵/>:
通过以下公式得到所述第帧的带噪语音协方差矩阵/>:
其中,是所述第/>帧语音的递归估计, />是噪声概率和的递归估计,是第/>帧语音的带噪语音协方差矩阵的估计,/>是第/>帧语音的语音存在概率,/>是在/>频点第/>帧语音。
在一个示例性实施例中,通过以下公式得到所述第帧语音的递归估计和所述噪声概率和的递归估计:
在所述的情况下,/>
在所述的情况下,/>
其中,是预设的递归因子,/>是第i帧语音的语音存在概率。
根据本发明的另一个实施例,提供了一种语音存在概率的估计装置,包括:第一获取模块,用于获取第帧语音的噪声协方差矩阵的估计和带噪语音协方差矩阵的估计,其中,/>是大于1的整数;第一处理模块,用于通过所述第/>帧语音的噪声协方差矩阵的估计、带噪语音协方差矩阵的估计,得到先验信噪比;第二处理模块,用于通过所述第/>帧语音的噪声协方差矩阵的估计、带噪语音协方差矩阵的估计,以及所述先验信噪比对第/>帧语音的语音存在概率进行估计。
根据本发明的又一个实施例,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述任一项中所述的方法的步骤。
根据本发明的又一个实施例,还提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。
通过本发明,由于获取第帧语音的噪声协方差矩阵的估计和带噪语音协方差矩阵的估计,其中,/>是大于1的整数;通过第/>帧语音的噪声协方差矩阵的估计、带噪语音协方差矩阵的估计,得到先验信噪比;通过第/>帧语音的噪声协方差矩阵的估计、带噪语音协方差矩阵的估计,以及第/>帧语音的概率和递归估计对第/>帧语音的语音存在概率进行估计。可以降低语音存在概率估计算法的复杂度。因此,可以解决相关技术中语音存在概率估计算法存在复杂度高的问题,达到可以实时对语音存在概率进行估计的效果。
附图说明
图1是本发明实施例的一种语音存在概率的估计方法的移动终端的硬件结构框图;
图2是根据本发明实施例的语音存在概率的估计的流程图;
图3是根据本发明实施例的语音存在概率的估计装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明的实施例。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例中所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,图1是本发明实施例的一种语音存在概率的估计方法的移动终端的硬件结构框图。如图1所示,移动终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,其中,上述移动终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的语音存在概率的估计方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Letwork Ilterface Coltroller,简称为LIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequelcy,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种运行于上述移动终端的语音存在概率的估计方法,图2是根据本发明实施例的语音存在概率的估计的流程图,如图2所示,该流程包括如下步骤:
步骤S202,获取第帧语音的噪声协方差矩阵的估计和带噪语音协方差矩阵的估计,其中,/>是大于1的整数;
假定麦克风阵列接收到的前帧为噪声(/>可以根据实际情况而定,例如,5、6、7等),设定前/>帧语音概率为0.01。
对前帧的噪声协方差矩阵的估计进行初始化,在所述/>的情况下,通过以下公式得到所述第/>帧的噪声协方差矩阵/>,/>是大于或等于1的整数:
是在/>频点第i帧语音,/>是预设的递归因子;/>可以根据实际情况设置,例如本申请中/>,还可以为其他数值例如0.98、0.97等,/>是/>的转置。
在所述的情况下,通过以下公式得到所述第/>帧语音的带噪语音协方差矩阵的估计/>:
其中,是预设固定增益,可以根据实际情况设置,例如设定G=5。
在所述的情况下,通过以下公式得到所述第/>帧的噪声协方差矩阵/>:
通过以下公式得到所述第帧的带噪语音协方差矩阵/>:
其中,是所述第/>帧语音的递归估计,/>是噪声概率和的递归估计,/>是预设的递归因子,/>是第/>帧语音的带噪语音协方差矩阵的估计,/>是第帧语音的语音存在概率,/>是在/>频点第/>帧语音向量,/>是/>的转置。
通过以下公式得到所述第帧语音的递归估计,以及所述噪声概率和的递归估计:
在所述的情况下,/>
在所述的情况下,/>
其中,是预设的递归因子,/>是第i帧语音的语音存在概率。
步骤S204,通过所述第帧语音的噪声协方差矩阵的估计、所述带噪语音协方差矩阵的估计,得到先验信噪比;
通过以下公式得到所述先验信噪比:
其中,是频点,/>是在/>频点第/>帧语音的先验信噪比,/>是第/>帧语音的噪声协方差矩阵的估计,/>是第/>帧语音的带噪语音协方差矩阵的估计,/>是麦克风数目,tr是矩阵的迹。
步骤S206,通过所述第帧语音的噪声协方差矩阵的估计、带噪语音协方差矩阵的估计,以及所述第/>帧语音的概率和递归估计对第/>帧语音的语音存在概率进行估计。
通过所述第帧语音的噪声协方差矩阵的估计、带噪语音协方差矩阵的估计,得到纯净语音协方差矩阵的估计;通过所述第/>帧语音的噪声协方差矩阵的估计、所述纯净语音协方差矩阵的估计,得到中间参数;通过所述先验信噪比、所述中间参数得到所述第/>帧语音的语音存在概率。
具体地,将所述第帧语音的噪声协方差矩阵的估计与所述带噪语音协方差矩阵的估计的差确定为所述纯净语音协方差矩阵的估计。
纯净语音协方差矩阵的估计:
通过以下公式得到所述中间参数:
其中,为第/>帧语音,/>是第/>帧语音的噪声协方差矩阵的估计,/>是所述纯净语音协方差矩阵的估计,/>是所述中间参数,/>是/>的转置,/>是/>的求逆。
通过以下公式得到所述第帧语音的语音存在概率:
其中,是在/>频点第/>帧语音的先验信噪比,/>是所述中间参数,exp是指数函数。
在对第帧语音的语音存在概率进行估计之后,所述方法还包括:
通过更新后的先验信噪比得到第/>帧噪声协方差矩阵的估计和带噪语音协方差矩阵的估计:
其中,;/>
重复上述步骤,可以对麦克风阵列采集到的音频进行语音存在概率估计。
可选地,上述步骤的执行主体可以是后台处理器,或者其他的具备类似处理能力的设备,还可以是至少集成有图像获取设备以及数据处理设备的机器,其中,图像获取设备可以包括摄像头等图形采集模块,数据处理设备可以包括计算机、手机等终端,但不限于此。
通过上述步骤,由于获取第帧语音的噪声协方差矩阵的估计和带噪语音协方差矩阵的估计,其中,/>是大于1的整数;获取第/>帧语音的概率和递归估计;通过第/>帧语音的噪声协方差矩阵的估计、带噪语音协方差矩阵的估计,以及第/>帧语音的概率和递归估计对第/>帧语音的语音存在概率进行估计。可以降低语音存在概率估计算法的复杂度。因此,可以解决相关技术中语音存在概率估计算法存在复杂度高的问题,达到可以实时对语音存在概率进行估计的效果。
步骤S202和步骤S204的执行顺序是可以互换的,即可以先执行步骤S204,然后再执行S202。
下面对本申请涉及到的模型依据进行解释说明:
由于时频域的语音信号具有稀疏性,可以假定观测信号分为两类:包含带噪语音(纯净语音+噪声);只包含噪声。基于这个假设,在时频点观测到的语音信号/>可以表示为:
其中,代表在第/>频点,第t帧处的纯净语音信号,/>代表噪声信号;/>代表信号分类,/>代表包含带噪语音(纯净语音+噪声),/>代表只包含噪声。
考虑包含M个麦克风的阵列,将M个麦克风接收到的语音信号排成一维向量:
,T代表矩阵转置
假定多通道语音信号满足多变量复高斯分布:
当时,/>代表频点/>处带噪语音信号的协方差矩阵;当/>时,/>代表频点/>处的噪声协方差矩阵;/>代表矩阵/>的行列式,观测语音信号/>最终满足一个关于分类序号/>的复高斯混合模型,即CGMM模型;而/>代表CGMM模型的隐变量。未知的CGMM模型的参数集合为/>,可用最大似然估计法估计,如可用EM算法的形式求得。
EM算法只能对模型参数进行离线估计,且算法迭代次数多,计算量较大。为实现算法的实时估计,采用递归EM算法估计CGMM参数。由传统的EM算法可知,算法主要由构造Q函数、E步(求隐变量的期望)和M步(最大化似然函数更新模型参数)组成。
构造递归Q函数:
代表在时刻t估计的模型参数集合,/>为递归因子(/>),/>代表模型隐变量/>的期望。
E步:计算隐变量的期望,即后验语音概率
代表在已知模型参数和语音信号类型/>的情况下,/>出现的概率。由于在计算/>中存在对矩阵/>行列式的估计,复杂度较高,为降低复杂度,采用以下方式估计/>:
估计纯净语音的协方差矩阵,为了方便表述,令/>,,/>其中,/>和/>分别代表在t-1帧时对带噪语音和噪声协方差矩阵的估计。
估计信号的先验信噪比:
计算后验语音概率:
其中,
M步:模型参数噪声协方差矩阵和带噪语音协方差矩阵/>的递归估计:
其中,;/>。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种语音存在概率的估计装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是根据本发明实施例的语音存在概率的估计装置的结构框图,如图3所示,该装置包括:第一获取模块32,用于获取第帧语音的噪声协方差矩阵的估计和带噪语音协方差矩阵的估计,其中,/>是大于1的整数;第一处理模块34,用于通过所述第/>帧语音的噪声协方差矩阵的估计、所述带噪语音协方差矩阵的估计,得到先验信噪比;第二处理模块36,用于通过所述第/>帧语音的噪声协方差矩阵的估计、带噪语音协方差矩阵的估计,以及所述先验信噪比对第/>帧语音的语音存在概率进行估计。
在一个示例性实施例中,上述装置还用于通过所述第帧语音的噪声协方差矩阵的估计、带噪语音协方差矩阵的估计,得到纯净语音协方差矩阵的估计;通过通过所述第/>帧语音的噪声协方差矩阵的估计、所述纯净语音协方差矩阵的估计,得到中间参数;通过所述先验信噪比、所述中间参数得到所述第/>帧语音的语音存在概率。
在一个示例性实施例中,上述装置还用于将所述第帧语音的噪声协方差矩阵的估计与所述带噪语音协方差矩阵的估计的差确定为所述纯净语音协方差矩阵的估计。
在一个示例性实施例中,上述装置还用于通过以下公式得到所述中间参数:
其中,为第/>帧语音,/>是第/>帧的噪声协方差矩阵的估计,是所述纯净语音协方差矩阵的估计,/>是所述中间参数,/>是的转置,/>是/>的求逆。
在一个示例性实施例中,上述装置还用于通过以下公式得到所述第帧语音的语音存在概率:
其中,是在/>频点第/>帧语音的先验信噪比,/>是所述中间参数,/>是第/>帧语音的语音存在概率,exp是指数函数。
在一个示例性实施例中,上述装置还用于通过以下公式得到所述先验信噪比:
其中,是频点,/>是在/>频点第/>帧语音的先验信噪比,/>是第/>帧语音的噪声协方差矩阵的估计,/>是第/>帧语音的带噪语音协方差矩阵的估计,/>是麦克风数目,tr代表矩阵的迹。
在一个示例性实施例中,在所述的情况下,上述装置还用于通过以下公式得到所述第/>帧语音的噪声协方差矩阵/>,/>是大于或等于1的整数:
是在/>频点第i帧语音,/>是预设的递归因子,/>是/>的转置;
上述装置还用于通过以下公式初始化第帧语音的带噪语音协方差矩阵的估计:
其中,是预设固定增益;
在一个示例性实施例中,在所述的情况下,上述装置还用于通过以下公式得到所述第/>帧的噪声协方差矩阵/>:
上述装置还用于通过以下公式得到所述第帧的带噪语音协方差矩阵/>:
其中,是所述第/>帧语音的概率和递归估计,/>是噪声概率和的递归估计,/>是第/>帧语音的带噪语音协方差矩阵的估计,/>是第/>帧语音的语音存在概率,/>是在/>频点第/>帧语音,/>是/>的转置。
在一个示例性实施例中,上述装置还用于通过以下公式得到所述第帧语音的递归估计和噪声概率和的递归估计:
在所述的情况下,/>
在所述的情况下,/>
其中,是预设的递归因子,/>是第i帧语音的语音存在概率。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现上述任一项中所述的方法的步骤。
在一个示例性实施例中,上述计算机可读存储介质可以包括但不限于:U盘、只读存储器(Read-Olly Memory,简称为ROM)、随机存取存储器(Raldom Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
在一个示例性实施例中,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
本实施例中的具体示例可以参考上述实施例及示例性实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种语音存在概率的估计方法,其特征在于,包括:
获取第帧语音的噪声协方差矩阵的估计和带噪语音协方差矩阵的估计,其中,/>是大于1的整数;
通过所述第帧语音的噪声协方差矩阵的估计、所述带噪语音协方差矩阵的估计,得到先验信噪比;
通过所述第帧语音的噪声协方差矩阵的估计、带噪语音协方差矩阵的估计,以及所述先验信噪比对第/>帧语音的语音存在概率进行估计。
2.根据权利要求1所述的方法,其特征在于,通过所述第帧语音的噪声协方差矩阵的估计、带噪语音协方差矩阵的估计,以及所述先验信噪比对第/>帧语音的语音存在概率进行估计,包括:
通过所述第帧语音的噪声协方差矩阵的估计、带噪语音协方差矩阵的估计,得到纯净语音协方差矩阵的估计;
通过所述第帧语音的噪声协方差矩阵的估计、所述纯净语音协方差矩阵的估计,得到中间参数;
通过所述先验信噪比、所述中间参数得到所述第帧语音的语音存在概率。
3.根据权利要求2所述的方法,其特征在于,通过所述第帧语音的噪声协方差矩阵的估计、带噪语音协方差矩阵的估计,得到纯净语音协方差矩阵的估计,包括:
将所述第帧语音的噪声协方差矩阵的估计与所述带噪语音协方差矩阵的估计的差确定为所述纯净语音协方差矩阵的估计。
4.根据权利要求2所述的方法,其特征在于,通过所述第帧语音的噪声协方差矩阵的估计、所述纯净语音协方差矩阵的估计,得到中间参数,包括:
通过以下公式得到所述中间参数:
其中,为第/>帧语音,/>是第/>帧语音的噪声协方差矩阵的估计,是所述纯净语音协方差矩阵的估计,/>是所述中间参数,/>是的转置,/>是/>的求逆。
5.根据权利要求2所述的方法,其特征在于,通过所述先验信噪比、所述中间参数得到所述第帧语音的语音存在概率,包括:
通过以下公式得到所述第帧语音的语音存在概率:
其中,是在/>频点第/>帧语音的先验信噪比,/>是所述中间参数,是第/>帧语音的语音存在概率,exp是指数函数。
6.根据权利要求1所述的方法,其特征在于,通过所述第帧语音的噪声协方差矩阵的估计、带噪语音协方差矩阵的估计,得到先验信噪比,包括:
通过以下公式得到所述先验信噪比:
其中,是频点,/>是在/>频点第/>帧语音的先验信噪比,/>是第/>帧语音的噪声协方差矩阵的估计,/>是第/>帧语音的带噪语音协方差矩阵的估计,/>是麦克风数目,tr是矩阵的迹。
7.根据权利要求1至6中任一项所述的方法,其特征在于,获取第帧语音的噪声协方差矩阵的估计和带噪语音协方差矩阵的估计,包括:
在的情况下,通过以下公式得到所述第/>帧语音的噪声协方差矩阵/>,/>是大于或等于1的整数:
是在/>频点第i帧语音,/>是预设的递归因子,/>是/>的转置;
通过以下公式得到所述第帧语音的带噪语音协方差矩阵的估计/>:
其中,是麦克风数目。
8.根据权利要求1至6中任一项所述的方法,其特征在于,获取第帧语音的噪声协方差矩阵的估计和带噪语音协方差矩阵的估计,还包括:
在的情况下,通过以下公式得到所述第/>帧的噪声协方差矩阵/>:
通过以下公式得到所述第帧的带噪语音协方差矩阵/>:
其中,是所述第/>帧语音的递归估计,/>是噪声概率和的递归估计,/>是预设的递归因子,/>是第/>帧语音的带噪语音协方差矩阵的估计,/>是第/>帧语音的语音存在概率,/>是在/>频点第/>帧语音,/>是/>的转置。
9.根据权利要求8所述的方法,其特征在于,所述方法还包括:
通过以下公式得到所述第帧语音的递归估计和所述噪声概率和的递归估计:
在的情况下,/>
在的情况下,/>
其中,是预设的递归因子,/>是第i帧语音的语音存在概率。
10.一种语音存在概率的估计装置,其特征在于,包括:
第一获取模块,用于获取第帧语音的噪声协方差矩阵的估计和带噪语音协方差矩阵的估计,其中,/>是大于1的整数;
第一处理模块,用于通过所述第帧语音的噪声协方差矩阵的估计、所述带噪语音协方差矩阵的估计,得到先验信噪比;
第二处理模块,用于通过所述第帧语音的噪声协方差矩阵的估计、带噪语音协方差矩阵的估计,以及所述先验信噪比对第/>帧语音的语音存在概率进行估计。
11.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,其中,所述计算机程序被处理器执行时实现所述权利要求1至9任一项中所述的方法的步骤。
12.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至9任一项中所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311537173.2A CN117275528B (zh) | 2023-11-17 | 2023-11-17 | 语音存在概率的估计方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311537173.2A CN117275528B (zh) | 2023-11-17 | 2023-11-17 | 语音存在概率的估计方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117275528A true CN117275528A (zh) | 2023-12-22 |
CN117275528B CN117275528B (zh) | 2024-03-01 |
Family
ID=89208402
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311537173.2A Active CN117275528B (zh) | 2023-11-17 | 2023-11-17 | 语音存在概率的估计方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117275528B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102938254A (zh) * | 2012-10-24 | 2013-02-20 | 中国科学技术大学 | 一种语音信号增强系统和方法 |
US20150310857A1 (en) * | 2012-09-03 | 2015-10-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for providing an informed multichannel speech presence probability estimation |
DE102014221765A1 (de) * | 2014-10-27 | 2016-04-28 | Continental Automotive Systems, Inc. | Auf extern bestimmtem SNR basierte Modifizierer für interne MMSE-Berechnungen |
CN106997768A (zh) * | 2016-01-25 | 2017-08-01 | 电信科学技术研究院 | 一种语音出现概率的计算方法、装置及电子设备 |
US20180350379A1 (en) * | 2017-06-02 | 2018-12-06 | Apple Inc. | Multi-Channel Speech Signal Enhancement for Robust Voice Trigger Detection and Automatic Speech Recognition |
CN110335619A (zh) * | 2019-04-30 | 2019-10-15 | 同方电子科技有限公司 | 一种基于机通平台的语音增强算法 |
CN113689870A (zh) * | 2021-07-26 | 2021-11-23 | 浙江大华技术股份有限公司 | 一种多通道语音增强方法及其装置、终端、可读存储介质 |
CN116052702A (zh) * | 2022-12-21 | 2023-05-02 | 福建星网智慧软件有限公司 | 一种基于卡尔曼滤波的低复杂度多通道去混响降噪方法 |
CN116508328A (zh) * | 2021-10-11 | 2023-07-28 | 深圳市韶音科技有限公司 | 语音存在概率计算方法、系统、语音增强方法、系统以及耳机 |
-
2023
- 2023-11-17 CN CN202311537173.2A patent/CN117275528B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150310857A1 (en) * | 2012-09-03 | 2015-10-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for providing an informed multichannel speech presence probability estimation |
CN102938254A (zh) * | 2012-10-24 | 2013-02-20 | 中国科学技术大学 | 一种语音信号增强系统和方法 |
DE102014221765A1 (de) * | 2014-10-27 | 2016-04-28 | Continental Automotive Systems, Inc. | Auf extern bestimmtem SNR basierte Modifizierer für interne MMSE-Berechnungen |
CN106997768A (zh) * | 2016-01-25 | 2017-08-01 | 电信科学技术研究院 | 一种语音出现概率的计算方法、装置及电子设备 |
US20220301582A1 (en) * | 2016-01-25 | 2022-09-22 | China Academy Of Telecommunications Technology | Method and apparatus for determining speech presence probability and electronic device |
US20180350379A1 (en) * | 2017-06-02 | 2018-12-06 | Apple Inc. | Multi-Channel Speech Signal Enhancement for Robust Voice Trigger Detection and Automatic Speech Recognition |
CN110335619A (zh) * | 2019-04-30 | 2019-10-15 | 同方电子科技有限公司 | 一种基于机通平台的语音增强算法 |
CN113689870A (zh) * | 2021-07-26 | 2021-11-23 | 浙江大华技术股份有限公司 | 一种多通道语音增强方法及其装置、终端、可读存储介质 |
CN116508328A (zh) * | 2021-10-11 | 2023-07-28 | 深圳市韶音科技有限公司 | 语音存在概率计算方法、系统、语音增强方法、系统以及耳机 |
CN116052702A (zh) * | 2022-12-21 | 2023-05-02 | 福建星网智慧软件有限公司 | 一种基于卡尔曼滤波的低复杂度多通道去混响降噪方法 |
Non-Patent Citations (4)
Title |
---|
HAJAR MOMENI ET AL: "Single-Channel Speech Presence Probability Estimation Using Inter-Frame And Inter-Band Correlations", IEEE * |
MEHREZ SOUDEN ET AL: "Gaussian Model-Based Multichannel Speech Presence Probability", IEEE * |
吴北平;李辉;戴蓓倩;陆伟;: "基于子空间域噪声特征值估计的语音增强方法", 信号处理, no. 03, 25 March 2009 (2009-03-25) * |
庞亮;刘双东;: "基于语音存在概率的噪声功率谱估计改进算法", 电声技术, no. 02 * |
Also Published As
Publication number | Publication date |
---|---|
CN117275528B (zh) | 2024-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Knerr et al. | Slot-wise maximum likelihood estimation of the tag population size in FSA protocols | |
EP3540653A1 (en) | Data processing system and method | |
US9804999B2 (en) | Signal/noise separation using FrFT rotational parameter obtained in relation to Wigner Distribution | |
WO2021128670A1 (zh) | 降低噪声的方法、装置、电子设备及可读存储介质 | |
CN111628946B (zh) | 一种信道估计的方法以及接收设备 | |
CN112529854B (zh) | 一种噪声估计方法、装置、存储介质及设备 | |
CN109951804B (zh) | 一种人流量估计方法及装置 | |
Lienart et al. | Expectation particle belief propagation | |
Jiang et al. | Efficient noise-level estimation based on principal image texture | |
Di Lorenzo et al. | Distributed recursive least squares strategies for adaptive reconstruction of graph signals | |
CN110287446A (zh) | 一种快速二维多元经验模态分解算法 | |
CN117275528B (zh) | 语音存在概率的估计方法及装置 | |
Chen et al. | Stationary-wavelet-based despeckling of SAR images using two-sided generalized gamma models | |
US20240005940A1 (en) | Echo cancellation method and apparatus, device, and storage medium | |
US11417351B2 (en) | Multi-channel echo cancellation with scenario memory | |
CN110580483A (zh) | 一种室内外用户区分方法及装置 | |
CN112037141A (zh) | 图像去噪方法、装置、存储介质及电子设备 | |
CN115116471B (zh) | 音频信号处理方法和装置、训练方法、设备及介质 | |
Sheta | Restoration of medical images using genetic algorithms | |
CN116110418A (zh) | 音频降噪方法和装置、存储介质及电子装置 | |
CN115984742A (zh) | 视频选帧模型的训练方法、视频处理方法及装置 | |
CN110473210B (zh) | 基于置信度传播的图像分割方法和装置 | |
CN113591999B (zh) | 一种端边云联邦学习模型训练系统及方法 | |
US9973174B2 (en) | Method and apparatus for determining stability factor of adaptive filter | |
CN116090540A (zh) | 网络模型压缩方法、装置、设备和可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |