CN116964667A - 语音活动检测方法、系统、语音增强方法以及系统 - Google Patents
语音活动检测方法、系统、语音增强方法以及系统 Download PDFInfo
- Publication number
- CN116964667A CN116964667A CN202180095487.4A CN202180095487A CN116964667A CN 116964667 A CN116964667 A CN 116964667A CN 202180095487 A CN202180095487 A CN 202180095487A CN 116964667 A CN116964667 A CN 116964667A
- Authority
- CN
- China
- Prior art keywords
- model
- signal
- microphone
- covariance matrix
- microphone signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000694 effects Effects 0.000 title claims abstract description 80
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000001514 detection method Methods 0.000 title claims abstract description 72
- 239000011159 matrix material Substances 0.000 claims abstract description 124
- 238000005457 optimization Methods 0.000 claims abstract description 30
- 238000000551 statistical hypothesis test Methods 0.000 claims abstract description 11
- 238000012360 testing method Methods 0.000 claims description 38
- 238000003860 storage Methods 0.000 claims description 26
- 238000009826 distribution Methods 0.000 claims description 20
- 230000005236 sound signal Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 description 48
- 238000004891 communication Methods 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 12
- 238000003491 array Methods 0.000 description 10
- 210000000988 bone and bone Anatomy 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 8
- 230000008707 rearrangement Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 238000013500 data storage Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 239000011295 pitch Substances 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000001179 sorption measurement Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000000546 chi-square test Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000013499 data model Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000009434 installation Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 238000001134 F-test Methods 0.000 description 1
- 238000003657 Likelihood-ratio test Methods 0.000 description 1
- 238000000692 Student's t-test Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000002146 bilateral effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004138 cluster model Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 239000007769 metal material Substances 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012353 t test Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0264—Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Probability & Statistics with Applications (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本说明书提供的语音活动检测方法、系统、语音增强方法以及系统中,麦克风阵列输出的麦克风信号满足噪声信号对应的第一模型或目标语音信号与所述噪声信号混合对应的第二模型。所述方法和系统可以以似然函数最大化以及噪声协方差矩阵的秩最小化为联合优化目标,分别对第一模型以及第二模型进行优化,确定所述第一模型的噪声协方差矩阵的第一估计值以及第二模型的噪声协方差矩阵的第二估计值,并通过统计假设检验的方法判断麦克风信号满足第一模型还是第二模型,从而确定麦克风信号中是否存在目标语音信号,并确定麦克风信号的噪声协方差矩阵,进而对麦克风信号进行语音增强。所述方法和系统可以使噪声协方差估计精度,进而提高语音增强效果。
Description
本说明书涉及目标语音信号处理技术领域,尤其涉及一种语音活动检测方法、系统、语音增强方法以及系统。
在基于波束成形算法的语音增强技术中,特别是最小方差无失真响应(Minimum Variance Distortionless Response,简称MVDR)的自适应波束形成算法中,怎么求解描述不同麦克风之间噪声统计特性关系的参量——噪声协方差矩阵至关重要。现有技术中的主要方法是基于语音存在概率的方法计算噪声协方差矩阵,比如通过语音活动检测方法(Voice Activity Detection,简称VAD)估计语音存在概率,进而计算噪声协方差矩阵。但是现有技术中的语音存在概率估计准确率不够,导致噪声协方差矩阵估计精度较低,进而导致MVDR算法的语音增强效果较差。尤其当麦克风数目较少,比如小于5个时,效果急剧下降。因此,现有技术中的MVDR算法多用于手机、智能音箱等麦克风数量多且间距大的麦克风阵列设备中,而对于耳机这种麦克风数量少且间距小的设备语音增强效果较差。
因此,需要提供一种精度更高的语音活动检测方法、系统、语音增强方法以及系统。
发明内容
本说明书提供一种精度更高的语音活动检测方法、系统、语音增强方 法以及系统。
第一方面,本说明书提供一种语音活动检测方法,用于呈预设阵列形状分布的M个麦克风,所述M为大于1的整数,包括:获取所述M个麦克风输出的麦克风信号,所述麦克风信号满足不存在目标语音信号对应的第一模型或存在目标语音信号对应的第二模型;以似然函数最大化以及噪声协方差矩阵的秩最小化为联合优化目标,分别对所述第一模型以及所述第二模型进行优化,确定所述第一模型的噪声协方差矩阵的第一估计值以及所述第二模型的噪声协方差矩阵的第二估计值;以及基于统计假设检验,确定所述麦克风信号对应的目标模型以及噪声协方差矩阵,所述目标模型包括所述第一模型和所述第二模型中的一个,所述麦克风信号的噪声协方差矩阵为所述目标模型的噪声协方差矩阵。
在一些实施例中,所述麦克风信号包括K帧连续的音频信号,所述K为大于1的正整数,所述麦克风信号包括M×K的数据矩阵。
在一些实施例中,所述麦克风信号为完整观测信号或非完整观测信号,所述完整观测信号中所述M×K的数据矩阵中的所有数据完整,所述非完整观测信号中所述M×K的数据矩阵中的部分数据缺失,当所述麦克风信号为所述非完整观测信号时,所述获取所述M个麦克风输出的麦克风信号,包括:获取所述非完整观测信号;基于所述M×K的数据矩阵中的每一列中的数据缺失位置,对所述麦克风信号进行行列置换,并将所述麦克风信号划分为至少一个子麦克风信号,所述麦克风信号包括所述至少一个子麦克风信号。
在一些实施例中,所述以似然函数最大化以及噪声协方差矩阵的秩最小化为联合优化目标,分别对所述第一模型以及所述第二模型进行优化,包括:以所述麦克风信号为样本数据,建立所述第一模型对应的第一似然函数,所述似然函数包括所述第一似然函数;以所述第一似然函数最大化以及所述第一模型的噪声协方差矩阵的秩最小化为优化目标,对所述第一 模型进行优化,确定所述第一估计值;以所述麦克风信号为样本数据,建立所述第二模型的第二似然函数,所述似然函数包括所述第二似然函数;以及以所述第二似然函数最大化以及所述第二模型的噪声协方差矩阵的秩最小化为优化目标,对所述第二模型进行优化,确定所述第二估计值以及所述目标语音信号的幅度估计值。
在一些实施例中,所述麦克风信号包括噪声信号,所述噪声信号服从高斯分布,所述噪声信号至少包括:有色噪声信号,服从零均值的高斯分布,其对应的噪声协方差矩阵为低秩半正定矩阵。
在一些实施例中,所述基于统计假设检验,确定所述麦克风信号对应的目标模型以及噪声协方差矩阵,包括:基于所述麦克风信号,建立二元假设检验模型,其中,所述二元假设检验模型的原假设包括所述麦克风信号满足所述第一模型,所述二元假设检验模型的备择假设包括所述麦克风信号满足所述第二模型;将所述第一估计值、所述第二估计值以及所述幅度估计值代入所述二元假设检验模型的检测器的判决准则中,获取检验统计量;以及基于所述检验统计量判断所述麦克风信号的所述目标模型。
在一些实施例中,所述基于所述检验统计量判断所述麦克风信号的所述目标模型,包括:确定所述检验统计量大于所述预设的判决门限,判定所述麦克风信号中存在所述目标语音信号,确定所述目标模型为所述第二模型,所述麦克风信号的噪声协方差矩阵为所述第二估计值;或者确定所述检验统计量小于所述预设的判决门限,判定所述麦克风信号中不存在所述目标语音信号,确定所述目标模型为所述第一模型,所述麦克风信号的噪声协方差矩阵为所述第一估计值。
在一些实施例中,所述检测器包括GLRT检测器、Rao检验器以及Wald检验器中的至少一种。
第二方面,本说明书还提供一种语音活动检测系统,包括至少一个存储介质以及至少一个处理器,所述至少一个存储介质存储有至少一个指令 集用于语音活动检测;所述至少一个处理器同所述至少一个存储介质通信连接,其中当所述语音活动检测系统运行时,所述至少一个处理器读取所述至少一个指令集并实施本说明书第一方面所述的语音活动检测方法。
第三方面,本说明书还提供一种语音增强方法,用于呈预设阵列形状分布的M个麦克风,所述M为大于1的整数,包括:获取所述M个麦克风输出的麦克风信号;基于权利要求1-8中任一项所述的语音活动检测方法,确定所述麦克风信号的所述目标模型以及所述麦克风信号的噪声协方差矩阵,所述麦克风信号的噪声协方差矩阵,为所述目标模型的噪声协方差矩阵;基于MVDR方法以及所述麦克风信号的噪声协方差矩阵,确定所述麦克风信号对应的滤波系数;以及基于所述滤波系数对所述麦克风信号进行合并,输出目标音频信号。
第四方面,本说明书还提供一种语音增强系统,包括至少一个存储介质以及至少一个处理器,所述至少一个存储介质存储有至少一个指令集用于进行语音增强;所述至少一个处理器同所述至少一个存储介质通信连接,其中当所述语音增强系统运行时,所述至少一个处理器读取所述至少一个指令集并实施本说明书第三方面所述的语音增强方法。
由以上技术方案可知,本说明书提供的语音活动检测方法、系统、语音增强方法以及系统,用于由多个麦克风组成的麦克风阵列。其中,所述麦克风阵列输出的麦克风信号满足噪声信号对应的第一模型或目标语音信号与所述噪声信号混合对应的第二模型。为了获取所述麦克风信号中是否存在目标语音信号,所述方法和系统可以以似然函数最大化以及噪声协方差矩阵的秩最小化为联合优化目标,分别对第一模型以及第二模型进行优化,确定所述第一模型的噪声协方差矩阵的第一估计值以及第二模型的噪声协方差矩阵的第二估计值,并通过统计假设检验的方法判断麦克风信号满足第一模型还是第二模型,从而确定麦克风信号中是否存在目标语音信号,并确定麦克风信号的噪声协方差矩阵,进而基于MVDR方法对麦克风 信号进行语音增强。所述方法和系统可以使噪声协方差估计精度,进而提高语音增强效果。
本说明书提供的语音活动检测方法、系统、语音增强方法以及系统的其他功能将在以下说明中部分列出。根据描述,以下数字和示例介绍的内容将对那些本领域的普通技术人员显而易见。本说明书提供的语音活动检测方法、系统、语音增强方法以及系统的创造性方面可以通过实践或使用下面详细示例中所述的方法、装置和组合得到充分解释。
为了更清楚地说明本说明书实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本说明书的实施例提供的一种语音活动检测系统的硬件示意图;
图2A示出了根据本说明书的实施例提供的一种电子设备的爆炸结构示意图;
图2B示出了根据本说明书的实施例提供的一种第一壳体的主视图;
图2C示出了根据本说明书的实施例提供的一种第一壳体的俯视图;
图2D示出了根据本说明书的实施例提供的一种第二壳体的主视图;
图2E示出了根据本说明书的实施例提供的一种第二壳体的仰视图;
图3示出了根据本说明书的实施例提供的一种语音活动检测方法的流程图;
图4示出了根据本说明书的实施例提供的一种完整观测信号的示意图;
图5A示出了根据本说明书的实施例提供的一种非完整观测信号的示意图;
图5B示出了根据本说明书的实施例提供的一种非完整观测信号重新排布的示意图;
图5C示出了根据本说明书的实施例提供的一种非完整观测信号重新排布的示意图;
图6示出了根据本说明书的实施例提供的一种迭代优化的流程图;
图7示出了根据本说明书的实施例提供的一种确定目标模型的流程图;以及
图8示出了根据本说明书的实施例提供的一种语音增强方法的流程图。
以下描述提供了本说明书的特定应用场景和要求,目的是使本领域技术人员能够制造和使用本说明书中的内容。对于本领域技术人员来说,对所公开的实施例的各种局部修改是显而易见的,并且在不脱离本说明书的精神和范围的情况下,可以将这里定义的一般原理应用于其他实施例和应用。因此,本说明书不限于所示的实施例,而是与权利要求一致的最宽范围。
这里使用的术语仅用于描述特定示例实施例的目的,而不是限制性的。比如,除非上下文另有明确说明,这里所使用的,单数形式“一”,“一个”和“该”也可以包括复数形式。当在本说明书中使用时,术语“包括”、“包含”和/或“含有”意思是指所关联的整数,步骤、操作、元素和/或组件存在,但不排除一个或多个其他特征、整数、步骤、操作、元素、组件和/或组的存在或在该系统/方法中可以添加其他特征、整数、步骤、操作、元素、组件和/或组。
考虑到以下描述,本说明书的这些特征和其他特征、以及结构的相关元件的操作和功能、以及部件的组合和制造的经济性可以得到明显提高。参考附图,所有这些形成本说明书的一部分。然而,应该清楚地理解,附图仅用于说明和描述的目的,并不旨在限制本说明书的范围。还应理解,附图未按比例绘制。
本说明书中使用的流程图示出了根据本说明书中的一些实施例的系统实现的操作。应该清楚地理解,流程图的操作可以不按顺序实现。相反,操作可以以反转顺序或同时实现。此外,可以向流程图添加一个或多个其他操作。可以从流程图中移除一个或多个操作。
为了方便描述,首先对说明书中将要出现的术语进行如下解释:
统计假设检验:是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体做法是:根据问题的需要对所研究的总体作某种假设,记作原假设H
0;选取合适的统计量,这个统计量的选取要使得在原假设H
0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受原假设H
0的判断。常用的统计假设检验方法有u-检验法、t检验法、χ2检验法(卡方检验)、F-检验法,秩和检验等。
最小方差无失真响应(Minimum Variance Distortionless Response,简称MVDR):是一种基于最大信干噪比(SINR)准则的自适应波束形成算法,MVDR算法可以自适应的使阵列输出在期望方向上的功率最小同时信干噪比最大。其目标是最小化记录信号的方差。如果噪声信号和期望信号不相关,那么记录信号的方差是期望信号和噪声信号的方差之和。因此,MVDR解决方案寻求最小化该总和,从而减轻噪声信号的影响。其原理是在期望信号无失真的约束条件下,选择合适的滤波器系数,使得阵列输出的平均功率最小化。
语音活动检测:在目标语音信号中分割出说话语音时段和不说话时段的处理过程。
高斯分布:正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。若随机变量X服从一个数学期望为μ、方差为σ
2的正态分布,记为N(μ,σ
2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ=0,σ=1时的正态分布是标准正态分布。
图1示出了根据本说明书的实施例提供的一种语音活动检测系统的硬件示意图。语音活动检测系统可以应用于电子设备200。
在一些实施例中,电子设备200可以是无线耳机、有线耳机、智能穿戴式设备,比如,智能眼镜、智能头盔或者智能腕表等具有音频处理功能的设备。电子设备200也可以是移动设备、平板电脑、笔记本电脑、机动车内置装置或类似内容,或其任意组合。在一些实施例中,移动设备可包括智能家居设备、智能移动设备或类似设备,或其任意组合。比如,所述智能移动设备可包括手机、个人数字辅助、游戏设备、导航设备、超级移动个人计算机(Ultra-mobile Personal Computer,UMPC)等,或其任意组合。在一些实施例中,所述智能家居装置可包括智能电视、台式电脑等,或任意组合。在一些实施例中,机动车中的内置装置可包括车载计算机、车载电视等。
在本说明书中,我们以电子设备200为耳机为例进行描述。所述耳机可以是无线耳机,也可以是有线耳机。如图1所示,电子设备200可以包括麦克风阵列220以及计算装置240。
麦克风阵列220可以是电子设备200的音频采集设备。麦克风阵列220可以被配置为获取本地音频,并输出麦克风信号,也就是携带了音频信息 的电子信号。麦克风阵列220可以包括呈预设阵列形状分布的M个麦克风222。其中,所述M为大于1的整数。M个麦克风222可以均匀分布,也可以非均匀分布。M个麦克风222可以输出麦克风信号。M个麦克风222可以输出M个麦克风信号。每个麦克风222对应一个麦克风信号。所述M个麦克风信号统称为所述麦克风信号。在一些实施例中,M个麦克风222可以呈线性分布。在一些实施例中,M个麦克风222也可以呈其他形状的阵列分布,比如,圆形阵列,矩形阵列等等。为了方便描述,下面的描述中我们将以M个麦克风222呈线性分布为例进行描述。在一些实施例中啊,M可以是大于1的任意整数,比如,2,3,4,5,甚至更多,等等。在一些实施例中,由于空间限制,M可以是大于1且不大于5的整数,比如在耳机等产品中。当电子设备200为耳机时,M个麦克风222中相邻麦克风222的间距可以在20mm~40mm之间。在一些实施例中,相邻麦克风222的间距可以更小,比如在10mm~20mm之间。
在一些实施例中,麦克风222可以是直接采集人体振动信号的骨传导麦克风。骨传导麦克风可以包括振动传感器,比如光学振动传感器、加速度传感器等。所述振动传感器可以采集机械振动信号(比如,由用户说话时皮肤或骨骼产生的振动产生的信号),并将该机械振动信号转换成电信号。这里所说的机械振动信号主要指经由固体传播的振动。骨传导麦克风通过所述振动传感器或与所述振动传感器连接的振动部件与用户的皮肤或骨骼进行接触,从而采集用户在发出声音时骨骼或皮肤产生的振动信号,并将振动信号转换为电信号。在一些实施例中,所述振动传感器可以是对机械振动敏感而对空气振动不敏感的装置(即所述振动传感器对于机械振动的响应能力超过所述振动传感器对于空气振动的响应能力)。由于骨传导麦克风能够直接拾取发声部位的振动信号,骨传导麦克风能降低环境噪声的影响。
在一些实施例中,麦克风222也可以是直接采集空气振动信号的气传 导麦克风。气传导麦克风通过采集用户在发出声音时引起的空气振动信号,并将空气振动信号转化为电信号。
在一些实施例中,M个麦克风220可以是M个骨传导麦克风。在一些实施例中,M个麦克风220也可以是M个气传导麦克风。在一些实施例中,M个麦克风220既可以包括骨传导麦克风,也可以包括气传导麦克风。当然,麦克风222也可以是其他类型的麦克风。比如光学麦克风,接收肌电信号的麦克风,等等。
计算装置240可以与麦克风阵列220通信连接。所述通信连接是指能够直接地或者间接地接收信息的任何形式的连接。在一些实施例中,计算装置240可以同麦克风阵列220通过无线通信连接来彼此传递数据;在一些实施例中,计算装置240也可以同麦克风阵列220通过电线直接连接来彼此传递数据;在一些实施例中,计算装置240也可以通过电线同其他电路直接连接来建立同麦克风阵列220的间接连接,从而实现彼此传递数据。在本说明书中将以计算装置240同麦克风阵列220电线直接连接为例进行描述。
计算装置240可以是具有数据信息处理功能的硬件设备。在一些实施例中,语音活动检测系统可以包括计算装置240。在一些实施例中,语音活动检测系统可以应用于计算装置240。即语音活动检测系统可以在计算装置240上运行。语音活动检测系统可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的程序。当然,语音活动检测系统也可以仅为具有数据处理能力的硬件设备,或者,仅为运行在硬件设备中的程序。
语音活动检测系统可以存储有执行本说明书描述的语音活动检测方法的数据或指令,并可以执行所述数据和/或指令。当语音活动检测系统在计算装置240上运行时,语音活动检测系统可以基于所述通信连接从麦克风阵列220中获取所述麦克风信号,并执行本说明书描述的语音活动检测方法的数据或指令,计算所述麦克风信号中是否存在目标语音信号。所述语 音活动检测方法在本说明书中的其他部分介绍。比如,在图3至图8的描述中介绍了所述语音活动检测方法。
如图1所示,计算装置240可以包括至少一个存储介质243和至少一个处理器242。在一些实施例中,电子设备200还可以包括通信端口245和内部通信总线241。
内部通信总线241可以连接不同的系统组件,包括存储介质243、处理器242和通信端口245。
通信端口245可以用于计算装置240同外界的数据通信。比如,计算装置240可以通过通信端口245从麦克风阵列220中获取所述麦克风信号。
至少一个存储介质243可以包括数据存储装置。所述数据存储装置可以是非暂时性存储介质,也可以是暂时性存储介质。比如,所述数据存储装置可以包括磁盘、只读存储介质(ROM)或随机存取存储介质(RAM)中的一种或多种。当语音活动检测系统可以在计算装置240上运行时,存储介质243还可以包括存储在所述数据存储装置中的至少一个指令集,用于对所述麦克风信号进行语音活动检测。所述指令是计算机程序代码,所述计算机程序代码可以包括执行本说明书提供的语音活动检测方法的程序、例程、对象、组件、数据结构、过程、模块等等。
至少一个处理器242可以同至少一个存储介质243通过内部通信总线241通信连接。所述通信连接是指能够直接地或者间接地接收信息的任何形式的连接。至少一个处理器242用以执行上述至少一个指令集。当语音活动检测系统可以在计算装置240上运行时,至少一个处理器242读取所述至少一个指令集,并且根据所述至少一个指令集的指示执行本说明书提供的语音活动检测方法。处理器242可以执行语音活动检测方法包含的所有步骤。处理器242可以是一个或多个处理器的形式,在一些实施例中,处理器242可以包括一个或多个硬件处理器,例如微控制器,微处理器,精 简指令集计算机(RISC),专用集成电路(ASIC),特定于应用的指令集处理器(ASIP),中央处理单元(CPU),图形处理单元(GPU),物理处理单元(PPU),微控制器单元,数字信号处理器(DSP),现场可编程门阵列(FPGA),高级RISC机器(ARM),可编程逻辑器件(PLD),能够执行一个或多个功能的任何电路或处理器等,或其任何组合。仅仅为了说明问题,在本说明书中计算装置240中仅描述了一个处理器242。然而,应当注意,本说明书中计算装置240还可以包括多个处理器242,因此,本说明书中披露的操作和/或方法步骤可以如本说明书所述的由一个处理器执行,也可以由多个处理器联合执行。例如,如果在本说明书中计算装置240的处理器242执行步骤A和步骤B,则应该理解,步骤A和步骤B也可以由两个不同处理器242联合或分开执行(例如,第一处理器执行步骤A,第二处理器执行步骤B,或者第一和第二处理器共同执行步骤A和B)。
图2A示出了根据本说明书的实施例提供的一种电子设备200的爆炸结构示意图。如图2A所示,电子设备200可以包括麦克风阵列220、计算装置240、第一壳体260以及第二壳体280。
第一壳体260可以是麦克风阵列220的安装基体。麦克风阵列220可以安装在第一壳体260内部。第一壳体260的形状可以根据麦克风阵列220的分布形状做适应性设计,本说明书对此不做过多限定。第二壳体280可以是计算装置240的安装基体。计算装置240可以安装在第二壳体280的内部。第二壳体280的形状可以根据计算装置240的形状做适应性设计,本说明书对此不做过多限定。当电子设备200为耳机时,第二壳体280可以与穿戴部位连接。第二壳体280可以与第一壳体260连接。如前所述,麦克风阵列220可以与计算装置240电连接。具体地,麦克风阵列220可以与计算装置240通过第一壳体260和第二壳体280的连接实现电连接。
在一些实施例中,第一壳体260可以与第二壳体280固定连接,比如, 一体成型、焊接、铆接、粘接,等等。在一些实施例中,第一壳体260可以与第二壳体280可拆卸连接。计算装置240可以与不同的麦克风阵列220通信连接。具体地,不同的麦克风阵列220可以是麦克风阵列220中的麦克风222的数量不同、阵列形状不同、麦克风222间距不同、麦克风阵列220在第一壳体260中的安装角度不同,麦克风阵列220在第一壳体260中的安装位置不同等等。使用者可以根据应用场景的不同,更换对应的麦克风阵列220,以使电子设备200适用于更广泛的场景。比如,当应用场景中使用者与电子设备200的距离较近时,使用者可以更换为间距更小的麦克风阵列220。再比如,当应用场景中使用者与电子设备200的距离较近时,使用者可以更换为间距更大、数量更多的麦克风阵列220,等等。
所述可拆卸连接可以是任意形式的物理连接,比如,螺纹连接、卡扣连接、磁吸连接,等等。在一些实施例中,第一壳体260与第二壳体280之间可以是磁吸连接。即第一壳体260与第二壳体280之间通过磁性装置的吸附力进行可拆卸连接。
图2B示出了根据本说明书的实施例提供的一种第一壳体260的主视图;图2C示出了根据本说明书的实施例提供的一种第一壳体260的俯视图。如图2B和图2C所示,第一壳体260可以包括第一接口262。在一些实施例中,第一壳体260还可以包括触点266。在一些实施例中,第一壳体260还可以包括角度传感器(图2B和图2C中未示出)。
第一接口262可以是第一壳体260与第二壳体280的安装接口。在一些实施例中,第一接口262可以是圆形。第一接口262可以与第二壳体280转动连接。当第一壳体260安装在第二壳体280上时,第一壳体260可以相对于第二壳体280转动,调整第一壳体260相对于第二壳体280的角度,从而调整麦克风阵列220的角度。
第一接口262上可以设置有第一磁性装置263。第一磁性装置263可以 设置在第一接口262靠近第二壳体280的位置。第一磁性装置263可以产生磁性吸附力,从而实现与第二壳体280的可拆卸连接。当第一壳体260靠近第二壳体260时,通过所述吸附力,使第一壳体260与第二壳体280快速连接。在一些实施例中,在第一壳体260与第二壳体280连接后,第一壳体260还可以相对于第二壳体280转动,以调整麦克风阵列220的角度。在所述吸附力的作用下,在第一壳体260相对于第二壳体280转动时,依然可以保持第一壳体260与第二壳体280的连接。
在一些实施例中,第一接口262上还可以设置有第一定位装置(图2B和图2C中未示出)。所述第一定位装置可以是向外凸起的定位台阶,也可以是向内延伸的定位孔。所述第一定位装置可以与第二壳体280配合,以实现第一壳体260与第二壳体280的快速安装。
如图2B和图2C所示,在一些实施例中,第一壳体260还可以包括触点266。触点266可以安装在第一接口262处。触点266可以从第一接口262处向外突出。触点266可以与第一接口262弹性连接。触点266可以与麦克风阵列220中的M个麦克风222通信连接。触点266可以由具有弹性的金属制成,以实现数据传输。当第一壳体260与第二壳体280连接时,麦克风阵列220可以通过触点266与计算装置240实现通信连接。在一些实施例中,触点266可以呈圆形分布。在第一壳体260与第二壳体280连接后,第一壳体260相对于第二壳体280转动时,触点266也可以相对于第二壳体280转动,并保持与计算装置240的通信连接。
在一些实施例中,第一壳体260上还可以设置有角度传感器(图2B和图2C中未示出)。所述角度传感器可以与触点266通信连接,从而实现与计算装置240的通信连接。所述角度传感器可以采集第一壳体260的角度数据,从而确定麦克风阵列220所处的角度,为后续的语音存在概率的计算提供参考数据。
图2D示出了根据本说明书的实施例提供的一种第二壳体280的主视图;图2E示出了根据本说明书的实施例提供的一种第二壳体280的仰视图。如图2D和图2E所示,第二壳体280可以包括第二接口282。在一些实施例中,第二壳体280还可以包括导轨286。
第二接口282可以是第二壳体280与第一壳体260的安装接口。在一些实施例中,第二接口282可以是圆形。第二接口282可以与第一壳体260的第一接口262转动连接。当第一壳体260安装在第二壳体280上时,第一壳体260可以相对于第二壳体280转动,调整第一壳体260相对于第二壳体280的角度,从而调整麦克风阵列220的角度。
第二接口282上可以设置有第二磁性装置283。第二磁性装置283可以设置在第二接口282靠近第一壳体260的位置。第二磁性装置283可以产生磁性吸附力,从而实现与第一接口262的可拆卸连接。第二磁性装置283可以与第一磁性装置263配合使用。当第一壳体260靠近第二壳体260时,通过第二磁性装置283与第一磁性装置263间的吸附力,使第一壳体260快速安装在第二壳体280上。当第一壳体260安装在第二壳体260上时,第二磁性装置283与第一磁性装置263的位置相对。在一些实施例中,在第一壳体260与第二壳体280连接后,第一壳体260还可以相对于第二壳体280转动,以调整麦克风阵列220的角度。在所述吸附力的作用下,在第一壳体260相对于第二壳体280转动时,依然可以保持第一壳体260与第二壳体280的连接。
在一些实施例中,第二接口282上还可以设置有第二定位装置(图2D和图2E中未示出)。所述第二定位装置可以是向外凸起的定位台阶,也可以是向内延伸的定位孔。所述第二定位装置可以与第一壳体260的第一定位装置配合,以实现第一壳体260与第二壳体280的快速安装。当所述第一定位装置为所述定位台阶时,所述第二定位装置可以是所述定位孔。当 所述第一定位装置为所述定位孔时,所述第二定位装置可以是所述定位台阶。
如图2D和图2E所示,在一些实施例中,第二壳体280还可以包括导轨286。导轨286可以安装在第二接口282处。导轨286可以与计算装置240通信连接。导轨286可以由金属材质制成,以实现数据传输。当第一壳体260与第二壳体280连接时,触点266可以与导轨286接触形成通信连接,从而实现麦克风阵列220与计算装置240的通信连接,以实现数据传输。如前所述,触点266可以与第一接口262弹性连接。因此,在第一可以260与第二壳体280连接后,在所述弹性连接的弹力作用下,可以使触点266与导轨286完全接触,以实现可靠的通信连接。在一些实施例中,导轨286可以呈圆形分布。在第一壳体260与第二壳体280连接后,第一壳体260相对于第二壳体280转动时,触点266也可以相对于导轨286转动,并保持与导轨286的通信连接。
图3示出了根据本说明书的实施例提供的语音活动检测方法P100的流程图。所述方法P100可以计算所述麦克风信号中是否存在目标语音信号。具体地,处理器242可以执行所述方法P100。如图3所示,所述方法P100可以包括:
S120:获取M个麦克风222输出的麦克风信号。
如前所述,每个麦克风222都可以输出对应的麦克风信号。M个麦克风222对应M个麦克风信号。所述方法P100在计算所述麦克风信号中是否存在目标语音信号时,可以基于M个麦克风信号中的所有麦克风信号进行计算,也可以基于部分麦克风信号进行计算。因此,所述麦克风信号可以包括M个麦克风222对应M个麦克风信号或者部分麦克风信号。本说明书后面的描述中将以所述麦克风信号可以包括M个麦克风222对应M个麦克风信号为例进行描述。
在一些实施例中,所述麦克风信号可以是时域信号。在一些实施例中,在步骤S120中,计算装置240可以对所述麦克风信号进行分帧以及加窗处理,以将所述麦克风信号分为多个连续的音频信号。在一些实施例中,在步骤S120中,计算装置240还可以对所述麦克风信号进行时频变换,以得到所述麦克风信号的频域信号。为了方便描述,我们将任一频率点的麦克风信号标记为X。在一些实施例中,所述麦克风信号X可以包括K帧连续的音频信号。所述K为大于1的任意正整数。为了方便描述,我们将第k帧麦克风信号标记为x
k。第k帧麦克风信号x
k可以表示为如下公式:
x
k=[x
1,k,x
2,k,…,x
M,k]
T 公式(1)
第k帧麦克风信号x
k可以是由M个麦克风信号组成的M维的信号矢量。所述麦克风信号X可以表示为M×K的数据矩阵。所述麦克风信号X可以表示为如下公式:
其中,所述麦克风信号X为M×K的数据矩阵。所述数据矩阵中的第m行代表第m个麦克风接收的麦克风信号,第k列代表第k帧的麦克风信号。
如前所述,麦克风222可以采集周围环境中的噪声并输出噪声信号,也可以采集目标用户的语音并输出所述目标语音信号。当目标用户没有发出语音时,所述麦克风信号只包含所述噪声信号。当目标用户发出语音时,所述麦克风信号包含所述目标语音信号与所述噪声信号。第k帧麦克风信号x
k可以表示为以下公式:
x
k=Ps
k+d
k 公式(3)
其中,k=1,2,…,K。d
k为第k帧麦克风信号x
k中的噪声信号。s
k为所述目标语音信号的幅度。P为所述目标语音信号的目标导引矢量。
所述麦克风信号X可以表示为如下公式:
X=[x
1,x
2,…,x
K]=PS+D 公式(4)
其中,S为所述目标语音信号的幅度。S=[s
1,s
2,…,s
K]。D为噪声信号。D=[d
1,d
2,…,d
K]。
噪声信号d
k可以表示为如下公式:
d
k=[d
1,k,d
2,k,…,d
M,k]
T 公式(5)
第k帧麦克风信号x
k中的噪声信号d
k可以是由M个麦克风信号组成的M维的信号矢量。
在一些实施例中,噪声信号d
k至少可以包括有色噪声信号c
k。在一些实施例中,噪声信号d
k还可以包括白噪声信号n
k。噪声信号d
k可以表示为以下公式:
d
k=c
k+n
k 公式(6)
则噪声信号D=C+N。其中,C为有色噪声信号,C=[c
1,c
2,…,c
K]。N为白噪声信号,N=[n
1,n
2,…,n
K]。
计算装置240可利用所述噪声信号d
k的声源空间分布的聚簇(Cluster)特征与麦克风阵列220参数间的统一映射关系,建立参数化聚簇模型,对所述噪声信号d
k的声源进行聚类,从而将所述噪声信号d
k分为色噪声信号c
k和白噪声信号n
k。
在一些实施例中,噪声信号D服从高斯分布。噪声信号d
k~CN(0,M)。M为噪声信号d
k的噪声协方差矩阵。其中,有色噪声信号c
k服从零均值的高斯分布。即c
k~CN(0,M
c)。有色噪声信号c
k对应的噪声协方差矩阵M
c具有低秩特性,为低秩半正定矩阵。白噪声信号n
k也服从零均值的高斯分布。即n
k~CN(0,M
n)。白噪声信号n
k的功率为
即
噪声信号d
k的噪声协方差矩阵M可以表示为以下公式:
噪声信号d
k的噪声协方差矩阵M可以分解为单位矩阵I
n与低秩半正定 矩阵M
c之和。
在一些实施例中,计算装置240中可以预先存储有白噪声信号n
k的功率
在一些实施例中,计算装置240中可以预先估计白噪声信号n
k的功率
比如,计算装置240可以基于最小值跟踪、直方图等方式进行估计白噪声信号n
k的功率
在一些实施例中,计算装置240可以基于所述方法P100估计白噪声信号n
k的功率
s
k为目标语音信号的复幅度。在一些实施例中,麦克风222的周围存在一个目标语音信号源。在一些实施例中,麦克风222周围存在L个目标语音信号源。此时,s
k可以是L×1维的向量。
目标导引矢量P为M×L维的矩阵。目标导引矢量P可以表示为以下公式:
其中,f
0为载频。d为相邻麦克风222之间的距离。c为声速。θ
1、......、θ
N分别是L个目标语音信号源与麦克风222之间的入射角度。在一些实施例中,目标语音信号源s
k的角度通常分布在某一组特定的角度范围内。因此,θ
1、......、θ
N为已知的。计算装置240中预先存储有M个麦克风222的相对位置关系,比如相对距离,或者相对坐标。即计算装置240中预先存储有相邻麦克风222之间的距离d。
图4示出了根据本说明书的实施例提供的一种完整观测信号的示意图。在一些实施例中,所述麦克风信号X为完整观测信号,如图4所示。所述完整观测信号中所述M×K的数据矩阵中的所有数据完整。如图4所示,横向为麦克风信号X的帧号k,纵向为麦克风阵列220中的麦克风信号编号m。第m行代表第m个麦克风222接收的麦克风信号,第k列代表第k帧的麦克风信号。
图5A示出了根据本说明书的实施例提供的一种非完整观测信号的示意图。在一些实施例中,所述麦克风信号X为非完整观测信号,如图5A所示。所述非完整观测信号中所述M×K的数据矩阵中的部分数据缺失。计算装置240可以对所述非完整观测信号进行重新排布。如图5A所示,横向为麦克风信号X的帧号k,纵向为麦克风信号通道编号m。第m行代表第m个麦克风222接收的麦克风信号,第k列代表第k帧的麦克风信号。
当所述麦克风信号X为所述非完整观测信号时,步骤S120还可以包括对所述非完整观测信号进行重新排布。图5B示出了根据本说明书的实施例提供的一种非完整观测信号重新排布的示意图;图5C示出了根据本说明书的实施例提供的一种非完整观测信号重新排布的示意图。计算装置240对所述非完整观测信号进行重新排布时可以是:计算装置240获取所述非完整观测信号;计算装置240基于所述M×K的数据矩阵中的每一列中的数据缺失位置,对所述麦克风信号X进行行列置换,并将所述麦克风信号X划分为至少一个子麦克风信号。所述麦克风信号X包括所述至少一个子麦克风信号。
在所述非完整观测信号中,由于不同的帧号的麦克风信号x
k中的数据缺失位置可能相同,为了减少算法运算量及运算时间,计算装置240可以根据不同帧号的麦克风信号x
k中的数据缺失的位置对K帧麦克风信号X进行分类,将数据缺失位置相同的麦克风信号x
k划分为同一个子麦克风信号,并将麦克风信号X的数据矩阵中的行位置进行置换,使同一个子麦克风信号中的麦克风信号位置相邻,如图5B所示。我们将K帧麦克风信号X划分为至少一个子麦克风信号。为了方便描述,我们将至少一个子麦克风信号的数量定义为G。其中,G为不小于1的正整数。我们将第g个子麦克风信号定义为X
g。其中,g=1,2,…,G。
计算装置240还可以根据每一个子麦克风信号X
g中的数据缺失的位置, 对麦克风信号X进行行置换,使所有子麦克风信号中的数据缺失的位置相邻,如图5C所示。
综上所述,非完整观测信号中,子麦克风信号X
g可以表示为以下公式:
X
g=P
gS
g+D
g 公式(9)
其中,
P
g=Q
gP,S
g=B
gS。矩阵Q
g、B
g是由数据缺失位置决定的由0、1元素构成的矩阵。
麦克风信号X可以表示为以下公式:
X=[X
1,X
2,…,X
G] 公式(10)
为了方便描述,下面的描述中我们将以麦克风信号X为非完整观测信号进行描述。
如前所述,麦克风222既可以采集噪声信号D,也可以采集目标语音信号。当所述麦克风信号X中不存在所述目标语音信号时,所述麦克风信号X满足噪声信号D对应的第一模型。当所述麦克风信号X中存在所述目标语音信号时,所述麦克风信号满足目标语音信号与所述噪声信号D混合对应的第二模型。
为了方便描述我们将第一模型定义为以下公式:
X=D 公式(11)
当麦克风信号X为完整观测信号时,第一模型可以表示为以下公式:
x
k=d
k 公式(12)
当麦克风信号X为非完整观测信号时,第一模型可以表示为以下公式:
X
g=D
g 公式(13)
我们将第二模型定义为以下公式:
X=PS+D 公式(14)
当麦克风信号X为完整观测信号时,第二模型可以表示为以下公式:
x
k=Ps
k+d
k 公式(15)
当麦克风信号X为非完整观测信号时,第二模型可以表示为以下公式:
X
g=P
gS
g+D
g 公式(16)
为了方便展示,下面的描述中我们将以麦克风信号X为非完整观测信号为例进行描述。
如图3所示,所述方法P100还可以包括:
S140:以似然函数最大化以及噪声协方差矩阵的秩最小化为联合优化目标,分别对所述第一模型以及所述第二模型进行优化,确定所述第一模型的噪声协方差矩阵M
1的第一估计值
以及所述第二模型的噪声协方差矩阵M
2的第二估计值
第一模型中存在未知参数噪声信号D的噪声协方差矩阵M。为了方便描述,我们将第一模型中的未知参数噪声信号D的噪声协方差矩阵M定义为M
1。第二模型中存在未知参数噪声信号D的噪声协方差矩阵M以及目标语音信号的幅度S。为了方便描述,我们将第二模型中的未知参数噪声信号D的噪声协方差矩阵M定义为M
2。计算装置240可以基于优化方法分别对第一模型及第二模型进行优化,确定未知参数M
1的第一估计值
M
2的第二估计值
以及目标语音信号的幅度S的估计值
第一方面,计算装置240可以从似然函数的角度触发,以似然函数最大化作为优化目标,分别对所述第一模型和第二模型进行优化设计。另一方面,如前所述,有色噪声信号c
k对应的噪声协方差矩阵M
c具有低秩特性,为低秩半正定矩阵,因此,噪声信号d
k的噪声协方差矩阵M也具有低秩特性。特别是对于非完整观测信号来说,在对非完整观测信号进行重新排布过程中依然需要保持噪声信号d
k的噪声协方差矩阵M的低秩特性。因此,计算装置240可以基于噪声信号d
k的噪声协方差矩阵M的低秩特性,以噪声协方差矩阵M的秩最小化为优化目标,分别对所述第一模型和第二模型进行优化设计。因此,计算装置240可以以似然函数最大化以及噪声协方差矩阵的秩最小化为联合优化目标,分别对所述第一模型以及所述第二模 型进行优化,以确定未知参数M
1的第一估计值
M
2的第二估计值
以及目标语音信号的幅度S的估计值
图6示出了根据本说明书的实施例提供的一种迭代优化的流程图。图6所示的为步骤S140。如图6所示,步骤S140可以包括:
S142:以麦克风信号X为样本数据,建立第一模型对应的第一似然函数L
1(M
1)。
所述似然函数包括所述第一似然函数L
1(M
1)。以根据公式(11)~(13),第一似然函数L
1(M
1)可以表示为以下公式:
其中,公式(17)分别表示完整观测信号和非完整观测信号下的第一似然函数L
1(M
1)。
表示参数M
1的最大似然估计。
和
表示在第一模型下,给定参数
后,麦克风信号X出现的概率。
S144:以第一似然函数L
1(M
1)最大化以及第一模型的噪声协方差矩阵M
1的秩Rank(M
1)最小化为优化目标,对所述第一模型进行优化,确定M
1的第一估计值
第一似然函数L
1(M
1)最大化可以表示为min(-log(L
1(M
1)))。第一模型的噪声协方差矩阵M
1的秩Rank(M
1)最小化可以表示为min(Rank(M
1))。如前所述,我们以白噪声信号n
k的噪声协方差矩阵
已知为例进行描述,根据公式(7)可知第一模型的噪声协方差矩阵M
1的秩Rank(M
1)最小化可以表示为有色噪声信号C的噪声协方差矩阵M
c最小化min(Rank(M
c))。因此,优化目标的目标函数可以表示为以下公式:
min(-log(L
1(M
1))+γRank(M
c)) 公式(18)
其中,γ为正则化系数。由于矩阵秩最小化可以松弛为核范数最小化问题。因此,可公式(18)可以表示为以下公式:
min(-log(L
1(M
1))+γ||M
c||
*) 公式(19)
第一模型的迭代约束条件可以表示为以下公式:
其中,M
c≥0为有色噪声信号C的噪声协方差矩阵M
c的正定性约束。第一模型的优化问题可以表示为以下公式:
在确定所述目标函数以及约束条件后,计算装置240可以以所述目标函数为优化目标,对所述第一模型的未知参数M
1进行迭代优化,从而确定第一模型的噪声协方差矩阵M
1的第一估计值
公式(21)为半正定规划问题,计算装置240可通过多种算法进行求解。例如可采用梯度投影算法。具体而言,在梯度投影算法的每一步迭代中,我们首先不加任何约束通过梯度法求解公式(19),再将得到的解投影到半正定锥上,使其满足矩阵半正定性约束条件公式(20)。
如图6所示,步骤S140还可以包括:
S146:以麦克风信号X为样本数据,建立第二模型的第二似然函数L
2(S,M
2)。
所述似然函数包括第二似然函数L
2(S,M
2)。以根据公式(14)~(16),第二似然函数L
2(S,M
2)可以表示为以下公式:
其中,公式(22)分别表示完整观测信号和非完整观测信号下的第二似然函数。
表示参数S和M
2的最大似然估计。
以 及
分别表示在第二模型下,给定参数S和M
2后,麦克风信号X出现的概率。
S148:以第二似然函数L
2(S,M
2)最大化以及第二模型的噪声协方差矩阵M
2的秩Rank(M
2)最小化为优化目标,对所述第二模型进行优化,确定M
2的第二估计值
以及目标语音信号的幅度S的估计值
第二似然函数L
2(S,M
2)最大化可以表示为min(-log(L
2(S,M
2)))。第二模型的噪声协方差矩阵M
2的秩Rank(M
2)最小化可以表示为min(Rank(M
2))。如前所述,我们以白噪声信号n
k的噪声协方差矩阵
已知为例进行描述,根据公式(7)可知第二模型的噪声协方差矩阵M
2的秩Rank(M
2)最小化可以表示为有色噪声信号C的噪声协方差矩阵M
c最小化min(Rank(M
c))。因此,优化目标的目标函数可以表示为以下公式:
min(-log(L
2(S,M
2))+γRank(M
c)) 公式(23)
其中,γ为正则化系数。由于矩阵秩最小化可以松弛为核范数最小化问题。因此,可公式(23)可以表示为以下公式:
min(-log(L
2(S,M
2))+γ||M
c||
*) 公式(24)
第二模型的迭代约束条件可以表示为以下公式:
其中,M
c≥0为有色噪声信号C的噪声协方差矩阵M
c的正定性约束。第二模型的优化问题可以表示为以下公式:
在确定所述目标函数以及约束条件后,计算装置240可以以所述目标函数为优化目标,对所述第二模型的未知参数M
2和S进行迭代优化,从而确定第二模型的噪声协方差矩阵M
2的第二估计值
以及目标语音信号的幅度S的估计值
公式(26)为半正定规划问题,计算装置240可通过多种算法进行求解。例如可采用梯度投影算法。具体而言,在梯度投影算法的每一步迭代中,我们首先不加任何约束通过梯度法求解公式(24),再将得到的解投影到半正定锥上,使其满足矩阵半正定性约束条件公式(25)。
综上所述,所述方法P100能够以似然函数最大化以及噪声协方差矩阵的秩最小化为联合优化目标,分别对第一模型以及第二模型进行优化,以确定未知参数M
1的第一估计值
以及M
2的第二估计值
从而使M
1以及M
2的估计精度更高,为后续的统计假设检验提供更高精度的数据模型,从而提高语音活动检测的准确性以及语音增强效果。
如图3所示,所述方法P100还可以包括:
S160:基于统计假设检验,确定麦克风信号X对应的目标模型以及噪声协方差矩阵M。
目标模型包括第一模型和第二模型中的一个。麦克风信号X的噪声协方差矩阵M为目标模型的噪声协方差矩阵。当麦克风信号X的目标模型为第一模型时,麦克风信号X的噪声协方差矩阵
当麦克风信号X的目标模型为第二模型时,麦克风信号X的噪声协方差矩阵
计算装置240可以基于统计假设检验的方法确定麦克风信号X满足第一模型还是第二模型,从而确定麦克风信号X中是否存在目标语音信号。
图7示出了根据本说明书的实施例提供的一种确定目标模型的流程图。图7所示的流程图为步骤S160。如图7所示,步骤S160可以包括:
S162:基于麦克风信号X,建立二元假设检验模型。
其中,所述二元假设检验模型的原假设H
0可以是麦克风信号X中不存在目标语音信号,即麦克风信号X满足第一模型。所述二元假设检验模型的备择假设H
1可以是麦克风信号X中存在目标语音信号,即麦克风信号X满足第二模型。所述二元假设检验模型可以表示为以下公式:
其中,公式(27)中的麦克风信号X为完整观测信号。公式(28)中的麦克风信号X为非完整观测信号。
S164:将所述第一估计值
所述第二估计值
以及所述幅度S的估计值
代入所述二元假设检验模型的检测器的判决准则中,获取检验统计量ψ。
所述检测器可以是任意一种或多种检测器。在一些实施例中,所述检测器可以是GLRT检测器、Rao检验器以及Wald检验器中的一种或多种。在一些实施例中,所述检测器还可以是u-检验器、t检验器、χ2检验器(卡方检验)、F-检验器,秩和检测器,等等。不同的检测器其的检验统计量ψ是不同的。
以GLRT检测器(Generalized Likelihood RatioTest,广义似然比检测器)为例进行说明。当麦克风信号X为完整观测信号时,在GLRT检测器中,检验统计量ψ可以表示为以下公式:
其中,
以及
分别为原假设H
0和备择假设H
1下的似然函数。
当麦克风信号X为非完整观测信号时,在GLRT检测器中,检验统计量ψ可以表示为以下公式:
其中,
以及
分别为原假设H
0和备择假设H
1下的似然函数。
在GLRT检测器中,需对原假设H
0和备择假设H
1下的未知参数
均进行估计,待估参数较多。而Rao检测器仅需对原假设H
0下的未知参数
进行估计。当帧数K时,Rao检验具有与GLRT检测器相同的检测性能。而当帧数K有限时,Rao检验器虽无法达到与GLRT检测器相同的检测性能,但其具有计算更为简便、更适用于备择假设H
1下未知参数求解困难情形的优点。
因此,针对实际系统对检测性能、计算复杂度的均衡需求,计算装置240在前述GLRT检测器基础上提出了Rao检测器。以非完整观测信号为例,Rao检测器的检验统计量ψ可以表示为以下公式:
其中,f(X
1,X
2,…,X
G|θ,M)表示备择假设H
1下的概率密度函数。M=M
2。θ
r=[PS
R,1,PS
R,2,…,PS
R,M,PS
L,1,PS
L,2,…,PS
L,M]
T。其中,PS
R,m为目标语音信号在第m个麦克风222的音频信号中的幅度的实部。PS
L,m为目标语音信号在第m个麦克风222的音频信号中的幅度的虚部。m=1,2,…,M。。θ
r是一个2M维向量。
其中,θ
s是一个包含多余参量的实向量。包括M非对角线上的元素实部和虚部以及对角线上元素。公式(31)可简化为以下公式:
其中,
在公式(32)中,只要能求得原假设H
0下的未知参数
的估计量
则可获得Rao检验的检验统计量ψ。
S166:基于所述检验统计量ψ判断麦克风信号X的目标模型。
具体地,步骤S166可以包括:
S166-2:确定检验统计量ψ大于预设的判决门限η,判定麦克风信号X中存在目标语音信号,确定目标模型为第二模型,所述麦克风信号的噪声协方差矩阵为所述第二估计值
或者
S166-4:确定检验统计量ψ小于预设的判决门限η,判定麦克风信号X中不存在目标语音信号,确定目标模型为所述第一模型,所述麦克风信号的噪声协方差矩阵为所述第一估计值
步骤S166可以表示为以下公式:
判决门限η是一个与虚警概率相关的参数。所述虚警概率可以通过实验方式获取,也可以通过机器学习的方式获取,还可以通过经验方式获取。
如图3所示,所述方法P100还可以包括:
S180:输出麦克风信号X的目标模式以及噪声协方差矩阵M。
计算装置240可以将麦克风信号X的目标模式以及噪声协方差矩阵M输出至其他计算模块,比如语音增强模块,等等。
综上所述,本说明书提供的语音活动检测系统和方法P100中,计算装置240可以以似然函数最大化以及噪声协方差矩阵的秩最小化为联合优化目标,分别对第一模型以及第二模型进行优化,以确定未知参数M
1的第一估计值
以及M
2的第二估计值
从而使M
1以及M
2的估计精度更高,为后续的统计假设检验提供更高精度的数据模型,从而提高语音活动检测的准确性以及语音增强效果。
本说明书还提供一种语音增强系统。语音增强系统也可以应用于电子设备200。在一些实施例中,语音增强系统可以包括计算装置240。在一些实施例中,语音增强系统可以应用于计算装置240。即语音增强系统可以在计算装置240上运行。语音增强系统可以包括具有数据信息处理功能的硬件设备和驱动该硬件设备工作所需必要的程序。当然,语音增强系统也可以仅为具有数据处理能力的硬件设备,或者,仅为运行在硬件设备中的程序。
语音增强系统可以存储有执行本说明书描述的语音增强方法的数据或指令,并可以执行所述数据和/或指令。当语音增强系统在计算装置240上运行时,语音增强系统可以基于所述通信连接从麦克风阵列220中获取所述麦克风信号,并执行本说明书描述的语音增强方法的数据或指令。所述语音增强方法在本说明书中的其他部分介绍。比如,在图8的描述中介绍了所述语音增强方法。
当语音增强系统在计算装置240上运行时,所述语音增强系统与麦克风阵列220通信连接。存储介质243还可以包括存储在所述数据存储装置中的至少一个指令集,用于对所述麦克风信号进行语音增强计算。所述指令是计算机程序代码,所述计算机程序代码可以包括执行本说明书提供的语音增强方法的程序、例程、对象、组件、数据结构、过程、模块等等。处理器242可以读取所述至少一个指令集,并且根据所述至少一个指令集的指示执行本说明书提供的语音增强方法。处理器242可以执行语音增强方法包含的所有步骤。
图8示出了根据本说明书的实施例提供的语音增强方法P200的流程图。所述方法P200可以对所述麦克风信号进行语音增强。具体地,处理器242可以执行所述方法P200。如图9所示,所述方法P200可以包括:
S220:获取所述M个麦克风输出的麦克风信号X。
如步骤S120所述,在此不再赘述。
S240:基于所述语音活动检测方法P100,确定麦克风信号X的目标模型以及麦克风信号X的噪声协方差矩阵M。
麦克风信号X的噪声协方差矩阵M为目标模型的噪声协方差矩阵。当麦克风信号X的目标模型为第一模型时,麦克风信号X的噪声协方差矩阵
当麦克风信号X的目标模型为第二模型时,麦克风信号X的噪声协方差矩阵
S260:基于MVDR方法以及所述麦克风信号X的噪声协方差矩阵M,确定麦克风信号对应的滤波系数ω。
滤波系数ω可以是一个M×1维的向量。滤波系数ω可以表示为以下公式:
ω=[ω
1,ω
2,…,ω
M]
H 公式(34)
其中,第m和麦克风222对应的滤波系数为ω
m。m=1,2,…,M。
滤波系数ω可以表示为以下公式:
如前所述,P为目标语音信号的目标导引矢量。在一些实施例中,P是已知的。
S280:基于所述滤波系数对麦克风信号X进行合并,输出目标音频信号y
k。
目标音频信号Y可以表示为以下公式:
Y=ω
HX 公式(36)
计算装置240可以将目标音频信号Y输出至其他电子设备,比如远端通话设备。
综上所述,本说明书提供的语音活动检测系统和方法P100、语音增强系统和方法P200,用于由多个麦克风222组成的麦克风220阵列。所述语 音活动检测系统和方法P100、语音增强系统和方法P200能够获取麦克风阵列220采集的麦克风信号X。麦克风信号X可以是噪声信号对应的第一模型,也可以是目标语音信号与所述噪声信号混合对应的第二模型。所述语音活动检测系统和方法P100、语音增强系统和方法P200能够以麦克风信号X为样本,以似然函数最大化以及麦克风信号X的噪声协方差矩阵M的秩最小化为联合优化目标,分别对第一模型以及第二模型进行优化,确定第一模型的噪声协方差矩阵M
1的第一估计值
以及第二模型的噪声协方差矩阵M
2的第二估计值
并通过统计假设检验的方法判断麦克风信号X满足第一模型还是第二模型,从而确定麦克风信号X中是否存在目标语音信号,并确定麦克风信号X的噪声协方差矩阵M,进而基于MVDR方法对麦克风信号X进行语音增强。所述语音活动检测系统和方法P100、语音增强系统和方法P200可以使得噪声协方差矩阵M的估计精度和语音活动检测的准确度更高,进而提高语音增强效果。
本说明书另一方面提供一种非暂时性存储介质,存储有至少一组用来语音活动检测可执行指令,当所述可执行指令被处理器执行时,所述可执行指令指导所述处理器实施本说明书所述的语音活动检测方法P100的步骤。在一些可能的实施方式中,本说明书的各个方面还可以实现为一种程序产品的形式,其包括程序代码。当所述程序产品在计算设备(比如计算装置240)上运行时,所述程序代码用于使计算设备执行本说明书描述的语音活动检测步骤。用于实现上述方法的程序产品可以采用便携式紧凑盘只读存储器(CD-ROM)包括程序代码,并可以在计算设备上运行。然而,本说明书的程序产品不限于此,在本说明书中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统(例如处理器242)使用或者与其结合使用。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或 器件,或者任意以上的组合。可读存储介质的更具体的例子包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言的任意组合来编写用于执行本说明书操作的程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、C++等,还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在计算设备上执行、部分地在计算设备上执行、作为一个独立的软件包执行、部分在计算设备上部分在远程计算设备上执行、或者完全在远程计算设备上执行。
上述对本说明书特定实施例进行了描述。其他实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者是可能有利的。
综上所述,在阅读本详细公开内容之后,本领域技术人员可以明白,前述详细公开内容可以仅以示例的方式呈现,并且可以不是限制性的。尽 管这里没有明确说明,本领域技术人员可以理解本说明书需求囊括对实施例的各种合理改变,改进和修改。这些改变,改进和修改旨在由本说明书提出,并且在本说明书的示例性实施例的精神和范围内。
此外,本说明书中的某些术语已被用于描述本说明书的实施例。例如,“一个实施例”,“实施例”和/或“一些实施例”意味着结合该实施例描述的特定特征,结构或特性可以包括在本说明书的至少一个实施例中。因此,可以强调并且应当理解,在本说明书的各个部分中对“实施例”或“一个实施例”或“替代实施例”的两个或更多个引用不一定都指代相同的实施例。此外,特定特征,结构或特性可以在本说明书的一个或多个实施例中适当地组合。
应当理解,在本说明书的实施例的前述描述中,为了帮助理解一个特征,出于简化本说明书的目的,本说明书将各种特征组合在单个实施例、附图或其描述中。然而,这并不是说这些特征的组合是必须的,本领域技术人员在阅读本说明书的时候完全有可能将其中一部分特征提取出来作为单独的实施例来理解。也就是说,本说明书中的实施例也可以理解为多个次级实施例的整合。而每个次级实施例的内容在于少于单个前述公开实施例的所有特征的时候也是成立的。
本文引用的每个专利,专利申请,专利申请的出版物和其他材料,例如文章,书籍,说明书,出版物,文件,物品等,可以通过引用结合于此。用于所有目的的全部内容,除了与其相关的任何起诉文件历史,可能与本文件不一致或相冲突的任何相同的,或者任何可能对权利要求的最宽范围具有限制性影响的任何相同的起诉文件历史。现在或以后与本文件相关联。举例来说,如果在与任何所包含的材料相关联的术语的描述、定义和/或使用与本文档相关的术语、描述、定义和/或之间存在任何不一致或冲突时,使用本文件中的术语为准。
最后,应理解,本文公开的申请的实施方案是对本说明书的实施方案 的原理的说明。其他修改后的实施例也在本说明书的范围内。因此,本说明书披露的实施例仅仅作为示例而非限制。本领域技术人员可以根据本说明书中的实施例采取替代配置来实现本说明书中的申请。因此,本说明书的实施例不限于申请中被精确地描述过的实施例。
Claims (11)
- 一种语音活动检测方法,其特征在于,用于呈预设阵列形状分布的M个麦克风,所述M为大于1的整数,包括:获取所述M个麦克风输出的麦克风信号,所述麦克风信号满足不存在目标语音信号对应的第一模型或存在目标语音信号对应的第二模型;以似然函数最大化以及噪声协方差矩阵的秩最小化为联合优化目标,分别对所述第一模型以及所述第二模型进行优化,确定所述第一模型的噪声协方差矩阵的第一估计值以及所述第二模型的噪声协方差矩阵的第二估计值;以及基于统计假设检验,确定所述麦克风信号对应的目标模型以及噪声协方差矩阵,所述目标模型包括所述第一模型和所述第二模型中的一个,所述麦克风信号的噪声协方差矩阵为所述目标模型的噪声协方差矩阵。
- 如权利要求1所述的语音活动检测方法,其特征在于,所述麦克风信号包括K帧连续的音频信号,所述K为大于1的正整数,所述麦克风信号包括M×K的数据矩阵。
- 如权利要求2所述的语音活动检测方法,其特征在于,所述麦克风信号为完整观测信号或非完整观测信号,所述完整观测信号中所述M×K的数据矩阵中的所有数据完整,所述非完整观测信号中所述M×K的数据矩阵中的部分数据缺失,当所述麦克风信号为所述非完整观测信号时,所述获取所述M个麦克风输出的麦克风信号,包括:获取所述非完整观测信号;基于所述M×K的数据矩阵中的每一列中的数据缺失位置,对所述麦克风信号进行行列置换,并将所述麦克风信号划分为至少一个子麦克风信号,所述麦克风信号包括所述至少一个子麦克风信号。
- 如权利要求1所述的语音活动检测方法,其特征在于,所述以似然函数最大化以及噪声协方差矩阵的秩最小化为联合优化目标,分别对所述第一模型以及所述第二模型进行优化,包括:以所述麦克风信号为样本数据,建立所述第一模型对应的第一似然函数,所述似然函数包括所述第一似然函数;以所述第一似然函数最大化以及所述第一模型的噪声协方差矩阵的秩最小化为优化目标,对所述第一模型进行优化,确定所述第一估计值;以所述麦克风信号为样本数据,建立所述第二模型的第二似然函数,所述似然函数包括所述第二似然函数;以及以所述第二似然函数最大化以及所述第二模型的噪声协方差矩阵的秩最小化为优化目标,对所述第二模型进行优化,确定所述第二估计值以及所述目标语音信号的幅度估计值。
- 如权利要求4所述的语音活动检测方法,其特征在于,所述麦克风信号包括噪声信号,所述噪声信号服从高斯分布,所述噪声信号至少包括:有色噪声信号,服从零均值的高斯分布,其对应的噪声协方差矩阵为低秩半正定矩阵。
- 如权利要求1所述的语音活动检测方法,其特征在于,所述基于统计假设检验,确定所述麦克风信号对应的目标模型以及噪声协方差矩阵,包括:基于所述麦克风信号,建立二元假设检验模型,其中,所述二元假设检验模型的原假设包括所述麦克风信号满足所述第一模型,所述二元假设检验模型的备择假设包括所述麦克风信号满足所述第二模型;将所述第一估计值、所述第二估计值以及所述幅度估计值代入所述二元假设检验模型的检测器的判决准则中,获取检验统计量;以及基于所述检验统计量判断所述麦克风信号的所述目标模型。
- 如权利要求6所述的语音活动检测方法,其特征在于,所述基于所述检验统计量判断所述麦克风信号的所述目标模型,包括:确定所述检验统计量大于所述预设的判决门限,判定所述麦克风信号中存在所述目标语音信号,确定所述目标模型为所述第二模型,所述麦克风信号的噪声协方差矩阵为所述第二估计值;或者确定所述检验统计量小于所述预设的判决门限,判定所述麦克风信号中不存在所述目标语音信号,确定所述目标模型为所述第一模型,所述麦克风信号的噪声协方差矩阵为所述第一估计值。
- 如权利要求6所述的语音活动检测方法,其特征在于,所述检测器包括GLRT检测器、Rao检验器以及Wald检验器中的至少一种。
- 一种语音活动检测系统,其特征在于,包括:至少一个存储介质,存储有至少一个指令集用于语音活动检测;以及至少一个处理器,同所述至少一个存储介质通信连接,其中当所述语音活动检测系统运行时,所述至少一个处理器读取所述至少一个指令集并实施权利要求1-8中任一项所述的语音活动检测方法。
- 一种语音增强方法,其特征在于,用于呈预设阵列形状分布的M个麦克风,所述M为大于1的整数,包括:获取所述M个麦克风输出的麦克风信号;基于权利要求1-8中任一项所述的语音活动检测方法,确定所述麦克风信号的所述目标模型以及所述麦克风信号的噪声协方差矩阵,所述麦克风信号的噪声协方差矩阵,为所述目标模型的噪声协方差矩阵;基于MVDR方法以及所述麦克风信号的噪声协方差矩阵,确定所述麦克风信号对应的滤波系数;以及基于所述滤波系数对所述麦克风信号进行合并,输出目标音频信号。
- 一种语音增强系统,其特征在于,包括:至少一个存储介质,存储有至少一个指令集用于进行语音增强;以及至少一个处理器,同所述至少一个存储介质通信连接,其中当所述语音增强系统运行时,所述至少一个处理器读取所述至少一个指令集并实施权利要求10所述的语音增强方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2021/130035 WO2023082134A1 (zh) | 2021-11-11 | 2021-11-11 | 语音活动检测方法、系统、语音增强方法以及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116964667A true CN116964667A (zh) | 2023-10-27 |
Family
ID=86334763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180095487.4A Pending CN116964667A (zh) | 2021-11-11 | 2021-11-11 | 语音活动检测方法、系统、语音增强方法以及系统 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20240046956A1 (zh) |
EP (1) | EP4307296A4 (zh) |
JP (1) | JP2024512927A (zh) |
KR (1) | KR20230146604A (zh) |
CN (1) | CN116964667A (zh) |
WO (1) | WO2023082134A1 (zh) |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3462452A1 (en) * | 2012-08-24 | 2019-04-03 | Oticon A/s | Noise estimation for use with noise reduction and echo cancellation in personal communication |
WO2016095218A1 (en) * | 2014-12-19 | 2016-06-23 | Dolby Laboratories Licensing Corporation | Speaker identification using spatial information |
CN109087664B (zh) * | 2018-08-22 | 2022-09-02 | 中国科学技术大学 | 语音增强方法 |
CN110164452B (zh) * | 2018-10-10 | 2023-03-10 | 腾讯科技(深圳)有限公司 | 一种声纹识别的方法、模型训练的方法以及服务器 |
-
2021
- 2021-11-11 CN CN202180095487.4A patent/CN116964667A/zh active Pending
- 2021-11-11 KR KR1020237031546A patent/KR20230146604A/ko unknown
- 2021-11-11 EP EP21963588.5A patent/EP4307296A4/en active Pending
- 2021-11-11 WO PCT/CN2021/130035 patent/WO2023082134A1/zh active Application Filing
- 2021-11-11 JP JP2023555858A patent/JP2024512927A/ja active Pending
-
2023
- 2023-09-19 US US18/370,381 patent/US20240046956A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
KR20230146604A (ko) | 2023-10-19 |
EP4307296A4 (en) | 2024-03-27 |
EP4307296A1 (en) | 2024-01-17 |
JP2024512927A (ja) | 2024-03-21 |
WO2023082134A1 (zh) | 2023-05-19 |
US20240046956A1 (en) | 2024-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gannot et al. | A consolidated perspective on multimicrophone speech enhancement and source separation | |
WO2020108614A1 (zh) | 音频识别方法、定位目标音频的方法、装置和设备 | |
US9570087B2 (en) | Single channel suppression of interfering sources | |
US11902759B2 (en) | Systems and methods for audio signal generation | |
US20150117649A1 (en) | Selective Audio Source Enhancement | |
US9564144B2 (en) | System and method for multichannel on-line unsupervised bayesian spectral filtering of real-world acoustic noise | |
US11817112B2 (en) | Method, device, computer readable storage medium and electronic apparatus for speech signal processing | |
CN116508328A (zh) | 语音存在概率计算方法、系统、语音增强方法、系统以及耳机 | |
Koldovský et al. | Spatial source subtraction based on incomplete measurements of relative transfer function | |
CN110858488A (zh) | 语音活动检测方法、装置、设备及存储介质 | |
CN110164468B (zh) | 一种基于双麦克风的语音增强方法及装置 | |
US20160379661A1 (en) | Noise reduction for electronic devices | |
KR20170129697A (ko) | 마이크로폰 어레이 스피치 강화 기법 | |
CN111194464A (zh) | 语音输入装置和方法以及程序 | |
US20230116052A1 (en) | Array geometry agnostic multi-channel personalized speech enhancement | |
CN116110421A (zh) | 语音活动检测方法、系统、语音增强方法以及系统 | |
CN112750455A (zh) | 音频处理方法及装置 | |
CN110858485B (zh) | 语音增强方法、装置、设备及存储介质 | |
CN116964667A (zh) | 语音活动检测方法、系统、语音增强方法以及系统 | |
Hasegawa et al. | Blind estimation of locations and time offsets for distributed recording devices | |
JP2010056762A (ja) | マイクロホンアレー | |
WO2023115269A1 (zh) | 语音活动检测方法、系统、语音增强方法以及系统 | |
CN116364100A (zh) | 语音活动检测方法、系统、语音增强方法以及系统 | |
Liu et al. | Sound source localization and speech enhancement algorithm based on fixed beamforming | |
CN117037836B (zh) | 基于信号协方差矩阵重构的实时声源分离方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |