CN106847267B - 一种连续语音流中的叠音检测方法 - Google Patents

一种连续语音流中的叠音检测方法 Download PDF

Info

Publication number
CN106847267B
CN106847267B CN201510885336.5A CN201510885336A CN106847267B CN 106847267 B CN106847267 B CN 106847267B CN 201510885336 A CN201510885336 A CN 201510885336A CN 106847267 B CN106847267 B CN 106847267B
Authority
CN
China
Prior art keywords
voice
comprehensive
speaker
calculating
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510885336.5A
Other languages
English (en)
Other versions
CN106847267A (zh
Inventor
胡琦
张鹏远
潘接林
颜永红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Acoustics CAS
Original Assignee
Institute of Acoustics CAS
Beijing Kexin Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Acoustics CAS, Beijing Kexin Technology Co Ltd filed Critical Institute of Acoustics CAS
Priority to CN201510885336.5A priority Critical patent/CN106847267B/zh
Publication of CN106847267A publication Critical patent/CN106847267A/zh
Application granted granted Critical
Publication of CN106847267B publication Critical patent/CN106847267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供了一种连续语音流中的叠音检测方法,所述方法包含:步骤101)通过对语音进行多尺度表示进而得到一种综合特征,再将得到的综合特征输入HMM检测器进行初次判决;步骤102)采用非负矩阵分解对初次判决结果进行二次判决,进而剔除受噪声干扰而导致误判的非叠音段。上述步骤101)进一步包含:步骤101‑1)对语音流进行端点检测,去除静音段;步骤101‑2)获取语音流的综合特征,所述综合特征包括四种尺度下的语谱图参数表示,以及它们的一阶和二阶差分;步骤101‑3)对综合特征包含的特征向量的每一维进行均值和方差归一化处理;步骤101‑4)再将步骤101‑3)的处理结果输入HMM检测器进行初次判决。

Description

一种连续语音流中的叠音检测方法
技术领域
本发明属于语音信号处理领域,涉及一种叠音检测方法,可用于连续语音流中,自动查找多人(两人或以上)同时说话的语音段。
背景技术
叠音检测多见于说话人日志系统(Speaker Diarization)。该系统中,连续语音流首先被切分为隶属不同说话人的语音段;然后应用某种算法,切分好的语音段被给予相应的说话人标识。但是,当某段语音包含叠音时,这种按照单一说话人标记的方式存在不合理性。因此,往往希望事先检测出连续语流的叠音段,进行特别处理。
单通道情况下,叠音检测通常利用各态历经的隐马尔可夫模型(Hidden MarkovModel,HMM)作为基本切分器(Segmenter),把语音流分段为叠音、语音以及静音。HMM的状态空间由象征叠音、语音以及静音的三类状态串构成,并允许它们之间以相互跳转。声学特征一般包括:线性预测编码残差(Linear Predictive Coding Residue,LPCR)、幅度调制谱(Amplitude Modulation Spectrum,AMS)、谱平坦度(Spectral Flatness,SF)、谐波能量率(Harmonic Energy Ratio,HER)、以及美尔频率倒谱系数(Mel Frequency CepstralCoefficient,MFCC)等。
基于HMM框架的叠音检测方法已经应用于说话人日志系统,并产生了一定的效果。目前,此类方法通过给予HMM区分能力更强的特征提升检测模块的性能。如,主流方法通过特征融合找到适合叠音检测的组合特征。从检测结果看,系统检测精度还未达到预期。因此,针对实际需求,研究一种高精度的叠音检测方法显得尤为重要。
发明内容
本发明的目的在于,为克服上述问题,本发明提供一种连续语音流中的叠音检测方法。
为了实现上述目的,本发明提供的一种连续语音流中的叠音检测方法,所述方法包含:
步骤101)通过对语音进行多尺度表示进而得到一种综合特征,再将得到的综合特征输入HMM检测器进行初次判决;
步骤102)采用非负矩阵分解对初次判决结果进行二次判决,进而剔除受噪声干扰而导致误判的非叠音段。
可选的,上述步骤101)进一步包含:
步骤101-1)对语音流进行端点检测,去除静音段;
步骤101-2)获取语音流的综合特征,所述综合特征包括四种尺度下的语谱图参数表示,以及它们的一阶和二阶差分;
步骤101-3)对综合特征包含的特征向量的每一维进行均值和方差归一化处理;
步骤101-4)再将步骤101-3)的处理结果输入HMM检测器进行初次判决。
可选的,上述步骤101-2)进一步包含:
步骤101-2-1)计算语音流在四种尺度下的特征参数进而得到52维特征值,并将四种尺度下的特征参数分别记为:MLpR1,MLpR2,MLpR3和MLpR4;
步骤101-2-2)将以上52维特征分成5组,具体分组结构如下:将第1~12维作为MLpR1的DCT系数、将第13~24维作为MLpR2的DCT系数、将第25~36维作为MLpR3的DCT系数、将第37~48维作为MLpR4的DCT系数、将第49~52维作为四种尺度下的LPCR系数;
步骤101-2-3)利用Group LASSO强制组间稀疏,选取最具区分能力的特征组作为综合特征。
可选的,上述步骤101-2-2)进一步包含:
首先,计算短时傅立叶分析,且短时傅里叶变换各参量的取值为:帧长为20ms,帧移为10ms且FFT采用1024点;
然后,计算得到的短时傅立叶频谱的64个子带的美尔对数谱;
接着,
采用离散余弦变换压缩得到的能量谱,并取第2至13维系数作为MLpR1;此外,计算该尺度下对数美尔频谱的12阶线性预测残差,将12阶线性预测残差作为MLpR1的一维;
MLpR4的分析窗长为200ms,窗移为10ms且FFT采用2048点;MLpR4也由第2至13维DCT系数及12阶LPCR构成;
MLpR2和MLpR3通过采用不同尺度的二维高斯窗平滑MLpR1的美尔对数谱,并提取相应的DCT及LPCR获得;所述二维高斯窗分别为5*5和11*11。
可选的,上述步骤102)进一步包含:
步骤102-1)用非负矩阵分解在训练集上迭代学习,获得一个用以表示不同说话人语音的字典;
步骤102-2)用语音字典对初步判决得到的叠音段进行重建;
步骤102-3)根据重建误差进行决策,得到最终判决结果。
可选的,上述步骤102-1)具体为:
计算训练样本的短时傅立叶变换,得到幅度谱Vit,其中短时傅里叶变换的窗长为20ms,帧移为10ms且FFT点数为1024;其中,i=1,…,G,t=1,…,T;i表示当前被分析样本所属说话人的编号;G表示说话人总数量;T表示被分析样本的总帧数;
将说话人i的所有幅度谱Vi=[Vit]作为一组,进行分解,得到对应该说话人的语音基Wi,所述的分解通过最小化如下代价函数完成:
Figure BDA0000868001260000031
其中,Wi和Hi分别表示第i个说话人的基和权重,并在优化时保持它们非负;i= 1,…,G;Vit,t=1,…,T;
Figure BDA0000868001260000032
表示库尔巴克散度;Xmn 表示矩阵X的第m行第n列元素,Ymn表示矩阵Y的第m行第n列元素。
可选的,上述步骤102-2)进一步包含:
给定待测试信号的幅度谱V,构造如下代价函数,在训练得到的语音基Ws上展开构造的代价函数,并给予一定的正则项,控制展开基群的稀疏性:
Figure BDA0000868001260000033
其中,W=[Ws,WN];H=[Hs,HN]T
Figure BDA0000868001260000034
i表示说话人编号,且i=1,…,G,G表示训练集中的说话人总数;Ws=[W1,…,WG];Hs=[H1,…,HG];Hs、HN和Ws、WN分别表示语音和噪声的展开权重和基;正则项Θ(Hs)强制使用最少数量的说话人基群重建观测信号;||·||1表示1-范数操作;λ控制基群稀疏性的程度;ε是一个极小值,且ε=10-16
可选的,上述步骤102-3)进一步包含:
步骤102-3-1)计算维纳增益Gain=WsHs./(WsHs+WNHN),其中./表示按矩阵元素做除法;
步骤102-3-2)利用维纳增益计算重建频谱,并估计重建频谱与原观测信号谱V的二维皮尔森相关系数:
Figure BDA0000868001260000041
mean(V)表示取矩阵V中所有元素的均值;(·)mn表示取矩阵中第m行第n列元素;.*表示按按矩阵元素做乘法;
步骤102-3-3)设定阈值θ,
如果Corr(Gain.*V,V)>θ,则接受原检测结果;否则,拒绝原检测结果与现有技术相比,本发明的优点在于:
本发明优点:①根据多视角(multi-view)、多尺度(multi-scale)的观点,对信号沿不同“方向”参数化,有助于提高系统稳健性和检测性能。这是基于如下假设:任何干扰都不可能同等程度改变信号的所有方面。通过依赖受噪声影响较小的特征进行决策,能够有效增加系统鲁棒性。另外,一个问题从不同角度分析,通常难度会存在差异。如,频域通常比时域能获得信号的更多有效信息。②采用基于词典重建的二次判决,能够有效减少异常声以及噪声产生的虚警错误。
附图说明
图1本发明实施例提供的HMM框架的两级叠音检测系统;
图2本发明实施例提供的Group LASSO的特征选择;
图3本发明实施例提供的基于NMF重建的二次判决。
具体实施方式
下面结合附图和实施例对本发明所述的进行详细说明。
针对现有叠音检测模块精度较低的问题,提出了一种两级检测方法。第一级,通过语音多尺度表示,找到一种融合特征,将其用于HMM检测器;第二级,非负矩阵分解(Non-negative Matrix Factorization,NMF)对上一级结果进行二次判决,剔除那些受噪声干扰而导致误判的非叠音段,以提高系统检测精度。具体描述如下:
(1)如图1所示,构建HMM框架下的两级叠音检测系统。首先,对语音流进行端点检测(Voice Active Detection,VAD),去除静音段,以降低后续检测的计算复杂度。
(2)声学特征包括四种尺度下的语谱图量化参数,以及它们的一阶、二阶差分。
(3)对特征向量的每一维进行均值和方差归一化,以控制它们的波动范围。
对HMM检测结果,采用NMF的词典重建法进行二次判决,提高系统检测精度。
实施例
1、HMM的结构以及状态空间
对语音和叠音,分别采用含有三个状态的链来建模。对每个状态链,用GMM(Gaussian Mixture Model)来描述状态至观测的声学映射。对于语音,采用256个高斯的GMM来描述其声学变化;而对叠音,则采用64个高斯的GMM。为了控制语音和叠音之间状态链的跳转,引入一个惩罚项。通过调节该惩罚项,能够在系统检测精度和召回之间作出折中。
2.特征形式
不同尺度下,特征稳健性和表达能力存在差异,计算了四种尺度下的特征参数,将它们分别记为:MLpR1,MLpR2,MLpR3和MLpR4。
MLpR1计算自传统的短时傅立叶分析。其中,帧长为20ms,帧移为10ms,FFT采用1024点。对得到的短时傅立叶频谱,计算其64个子带的美尔对数谱;接着,采用离散余弦变换(Discrete Cosine Transform,DCT)压缩该能量谱,并取第2至13维系数作为MLpR1。另外,计算该尺度下对数美尔频谱的12阶LPCR,将其作为MLpR1的一维。MLpR4的分析窗长为200ms,窗移为10ms,FFT采用2048点。MLpR4也由第2至13维DCT系数及12阶LPCR构成。MLpR2和MLpR3通过采用不同尺度的二维高斯窗平滑MLpR1的美尔对数谱,并提取相应的DCT及LPCR获得。本发明中,所采用的二维平滑窗分别为5*5和11*11。
将以上52维((12+1)*4)特征分成5组,并采用Group LASSO(Least AbsoluteShrinkage and Selection Operator)做特征选择。具体分组结构如下:MLpR1的DCT系数(1~12维)、MLpR2的DCT系数(13~24维)、MLpR3的DCT系数(25~36维)、MLpR4的DCT系数(37~48维)、四种尺度下的LPCR(49~52维)。
Group LASSO通过强制组间稀疏,选取最具区分能力的特征,达到降维的目的。图2给出了5组特征在开发集上的实验结果。从图中可以看出,前两种尺度下的Mel谱,以及四种尺度下的Mel谱LPC残差均具有较强区分能力。因而,下文选择这六种特征及其一阶、二阶差分用于叠音检测。
3.基于NMF的后处理
研究表明,叠音检测算法易出现如下虚警错误:单语音信号、异常声(如笑声)、以及含有非平稳背景噪音的语音段。由于后两种错误也具有频谱叠加的效果,因而过分依赖频谱的量化特征并不能有效区分它们。
由于叠音为两个说话人声音的重叠,因而可以将其近似完全投影至一个过完备的说话人空间中。而对非语音结构的频谱,一般认为其在说话人空间中不能很好的展开。基于这样一个假设,采用NMF的词典学习法构建全局语音模型(Universal Speech Model,USM)[2],投影观测数据,作二次判决。
图3示出了后处理算法的计算流程,其主要包括训练、重建以及决策三个环节。下面分别对它们详细介绍(下文表示中,Ait对应矩阵A的第i行,第t列元素)。
训练:
对所有训练语音计算短时傅立叶变换,得到幅度谱{Vit;i=1,…,G,t=1,…,T}(窗长20ms,帧移10ms,FFT点数为1024)。
将说话人i{i=1,…,G}的所有幅度谱Vi=[Vit];{Vit,t=1,…,T}进行分解,得到对应该说话人的语音基Wi。分解通过最小化如下代价函数完成:
Figure BDA0000868001260000061
其中,
Figure BDA0000868001260000062
表示Kullback-Leibler散度;Wi 和Hi分别表示第i个说话人的基和权重。
式(1)的受限优化解可按下式迭代获得:
Figure BDA0000868001260000063
Figure BDA0000868001260000064
其中,Wi,ja表示第i个说话人基矩阵中的第j行,第a列元素。Vi,jμ、Hi,aμ以及(WH)i,jμ的表示与此类似。
重建:
给定观测信号幅度谱V,在训练语音基上将其展开;并给予一定的正则项,以控制展开基群的稀疏性。则得到如下代价函数:
Figure BDA0000868001260000071
其中,W=[Ws,WN];H=[Hs,HN]T
Figure BDA0000868001260000072
Ws=[W1,…,WG];Hs=[H1,…,HG]。Hs、HN和Ws、WN分别表示语音和噪声的展开权重和基。Θ(Hs)强制使用最少数量说话人所对应的基群重建观测信号;λ控制基群稀疏性的程度。
式(3)的解可以通过以下方式近似得到:
随机初始化H
重复迭代
R←V./(WH) (4)
H←H.*(WR)(5)
从s=1至s=G
Figure BDA0000868001260000073
结束
Figure BDA0000868001260000074
WN←WN./(11TWN) (8)
直到收敛;
其中,./和.*表示对矩阵元素进行操作;1表示单位列向量,WN./(11TWN)表示对WN的元素按列进行归一化。
决策:
计算维纳增益Gain=WsHs./(WsHs+WNHN)
利用维纳增益计算重建频谱,并估计其与原观测信号谱的二维pearson相关系数:
Figure BDA0000868001260000075
mean(V)表示取矩阵V中所有元素的均值。
设定阈值θ,
如果Corr(Gain.*V,V)>θ,则接受原检测结果;否则,拒绝原检测结果。
实验数据选自AMI多会议场景录音。其中,随机选取20个场景用于训练,3个作为开发,10个构建测试集。三个集的数据无交叉。所有样本均为采样率16000Hz、量化精度16bit的多通道数据。这些多通道样本经Beamforming增强为单通道语音。叠音检测按照其覆盖的总时长计算。即,
Figure BDA0000868001260000081
Figure BDA0000868001260000082
对于NMF,选取20个说话人,对每个说话人选取1分钟的干净训练数据。对这1分钟的语音,利用VAD去除静音,并对切分后的每段数据采用10个基建模。由于希望充分表征实际中可能出现的语音,因而不同说话人基数量的差异并不会造成问题。实验中,λ为256;θ为0.9。注意到,NMF基的训练数据并不取自AMI集。具体测试结果见表1。
表1叠音检测结果
Figure BDA0000868001260000083
由表中结果可以看出,采用提出的特征,系统检测精度从71.32%提高至74.63%;经过NMF重建的后处理策略后,该检测精度进一步提高至75.91%。这说明多尺度特征和后处理对系统检测精度均具有改进。从表中还可以看出,利用新特征和后处理,系统召回率降低0.36%。总的来说,提出方法通过召回的少量损失,提高了系统检测精度。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种连续语音流中的叠音检测方法,所述方法包含:
步骤101)通过对语音进行多尺度表示进而得到一种综合特征,再将得到的综合特征输入HMM检测器进行初次判决;
步骤102)采用非负矩阵分解对初次判决结果进行二次判决,进而剔除受噪声干扰而导致误判的非叠音段;
所述步骤101)进一步包含:
步骤101-1)对语音流进行端点检测,去除静音段;
步骤101-2)获取语音流的综合特征,所述综合特征包括四种尺度下的语谱图参数表示,以及它们的一阶和二阶差分;
步骤101-3)对综合特征包含的特征向量的每一维进行均值和方差归一化处理;
步骤101-4)再将步骤101-3)的处理结果输入HMM检测器进行初次判决;
所述步骤101-2)进一步包含:
步骤101-2-1)计算语音流在四种尺度下的特征参数进而得到52维特征值,并将四种尺度下的特征参数分别记为:MLpR1,MLpR2,MLpR3和MLpR4;
步骤101-2-2)将以上52维特征分成5组,具体分组结构如下:将第1~12维作为MLpR1的DCT系数、将第13~24维作为MLpR2的DCT系数、将第25~36维作为MLpR3的DCT系数、将第37~48维作为MLpR4的DCT系数、将第49~52维作为四种尺度下的LPCR系数;
步骤101-2-3)利用Group LASSO强制组间稀疏,选取最具区分能力的特征组作为综合特征;
所述步骤102)进一步包含:
步骤102-1)用非负矩阵分解在训练集上迭代学习,获得一个用以表示不同说话人语音的字典;
步骤102-2)用语音字典对初步判决得到的叠音段进行重建;
步骤102-3)根据重建误差进行决策,得到最终判决结果。
2.根据权利要求1所述的连续语音流中的叠音检测方法,其特征在于,所述步骤101-2-1)进一步包含:
首先,计算短时傅立叶分析,且短时傅里叶变换各参量的取值为:帧长为20ms,帧移为10ms且FFT采用1024点;
然后,计算得到的短时傅立叶频谱的64个子带的美尔对数谱;
接着,
采用离散余弦变换压缩得到的能量谱,并取第2至13维系数作为MLpR1;此外,计算该尺度下对数美尔频谱的12阶线性预测残差,将12阶线性预测残差作为MLpR1的一维;
MLpR4的分析窗长为200ms,窗移为10ms且FFT采用2048点;MLpR4也由第2至13维DCT系数及12阶LPCR构成;
MLpR2和MLpR3通过采用不同尺度的二维高斯窗平滑MLpR1的美尔对数谱,并提取相应的DCT及LPCR获得;所述二维高斯窗分别为5*5和11*11。
3.根据权利要求1所述的连续语音流中的叠音检测方法,其特征在于,所述步骤102-1)具体为:
计算训练样本的短时傅立叶变换,得到幅度谱Vit,其中短时傅里叶变换的窗长为20ms,帧移为10ms且FFT点数为1024;其中,i=1,…,G,t=1,…,T;i表示当前被分析样本所属说话人的编号;G表示说话人总数量;T表示被分析样本的总帧数;
将说话人i的所有幅度谱Vi=[Vit]作为一组,进行分解,得到对应该说话人的语音基Wi,所述的分解通过最小化如下代价函数完成:
Figure FDA0002205729290000021
其中,Wi和Hi分别表示第i个说话人的基和权重,并在优化时保持它们非负;i=1,…,G;Vit,t=1,…,T,D(X||Y)表示库尔巴克散度:
Figure FDA0002205729290000022
其中,Xmn表示矩阵X的第m行第n列元素,Ymn表示矩阵Y的第m行第n列元素。
4.根据权利要求3所述的连续语音流中的叠音检测方法,其特征在于,所述步骤102-2)进一步包含:
给定待测试信号的幅度谱V,构造如下代价函数,让V在训练得到的语音基Ws上展开,通过给予一定的正则项,控制展开基群的稀疏性:
Figure FDA0002205729290000023
其中,W=[Ws,WN];H=[Hs,HN]T
Figure FDA0002205729290000031
i表示说话人编号,且i=1,…,G,G表示训练集中的说话人总数;Ws=[W1,…,WG];Hs=[H1,…,HG];HS、HN和Ws、WN分别表示语音和噪声的展开权重和基;正则项Θ(Hs)强制使用最少数量的说话人基群重建观测信号;||·||1表示1-范数操作;λ控制基群稀疏性的程度;ε是一个极小值,且ε=10-16
5.根据权利要求4所述的连续语音流中的叠音检测方法,其特征在于,所述步骤102-3)进一步包含:
步骤102-3-1)计算维纳增益Gain=WSHS./(WSHS+WNHN),其中./表示按矩阵元素做除法;
步骤102-3-2)利用维纳增益计算重建频谱,并估计重建频谱与原观测信号谱V的二维皮尔森相关系数:
Figure FDA0002205729290000032
mean(V)表示取矩阵V中所有元素的均值;(·)mn表示取矩阵中第m行,第n列元素;.*表示按按矩阵元素做乘法;
步骤102-3-3)设定阈值θ,
如果Corr(Gain.*V,V)>θ,则接受原检测结果;否则,拒绝原检测结果。
CN201510885336.5A 2015-12-04 2015-12-04 一种连续语音流中的叠音检测方法 Active CN106847267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510885336.5A CN106847267B (zh) 2015-12-04 2015-12-04 一种连续语音流中的叠音检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510885336.5A CN106847267B (zh) 2015-12-04 2015-12-04 一种连续语音流中的叠音检测方法

Publications (2)

Publication Number Publication Date
CN106847267A CN106847267A (zh) 2017-06-13
CN106847267B true CN106847267B (zh) 2020-04-14

Family

ID=59151167

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510885336.5A Active CN106847267B (zh) 2015-12-04 2015-12-04 一种连续语音流中的叠音检测方法

Country Status (1)

Country Link
CN (1) CN106847267B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107393554B (zh) * 2017-06-20 2020-07-10 武汉大学 一种声场景分类中融合类间标准差的特征提取方法
CN111210804A (zh) * 2018-11-01 2020-05-29 普天信息技术有限公司 一种social signal的识别方法和装置
CN109599125A (zh) * 2019-02-01 2019-04-09 浙江核新同花顺网络信息股份有限公司 一种重叠音检测方法及相关装置
CN111341351B (zh) * 2020-02-25 2023-05-23 厦门亿联网络技术股份有限公司 基于自注意力机制的语音活动检测方法、装置及存储介质
CN111640456B (zh) * 2020-06-04 2023-08-22 合肥讯飞数码科技有限公司 叠音检测方法、装置和设备
CN112002347B (zh) * 2020-08-14 2024-05-14 海宁奕斯伟集成电路设计有限公司 语音检测方法、装置和电子设备
CN115019826A (zh) * 2021-03-03 2022-09-06 阿里巴巴(中国)有限公司 音频信号处理方法、设备、系统及存储介质
CN113156373B (zh) * 2021-04-25 2023-06-02 北京华捷艾米科技有限公司 声源定位方法、数字信号处理装置及音频系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054480A (zh) * 2009-10-29 2011-05-11 北京理工大学 一种基于分数阶傅立叶变换的单声道混叠语音分离方法
CN102968986A (zh) * 2012-11-07 2013-03-13 华南理工大学 基于长时特征和短时特征的重叠语音与单人语音区分方法
CN103871423A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 一种基于nmf非负矩阵分解的音频分离方法
CN104269169A (zh) * 2014-09-09 2015-01-07 山东师范大学 一种混叠音频事件分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102054480A (zh) * 2009-10-29 2011-05-11 北京理工大学 一种基于分数阶傅立叶变换的单声道混叠语音分离方法
CN102968986A (zh) * 2012-11-07 2013-03-13 华南理工大学 基于长时特征和短时特征的重叠语音与单人语音区分方法
CN103871423A (zh) * 2012-12-13 2014-06-18 上海八方视界网络科技有限公司 一种基于nmf非负矩阵分解的音频分离方法
CN104269169A (zh) * 2014-09-09 2015-01-07 山东师范大学 一种混叠音频事件分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
IMPACT OF OVERLAPPING SPEECH DETECTION ON SPEAKER DIARIZATION FOR BROADCAST NEWS AND DEBATES;Delphine Charlet 等;《ICASSP 2013》;20131231 *
基于高层信息特征的重叠语音检测;马勇 等;《NCMMSC2015》;20151031 *

Also Published As

Publication number Publication date
CN106847267A (zh) 2017-06-13

Similar Documents

Publication Publication Date Title
CN106847267B (zh) 一种连续语音流中的叠音检测方法
US10901063B2 (en) Localization algorithm for sound sources with known statistics
Shao et al. A computational auditory scene analysis system for speech segregation and robust speech recognition
Sajjan et al. Comparison of DTW and HMM for isolated word recognition
JP7564117B2 (ja) キューのクラスター化を使用した音声強化
Kang et al. Multimodal speaker diarization of real-world meetings using d-vectors with spatial features
JP6348427B2 (ja) 雑音除去装置及び雑音除去プログラム
CN109300470B (zh) 混音分离方法和混音分离装置
Zhao et al. Robust speaker identification using a CASA front-end
Delcroix et al. Speech recognition in living rooms: Integrated speech enhancement and recognition system based on spatial, spectral and temporal modeling of sounds
Alam et al. Use of multiple front-ends and i-vector-based speaker adaptation for robust speech recognition
Rahman et al. Dynamic time warping assisted svm classifier for bangla speech recognition
US20230116052A1 (en) Array geometry agnostic multi-channel personalized speech enhancement
Khanna et al. Application of vector quantization in emotion recognition from human speech
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Ma et al. Exploiting synchrony spectra and deep neural networks for noise-robust automatic speech recognition
Van Segbroeck Unsupervised learning of time–frequency patches as a noise-robust representation of speech
Sangeetha et al. Automatic continuous speech recogniser for Dravidian languages using the auto associative neural network
Venkatesan et al. Deep recurrent neural networks based binaural speech segregation for the selection of closest target of interest
Ming et al. An iterative longest matching segment approach to speech enhancement with additive noise and channel distortion
Nijhawan et al. Real time speaker recognition system for hindi words
Bharali et al. Speaker identification using vector quantization and I-vector with reference to Assamese language
Liu et al. Robust speech enhancement techniques for ASR in non-stationary noise and dynamic environments.
Nath et al. Separation of Overlapping Audio Signals: A Review on Current Trends and Evolving Approaches
JP4537821B2 (ja) オーディオ信号分析方法、その方法を用いたオーディオ信号認識方法、オーディオ信号区間検出方法、それらの装置、プログラムおよびその記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20241010

Address after: 100190, No. 21 West Fourth Ring Road, Beijing, Haidian District

Patentee after: INSTITUTE OF ACOUSTICS, CHINESE ACADEMY OF SCIENCES

Country or region after: China

Address before: 100190, No. 21 West Fourth Ring Road, Beijing, Haidian District

Patentee before: INSTITUTE OF ACOUSTICS, CHINESE ACADEMY OF SCIENCES

Country or region before: China

Patentee before: BEIJING KEXIN TECHNOLOGY Co.,Ltd.