CN110265060B - 一种基于密度聚类的说话人数目自动检测方法 - Google Patents
一种基于密度聚类的说话人数目自动检测方法 Download PDFInfo
- Publication number
- CN110265060B CN110265060B CN201910481539.6A CN201910481539A CN110265060B CN 110265060 B CN110265060 B CN 110265060B CN 201910481539 A CN201910481539 A CN 201910481539A CN 110265060 B CN110265060 B CN 110265060B
- Authority
- CN
- China
- Prior art keywords
- matrix
- aliasing
- clustering
- value
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Stereophonic System (AREA)
Abstract
本发明公开了一种基于密度聚类的说话人数目自动检测方法,其目的是从多个声道的卷积混叠系统中估计出说话人数目;本发明通过引进新的数学工具和新的研究方法,实现观测语音信号中真实说话人数目的自动检测,该方法是在时频域上对观测语音信号的统计信息进行计算并提取出相应的特征向量数据,再利用密度聚类方法逐频点获取特征数据的聚类中心,然后综合所有检测频点的聚类结果分析给出说话人估计数目。最后,对比当前较为流行的几种说话人数目检测方法,从数值实验上证明了所提出方法的优越性。
Description
技术领域
本发明涉及语音信号处理领域,具体涉及到一种基于密度聚类的说话人数目自动检测方法。
背景技术
语音盲分离(Blind Speech Separation,BSS)的任务是如何通过机器学习的方式,从麦克风接收到的多个声音混合信号中分离出每个说话者的声音,这在信号处理领域中是极具挑战性的课题。在实现语音完全分离之前,获取说话人声源数目参数是语音分离问题中的一个关键性环节。在现实情况下,计算机并不知道采集得到的混合语音中混合着多少个说话人,说话人数目估计错误则会导致语音分离效果的极大退化。
检测说话人数目信息是一种比较复杂的情况,主要受到室内混响效应以及背景噪声的干扰影响,导致很难获取室内混叠信道信息,给说话人数目检测带来很大的困难。特别是,在现实生活中接收的信号往往来源于高混响环境,导致更复杂的卷积混。为了解决这种卷积混叠环境中的说话人数目检测问题,目前比较流行的是基于WDO(Window-DisjointOrthogonal)假设的时频域方法,即假定每个时频点只有一个语音源成分活跃,其余语音源成分处于静默状态,在该假设基础上设计说话人数目检测算法。例如,已提出了部分方法包括:基于模糊K-means的聚类方法(V.Reju,S.N.Koh,and I.Soon,Underdeterminedconvolutive blind source separation via time-frequency masking[J],IEEETrans.Audio,Speech,Lang.Process.,18(1):101–116,2010.),DEMIX算法(S.Arberet,R.Gribonval,and F.Bimbot,A robust method to count and locate audio sources ina multichannel underdetermined mixture[J],IEEE Trans.Signal Process.,58(1):121–133,2010.),SABM算法(B.Laufer-Goldshtein,R.Talmon,and S.Gannot,Sourcecounting and separation based on simplex analysis[J],IEEE Trans.SignalProcess.,66(24):6458–6473,2018.)等等。但是,在高混响、高噪声环境下容易出现信号源相互串扰的问题,导致最终的说话人数目检测结果不理想。
发明内容
针对上述现有技术中存在的问题,本发明的目的是提供一种基于密度聚类的说话人数自动检测方法,以实现说话人自动检测,提高说话人数目检测性能,获取更好的检测结果。
为了实现上述任务,本发明采用以下技术方案:
本发明具有以下技术特点:
一种基于密度聚类的说话人数目自动检测方法,包括以下步骤:
步骤1,从待检测场景中采集混叠语音信号,经过背景噪声降噪处理,得到多通道卷积混叠信号;
步骤2,对卷积混叠语音信号进行数学建模,得到卷积语音混叠模型的数学模型表达式;
步骤3,获取所述卷积语音混叠模型的混叠信号成分;
步骤4,利用混叠信号成分,计算局部二阶协方差矩阵,通过特征值分解提取出特征矩阵;
步骤5,逐频点对特征矩阵进行聚类,得到评分序列;
步骤6,寻找最大化评分序列间隙,计算聚类中心矩阵以及聚类中心数目;
步骤7,逐频点计算聚类中心的平均体积值得到平均体积向量,对体积向量进行排序,然后对聚类中心数目向量也进行排序,提取排名靠前且重复发生概率最大的聚类中心数目,将其作为最终的估计说话人数目。
进一步地,所述的获取所述卷积语音混叠模型的混叠信号成分,包括:
通过窗长度为F的短时傅里叶变换将步骤得到的数学模型x(t)转换到时频域得到混叠信号成分xf,d,(f=0,1,...,F-1,d=1,...,D),其中f表示频点,d表示帧,D为总帧数;根据短时傅里叶变换,将混叠信号成分xf,d展开为下列线性混叠模型:
xf,d=Hfsf,d+ef,d
其中,Hf是第f个频点上维度为M×N的复数混叠信道,sf,d为时频点(f,d)上的N维语音源成分复向量,ef,d是M维复高斯噪声。
进一步地,所述的利用混叠信号成分,计算局部二阶协方差矩阵,通过特征值分解提取出特征矩阵,包括:
获取连续的P帧混叠信号成分xf,d,(f=0,1,...,F-1,d=q(P-1)+1,...,qP),构造第q个局部二阶协方差矩阵:
对局部二阶协方差矩阵进行特征值分解:
进一步地,所述的逐频点对特征矩阵进行聚类,得到评分序列,包括:
其次,对每个特征向量yf,q计算两个聚类评价指标:(1)局部密度值ρf,q,(2)特征向量yf,q到所有更高局部密度值特征向量的最小距离值δf,q,即:
进一步地,所述的寻找最大化评分序列间隙,计算聚类中心矩阵以及聚类中心数目,包括:
首先,计算评分序列中相邻评分值的差分值:
其次,计算差分值的方差值:
进一步地,所述的步骤7具体包括:
1.本方法引用密度聚类进行估计,并利用间隙判别法识别真实聚类中心,然后通过行列式计算聚类中心的平均体积用于评价聚类效果,最后在平均体积靠前的频谱区域中统计发生概率最大的聚类估计数目作为最终的说话人数目;通过系列实验验证本发明的说话人数目检测效果比其他算法更具有优势。
2.本发明基于多语音信号的局部主导假设,即任意一个信号源成分只需存在一个特定时频点,满足该源成分活跃而其他源成分保持静默状态,该假设放宽了WDO的苛刻假设,更符合实际情况。
附图说明
图1为纯净语音信号的示意图;
图2为混叠语音信号的示意图;
图3的(a)、(b)、(c)分别为在(M,N)=(2,3)、(M,N)=(3,3)、(M,N)=(3,4)时的说话人数检测频率直方图;
图4的(a)、(b)、(c)分别为在(M,N)=(2,3)、(M,N)=(3,3)、(M,N)=(3,4)时的正确估计说话人数目概率曲线图;
图5为本发明方法的流程示意图。
具体实施方式
本发明公开了一种基于密度聚类的说话人数目自动检测方法,包括以下步骤:
步骤1,从待检测场景中采集混叠语音信号,经过背景噪声降噪处理,得到多通道卷积混叠信号。
对于待检测的场景,通过ReSpeaker Mic Array v2.0设备采集混叠语音信号,再进行步骤2后续的处理过程。
为了便于后续的说明过程,本实施例中采用合成的方法得到语音混叠信号,具体方法为:将纯净语音信号与房间响应函数(J.Allenand and D.Berkley,Image method forefficiently simulating small-room acoustics[J],J.Acoust.Soc.Amer.,65(4),1979.)进行卷积混叠。
本实施例中,语音信号数据库包含男声、女声语音各8组,设计合成三种语音卷积混叠方案,其中麦克风数目M分别为2、3,语音信号数目N分别为2、3、4,标记为:(M,N)=(2,3),(M,N)=(3,3),(M,N)=(3,4)。另外,麦克风间距设置为0.05米,语音信号源的间距设置为0.4米,麦克风中心距离语音信号源中心距离设置为1.2米,混响时间RT60分别设置为:100ms,150ms,200ms,250ms。
步骤2,对卷积混叠语音信号进行数学建模,得到卷积语音混叠模型的数学模型表达式
假设有N个语音信号s(t)=[s1(t),...,sN(t)]T,被M个麦克风接收,产生观测混叠信号,即卷积语音混叠模型x(t)=[x1(t),...,xM(t)]T的数学模型表达式可表示为:
其中,H∈RM×N是具有L阶次的混叠通道矩阵,★是卷积符号,τ是时间延迟,高斯噪声为:e(t)=[e1(t),...,eM(t)]T。
步骤3,获取所述卷积语音混叠模型的混叠信号成分
具体地,通过窗长度为F的短时傅里叶变换将步骤得到的数学模型x(t)转换到时频域得到混叠信号成分xf,d,(f=0,1,...,F-1,d=1,...,D),其中f表示频点,d表示帧,D为总帧数。
根据短时傅里叶变换,混叠信号成分xf,d可展开为下列线性混叠模型:
xf,d=Hfsf,d+ef,d
其中,Hf是第f个频点上维度为M×N的复数混叠信道,sf,d为时频点(f,d)上的N维语音源成分复向量,ef,d是M维复高斯噪声。
步骤4,利用混叠信号成分,计算局部二阶协方差矩阵,通过特征值分解提取出特征矩阵
获取连续的P帧混叠信号成分xf,d,(f=0,1,...,F-1,d=q(P-1)+1,...,qP),构造第q个局部二阶协方差矩阵,例如:
对局部二阶协方差矩阵进行特征值分解,例如:
步骤5,逐频点对特征矩阵进行聚类,得到评分序列
其次,对每个特征向量yf,q计算两个聚类评价指标:(1)局部密度值ρf,q,(2)特征向量yf,q到所有更高局部密度值特征向量的最小距离值δf,q,即:
最后,对每个特征向量的上述指标进行乘积得到评分值:γf,q=ρf,q×δf,q,并按从大至小次序组成评分值矩阵,即评分序列:
步骤6,寻找最大化评分序列间隙,计算聚类中心矩阵以及聚类中心数目
首先,计算评分序列中相邻评分值的差分值如下:
其次,计算差分值的方差值如下:
步骤7,逐频点计算聚类中心的平均体积值得到平均体积向量,对体积向量按从大到小的次序排序,然后对聚类中心数目向量也进行相应的排序,提取排名靠前且重复发生概率最大的聚类中心数目,将其作为最终的估计说话人数目。
下面通过三个具体仿真实验来说明本发明方法的可行性与优越性。
所有实验是在MacBook Air,Intel Core i5,CPU 1.8GHz,macOS 10.13.6,MatlabR2018b编程环境下实现。首先,我们采用数据集“LibriSpeech ASR corpus”(https://www.openslr.org/12)。在该数据集中,我们各选取不同的男声、女声语音数据各8组,按照完全排列组合的方式分别构造测试数据集。语音源信号的波形如图1,混叠语音波形如下图2;通过步骤6统计最大发生概率的聚类中心数目如图3所示。考察选取频谱区域占比值对说话人检测精度影响的概率曲线如下图4所示。另外,我们将正确估计说话人数目检测精度作为性能比较,概率值越高说明检测性能越好。对比几种比较流行的算法,显然,本发明方法的性能更优越,如下表1所示。
表1说话人数目检测精度
Claims (6)
1.一种基于密度聚类的说话人数目自动检测方法,其特征在于,包括以下步骤:
步骤1,从待检测场景中采集混叠语音信号,经过背景噪声降噪处理,得到多通道卷积混叠信号;
步骤2,对卷积混叠语音信号进行数学建模,得到卷积语音混叠模型的数学模型表达式:
假设有N个语音信号s(t)=[s1(t),...,sN(t)]T,被M个麦克风接收,产生观测混叠信号,即卷积语音混叠模型x(t)=[x1(t),...,xM(t)]T的数学模型表达式可表示为:
其中,H∈RM×N是具有L阶次的混叠通道矩阵,★是卷积符号,τ是时间延迟,高斯噪声为:e(t)=[e1(t),...,eM(t)]T;
步骤3,获取所述卷积语音混叠模型的混叠信号成分;
步骤4,利用混叠信号成分,计算局部二阶协方差矩阵,通过特征值分解提取出特征矩阵;
步骤5,逐频点对特征矩阵进行聚类,得到评分序列;
步骤6,寻找最大化评分序列间隙,计算聚类中心矩阵以及聚类中心数目;
步骤7,逐频点计算聚类中心的平均体积值得到平均体积向量,对体积向量进行排序,然后对聚类中心数目向量也进行排序,提取排名靠前且重复发生概率最大的聚类中心数目,将其作为最终的估计说话人数目。
2.如权利要求1所述的基于密度聚类的说话人数目自动检测方法,其特征在于,所述的获取所述卷积语音混叠模型的混叠信号成分,包括:
通过窗长度为F的短时傅里叶变换将步骤得到的数学模型x(t)转换到时频域得到混叠信号成分xf,d,(f=0,1,...,F-1,d=1,...,D),其中f表示频点,d表示帧,D为总帧数;根据短时傅里叶变换,将混叠信号成分xf,d展开为下列线性混叠模型:
xf,d=Hfsf,d+ef,d
其中,Hf是第f个频点上维度为M×N的复数混叠信道,sf,d为时频点(f,d)上的N维语音源成分复向量,ef,d是M维复高斯噪声。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910481539.6A CN110265060B (zh) | 2019-06-04 | 2019-06-04 | 一种基于密度聚类的说话人数目自动检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910481539.6A CN110265060B (zh) | 2019-06-04 | 2019-06-04 | 一种基于密度聚类的说话人数目自动检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110265060A CN110265060A (zh) | 2019-09-20 |
CN110265060B true CN110265060B (zh) | 2021-05-11 |
Family
ID=67916749
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910481539.6A Active CN110265060B (zh) | 2019-06-04 | 2019-06-04 | 一种基于密度聚类的说话人数目自动检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110265060B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111429935B (zh) * | 2020-02-28 | 2023-08-29 | 北京捷通华声科技股份有限公司 | 一种语音话者分离方法和装置 |
CN113011506B (zh) * | 2021-03-24 | 2023-08-25 | 华南理工大学 | 一种基于深度重分形频谱网络的纹理图像分类方法 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7472062B2 (en) * | 2002-01-04 | 2008-12-30 | International Business Machines Corporation | Efficient recursive clustering based on a splitting function derived from successive eigen-decompositions |
CN102760435A (zh) * | 2012-07-03 | 2012-10-31 | 合肥工业大学 | 一种语音信号频域盲解卷积方法 |
US9875742B2 (en) * | 2015-01-26 | 2018-01-23 | Verint Systems Ltd. | Word-level blind diarization of recorded calls with arbitrary number of speakers |
CN105161093B (zh) * | 2015-10-14 | 2019-07-09 | 科大讯飞股份有限公司 | 一种判断说话人数目的方法及系统 |
CN105845141A (zh) * | 2016-03-23 | 2016-08-10 | 广州势必可赢网络科技有限公司 | 基于信道鲁棒的说话人确认模型及说话人确认方法和装置 |
CN105654963B (zh) * | 2016-03-23 | 2020-02-21 | 天津大学 | 频谱校正及数据密度聚类法语音欠定盲识别方法和装置 |
JP6594839B2 (ja) * | 2016-10-12 | 2019-10-23 | 日本電信電話株式会社 | 話者数推定装置、話者数推定方法、およびプログラム |
US10497382B2 (en) * | 2016-12-16 | 2019-12-03 | Google Llc | Associating faces with voices for speaker diarization within videos |
CN107393527A (zh) * | 2017-07-17 | 2017-11-24 | 广东讯飞启明科技发展有限公司 | 说话人数目的判断方法 |
CN108962237B (zh) * | 2018-05-24 | 2020-12-04 | 腾讯科技(深圳)有限公司 | 混合语音识别方法、装置及计算机可读存储介质 |
CN108875604B (zh) * | 2018-05-31 | 2021-07-09 | 中国地质大学(武汉) | 基于模糊聚类优化高斯混合模型的高频振荡节律检测方法 |
-
2019
- 2019-06-04 CN CN201910481539.6A patent/CN110265060B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110265060A (zh) | 2019-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109830245B (zh) | 一种基于波束成形的多说话者语音分离方法及系统 | |
Chen et al. | Deep attractor network for single-microphone speaker separation | |
Li et al. | Multiple-speaker localization based on direct-path features and likelihood maximization with spatial sparsity regularization | |
CN106373589B (zh) | 一种基于迭代结构的双耳混合语音分离方法 | |
CN102565759B (zh) | 一种基于子带信噪比估计的双耳声源定位方法 | |
CN108091345B (zh) | 一种基于支持向量机的双耳语音分离方法 | |
CN111899756B (zh) | 一种单通道语音分离方法和装置 | |
CN107346664A (zh) | 一种基于临界频带的双耳语音分离方法 | |
CN110197665A (zh) | 一种用于公安刑侦监听的语音分离与跟踪方法 | |
CN110265060B (zh) | 一种基于密度聚类的说话人数目自动检测方法 | |
CN108520756B (zh) | 一种说话人语音分离的方法及装置 | |
CN103985381A (zh) | 一种基于参数融合优化决策的音频索引方法 | |
CN110619887A (zh) | 一种基于卷积神经网络的多说话人语音分离方法 | |
CN108877831B (zh) | 基于多标准融合频点筛选的盲源分离快速方法及系统 | |
Shujau et al. | Separation of speech sources using an acoustic vector sensor | |
CN112201276B (zh) | 基于TC-ResNet网络的麦克风阵列语音分离方法 | |
CN112037813B (zh) | 一种针对大功率目标信号的语音提取方法 | |
CN111179959B (zh) | 一种基于说话人嵌入空间的竞争说话人数量估计方法及系统 | |
CN110275138B (zh) | 一种利用优势声源成分移除的多声源定位方法 | |
CN110706709B (zh) | 一种结合视频信号的多通道卷积混叠语音信道估计方法 | |
CN110046655A (zh) | 一种基于集成学习的音频场景识别方法 | |
Jafari et al. | Underdetermined blind source separation with fuzzy clustering for arbitrarily arranged sensors | |
CN116092512A (zh) | 一种基于数据生成的小样本语音分离方法 | |
Peng et al. | Competing Speaker Count Estimation on the Fusion of the Spectral and Spatial Embedding Space. | |
CN113823316B (zh) | 一种针对位置靠近声源的语音信号分离方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |