CN110265060B - 一种基于密度聚类的说话人数目自动检测方法 - Google Patents

一种基于密度聚类的说话人数目自动检测方法 Download PDF

Info

Publication number
CN110265060B
CN110265060B CN201910481539.6A CN201910481539A CN110265060B CN 110265060 B CN110265060 B CN 110265060B CN 201910481539 A CN201910481539 A CN 201910481539A CN 110265060 B CN110265060 B CN 110265060B
Authority
CN
China
Prior art keywords
matrix
aliasing
clustering
value
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910481539.6A
Other languages
English (en)
Other versions
CN110265060A (zh
Inventor
杨俊杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN201910481539.6A priority Critical patent/CN110265060B/zh
Publication of CN110265060A publication Critical patent/CN110265060A/zh
Application granted granted Critical
Publication of CN110265060B publication Critical patent/CN110265060B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Stereophonic System (AREA)

Abstract

本发明公开了一种基于密度聚类的说话人数目自动检测方法,其目的是从多个声道的卷积混叠系统中估计出说话人数目;本发明通过引进新的数学工具和新的研究方法,实现观测语音信号中真实说话人数目的自动检测,该方法是在时频域上对观测语音信号的统计信息进行计算并提取出相应的特征向量数据,再利用密度聚类方法逐频点获取特征数据的聚类中心,然后综合所有检测频点的聚类结果分析给出说话人估计数目。最后,对比当前较为流行的几种说话人数目检测方法,从数值实验上证明了所提出方法的优越性。

Description

一种基于密度聚类的说话人数目自动检测方法
技术领域
本发明涉及语音信号处理领域,具体涉及到一种基于密度聚类的说话人数目自动检测方法。
背景技术
语音盲分离(Blind Speech Separation,BSS)的任务是如何通过机器学习的方式,从麦克风接收到的多个声音混合信号中分离出每个说话者的声音,这在信号处理领域中是极具挑战性的课题。在实现语音完全分离之前,获取说话人声源数目参数是语音分离问题中的一个关键性环节。在现实情况下,计算机并不知道采集得到的混合语音中混合着多少个说话人,说话人数目估计错误则会导致语音分离效果的极大退化。
检测说话人数目信息是一种比较复杂的情况,主要受到室内混响效应以及背景噪声的干扰影响,导致很难获取室内混叠信道信息,给说话人数目检测带来很大的困难。特别是,在现实生活中接收的信号往往来源于高混响环境,导致更复杂的卷积混。为了解决这种卷积混叠环境中的说话人数目检测问题,目前比较流行的是基于WDO(Window-DisjointOrthogonal)假设的时频域方法,即假定每个时频点只有一个语音源成分活跃,其余语音源成分处于静默状态,在该假设基础上设计说话人数目检测算法。例如,已提出了部分方法包括:基于模糊K-means的聚类方法(V.Reju,S.N.Koh,and I.Soon,Underdeterminedconvolutive blind source separation via time-frequency masking[J],IEEETrans.Audio,Speech,Lang.Process.,18(1):101–116,2010.),DEMIX算法(S.Arberet,R.Gribonval,and F.Bimbot,A robust method to count and locate audio sources ina multichannel underdetermined mixture[J],IEEE Trans.Signal Process.,58(1):121–133,2010.),SABM算法(B.Laufer-Goldshtein,R.Talmon,and S.Gannot,Sourcecounting and separation based on simplex analysis[J],IEEE Trans.SignalProcess.,66(24):6458–6473,2018.)等等。但是,在高混响、高噪声环境下容易出现信号源相互串扰的问题,导致最终的说话人数目检测结果不理想。
发明内容
针对上述现有技术中存在的问题,本发明的目的是提供一种基于密度聚类的说话人数自动检测方法,以实现说话人自动检测,提高说话人数目检测性能,获取更好的检测结果。
为了实现上述任务,本发明采用以下技术方案:
本发明具有以下技术特点:
一种基于密度聚类的说话人数目自动检测方法,包括以下步骤:
步骤1,从待检测场景中采集混叠语音信号,经过背景噪声降噪处理,得到多通道卷积混叠信号;
步骤2,对卷积混叠语音信号进行数学建模,得到卷积语音混叠模型的数学模型表达式;
步骤3,获取所述卷积语音混叠模型的混叠信号成分;
步骤4,利用混叠信号成分,计算局部二阶协方差矩阵,通过特征值分解提取出特征矩阵;
步骤5,逐频点对特征矩阵进行聚类,得到评分序列;
步骤6,寻找最大化评分序列间隙,计算聚类中心矩阵以及聚类中心数目;
步骤7,逐频点计算聚类中心的平均体积值得到平均体积向量,对体积向量进行排序,然后对聚类中心数目向量也进行排序,提取排名靠前且重复发生概率最大的聚类中心数目,将其作为最终的估计说话人数目。
进一步地,所述的获取所述卷积语音混叠模型的混叠信号成分,包括:
通过窗长度为F的短时傅里叶变换将步骤得到的数学模型x(t)转换到时频域得到混叠信号成分xf,d,(f=0,1,...,F-1,d=1,...,D),其中f表示频点,d表示帧,D为总帧数;根据短时傅里叶变换,将混叠信号成分xf,d展开为下列线性混叠模型:
xf,d=Hfsf,d+ef,d
其中,Hf是第f个频点上维度为M×N的复数混叠信道,sf,d为时频点(f,d)上的N维语音源成分复向量,ef,d是M维复高斯噪声。
进一步地,所述的利用混叠信号成分,计算局部二阶协方差矩阵,通过特征值分解提取出特征矩阵,包括:
根据混叠信号成分xf,d,计算出
Figure BDA0002084006560000031
个局部二阶协方差矩阵:
Figure BDA0002084006560000032
通过特征值分解提取出特征矩阵Yf,具体步骤为:
获取连续的P帧混叠信号成分xf,d,(f=0,1,...,F-1,d=q(P-1)+1,...,qP),构造第q个局部二阶协方差矩阵:
Figure BDA0002084006560000033
对局部二阶协方差矩阵进行特征值分解:
Figure BDA0002084006560000034
其中
Figure BDA0002084006560000035
为特征向量矩阵,
Figure BDA0002084006560000036
为特征值矩阵,提取出最大特征值所对应的特征向量
Figure BDA0002084006560000037
逐块提取组成特征矩阵Yf=[yf,1,...,yf,Q]。
进一步地,所述的逐频点对特征矩阵进行聚类,得到评分序列,包括:
首先,计算特征矩阵Yf中的任意两个特征向量之间的欧式距离并组成相似度矩阵Φf=[φf,qk]q,k=1,...,Q,其中
Figure BDA0002084006560000038
其次,对每个特征向量yf,q计算两个聚类评价指标:(1)局部密度值ρf,q,(2)特征向量yf,q到所有更高局部密度值特征向量的最小距离值δf,q,即:
Figure BDA0002084006560000039
其中,
Figure BDA00020840065600000310
为阈值;
最后,对每个特征向量的上述指标进行乘积得到评分值:γf,q=ρf,q×δf,q,并按从大至小次序组成评分值矩阵,即评分序列:
Figure BDA00020840065600000311
进一步地,所述的寻找最大化评分序列间隙,计算聚类中心矩阵以及聚类中心数目,包括:
首先,计算评分序列中相邻评分值的差分值:
Figure BDA0002084006560000041
其次,计算差分值的方差值:
Figure BDA0002084006560000042
最后,根据最大化
Figure BDA0002084006560000043
相邻比值确定聚类中心数目:
Figure BDA0002084006560000044
以及相应的聚类中心矩阵
Figure BDA0002084006560000045
进一步地,所述的步骤7具体包括:
首先,逐频点计算聚类中心的平均体积
Figure BDA0002084006560000046
构成体积向量V=[V0,..Vf.,VF-1],f=0,1,...,F-1;重新排列平均体积向量V得到
Figure BDA0002084006560000047
根据排序结果对聚类中心数目构成的聚类中心向量N=[N0,..Nf.,NF-1],f=0,1,...,F-1进行相应的排序得到
Figure BDA0002084006560000048
其次,提取排名靠前的部分
Figure BDA0002084006560000049
值标记为
Figure BDA00020840065600000410
Fα=αF,统计向量
Figure BDA00020840065600000411
中重复发生概率最大的聚类中心数目,将其作为说话人数目。
1.本方法引用密度聚类进行估计,并利用间隙判别法识别真实聚类中心,然后通过行列式计算聚类中心的平均体积用于评价聚类效果,最后在平均体积靠前的频谱区域中统计发生概率最大的聚类估计数目作为最终的说话人数目;通过系列实验验证本发明的说话人数目检测效果比其他算法更具有优势。
2.本发明基于多语音信号的局部主导假设,即任意一个信号源成分只需存在一个特定时频点,满足该源成分活跃而其他源成分保持静默状态,该假设放宽了WDO的苛刻假设,更符合实际情况。
附图说明
图1为纯净语音信号的示意图;
图2为混叠语音信号的示意图;
图3的(a)、(b)、(c)分别为在(M,N)=(2,3)、(M,N)=(3,3)、(M,N)=(3,4)时的说话人数检测频率直方图;
图4的(a)、(b)、(c)分别为在(M,N)=(2,3)、(M,N)=(3,3)、(M,N)=(3,4)时的正确估计说话人数目概率曲线图;
图5为本发明方法的流程示意图。
具体实施方式
本发明公开了一种基于密度聚类的说话人数目自动检测方法,包括以下步骤:
步骤1,从待检测场景中采集混叠语音信号,经过背景噪声降噪处理,得到多通道卷积混叠信号。
对于待检测的场景,通过ReSpeaker Mic Array v2.0设备采集混叠语音信号,再进行步骤2后续的处理过程。
为了便于后续的说明过程,本实施例中采用合成的方法得到语音混叠信号,具体方法为:将纯净语音信号与房间响应函数(J.Allenand and D.Berkley,Image method forefficiently simulating small-room acoustics[J],J.Acoust.Soc.Amer.,65(4),1979.)进行卷积混叠。
本实施例中,语音信号数据库包含男声、女声语音各8组,设计合成三种语音卷积混叠方案,其中麦克风数目M分别为2、3,语音信号数目N分别为2、3、4,标记为:(M,N)=(2,3),(M,N)=(3,3),(M,N)=(3,4)。另外,麦克风间距设置为0.05米,语音信号源的间距设置为0.4米,麦克风中心距离语音信号源中心距离设置为1.2米,混响时间RT60分别设置为:100ms,150ms,200ms,250ms。
步骤2,对卷积混叠语音信号进行数学建模,得到卷积语音混叠模型的数学模型表达式
假设有N个语音信号s(t)=[s1(t),...,sN(t)]T,被M个麦克风接收,产生观测混叠信号,即卷积语音混叠模型x(t)=[x1(t),...,xM(t)]T的数学模型表达式可表示为:
Figure BDA0002084006560000051
其中,H∈RM×N是具有L阶次的混叠通道矩阵,★是卷积符号,τ是时间延迟,高斯噪声为:e(t)=[e1(t),...,eM(t)]T
步骤3,获取所述卷积语音混叠模型的混叠信号成分
具体地,通过窗长度为F的短时傅里叶变换将步骤得到的数学模型x(t)转换到时频域得到混叠信号成分xf,d,(f=0,1,...,F-1,d=1,...,D),其中f表示频点,d表示帧,D为总帧数。
根据短时傅里叶变换,混叠信号成分xf,d可展开为下列线性混叠模型:
xf,d=Hfsf,d+ef,d
其中,Hf是第f个频点上维度为M×N的复数混叠信道,sf,d为时频点(f,d)上的N维语音源成分复向量,ef,d是M维复高斯噪声。
步骤4,利用混叠信号成分,计算局部二阶协方差矩阵,通过特征值分解提取出特征矩阵
根据步骤3得到的混叠信号成分xf,d,计算出
Figure BDA0002084006560000061
个局部二阶协方差矩阵:
Figure BDA0002084006560000062
通过特征值分解提取出特征矩阵Yf,具体步骤为:
获取连续的P帧混叠信号成分xf,d,(f=0,1,...,F-1,d=q(P-1)+1,...,qP),构造第q个局部二阶协方差矩阵,例如:
Figure BDA0002084006560000063
对局部二阶协方差矩阵进行特征值分解,例如:
Figure BDA0002084006560000064
其中
Figure BDA0002084006560000065
为特征向量矩阵,
Figure BDA0002084006560000066
为特征值矩阵,提取出最大特征值所对应的特征向量
Figure BDA0002084006560000067
逐块提取组成特征矩阵Yf=[yf,1,...,yf,Q];本方案的目的是对特征矩阵进行处理,并估计出说话人的真实数目。
步骤5,逐频点对特征矩阵进行聚类,得到评分序列
首先,计算特征矩阵Yf中的任意两个特征向量之间的欧式距离并组成相似度矩阵Φf=[φf,qk]q,k=1,...,Q,其中
Figure BDA0002084006560000071
其次,对每个特征向量yf,q计算两个聚类评价指标:(1)局部密度值ρf,q,(2)特征向量yf,q到所有更高局部密度值特征向量的最小距离值δf,q,即:
Figure BDA0002084006560000072
其中,
Figure BDA0002084006560000073
为阈值,一般选取为按从小到大对相似度矩阵Φf进行排序的6%-8%的元素值。
最后,对每个特征向量的上述指标进行乘积得到评分值:γf,q=ρf,q×δf,q,并按从大至小次序组成评分值矩阵,即评分序列:
Figure BDA0002084006560000074
步骤6,寻找最大化评分序列间隙,计算聚类中心矩阵以及聚类中心数目
首先,计算评分序列中相邻评分值的差分值如下:
Figure BDA0002084006560000075
其次,计算差分值的方差值如下:
Figure BDA0002084006560000076
最后,根据最大化
Figure BDA0002084006560000077
相邻比值确定聚类中心数目:
Figure BDA0002084006560000078
以及相应的聚类中心矩阵
Figure BDA0002084006560000079
步骤7,逐频点计算聚类中心的平均体积值得到平均体积向量,对体积向量按从大到小的次序排序,然后对聚类中心数目向量也进行相应的排序,提取排名靠前且重复发生概率最大的聚类中心数目,将其作为最终的估计说话人数目。
首先,逐频点计算聚类中心的平均体积
Figure BDA0002084006560000081
构成体积向量V=[V0,..Vf.,VF-1],f=0,1,...,F-1;det表示行列式运算;重新排列平均体积向量V得到
Figure BDA0002084006560000082
根据排序结果对聚类中心数目构成的聚类中心向量N=[N0,..Nf.,NF-1],f=0,1,...,F-1进行相应的排序得到
Figure BDA0002084006560000083
其次,提取排名靠前的部分
Figure BDA0002084006560000084
值标记为
Figure BDA0002084006560000085
Fα=αF(如α选取0.2-0.5),统计向量
Figure BDA0002084006560000086
中重复发生概率最大的聚类中心数目,将其作为说话人数目。
下面通过三个具体仿真实验来说明本发明方法的可行性与优越性。
所有实验是在MacBook Air,Intel Core i5,CPU 1.8GHz,macOS 10.13.6,MatlabR2018b编程环境下实现。首先,我们采用数据集“LibriSpeech ASR corpus”(https://www.openslr.org/12)。在该数据集中,我们各选取不同的男声、女声语音数据各8组,按照完全排列组合的方式分别构造测试数据集。语音源信号的波形如图1,混叠语音波形如下图2;通过步骤6统计最大发生概率的聚类中心数目如图3所示。考察选取频谱区域占比值对说话人检测精度影响的概率曲线如下图4所示。另外,我们将正确估计说话人数目检测精度作为性能比较,概率值越高说明检测性能越好。对比几种比较流行的算法,显然,本发明方法的性能更优越,如下表1所示。
表1说话人数目检测精度
Figure BDA0002084006560000087

Claims (6)

1.一种基于密度聚类的说话人数目自动检测方法,其特征在于,包括以下步骤:
步骤1,从待检测场景中采集混叠语音信号,经过背景噪声降噪处理,得到多通道卷积混叠信号;
步骤2,对卷积混叠语音信号进行数学建模,得到卷积语音混叠模型的数学模型表达式:
假设有N个语音信号s(t)=[s1(t),...,sN(t)]T,被M个麦克风接收,产生观测混叠信号,即卷积语音混叠模型x(t)=[x1(t),...,xM(t)]T的数学模型表达式可表示为:
Figure FDA0002959559070000011
其中,H∈RM×N是具有L阶次的混叠通道矩阵,★是卷积符号,τ是时间延迟,高斯噪声为:e(t)=[e1(t),...,eM(t)]T
步骤3,获取所述卷积语音混叠模型的混叠信号成分;
步骤4,利用混叠信号成分,计算局部二阶协方差矩阵,通过特征值分解提取出特征矩阵;
步骤5,逐频点对特征矩阵进行聚类,得到评分序列;
步骤6,寻找最大化评分序列间隙,计算聚类中心矩阵以及聚类中心数目;
步骤7,逐频点计算聚类中心的平均体积值得到平均体积向量,对体积向量进行排序,然后对聚类中心数目向量也进行排序,提取排名靠前且重复发生概率最大的聚类中心数目,将其作为最终的估计说话人数目。
2.如权利要求1所述的基于密度聚类的说话人数目自动检测方法,其特征在于,所述的获取所述卷积语音混叠模型的混叠信号成分,包括:
通过窗长度为F的短时傅里叶变换将步骤得到的数学模型x(t)转换到时频域得到混叠信号成分xf,d,(f=0,1,...,F-1,d=1,...,D),其中f表示频点,d表示帧,D为总帧数;根据短时傅里叶变换,将混叠信号成分xf,d展开为下列线性混叠模型:
xf,d=Hfsf,d+ef,d
其中,Hf是第f个频点上维度为M×N的复数混叠信道,sf,d为时频点(f,d)上的N维语音源成分复向量,ef,d是M维复高斯噪声。
3.如权利要求2所述的基于密度聚类的说话人数目自动检测方法,其特征在于,所述的利用混叠信号成分,计算局部二阶协方差矩阵,通过特征值分解提取出特征矩阵,包括:
根据混叠信号成分xf,d,计算出
Figure FDA0002959559070000021
个局部二阶协方差矩阵:
Figure FDA0002959559070000022
通过特征值分解提取出特征矩阵Yf,具体步骤为:
获取连续的P帧混叠信号成分xf,d,(f=0,1,...,F-1,d=q(P-1)+1,...,qP),构造第q个局部二阶协方差矩阵:
Figure FDA0002959559070000023
对局部二阶协方差矩阵进行特征值分解:
Figure FDA0002959559070000024
其中
Figure FDA0002959559070000025
为特征向量矩阵,
Figure FDA0002959559070000026
为特征值矩阵,提取出最大特征值所对应的特征向量
Figure FDA0002959559070000027
逐块提取组成特征矩阵Yf=[yf,1,...,yf,Q]。
4.如权利要求2所述的基于密度聚类的说话人数目自动检测方法,其特征在于,所述的逐频点对特征矩阵进行聚类,得到评分序列,包括:
首先,计算特征矩阵Yf中的任意两个特征向量之间的欧式距离并组成相似度矩阵Φf=[φf,qk]q,k=1,...,Q,其中
Figure FDA0002959559070000028
其次,对每个特征向量yf,q计算两个聚类评价指标:(1)局部密度值ρf,q,(2)特征向量yf,q到所有更高局部密度值特征向量的最小距离值δf,q,即:
Figure FDA0002959559070000029
其中,
Figure FDA0002959559070000031
为阈值;
最后,对每个特征向量的上述指标进行乘积得到评分值:γf,q=ρf,q×δf,q,并按从大至小次序组成评分值矩阵,即评分序列:
Figure FDA0002959559070000032
5.如权利要求2所述的基于密度聚类的说话人数目自动检测方法,其特征在于,所述的寻找最大化评分序列间隙,计算聚类中心矩阵以及聚类中心数目,包括:
首先,计算评分序列中相邻评分值的差分值:
Figure FDA0002959559070000033
其次,计算差分值的方差值:
Figure FDA0002959559070000034
最后,根据最大化
Figure FDA0002959559070000035
相邻比值确定聚类中心数目:
Figure FDA0002959559070000036
以及相应的聚类中心矩阵
Figure FDA0002959559070000037
6.如权利要求2所述的基于密度聚类的说话人数目自动检测方法,其特征在于,所述的步骤7具体包括:
首先,逐频点计算聚类中心的平均体积
Figure FDA0002959559070000038
构成体积向量V=[V0,..Vf.,VF-1],f=0,1,...,F-1;重新排列平均体积向量V得到
Figure FDA0002959559070000039
根据排序结果对聚类中心数目构成的聚类中心向量N=[N0,..Nf.,NF-1],f=0,1,...,F-1进行相应的排序得到
Figure FDA00029595590700000310
其次,提取排名靠前的部分
Figure FDA00029595590700000311
值标记为
Figure FDA00029595590700000312
统计向量
Figure FDA00029595590700000313
中重复发生概率最大的聚类中心数目,将其作为说话人数目。
CN201910481539.6A 2019-06-04 2019-06-04 一种基于密度聚类的说话人数目自动检测方法 Active CN110265060B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910481539.6A CN110265060B (zh) 2019-06-04 2019-06-04 一种基于密度聚类的说话人数目自动检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910481539.6A CN110265060B (zh) 2019-06-04 2019-06-04 一种基于密度聚类的说话人数目自动检测方法

Publications (2)

Publication Number Publication Date
CN110265060A CN110265060A (zh) 2019-09-20
CN110265060B true CN110265060B (zh) 2021-05-11

Family

ID=67916749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910481539.6A Active CN110265060B (zh) 2019-06-04 2019-06-04 一种基于密度聚类的说话人数目自动检测方法

Country Status (1)

Country Link
CN (1) CN110265060B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111429935B (zh) * 2020-02-28 2023-08-29 北京捷通华声科技股份有限公司 一种语音话者分离方法和装置
CN113011506B (zh) * 2021-03-24 2023-08-25 华南理工大学 一种基于深度重分形频谱网络的纹理图像分类方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7472062B2 (en) * 2002-01-04 2008-12-30 International Business Machines Corporation Efficient recursive clustering based on a splitting function derived from successive eigen-decompositions
CN102760435A (zh) * 2012-07-03 2012-10-31 合肥工业大学 一种语音信号频域盲解卷积方法
US9875742B2 (en) * 2015-01-26 2018-01-23 Verint Systems Ltd. Word-level blind diarization of recorded calls with arbitrary number of speakers
CN105161093B (zh) * 2015-10-14 2019-07-09 科大讯飞股份有限公司 一种判断说话人数目的方法及系统
CN105845141A (zh) * 2016-03-23 2016-08-10 广州势必可赢网络科技有限公司 基于信道鲁棒的说话人确认模型及说话人确认方法和装置
CN105654963B (zh) * 2016-03-23 2020-02-21 天津大学 频谱校正及数据密度聚类法语音欠定盲识别方法和装置
JP6594839B2 (ja) * 2016-10-12 2019-10-23 日本電信電話株式会社 話者数推定装置、話者数推定方法、およびプログラム
US10497382B2 (en) * 2016-12-16 2019-12-03 Google Llc Associating faces with voices for speaker diarization within videos
CN107393527A (zh) * 2017-07-17 2017-11-24 广东讯飞启明科技发展有限公司 说话人数目的判断方法
CN108962237B (zh) * 2018-05-24 2020-12-04 腾讯科技(深圳)有限公司 混合语音识别方法、装置及计算机可读存储介质
CN108875604B (zh) * 2018-05-31 2021-07-09 中国地质大学(武汉) 基于模糊聚类优化高斯混合模型的高频振荡节律检测方法

Also Published As

Publication number Publication date
CN110265060A (zh) 2019-09-20

Similar Documents

Publication Publication Date Title
CN109830245B (zh) 一种基于波束成形的多说话者语音分离方法及系统
Chen et al. Deep attractor network for single-microphone speaker separation
Li et al. Multiple-speaker localization based on direct-path features and likelihood maximization with spatial sparsity regularization
CN106373589B (zh) 一种基于迭代结构的双耳混合语音分离方法
CN102565759B (zh) 一种基于子带信噪比估计的双耳声源定位方法
CN108091345B (zh) 一种基于支持向量机的双耳语音分离方法
CN111899756B (zh) 一种单通道语音分离方法和装置
CN107346664A (zh) 一种基于临界频带的双耳语音分离方法
CN110197665A (zh) 一种用于公安刑侦监听的语音分离与跟踪方法
CN110265060B (zh) 一种基于密度聚类的说话人数目自动检测方法
CN108520756B (zh) 一种说话人语音分离的方法及装置
CN103985381A (zh) 一种基于参数融合优化决策的音频索引方法
CN110619887A (zh) 一种基于卷积神经网络的多说话人语音分离方法
CN108877831B (zh) 基于多标准融合频点筛选的盲源分离快速方法及系统
Shujau et al. Separation of speech sources using an acoustic vector sensor
CN112201276B (zh) 基于TC-ResNet网络的麦克风阵列语音分离方法
CN112037813B (zh) 一种针对大功率目标信号的语音提取方法
CN111179959B (zh) 一种基于说话人嵌入空间的竞争说话人数量估计方法及系统
CN110275138B (zh) 一种利用优势声源成分移除的多声源定位方法
CN110706709B (zh) 一种结合视频信号的多通道卷积混叠语音信道估计方法
CN110046655A (zh) 一种基于集成学习的音频场景识别方法
Jafari et al. Underdetermined blind source separation with fuzzy clustering for arbitrarily arranged sensors
CN116092512A (zh) 一种基于数据生成的小样本语音分离方法
Peng et al. Competing Speaker Count Estimation on the Fusion of the Spectral and Spatial Embedding Space.
CN113823316B (zh) 一种针对位置靠近声源的语音信号分离方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant