CN106971713A - 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统 - Google Patents

基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统 Download PDF

Info

Publication number
CN106971713A
CN106971713A CN201710035673.4A CN201710035673A CN106971713A CN 106971713 A CN106971713 A CN 106971713A CN 201710035673 A CN201710035673 A CN 201710035673A CN 106971713 A CN106971713 A CN 106971713A
Authority
CN
China
Prior art keywords
speaker
formula
sigma
model
measured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710035673.4A
Other languages
English (en)
Other versions
CN106971713B (zh
Inventor
何亮
徐灿
田垚
刘艺
刘加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huacong Zhijia Technology Co., Ltd.
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201710035673.4A priority Critical patent/CN106971713B/zh
Publication of CN106971713A publication Critical patent/CN106971713A/zh
Application granted granted Critical
Publication of CN106971713B publication Critical patent/CN106971713B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Complex Calculations (AREA)
  • Stereophonic System (AREA)

Abstract

本发明提出的一种基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统,属于声纹识别和模式识别领域。本发明方法首先建立训练语音数据库,得到通用背景模型和子空间模型;然后通过i‑vector因子提取方法得到待测语音数据的每一段的i‑vector因子;使用密度峰值聚类算法得出待测语音数据的说话人个数和说话人在各个时刻的先验概率,使用变分贝叶斯迭代估计每个片段对应每个说话人的后验概率,得出说话人标记结果。本发明解决了现有技术中说话人个数和说话人在各个时刻的先验概率的初始值估计的不确定性,说话人标记性能极易受初始值影响而产生较大偏差等问题;增强了说话人标记的准确率、稳定性和灵活性。

Description

基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统
技术领域
本发明涉及声纹识别和模式识别领域,特别涉及一种基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统。
背景技术
说话人标记技术的意义在于,应用至电话会议、国际会议中时,可以作为会议记录的资料被保存,同时对说话人的准确识别也自然会有助于后续的语音处理与语义识别。另外,在监控领域,说话人标记可以对被监控对象的声音语言进行记录,应用至公安领域或是军事领域,对保卫治安乃至国家安全都有所贡献。
说话人标记解决的是谁在什么时候说话的问题。说话人标记首先要对语音提取梅尔倒谱特征。梅尔倒谱特征考虑了人耳的听觉特征,是一种在自动语音和说话人识别中广泛使用的特征。特征提取完后需要进行三个步骤,活动语音检测:分离语音和静音段;说话人分割:分割片段使每个片段只含一个说话人;说话人聚类:将同一个说话人的语音归在一起。一般用变分贝叶斯准则进行说话人分割。最常见的说话人聚类方法是agglomerativehierarchical clustering(AHC),同时也称为bottom-up聚类。2005年Valent提出了变分贝叶斯说话人标记方法。2010年,kenny将因子分析方法和变分贝叶斯方法相结合进行说话人标记。因子分析是一种降维方法,他将原来表示说话人的高斯混合模型的高维超向量用低维的说话人因子i-vector表示。目前为止,该方法效果最好。然而该方法对说话人个数的初始值非常敏感,需要已知测试语音的说话人个数;同时,其中说话人先验也是任意选取的,这些不确定性使系统不具有稳定性。初始值的不同导致系统的性能产生较大的差异。
2014年,Rogriguez提出了密度峰值聚类算法,该算法根据计算每个点的密度和相对距离,设置二者的阈值进行聚类。目前主要应用于人脸识别、图像识别等领域,但在说话人识别、说话人标记等领域尚未有人使用。
发明内容
本发明的目的是为克服已有技术的不足之处,提出一种基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统。本发明解决了现有技术中说话人个数和说话人在各个时刻的先验概率的初始值估计的不确定性,说话人标记性能极易受初始值影响而产生较大偏差等问题;增强了说话人标记的准确率、稳定性和灵活性。
本发明提出的一种基于密度峰值聚类和变分贝叶斯的说话人标记方法,其特征在于,包括如下步骤:
11)建立训练语音数据库,提取训练语音数据库中语音信号的梅尔倒谱特征,通过kmeans聚类算法得到通用背景的初始模型,利用期望最大算法迭代得到通用背景模型;根据建立的通用背景模型和训练语音数据提取Baum-Welch统计量,通过因子分析方法得到子空间模型;具体包括以下步骤:
1-1)建立通用背景模型:通用背景模型通过提取具有多个说话人的训练语音数据库中的语音信号特征,通过EM算法训练得到,用于建立子空间模型和说话人标记;具体包括以下步骤:
1-1-1)建立训练语音数据库;使用来自NIST SRE 2012电话语音数据建立训练语音数据库;
1-1-2)对训练语音数据库中的语音信号提取梅尔倒谱特征;
1-1-3)使用步骤1-1-2)中提取的梅尔倒谱特征,利用kmeans算法得到通用背景的初始模型,利用期望最大算法对该初始模型进行迭代更新,得到最终的通用背景模型{C,ωc,mcc};其中C为混合分量数,ωc,mcc分别为对应第c个高斯分布的权重、均值和方差;
1-2)建立子空间模型;
利用步骤1-1)得到的通用背景模型,对训练语音数据库中的所有训练语音数据提取Baum-Welch零阶、一阶以及二阶统计量,通过因子分析方法训练得到子空间模型;子空间模型用于将待测语音的高维均值矢量在低维子空间中进行投影;具体包括以下步骤:
1-2-1)提取统计量:假设训练语音数据库表示为X={x1,x2,......,xH},数据库中的第h段语音数据的声学特征序列表示为xh,该声学特征序列中第t帧特征表示为xh,t,根据步骤1-1)得到的通用背景模型计算该段语音在第c个高斯混合分量上所对应的零阶统计量Nh,c、一阶统计量和二阶统计量分别如式(1)-式(3)所示:
式中,c代表通用背景模型中的第c个高斯混合分量,代表矩阵取对角运算;
式(3)中γh,c,t表示第h段语音的第t帧特征在第c个高斯混合分量上的后验概率,表达式如式(4)所示:
1-2-2)建立子空间模型;
根据步骤1-2-1)对所有训练语音库中的数据段提取的零阶、一阶和二阶统计量,通过因子分析算法迭代建立子空间模型;该算法中E-step和M-step具体步骤如下:
步骤E-step:对于训练语音数据库中的每一段语音xh,估计其隐变量yh的后验概率分布的均值ah和方差如式(5)-式(7)所示:
Λh=I+T*Σ-1NhT (5)
假设声学特征的维数表示为F;为通过串接得到的FC×1超矢量,Nh为Nh,c对角化排列后的FC×FC高维矩阵;Σ为CF×CF维的通用背景模型的协方差矩阵,其对角元素是∑1,…,∑C;ah分别为隐变量yh的后验概率分布均值和方差;
步骤M-step:根据步骤E-step估计得到的隐变量yh的后验概率分布的均值ah和方差实现子空间矩阵T和协方差Σ的更新,分别定义如式(8)和式(9)所示:
式中,为二阶统计量进行矩阵对角拼接后的FC×FC矩阵;迭代完成后,得到收敛的子空间矩阵T和通用背景模型的协方差矩阵Σ;
2)对待测语音数据预处理得到梅尔倒谱特征,利用步骤1)得到的通用背景模型和子空间模型,通过i-vector因子提取方法得到待测语音数据的每一段的i-vector因子;使用密度峰值聚类算法得出待测语音数据的说话人个数和说话人在各个时刻的先验概率,将说话人个数和说话人在各个时刻的先验概率作为初始值,建立隐马尔科夫模型,使用变分贝叶斯迭代估计每个片段对应每个说话人的后验概率,最终得出说话人标记结果;具体包括以下步骤:
2-1)获取一条待测语音数据;
2-2)对该条待测语音数据提取梅尔倒谱特征;
2-3)将该条待测语音数据按每0.5S进行分段,共分成了n段,通过待测语音数据的梅尔倒谱特征,使用i-vector因子提取方法得到该条待测语音数据的每一段的i-vector因子,共n个;
其中,提取第h段待测语音段的i-vector因子的过程为:
根据该条待测语音数据中第h段待测语音段的梅尔倒谱特征序列提取得到第h段待测语音段特征序列的零阶统计量Nh和一阶统计量提取第h段待测语音段的i-vector因子,如式(10)所示:
其中,Λh=I+T*Σ-1NhT,I为单位矩阵,T为步骤1-2)得到的子空间矩阵,Σ为CF×CF维的通用背景模型的协方差矩阵,其对角元素是∑1,…,∑C
2-4)通过密度峰值聚类算法得到说话人个数S和说话人在各个时刻的先验概率π;
2-5)利用步骤1)训练得到的通用背景模型和子空间模型,以及根据步骤2-4)得到的说话人个数S和说话人在各个时刻的先验概率π,建立隐马尔科夫模型,通过变分贝叶斯方法,循环迭代更新每个片段对应每个说话人的后验概率,更新说话人模型的后验概率以及更新说话人在各个时刻的先验概率;收敛后根据每个待测语音段对应每个说话人的后验概率,得出说话人标记结果,标记结束。
本发明还提出了采用上述方法的基于密度峰值聚类和变分贝叶斯的说话人标记系统,其特征在于,包括:语音预处理模块、特征提取模块、通用背景模型计算模块、子空间模型计算模块、i-vector因子提取模块、说话人个数及说话人先验估计模块、变分贝叶斯与隐马尔科夫模型模块和说话人标记模块共8个模块;语音预处理模块,用于接收用户输入语音;特征提取模块,用于将用户语音转化为梅尔倒谱特征;通用背景模型计算模块,用于利用训练语音数据训练和建立通用背景模型;子空间模型计算模块,用于利用训练语音数据提取统计量,并根据统计量训练和建立子空间模型;i-vector因子提取模块,用于提取待测语音信号的每一段对应的说话人i-vector因子;说话人个数及说话人先验估计模块,用于利用待测语音数据的i-vector因子,计算待测语音中说话人个数,得出说话人中心点位置,并进一步计算待测语音数据各i-vector因子对应的说话人标签,得出说话人的先验概率;变分贝叶斯与隐马尔科夫模型模块,用于利用训练得到的通用背景模型和子空间模型,根据说话人个数和说话人在各个时刻的先验概率建立隐含马尔科夫模型,通过变分贝叶斯方法,循环迭代更新每个片段对应每个说话人的后验概率,更新说话人模型的后验概率以及更新说话人在各个时刻的先验概率;说话人标记模块,利用每个片段对应每个说话人的后验概率得出说话人标记结果。
本发明的特点及有益效果在于:
1本发明在传统的说话人标记方法的基础上,结合聚类算法和变分贝叶斯方法,增强了说话人标记系统的准确率和稳定性。
2相较以往的说话人标记系统需要已知语音信号中的说话人个数,本发明采用的密度峰值聚类算法,能够计算出待测语音信号中的说话人个数,提高系统的灵活性。
3本发明采用的密度峰值聚类算法,能够计算出待测语音信号中每个说话人在各个时刻的的先验概率,减小随机指定说话人在各个时刻的先验概率对标记效果的影响,提高了系统的效率和系统稳定性。
4利用变分贝叶斯和隐马尔科夫HMM模型,将说话人标记问题变为纯粹的概率问题求解,提高了说话人标记的准确率。
附图说明
图1为本发明提出的基于密度峰值聚类和变分贝叶斯的说话人标记方法流程框图。
图2为本发明方法中密度峰值聚类算法得出说话人个数和说话人在各个时刻的先验概率估计的流程框图。
图3为本发明方法中基于变分贝叶斯和隐马尔科夫模型得到说话人标记结果的流程框图。
具体实施方式
本发明提出的一种基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统,下面结合附图和具体实施例对本发明进一步详细说明如下。
本发明提出的一种基于密度峰值聚类和变分贝叶斯的说话人标记方法,流程框图如图1所示,包括以下步骤:
1)建立训练语音数据库,提取训练语音数据库中语音信号的梅尔倒谱特征,通过k均值(kmeans)聚类算法得到通用背景的初始模型,利用期望最大算法(Expectationmaximum,EM)迭代得到通用背景模型;根据建立的通用背景模型和训练语音数据提取Baum-Welch统计量,通过因子分析方法得到子空间模型;
具体包括以下步骤:
1-1)建立通用背景模型:通用背景模型通过提取具有多个说话人的训练语音数据库中的语音信号特征,通过EM算法训练得到,用于建立子空间模型和说话人标记;具体包括以下步骤:
1-1-1)建立训练语音数据库;使用来自NIST SRE 2012电话语音数据建立训练语音数据库;
1-1-2)对训练语音数据库中的语音信号提取梅尔倒谱特征;梅尔倒谱特征提取算法是一种基于人耳听感知理论的特征提取方法,目前广泛应用于说话人识别、语种识别以及连续语音识别等。首先对语音信号进行预加重和分帧加窗,然后对分帧加窗后的信号进行快速傅里叶变换,得到对应的频谱,并通过Mel频标三角窗滤波器进行滤波,最后进行离散余弦变换得到梅尔倒谱特征。
1-1-3)使用步骤1-1-2)中提取的梅尔倒谱特征,利用kmeans算法得到通用背景的初始模型,利用期望最大算法(Expectation maximum,EM)对该初始模型进行迭代更新,得到最终的通用背景模型{C,ωc,mcc};其中C为混合分量数,ωc,mcc分别为对应第c个高斯分布的权重、均值和方差;
1-2)建立子空间模型;
利用步骤1-1)得到的通用背景模型,对训练语音数据库中的所有训练语音数据提取Baum-Welch零阶、一阶以及二阶统计量,通过因子分析方法训练得到子空间模型;子空间模型用于将待测语音的高维均值矢量在低维子空间中进行投影;具体包括以下步骤:
1-2-1)提取统计量:假设训练语音数据库表示为X={x1,x2,......,xH},数据库中的第h段语音数据的声学特征序列表示为xh,该声学特征序列中第t帧特征表示为xh,t,根据步骤1-1)得到的通用背景模型计算该段语音在第c个高斯混合分量上所对应的零阶统计量Nh,c、一阶统计量和二阶统计量分别如式(1)-(3)所示:
式中,c代表通用背景模型中的第c个高斯混合分量,代表矩阵取对角运算;
式(3)中γh,c,t表示第h段语音的第t帧特征在第c个高斯混合分量上的后验概率,表达式如式(4)所示:
1-2-2)建立子空间模型;
根据步骤1-2-1)对所有训练语音库中的数据段提取的零阶、一阶和二阶统计量,通过因子分析的EM算法迭代建立子空间模型。该算法中具体的E-step和M-step步骤如下:
步骤E-step:对于训练语音数据库中的每一段语音xh,估计其隐变量yh的后验概率分布的均值ah和方差如式(5)-(7)所示:
Λh=I+T*Σ-1NhT (5)
假设声学特征的维数表示为F。为通过串接得到的FC×1超矢量,Nh为Nh,c对角化排列后的FC×FC高维矩阵。Σ为CF×CF维的通用背景模型的协方差矩阵,其对角元素是∑1,…,∑C;ah分别为隐变量yh的后验概率分布均值和方差。
步骤M-step:根据步骤E-step估计得到的隐变量yh的后验概率分布的均值ah和方差实现子空间矩阵T和协方差Σ的更新,分别定义如式(8)和式(9)所示:
式中,为二阶统计量进行矩阵对角拼接后的FC×FC矩阵;在此基础上可进一步对通用背景模型的协方差Σ进行更新,由于在实际中对通用背景模型的均值更新不会提升系统的性能,因此通常只对协方差进行更新;
采用上述步骤E-step和步骤M-step进行反复迭代5-6次后,子空间矩阵T和通用背景模型的协方差矩阵Σ收敛,迭代估计过程结束。
2)对待测语音数据预处理得到梅尔倒谱特征,利用步骤1)得到的通用背景模型和子空间模型,通过i-vector因子提取方法得到待测语音数据的每一段(0.5S为1段)的i-vector因子;使用密度峰值聚类算法得出待测语音数据的说话人个数和说话人在各个时刻的先验概率,将说话人个数和说话人在各个时刻的先验概率作为初始值,建立隐马尔科夫模型,使用变分贝叶斯迭代估计每个片段对应每个说话人的后验概率,最终得出说话人标记结果;具体步骤包括:
2-1)获取一条待测语音数据,该待测语音数据是用录音机录制的多个人开会的会议录音;
2-2)对该条待测语音数据提取梅尔倒谱特征;
2-3)将该条待测语音数据按每0.5S进行分段,共分成了n段,通过待测语音数据的梅尔倒谱特征,使用i-vector因子提取方法得到该条待测语音数据的每一段(0.5s为一段)的i-vector因子,共n个;其中,提取第h段待测语音段的i-vector因子的过程为:
根据该条待测语音数据中第h段待测语音段的梅尔倒谱特征序列提取得到第h段待测语音段特征序列的零阶统计量Nh和一阶统计量提取第h段待测语音段的i-vector因子,如式(10)所示:
其中,Λh=I+T*Σ-1NhT,I为单位矩阵,T为步骤1-2)得到的子空间矩阵,Σ为CF×CF维的通用背景模型的协方差矩阵,其对角元素是∑1,…,∑C
2-4)通过密度峰值聚类算法得出说话人个数和说话人在各个时刻的先验概率,密度峰值聚类算法流程框图如图2所示;具体包括以下步骤:
2-4-1)根据公式(10)提取的待测语音数据的每个待测语音段的i-vector因子,计算两段i-vector因子之间的距离;距离算法如式(11)所示:
dij=LP(ai,aj)=||ai-aj||p (11)
当p=2时,称为欧氏距离;当p=1时,称为曼哈顿距离;本发明采用的是欧式距离进行计算。
2-4-2)计算待测语音数据的每个待测语音段的i-vector因子的密度ρi,表示每个点的聚集度,如式(12)所示:
式中,dc为选取的密度参考值,与系统的稳定性相关联,n为总的i-vector个数;
2-4-3)计算每个待测语音段i-vector因子的相对距离σi,当i-vector因子的密度不是最大值时,则该点的相对距离为比该点密度大的点到该点的最短距离,定义如式(13)所示:
当i-vector因子的密度为最大值时,该点的相对距离为该点离其他点的最大距离,定义如式(14)所示:
2-4-4)设定密度ρ的阈值,本实施例为ρ的最大值的0.85倍(一般设定范围为0.7~0.9倍);设定相对距离σ的阈值,本实施例为σ的最大值的0.8倍(一般设定范围为0.7~0.9倍);若某点的密度和相对距离都大于设定的密度阈值和相对距离阈值,则将该点判断为中心点,最终得到的中心点的个数即说话人个数S;
2-4-5)对每个待测语音段i-vector因子标记其所对应的说话人中心点类别,计算每个说话人的先验概率π;
2-5)利用步骤1)训练得到的通用背景模型和子空间模型,及根据步骤2-4)得到的说话人个数S和说话人在各个时刻的先验概率π,建立隐马尔科夫模型,通过变分贝叶斯方法,循环迭代更新每个片段对应每个说话人的后验概率,更新说话人模型的后验概率以及更新说话人在各个时刻的先验概率;收敛后根据每个待测语音段对应每个说话人的后验概率得出说话人标记结果;流程框图如图3所示具体包括以下步骤:
2-5-1)求解说话人模型y产生特征x的后验概率P(x|y);
假设说话人超向量s=m+Ty;假设已知语音片段x的第t帧的特征向量为xt(F×1维),第t帧对应通用背景模型中的第c(c=1,…,C)个高斯的概率为γc,t
计算第c个高斯的中心一阶二阶Baum-Welch统计量,如式(15)-式(17)所示:
其中,mc是m中对应于高斯c的一个子向量;
令N为CF×CF的对角矩阵,其对角块为NcI(c=1,…,C),令为通过串接得到的CF×1的超向量,令为CF×CF的对角矩阵,对角块为
定义求解说话人模型y产生特性x的后验概率的两个中间变量:
其中∑c是第c个高斯的协方差矩阵,∑是CF×CF维的通用背景模型协方差矩阵,其对角元素是∑1,…,∑C;得到说话人模型y产生特征x的后验概率为:
lnP(x|y)=G+H(y) (20)
2-5-2)更新每个片段对应每个说话人的后验概率qms
建立隐马尔科夫模型,其状态个数由步骤2-4得到的说话人个数S决定,初始状态分布为步骤2-4求得的π(迭代开始后则根据步骤2-5-4)求得的π),状态转移概率矩阵对角线上的元素值为0.995,其他元素值相等,观测概率分布为步骤2-5-1求得的P(x|y);通过隐马尔科夫模型,求得每个片段m的对应说话人s的后验概率qms
2-5-3)更新说话人模型的后验概率asΛs
对于每一个说话人s,依赖于说话人的Baum-Welch统计量N(s)和定义如式(21)和式(22)所示:
更新as和Λs如式(23)和式(24)所示:
Λs=I+T*Σ-1N(s)T (23)
2-5-4)更新说话人在各个时刻的先验概率π;
在已经求出qms的情况下,更新π的方法是容易获得的。说话人s对应的πs更新公式如式(25)所示:
2-5-5)收敛条件ζ;
ζ(Q)可以用qmsΛs,as表示如式(26)所示:
迭代更新步骤2-5-2)、2-5-3)、2-5-4),直到ζ收敛。收敛时,得到标记结果,如式(27)所示:
得到每个片段的指定说话人,标记结束。
值得注意的是,本实施例在以本发明技术方案为前提下进行实施,但本发明的保护范围不仅限于该实施例。凡是在本发明的实质精神范围之内,对以上实施例所作的适当改变和变化,都落在本发明要求保护的范围之内。
本发明还提出了采用上述方法的基于密度峰值聚类和变分贝叶斯的说话人标记系统,包括:语音预处理模块、特征提取模块、通用背景模型计算模块、子空间模型计算模块、i-vector因子提取模块、说话人个数及说话人先验估计模块、变分贝叶斯与隐马尔科夫模型模块和说话人标记模块共8个模块;语音预处理模块,用于接收用户输入语音;特征提取模块,用于将用户语音转化为梅尔倒谱特征;通用背景模型计算模块,用于利用训练语音数据训练和建立通用背景模型;子空间模型计算模块,用于利用训练语音数据提取统计量,并根据统计量训练和建立子空间模型;i-vector因子提取模块,用于提取待测语音信号的每一段对应的说话人i-vector因子;说话人个数及说话人先验估计模块,用于利用待测语音数据的i-vector因子,计算待测语音中说话人个数,得出说话人中心点位置,并进一步计算待测语音数据各i-vector因子对应的说话人标签,得出说话人的先验概率;变分贝叶斯与隐马尔科夫模型模块,用于利用训练得到的通用背景模型和子空间模型,根据说话人个数和说话人在各个时刻的先验概率建立隐含马尔科夫模型,通过变分贝叶斯方法,循环迭代更新每个片段对应每个说话人的后验概率,更新说话人模型的后验概率以及更新说话人在各个时刻的先验概率;说话人标记模块,利用每个片段对应每个说话人的后验概率得出说话人标记结果。
本领域普通技术人员可以理解为,上述模块的全部或部分是可以通过程序来指令相关的硬件完成的,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括上述模块之一或其组合。

Claims (4)

1.一种基于密度峰值聚类和变分贝叶斯的说话人标记方法,其特征在于,包括以下步骤:
1)建立训练语音数据库,提取训练语音数据库中语音信号的梅尔倒谱特征,通过kmeans聚类算法得到通用背景的初始模型,利用期望最大算法迭代得到通用背景模型;根据建立的通用背景模型和训练语音数据提取Baum-Welch统计量,通过因子分析方法得到子空间模型;具体包括以下步骤:
1-1)建立通用背景模型:通用背景模型通过提取具有多个说话人的训练语音数据库中的语音信号特征,通过EM算法训练得到,用于建立子空间模型和说话人标记;具体包括以下步骤:
1-1-1)建立训练语音数据库;使用来自NIST SRE 2012电话语音数据建立训练语音数据库;
1-1-2)对训练语音数据库中的语音信号提取梅尔倒谱特征;
1-1-3)使用步骤1-1-2)中提取的梅尔倒谱特征,利用kmeans算法得到通用背景的初始模型,利用期望最大算法对该初始模型进行迭代更新,得到最终的通用背景模型{C,ωc,mcc};其中C为混合分量数,ωc,mcc分别为对应第c个高斯分布的权重、均值和方差;
1-2)建立子空间模型;
利用步骤1-1)得到的通用背景模型,对训练语音数据库中的所有训练语音数据提取Baum-Welch零阶、一阶以及二阶统计量,通过因子分析方法训练得到子空间模型;子空间模型用于将待测语音的高维均值矢量在低维子空间中进行投影;具体包括以下步骤:
1-2-1)提取统计量:假设训练语音数据库表示为X={x1,x2,......,xH},数据库中的第h段语音数据的声学特征序列表示为xh,该声学特征序列中第t帧特征表示为xh,t,根据步骤1-1)得到的通用背景模型计算该段语音在第c个高斯混合分量上所对应的零阶统计量Nh,c、一阶统计量和二阶统计量分别如式(1)-式(3)所示:
N h , c = Σ t γ h , c , t - - - ( 1 )
F ~ h , c = Σ t γ h , c , t ( x h , t - m c ) - - - ( 2 )
S ~ h , c = d i a g { Σ t γ h , c , t ( x h , t - m c ) ( x h , t - m c ) * } - - - ( 3 )
式中,c代表通用背景模型中的第c个高斯混合分量,代表矩阵取对角运算;
式(3)中γh,c,t表示第h段语音的第t帧特征在第c个高斯混合分量上的后验概率,表达式如式(4)所示:
γ h , c , t = ω c N U B M ( x h , t ; m c , Σ c ) Σ i = 1 C ω i N U B M ( x h , t ; m i , Σ i ) - - - ( 4 )
1-2-2)建立子空间模型;
根据步骤1-2-1)对所有训练语音库中的数据段提取的零阶、一阶和二阶统计量,通过因子分析算法迭代建立子空间模型;该算法中E-step和M-step具体步骤如下:
步骤E-step:对于训练语音数据库中的每一段语音xh,估计其隐变量yh的后验概率分布的均值ah和方差如式(5)-式(7)所示:
Λh=I+T*Σ-1NhT (5)
a h = L h - 1 T * Σ - 1 F ~ h - - - ( 6 )
E ( y h y h * ) = Λ h - 1 + a h a h * - - - ( 7 )
假设声学特征的维数表示为F;为通过串接c=1,…,C,得到的FC×1超矢量,Nh为Nh c对角化排列后的FC×FC高维矩阵;Σ为CF×CF维的通用背景模型的协方差矩阵,其对角元素是∑1,…,∑C;ah分别为隐变量yh的后验概率分布均值和方差;
步骤M-step:根据步骤E-step估计得到的隐变量yh的后验概率分布的均值ah和方差实现子空间矩阵T和协方差Σ的更新,分别定义如式(8)和式(9)所示:
Σ h = 1 H N h T E ( y h y h * ) = Σ h = 1 H S ~ h a h * - - - ( 8 )
Σ h = 1 H N h Σ = Σ h = 1 H S ~ h - d i a g { ( Σ h = 1 H F ~ h E ( y h * ) ) T * } - - - ( 9 )
式中,为二阶统计量进行矩阵对角拼接后的FC×FC矩阵;迭代完成后,得到收敛的子空间矩阵T和通用背景模型的协方差矩阵Σ;
2)对待测语音数据预处理得到梅尔倒谱特征,利用步骤1)得到的通用背景模型和子空间模型,通过i-vector因子提取方法得到待测语音数据的每一段的i-vector因子;使用密度峰值聚类算法得出待测语音数据的说话人个数和说话人在各个时刻的先验概率,将说话人个数和说话人在各个时刻的先验概率作为初始值,建立隐马尔科夫模型,使用变分贝叶斯迭代估计每个片段对应每个说话人的后验概率,最终得出说话人标记结果;具体包括以下步骤:
2-1)获取一条待测语音数据;
2-2)对该条待测语音数据提取梅尔倒谱特征;
2-3)将该条待测语音数据按每0.5S进行分段,共分成了n段,通过待测语音数据的梅尔倒谱特征,使用i-vector因子提取方法得到该条待测语音数据的每一段的i-vector因子,共n个;
其中,提取第h段待测语音段的i-vector因子的过程为:
根据该条待测语音数据中第h段待测语音段的梅尔倒谱特征序列提取得到第h段待测语音段特征序列的零阶统计量Nh和一阶统计量提取第h段待测语音段的i-vector因子,如式(10)所示:
a h = Λ h - 1 T * Σ - 1 F ~ h - - - ( 10 )
其中,Λh=I+T*Σ-1NhT,I为单位矩阵,T为步骤1-2)得到的子空间矩阵,Σ为CF×CF维的通用背景模型的协方差矩阵,其对角元素是∑1,…,∑C
2-4)通过密度峰值聚类算法得到说话人个数S和说话人在各个时刻的先验概率π;
2-5)利用步骤1)训练得到的通用背景模型和子空间模型,以及根据步骤2-4)得到的说话人个数S和说话人在各个时刻的先验概率π,建立隐马尔科夫模型,通过变分贝叶斯方法,循环迭代更新每个片段对应每个说话人的后验概率,更新说话人模型的后验概率以及更新说话人在各个时刻的先验概率;收敛后根据每个待测语音段对应每个说话人的后验概率,得出说话人标记结果,标记结束。
2.如权利要求1所述的方法,其特征在于,所述步骤2-4)中通过密度峰值聚类算法得到的说话人个数S和说话人在各个时刻的先验概率π,具体包括以下步骤:
2-4-1)根据公式(10)提取的待测语音数据的每个待测语音段的i-vector因子,计算两段i-vector因子之间的距离;距离算法如式(11)所示:
dij=LP(ai,aj)=||ai-aj||p (11)
2-4-2)计算待测语音数据的每个待测语音段的i-vector因子的密度ρi,表示每个点的聚集度,如式(12)所示:
ρ i = Σ j = 1 , j ≠ i n exp ( - ( d i j d c ) 2 ) - - - ( 12 )
式中,dc为选取的密度参考值,n为i-vector因子个数;
2-4-3)计算每个待测语音段i-vector因子的相对距离σi,当i-vector因子的密度不是最大值时,则该点的相对距离为比该点密度大的点到该点的最短距离,定义如式(13)所示:
&sigma; i = m i n j : &rho; j < &rho; i ( d i j ) - - - ( 13 )
当i-vector因子的密度为最大值时,该点的相对距离为该点离其他点的最大距离,定义如式(14)所示:
&sigma; i = m a x j ( d i j ) - - - ( 14 )
2-4-4)设定密度ρ的阈值,并设定相对距离σ的阈值;若某点的密度和相对距离分别都大于设定的密度阈值和相对距离阈值,则将该点判断为中心点,最终得到的中心点的个数即为说话人个数S;
2-4-5)对每个待测语音段i-vector因子标记其所对应的说话人中心点类别,计算得到每个说话人的先验概率π。
3.如权利要求1所述的方法,其特征在于,所述步骤2-5)中得出说话人标记结果,具体包括以下步骤:
2-5-1)求解说话人模型y产生特征x的后验概率P(x|y);
假设说话人超向量s=m+Ty;假设已知语音片段x的第t帧的特征向量为xt,第t帧对应通用背景模型中的第c个高斯的概率为γc,t,c=1,…,C;
计算第c个高斯的中心一阶二阶Baum-Welch统计量,如式(15)-式(17)所示:
N c = &Sigma; t &gamma; c , t - - - ( 15 )
F ~ c = &Sigma; t &gamma; c , t ( x t - m c ) - - - ( 16 )
S ~ c = d i a g ( &Sigma; t &gamma; c , t ( c ) ( x t - m c ) ( x t - m c ) * ) - - - ( 17 )
式中,mc是m中对应于高斯c的一个子向量;
令N为CF×CF的对角矩阵,其对角块为NcI,令为通过串接得到的CF×1的超向量,令为CF×CF的对角矩阵,对角块为
定义求解说话人模型y产生特性x的后验概率的两个中间变量分别如式(18)和式(19)所示:
G = &Sigma; c = 1 C N c ln 1 ( 2 &pi; ) F / 2 | &Sigma; c | 1 / 2 - 1 2 t r ( &Sigma; - 1 S ~ ) - - - ( 18 )
H ( y ) = y * T * &Sigma; - 1 F ~ - 1 2 y * T * N&Sigma; - 1 T y - - - ( 19 )
式中,∑c是通用背景模型的第c个高斯的协方差矩阵,∑是通用背景模型的协方差矩阵;得到说话人模型y产生特征x的后验概率为:
lnP(x|y)=G+H(y) (20)
2-5-2)更新每个片段对应每个说话人的后验概率qms
建立隐马尔科夫模型,其状态个数由步骤2-4)得到的说话人个数S决定,初始状态分布为步骤2-4)求得的π,状态转移概率矩阵对角线上的元素值为0.995,其他元素值相等,观测概率分布为步骤2-5-1)求得的P(x|y);通过隐马尔科夫模型,求得每个片段m的对应说话人s的后验概率qms
2-5-3)更新说话人模型的后验概率asΛs
对于每一个说话人s,依赖于说话人的Baum-Welch统计量N(s)和定义如式(21)和式(22)所示:
N ( s ) = &Sigma; m = 1 M q m s N m - - - ( 21 )
F ~ ( s ) = &Sigma; m = 1 M q m s F ~ m - - - ( 22 )
更新as和Λs如式(23)和式(24)所示:
Λs=I+T*Σ-1N(s)T (23)
a s = &Lambda; s - 1 T * &Sigma; - 1 F ~ ( s ) - - - ( 24 )
2-5-4)更新说话人在各个时刻的先验概率π;
说话人s对应的πs更新公式如式(25)所示:
&pi; s = 1 M &Sigma; m = 1 M q m s - - - ( 25 )
2-5-5)收敛条件ζ;
收敛条件ζ(Q)用qmsΛs,as表示如式(26)所示:
&zeta; ( Q | &pi; ) = &Sigma; m = 1 M &Sigma; s = 1 S q m s l n q ~ m s + 1 2 { R S - &Sigma; s = 1 S ( l n | &Lambda; s | ) + t r ( &Lambda; s - 1 + a s a s * ) } - &Sigma; m = 1 M &Sigma; s = 1 S q m s lnq m s - - - ( 26 )
迭代更新步骤2-5-2)、2-5-3)、2-5-4),直到ζ收敛;收敛时,得到标记结果,如式(27)所示:
arg max s q m s - - - ( 27 )
得到每个片段的指定说话人,标记结束。
4.一种采用如权利要求1所述方法的基于密度峰值聚类和变分贝叶斯的说话人标记系统,其特征在于,包括:语音预处理模块、特征提取模块、通用背景模型计算模块、子空间模型计算模块、i-vector因子提取模块、说话人个数及说话人先验估计模块、变分贝叶斯与隐马尔科夫模型模块和说话人标记模块共8个模块;语音预处理模块,用于接收用户输入语音;特征提取模块,用于将用户语音转化为梅尔倒谱特征;通用背景模型计算模块,用于利用训练语音数据训练和建立通用背景模型;子空间模型计算模块,用于利用训练语音数据提取统计量,并根据统计量训练和建立子空间模型;i-vector因子提取模块,用于提取待测语音信号的每一段对应的说话人i-vector因子;说话人个数及说话人先验估计模块,用于利用待测语音数据的i-vector因子,计算待测语音中说话人个数,得出说话人中心点位置,并进一步计算待测语音数据各i-vector因子对应的说话人标签,得出说话人的先验概率;变分贝叶斯与隐马尔科夫模型模块,用于利用训练得到的通用背景模型和子空间模型,根据说话人个数和说话人在各个时刻的先验概率建立隐含马尔科夫模型,通过变分贝叶斯方法,循环迭代更新每个片段对应每个说话人的后验概率,更新说话人模型的后验概率以及更新说话人在各个时刻的先验概率;说话人标记模块,利用每个片段对应每个说话人的后验概率得出说话人标记结果。
CN201710035673.4A 2017-01-18 2017-01-18 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统 Active CN106971713B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710035673.4A CN106971713B (zh) 2017-01-18 2017-01-18 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710035673.4A CN106971713B (zh) 2017-01-18 2017-01-18 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统

Publications (2)

Publication Number Publication Date
CN106971713A true CN106971713A (zh) 2017-07-21
CN106971713B CN106971713B (zh) 2020-01-07

Family

ID=59334679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710035673.4A Active CN106971713B (zh) 2017-01-18 2017-01-18 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统

Country Status (1)

Country Link
CN (1) CN106971713B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107452403A (zh) * 2017-09-12 2017-12-08 清华大学 一种说话人标记方法
CN108419124A (zh) * 2018-05-08 2018-08-17 北京酷我科技有限公司 一种音频处理方法
CN108962264A (zh) * 2018-08-29 2018-12-07 深圳市旭发智能科技有限公司 一种无人机及存储介质
CN109065057A (zh) * 2018-08-29 2018-12-21 深圳市旭发智能科技有限公司 无人机声纹新闻追踪方法及系统
CN109065022A (zh) * 2018-06-06 2018-12-21 平安科技(深圳)有限公司 i-vector向量提取方法、说话人识别方法、装置、设备及介质
CN109065028A (zh) * 2018-06-11 2018-12-21 平安科技(深圳)有限公司 说话人聚类方法、装置、计算机设备及存储介质
CN109360572A (zh) * 2018-11-13 2019-02-19 平安科技(深圳)有限公司 通话分离方法、装置、计算机设备及存储介质
WO2019062721A1 (zh) * 2017-09-29 2019-04-04 腾讯科技(深圳)有限公司 语音身份特征提取器、分类器训练方法及相关设备
CN109614861A (zh) * 2018-11-05 2019-04-12 曙光云计算集团有限公司 基于全变量建模的人脸特征提取方法以及装置
CN110085236A (zh) * 2019-05-06 2019-08-02 中国人民解放军陆军工程大学 一种基于自适应语音帧加权的说话人识别方法
CN110379433A (zh) * 2019-08-02 2019-10-25 清华大学 身份验证的方法、装置、计算机设备及存储介质
WO2019227574A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 语音模型训练方法、语音识别方法、装置、设备及介质
CN110544466A (zh) * 2019-08-19 2019-12-06 广州九四智能科技有限公司 少量录音样本情况下语音合成方法
CN111046882A (zh) * 2019-12-05 2020-04-21 清华大学 基于剖面隐式马尔科夫模型的疾病名称标准化方法和系统
CN111161744A (zh) * 2019-12-06 2020-05-15 华南理工大学 同时优化深度表征学习与说话人类别估计的说话人聚类方法
CN111599346A (zh) * 2020-05-19 2020-08-28 科大讯飞股份有限公司 一种说话人聚类方法、装置、设备及存储介质
CN112149638A (zh) * 2020-10-23 2020-12-29 贵州电网有限责任公司 基于多模态生物特征的人员身份识别系统构建及使用方法
CN112165599A (zh) * 2020-10-10 2021-01-01 广州科天视畅信息科技有限公司 一种用于视频会议的会议纪要自动生成方法
CN113033083A (zh) * 2021-03-10 2021-06-25 浙江大学 一种基于密度峰值聚类径向基神经网络波达方向估计方法
CN113056784A (zh) * 2019-01-29 2021-06-29 深圳市欢太科技有限公司 语音信息的处理方法、装置、存储介质及电子设备
CN114550728A (zh) * 2022-02-15 2022-05-27 北京有竹居网络技术有限公司 用于标记说话人的方法、装置和电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915436A (zh) * 2015-06-24 2015-09-16 合肥工业大学 自适应多标签预测方法
CN105261367A (zh) * 2014-07-14 2016-01-20 中国科学院声学研究所 一种说话人识别方法
CN105376260A (zh) * 2015-12-18 2016-03-02 重庆邮电大学 一种基于密度峰值聚类的网络异常流量监测系统
US20160070950A1 (en) * 2014-09-10 2016-03-10 Agency For Science, Technology And Research Method and system for automatically assigning class labels to objects
CN105631416A (zh) * 2015-12-24 2016-06-01 华侨大学 采用新型密度聚类进行人脸识别的方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105261367A (zh) * 2014-07-14 2016-01-20 中国科学院声学研究所 一种说话人识别方法
US20160070950A1 (en) * 2014-09-10 2016-03-10 Agency For Science, Technology And Research Method and system for automatically assigning class labels to objects
CN104915436A (zh) * 2015-06-24 2015-09-16 合肥工业大学 自适应多标签预测方法
CN105376260A (zh) * 2015-12-18 2016-03-02 重庆邮电大学 一种基于密度峰值聚类的网络异常流量监测系统
CN105631416A (zh) * 2015-12-24 2016-06-01 华侨大学 采用新型密度聚类进行人脸识别的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ALEX RODRIGUEZ AND ALESSANDRO LAIO: ""Clustering by fast search and find of density peaks"", 《SCIENCE》 *

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107452403A (zh) * 2017-09-12 2017-12-08 清华大学 一种说话人标记方法
CN107452403B (zh) * 2017-09-12 2020-07-07 清华大学 一种说话人标记方法
US11335352B2 (en) 2017-09-29 2022-05-17 Tencent Technology (Shenzhen) Company Limited Voice identity feature extractor and classifier training
CN109584884A (zh) * 2017-09-29 2019-04-05 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备
CN110310647B (zh) * 2017-09-29 2022-02-25 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备
CN110310647A (zh) * 2017-09-29 2019-10-08 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备
CN109584884B (zh) * 2017-09-29 2022-09-13 腾讯科技(深圳)有限公司 一种语音身份特征提取器、分类器训练方法及相关设备
WO2019062721A1 (zh) * 2017-09-29 2019-04-04 腾讯科技(深圳)有限公司 语音身份特征提取器、分类器训练方法及相关设备
CN108419124A (zh) * 2018-05-08 2018-08-17 北京酷我科技有限公司 一种音频处理方法
CN108419124B (zh) * 2018-05-08 2020-11-17 北京酷我科技有限公司 一种音频处理方法
WO2019227574A1 (zh) * 2018-05-31 2019-12-05 平安科技(深圳)有限公司 语音模型训练方法、语音识别方法、装置、设备及介质
CN109065022B (zh) * 2018-06-06 2022-08-09 平安科技(深圳)有限公司 i-vector向量提取方法、说话人识别方法、装置、设备及介质
CN109065022A (zh) * 2018-06-06 2018-12-21 平安科技(深圳)有限公司 i-vector向量提取方法、说话人识别方法、装置、设备及介质
CN109065028A (zh) * 2018-06-11 2018-12-21 平安科技(深圳)有限公司 说话人聚类方法、装置、计算机设备及存储介质
CN108962264A (zh) * 2018-08-29 2018-12-07 深圳市旭发智能科技有限公司 一种无人机及存储介质
CN109065057A (zh) * 2018-08-29 2018-12-21 深圳市旭发智能科技有限公司 无人机声纹新闻追踪方法及系统
CN109065057B (zh) * 2018-08-29 2021-05-07 何永刚 无人机声纹新闻追踪方法及系统
CN109614861A (zh) * 2018-11-05 2019-04-12 曙光云计算集团有限公司 基于全变量建模的人脸特征提取方法以及装置
CN109360572A (zh) * 2018-11-13 2019-02-19 平安科技(深圳)有限公司 通话分离方法、装置、计算机设备及存储介质
WO2020098083A1 (zh) * 2018-11-13 2020-05-22 平安科技(深圳)有限公司 通话分离方法、装置、计算机设备及存储介质
CN109360572B (zh) * 2018-11-13 2022-03-11 平安科技(深圳)有限公司 通话分离方法、装置、计算机设备及存储介质
CN113056784A (zh) * 2019-01-29 2021-06-29 深圳市欢太科技有限公司 语音信息的处理方法、装置、存储介质及电子设备
CN110085236A (zh) * 2019-05-06 2019-08-02 中国人民解放军陆军工程大学 一种基于自适应语音帧加权的说话人识别方法
CN110379433A (zh) * 2019-08-02 2019-10-25 清华大学 身份验证的方法、装置、计算机设备及存储介质
CN110544466A (zh) * 2019-08-19 2019-12-06 广州九四智能科技有限公司 少量录音样本情况下语音合成方法
CN111046882A (zh) * 2019-12-05 2020-04-21 清华大学 基于剖面隐式马尔科夫模型的疾病名称标准化方法和系统
CN111046882B (zh) * 2019-12-05 2023-01-24 清华大学 基于剖面隐式马尔科夫模型的疾病名称标准化方法和系统
CN111161744A (zh) * 2019-12-06 2020-05-15 华南理工大学 同时优化深度表征学习与说话人类别估计的说话人聚类方法
CN111161744B (zh) * 2019-12-06 2023-04-28 华南理工大学 同时优化深度表征学习与说话人类别估计的说话人聚类方法
CN111599346B (zh) * 2020-05-19 2024-02-20 科大讯飞股份有限公司 一种说话人聚类方法、装置、设备及存储介质
CN111599346A (zh) * 2020-05-19 2020-08-28 科大讯飞股份有限公司 一种说话人聚类方法、装置、设备及存储介质
CN112165599A (zh) * 2020-10-10 2021-01-01 广州科天视畅信息科技有限公司 一种用于视频会议的会议纪要自动生成方法
CN112149638B (zh) * 2020-10-23 2022-07-01 贵州电网有限责任公司 基于多模态生物特征的人员身份识别系统构建及使用方法
CN112149638A (zh) * 2020-10-23 2020-12-29 贵州电网有限责任公司 基于多模态生物特征的人员身份识别系统构建及使用方法
CN113033083B (zh) * 2021-03-10 2022-06-17 浙江大学 一种基于密度峰值聚类径向基神经网络波达方向估计方法
CN113033083A (zh) * 2021-03-10 2021-06-25 浙江大学 一种基于密度峰值聚类径向基神经网络波达方向估计方法
CN114550728A (zh) * 2022-02-15 2022-05-27 北京有竹居网络技术有限公司 用于标记说话人的方法、装置和电子设备
CN114550728B (zh) * 2022-02-15 2024-03-01 北京有竹居网络技术有限公司 用于标记说话人的方法、装置和电子设备

Also Published As

Publication number Publication date
CN106971713B (zh) 2020-01-07

Similar Documents

Publication Publication Date Title
CN106971713A (zh) 基于密度峰值聚类和变分贝叶斯的说话人标记方法与系统
Kenny et al. Diarization of telephone conversations using factor analysis
US5787394A (en) State-dependent speaker clustering for speaker adaptation
US20070233484A1 (en) Method for Automatic Speaker Recognition
CN108281137A (zh) 一种全音素框架下的通用语音唤醒识别方法及系统
Kumar et al. Analysis of MFCC and BFCC in a speaker identification system
WO2014029099A1 (en) I-vector based clustering training data in speech recognition
Reynolds et al. A study of new approaches to speaker diarization.
CN106898354B (zh) 基于dnn模型和支持向量机模型的说话人个数估计方法
Khoury et al. Hierarchical speaker clustering methods for the nist i-vector challenge
CN103793447A (zh) 音乐与图像间语义相识度的估计方法和估计系统
CN108091326A (zh) 一种基于线性回归的声纹识别方法及系统
Potamianos et al. A cascade visual front end for speaker independent automatic speechreading
CN106601258A (zh) 基于改进的lsda算法进行信道补偿的说话人识别方法
CN107452403A (zh) 一种说话人标记方法
CN112530407B (zh) 一种语种识别方法及系统
CN105280181A (zh) 一种语种识别模型的训练方法及语种识别方法
CN103035239A (zh) 一种基于局部学习的说话人识别方法
CN104464738A (zh) 一种面向智能移动设备的声纹识别方法
Kumar et al. Comparative analysis of different feature extraction and classifier techniques for speaker identification systems: A review
CN105335755A (zh) 一种涉及媒体片段的说话检测方法及系统
CN103337244A (zh) 一种孤立音节基频曲线中的野值修改算法
Yu et al. Acoustic feature transformation using UBM-based LDA for speaker recognition
Markov et al. Improved novelty detection for online GMM based speaker diarization.
Tang et al. Generative model-based speaker clustering via mixture of von mises-fisher distributions

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20181130

Address after: 100085 Beijing Haidian District Shangdi Information Industry Base Pioneer Road 1 B Block 2 Floor 2030

Applicant after: Beijing Huacong Zhijia Technology Co., Ltd.

Address before: 100084 Tsinghua Yuan, Haidian District, Beijing, No. 1

Applicant before: Tsinghua University

GR01 Patent grant
GR01 Patent grant