CN107545898B - 一种区分说话人语音的处理方法及装置 - Google Patents

一种区分说话人语音的处理方法及装置 Download PDF

Info

Publication number
CN107545898B
CN107545898B CN201710667697.1A CN201710667697A CN107545898B CN 107545898 B CN107545898 B CN 107545898B CN 201710667697 A CN201710667697 A CN 201710667697A CN 107545898 B CN107545898 B CN 107545898B
Authority
CN
China
Prior art keywords
speaker
speakers
gaussian
voice
distinguished
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710667697.1A
Other languages
English (en)
Other versions
CN107545898A (zh
Inventor
王东
李蓝天
张之勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Furui Xingchen Intelligent Technology Co ltd
Tsinghua University
Original Assignee
Beijing Furui Xingchen Intelligent Technology Co ltd
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Furui Xingchen Intelligent Technology Co ltd, Tsinghua University filed Critical Beijing Furui Xingchen Intelligent Technology Co ltd
Priority to CN201710667697.1A priority Critical patent/CN107545898B/zh
Publication of CN107545898A publication Critical patent/CN107545898A/zh
Application granted granted Critical
Publication of CN107545898B publication Critical patent/CN107545898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明实施例提供一种区分说话人语音的处理方法及装置,所述方法包括:获取包含有不同说话人的语音帧;根据所述语音帧和预先训练过的特征提取模型,获取说话人特征;根据所述说话人特征和收敛到一个最大似然解的高斯混合模型,计算每个语音帧对应的说话人特征xt对每个高斯成分Mi的条件概率P(xt|Mi),其中,每个高斯成分对应一个待区分的说话人,1<Mi≤K,K为所述高斯成分的总数;将最大的条件概率P(xt|Mi)对应的高斯成分Mj所表示的待区分说话人确定为说话人特征xt对应的语音帧所属的说话人。所述装置执行上述方法。本发明实施例提供的区分说话人语音的处理方法及装置,通过获取说话人特征,并根据基于说话人特征建立的模型,能够稳定有效地区分说话人语音。

Description

一种区分说话人语音的处理方法及装置
技术领域
本发明实施例涉及语音识别技术领域,具体涉及一种区分说话人语音的处理方法及装置。
背景技术
区分说话人语音对通话质量检测、场景分析、语音识别自适应等都有重要实用价值。例如:将客服电话录音分成客服和客户声音,将会议录音分成不同说话人的说话片段。
现有的区分说话人语音的方法有:通过检测说话人切换点(Speaker Turn),将语音信号切分成仅包含一个说话人发音的句子,再通过聚类方法将属于同一个人的句子聚成一类;另一种方法是模型法,首先对每个说话人训练单独模型,再根据某一语音帧对每个模型的概率将该语音帧分到某个说话人模型。这两种方法的显著缺陷是它们都基于初级声学特征,例如:梅尔频率倒谱系数(Mel-frequency cepstral coefficients,以下简称“MFCC”),对模型参数的选择较为敏感,不能较为稳定地对说话人语音进行有效区分。
因此,如何稳定、有效地区分说话人语音,成为亟须解决的问题。
发明内容
针对现有技术存在的问题,本发明实施例提供一种区分说话人语音的处理方法及装置。
第一方面,本发明实施例提供一种区分说话人语音的处理方法,所述方法包括:
获取包含有不同说话人的语音帧;
根据所述语音帧和预先训练过的特征提取模型,获取说话人特征;
根据所述说话人特征和收敛到一个最大似然解的高斯混合模型,计算每个语音帧对应的说话人特征xt对每个高斯成分Mi的条件概率P(xt|Mi),其中,每个高斯成分对应一个待区分的说话人,1<Mi≤K,K为所述高斯成分的总数,以表示待区分说话人的人数;
将最大的条件概率P(xt|Mi)对应的高斯成分Mj所表示的待区分说话人确定为说话人特征xt对应的语音帧所属的说话人。
第二方面,本发明实施例提供一种区分说话人语音的处理装置,所述装置包括:
第一获取单元,用于获取包含有不同说话人的语音帧;
第二获取单元,用于根据所述语音帧和预先训练过的特征提取模型,获取说话人特征;
计算单元,用于根据所述说话人特征和收敛到一个最大似然解的高斯混合模型,计算每个语音帧对应的说话人特征xt对每个高斯成分Mi的条件概率P(xt|Mi),其中,每个高斯成分对应一个待区分的说话人,1<Mi≤K,K为所述高斯成分的总数,以表示待区分说话人的人数;
确定单元,用于将最大的条件概率P(xt|Mi)对应的高斯成分Mj所表示的待区分说话人确定为说话人特征xt对应的语音帧所属的说话人。
第三方面,本发明实施例提供另一种区分说话人语音的处理装置,包括:处理器、存储器和总线,其中:
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如下方法:
获取包含有不同说话人的语音帧;
根据所述语音帧和预先训练过的特征提取模型,获取说话人特征;
根据所述说话人特征和收敛到一个最大似然解的高斯混合模型,计算每个语音帧对应的说话人特征xt对每个高斯成分Mi的条件概率P(xt|Mi),其中,每个高斯成分对应一个待区分的说话人,1<Mi≤K,K为所述高斯成分的总数,以表示待区分说话人的人数;
将最大的条件概率P(xt|Mi)对应的高斯成分Mj所表示的待区分说话人确定为说话人特征xt对应的语音帧所属的说话人。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,包括:
所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如下方法:
获取包含有不同说话人的语音帧;
根据所述语音帧和预先训练过的特征提取模型,获取说话人特征;
根据所述说话人特征和收敛到一个最大似然解的高斯混合模型,计算每个语音帧对应的说话人特征xt对每个高斯成分Mi的条件概率P(xt|Mi),其中,每个高斯成分对应一个待区分的说话人,1<Mi≤K,K为所述高斯成分的总数,以表示待区分说话人的人数;
将最大的条件概率P(xt|Mi)对应的高斯成分Mj所表示的待区分说话人确定为说话人特征xt对应的语音帧所属的说话人。
本发明实施例提供的区分说话人语音的处理方法及装置,通过获取说话人特征,并根据基于说话人特征建立的模型,能够稳定、有效地区分说话人语音。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例区分说话人语音的处理方法流程示意图;
图2为本发明实施例包含两个说话人的高斯混合模型区分说话人语音的效果图;
图3为本发明实施例区分说话人语音的处理装置结构示意图;
图4为本发明实施例提供的装置实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例区分说话人语音的处理方法流程示意图,如图1所示,本发明实施例提供的一种区分说话人语音的处理方法,包括以下步骤:
S1:获取包含有不同说话人的语音帧。
具体的,装置获取包含有不同说话人的语音帧。需要说明的是:这里的语音帧包含的说话人的数量可以是已知的,也可以是未知的,不作具体的限定。
S2:根据所述语音帧和预先训练过的特征提取模型,获取说话人特征。
具体的,装置根据所述语音帧和预先训练过的特征提取模型,获取说话人特征。特征提取模型可以是深度神经网络,可以分为训练和运行两个过程,其中:在训练阶段过程,可以用一组说话人语音数据训练一个对说话人特征提取的深度神经网络,该深度神经网络可以在短时语音帧上(可以是0.3秒左右)提取说话人特征;在运行阶段过程,利用该深度神经网络对每一个短时语音帧提取说话人特征。
S3:根据所述说话人特征和收敛到一个最大似然解的高斯混合模型,计算每个语音帧对应的说话人特征xt对每个高斯成分Mi的条件概率P(xt|Mi),其中,每个高斯成分对应一个待区分的说话人,1<Mi≤K,K为所述高斯成分的总数,以表示待区分说话人的人数。
具体的,装置根据所述说话人特征和收敛到一个最大似然解的高斯混合模型,计算每个语音帧对应的说话人特征xt对每个高斯成分Mi的条件概率P(xt|Mi),其中,每个高斯成分对应一个待区分的说话人,1<Mi≤K,K为所述高斯成分的总数,以表示待区分说话人的人数。高斯混合模型可以是包括有条件概率P(xt|Mi)的函数,这里不对该函数的具体形式进行限定。可以先对初始的高斯混合模型进行随机初始化,不对随机初始化的方式作具体限定;再采用最大期望算法(Expectation Maximization Algorithm,以下简称“EM算法”)对随机初始化的高斯混合模型进行迭代运算,以获取收敛到一个最大似然解的高斯混合模型,从而得到对应的多个条件概率P(xt|Mi)。需要说明的是:EM算法假设每一个说话人的说话人特征符合高斯分布,因此可将整个说话人特征用一个包含K个高斯的高斯混合模型来建模,图2为本发明实施例包含两个说话人的高斯混合模型区分说话人语音的效果图,如图2所示,图2中的每个“×”表示一个说话人特征,图2中的每个圆环表示每个说话人,可以根据“×”的分布情况,确定不同的说话人。高斯成分的总数K的具体数值可以根据实际情况自主设置。语音帧中包含的说话人的人数为已知的情况(即K的具体数值为已知),则可直接利用上述方法得到包含具体说话人数(图2举例为两个说话人数)的高斯混合模型,再区分每一个说话人的语音。对于语音帧中包含的说话人的人数为未知的情况(即K的具体数值为未知),无法事先确知说话人的人数,可从1开始逐渐增加说话人的个数K,并利用贝叶斯信息准则(BIC)选择最合适的K作为对说话人个数的估计,再区分每一个说话人的语音。
S4:将最大的条件概率P(xt|Mi)对应的高斯成分Mj所表示的待区分说话人确定为说话人特征xt对应的语音帧所属的说话人。
具体的,装置将最大的条件概率P(xt|Mi)对应的高斯成分Mj所表示的待区分说话人确定为说话人特征xt对应的语音帧所属的说话人。可以参照上述的图2说明,准确地确定每一个说话人特征对应的语音帧所属的说话人。
本发明实施例提供的区分说话人语音的处理方法,通过获取说话人特征,并根据基于说话人特征建立的模型,能够稳定、有效地区分说话人语音。
在上述实施例的基础上,所述高斯混合模型的获取,包括:
将初始的高斯混合模型进行随机初始化。
具体的,装置将初始的高斯混合模型进行随机初始化。可参照上述实施例,不再赘述。
采用EM算法对随机初始化的高斯混合模型进行迭代运算,以获取收敛到一个最大似然解的高斯混合模型。
具体的,装置采用EM算法对随机初始化的高斯混合模型进行迭代运算,以获取收敛到一个最大似然解的高斯混合模型。可参照上述实施例,不再赘述。
本发明实施例提供的区分说话人语音的处理方法,通过合理地获取收敛到一个最大似然解的高斯混合模型,进一步能够稳定、有效地区分说话人语音。
在上述实施例的基础上,所述特征提取模型为深度神经网络。
具体的,装置中的所述特征提取模型为深度神经网络。可参照上述实施例,不再赘述。
本发明实施例提供的区分说话人语音的处理方法,通过将特征提取模型选定为深度神经网络,能够准确地提取说话人特征,从而实现稳定、有效地对说话人语音进行区分。
在上述实施例的基础上,所述深度神经网络包括多层卷积层、多层延时层和多层全连接层。
具体的,装置中的所述深度神经网络包括多层卷积层、多层延时层和多层全连接层。卷积层、延时层和全连接层的具体层数可以根据实际情况自主设置,不作具体限定。本发明实施例的卷积层可以为两层、延时层可以为两层、全连接层可以为两层。
本发明实施例提供的区分说话人语音的处理方法,通过合理设置深度神经网络的卷积层、延时层和全连接层,进一步能够准确地提取说话人特征,从而实现稳定、有效地对说话人语音进行区分。
在上述实施例的基础上,所述多层卷积层为两层,其中,第一层的参数分别为128,6,33;第二层的参数分别为256,2,8;每一层的参数分别表示卷积层的数量、卷积核的数量和卷积核的空间尺度。
具体的,装置中的所述多层卷积层为两层,其中,第一层的参数分别为128,6,33;第二层的参数分别为256,2,8;每一层的参数分别表示卷积层的数量、卷积核的数量和卷积核的空间尺度。每一层的卷积层的参数也可以根据实测效果自主灵活的选择配置。
本发明实施例提供的区分说话人语音的处理方法,通过合理设置深度神经网络的卷积层的层数和参数,更进一步能够准确地提取说话人特征,从而实现稳定、有效地对说话人语音进行区分。
图3为本发明实施例区分说话人语音的处理装置结构示意图,如图3所示,本发明实施例提供了一种区分说话人语音的处理装置,包括第一获取单元1、第二获取单元2、计算单元3和确定单元4,其中:
第一获取单元1用于获取包含有不同说话人的语音帧;第二获取单元2用于根据所述语音帧和预先训练过的特征提取模型,获取说话人特征;计算单元3用于根据所述说话人特征和收敛到一个最大似然解的高斯混合模型,计算每个语音帧对应的说话人特征xt对每个高斯成分Mi的条件概率P(xt|Mi),其中,每个高斯成分对应一个待区分的说话人,1<Mi≤K,K为所述高斯成分的总数,以表示待区分说话人的人数;确定单元4用于将最大的条件概率P(xt|Mi)对应的高斯成分Mj所表示的待区分说话人确定为说话人特征xt对应的语音帧所属的说话人。
具体的,第一获取单元1用于获取包含有不同说话人的语音帧;第二获取单元2用于根据所述语音帧和预先训练过的特征提取模型,获取说话人特征;计算单元3用于根据所述说话人特征和收敛到一个最大似然解的高斯混合模型,计算每个语音帧对应的说话人特征xt对每个高斯成分Mi的条件概率P(xt|Mi),其中,每个高斯成分对应一个待区分的说话人,1<Mi≤K,K为所述高斯成分的总数,以表示待区分说话人的人数;确定单元4用于将最大的条件概率P(xt|Mi)对应的高斯成分Mj所表示的待区分说话人确定为说话人特征xt对应的语音帧所属的说话人。
本发明实施例提供的区分说话人语音的处理装置,通过获取说话人特征,并根据基于说话人特征建立的模型,能够稳定、有效地区分说话人语音。
在上述实施例的基础上,所述计算单元3具体用于:
将初始的高斯混合模型进行随机初始化;采用EM算法对随机初始化的高斯混合模型进行迭代运算,以获取收敛到一个最大似然解的高斯混合模型。
具体的,所述计算单元3具体用于:
将初始的高斯混合模型进行随机初始化;采用EM算法对随机初始化的高斯混合模型进行迭代运算,以获取收敛到一个最大似然解的高斯混合模型。
本发明实施例提供的区分说话人语音的处理装置,通过合理地获取收敛到一个最大似然解的高斯混合模型,进一步能够稳定、有效地区分说话人语音。
在上述实施例的基础上,所述特征提取模型为深度神经网络。
具体的,装置中的所述特征提取模型为深度神经网络。
本发明实施例提供的区分说话人语音的处理装置,通过将特征提取模型选定为深度神经网络,能够准确地提取说话人特征,从而实现稳定、有效地对说话人语音进行区分。
本发明实施例提供的区分说话人语音的处理装置具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图4为本发明实施例提供的装置实体结构示意图,如图4所示,所述装置包括:处理器(processor)401、存储器(memory)402和总线403;
其中,所述处理器401、存储器402通过总线403完成相互间的通信;
所述处理器401用于调用所述存储器402中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取包含有不同说话人的语音帧;根据所述语音帧和预先训练过的特征提取模型,获取说话人特征;根据所述说话人特征和收敛到一个最大似然解的高斯混合模型,计算每个语音帧对应的说话人特征xt对每个高斯成分Mi的条件概率P(xt|Mi),其中,每个高斯成分对应一个待区分的说话人,1<Mi≤K,K为所述高斯成分的总数,以表示待区分说话人的人数;将最大的条件概率P(xt|Mi)对应的高斯成分Mj所表示的待区分说话人确定为说话人特征xt对应的语音帧所属的说话人。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取包含有不同说话人的语音帧;根据所述语音帧和预先训练过的特征提取模型,获取说话人特征;根据所述说话人特征和收敛到一个最大似然解的高斯混合模型,计算每个语音帧对应的说话人特征xt对每个高斯成分Mi的条件概率P(xt|Mi),其中,每个高斯成分对应一个待区分的说话人,1<Mi≤K,K为所述高斯成分的总数,以表示待区分说话人的人数;将最大的条件概率P(xt|Mi)对应的高斯成分Mj所表示的待区分说话人确定为说话人特征xt对应的语音帧所属的说话人。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取包含有不同说话人的语音帧;根据所述语音帧和预先训练过的特征提取模型,获取说话人特征;根据所述说话人特征和收敛到一个最大似然解的高斯混合模型,计算每个语音帧对应的说话人特征xt对每个高斯成分Mi的条件概率P(xt|Mi),其中,每个高斯成分对应一个待区分的说话人,1<Mi≤K,K为所述高斯成分的总数,以表示待区分说话人的人数;将最大的条件概率P(xt|Mi)对应的高斯成分Mj所表示的待区分说话人确定为说话人特征xt对应的语音帧所属的说话人。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的装置等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上各实施例仅用以说明本发明的实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明的实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明的实施例各实施例技术方案的范围。

Claims (10)

1.一种区分多说话人语音的处理方法,其特征在于,包括:
获取语音,其中,所述语音中包含有多个不同说话人的语音帧;
根据所述语音和预先训练过的说话人特征提取模型,获取每个语音帧的说话人特征;
根据所述说话人特征和收敛到一个最大似然解的高斯混合模型,计算所述语音中当前语音帧所对应的说话人特征xt在每个高斯成分Mi的条件概率P(xt|Mi),其中,每个高斯成分对应其中一个待区分的说话人,1<Mi≤K,K为所述高斯成分的总数,以表示待区分说话人的总人数;
将最大的条件概率P(xt|Mi)对应的高斯成分Mi所表示的待区分说话人确定为说话人特征xt对应的语音帧所属的第i个说话人。
2.根据权利要求1所述的方法,其特征在于,所述特征提取模型为深度神经网络。
3.根据权利要求2所述的方法,其特征在于,所述深度神经网络包括多层卷积层、多层延时层和多层全连接层。
4.根据权利要求3所述的方法,其特征在于,所述多层卷积层为两层,其中,第一层的参数分别为128,6,33;第二层的参数分别为256,2,8;每一层的参数分别表示卷积层的数量、卷积核的数量和卷积核的空间尺度。
5.根据权利要求1所述的方法,其特征在于,所述高斯混合模型的获取,包括:
将初始的高斯混合模型进行随机初始化;
采用EM算法对随机初始化的高斯混合模型进行迭代运算,以获取收敛到一个最大似然解的高斯混合模型。
6.一种区分多说话人语音的处理装置,其特征在于,包括:
第一获取单元,用于获取语音,其中,所述语音中包含有多个不同说话人的语音帧;
第二获取单元,用于根据所述语音和预先训练过的说话人特征提取模型,获取每一个语音帧的说话人特征;
计算单元,用于根据所述说话人特征和收敛到一个最大似然解的高斯混合模型,计算所述语音中当前语音帧所对应的说话人特征xt在每个高斯成分Mi的条件概率P(xt|Mi),其中,每个高斯成分对应其中一个待区分的说话人,1<Mi≤K,K为所述高斯成分的总数,以表示待区分说话人的总人数;
确定单元,用于将最大的条件概率P(xt|Mi)对应的高斯成分Mi所表示的待区分说话人确定为说话人特征xt对应的语音帧所属的第i个说话人。
7.根据权利要求6所述的装置,其特征在于,所述特征提取模型为深度神经网络。
8.根据权利要求6所述的装置,其特征在于,所述计算单元具体用于:
将初始的高斯混合模型进行随机初始化;
采用EM算法对随机初始化的高斯混合模型进行迭代运算,以获取收敛到一个最大似然解的高斯混合模型。
9.一种区分说话人语音的处理装置,其特征在于,包括:处理器、存储器和总线,其中:
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如权利要求1至5任一所述的方法。
CN201710667697.1A 2017-08-07 2017-08-07 一种区分说话人语音的处理方法及装置 Active CN107545898B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710667697.1A CN107545898B (zh) 2017-08-07 2017-08-07 一种区分说话人语音的处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710667697.1A CN107545898B (zh) 2017-08-07 2017-08-07 一种区分说话人语音的处理方法及装置

Publications (2)

Publication Number Publication Date
CN107545898A CN107545898A (zh) 2018-01-05
CN107545898B true CN107545898B (zh) 2020-07-14

Family

ID=60970704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710667697.1A Active CN107545898B (zh) 2017-08-07 2017-08-07 一种区分说话人语音的处理方法及装置

Country Status (1)

Country Link
CN (1) CN107545898B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108847245B (zh) * 2018-08-06 2020-06-23 北京海天瑞声科技股份有限公司 语音检测方法和装置
CN109960743A (zh) * 2019-01-16 2019-07-02 平安科技(深圳)有限公司 会议内容区分方法、装置、计算机设备及存储介质
CN110211595B (zh) * 2019-06-28 2021-08-06 四川长虹电器股份有限公司 一种基于深度学习的说话人聚类系统
CN114242067A (zh) * 2021-11-03 2022-03-25 北京百度网讯科技有限公司 语音识别方法、装置、设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
CN102486922A (zh) * 2010-12-03 2012-06-06 株式会社理光 说话人识别方法、装置和系统
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法
CN106448681A (zh) * 2016-09-12 2017-02-22 南京邮电大学 一种超矢量的说话人辨认方法
WO2017076211A1 (zh) * 2015-11-05 2017-05-11 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2736042A1 (en) * 2012-11-23 2014-05-28 Samsung Electronics Co., Ltd Apparatus and method for constructing multilingual acoustic model and computer readable recording medium for storing program for performing the method

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102486922A (zh) * 2010-12-03 2012-06-06 株式会社理光 说话人识别方法、装置和系统
CN102324232A (zh) * 2011-09-12 2012-01-18 辽宁工业大学 基于高斯混合模型的声纹识别方法及系统
WO2017076211A1 (zh) * 2015-11-05 2017-05-11 阿里巴巴集团控股有限公司 基于语音的角色分离方法及装置
CN105575394A (zh) * 2016-01-04 2016-05-11 北京时代瑞朗科技有限公司 基于全局变化空间及深度学习混合建模的声纹识别方法
CN106448681A (zh) * 2016-09-12 2017-02-22 南京邮电大学 一种超矢量的说话人辨认方法

Also Published As

Publication number Publication date
CN107545898A (zh) 2018-01-05

Similar Documents

Publication Publication Date Title
EP3469582B1 (en) Neural network-based voiceprint information extraction method and apparatus
CN108346436B (zh) 语音情感检测方法、装置、计算机设备及存储介质
EP3479377B1 (en) Speech recognition
McLaren et al. Application of convolutional neural networks to speaker recognition in noisy conditions
CN108305641B (zh) 情感信息的确定方法和装置
US9626970B2 (en) Speaker identification using spatial information
CN107545898B (zh) 一种区分说话人语音的处理方法及装置
CN108305643B (zh) 情感信息的确定方法和装置
US10412223B2 (en) Personalized support routing based on paralinguistic information
CN110178178B (zh) 具有环境自动语音识别(asr)的麦克风选择和多个讲话者分割
CN109584884B (zh) 一种语音身份特征提取器、分类器训练方法及相关设备
CN108615525B (zh) 一种语音识别方法及装置
CN108899044A (zh) 语音信号处理方法及装置
CN112634875B (zh) 语音分离方法、语音分离装置、电子设备及存储介质
CN109410956B (zh) 一种音频数据的对象识别方法、装置、设备及存储介质
CN108877783B (zh) 确定音频数据的音频类型的方法和装置
CN108417201A (zh) 单信道多说话人身份识别方法及系统
EP3207543B1 (en) Method and apparatus for separating speech data from background data in audio communication
CN108877812B (zh) 一种声纹识别方法、装置及存储介质
CN112966568A (zh) 一种视频客服服务质量分析方法及装置
KR102026226B1 (ko) 딥러닝 기반 Variational Inference 모델을 이용한 신호 단위 특징 추출 방법 및 시스템
WO2021171956A1 (ja) 話者識別装置、話者識別方法、及び、プログラム
KR20200140235A (ko) 대상 화자의 음성 모델을 구축하기 위한 방법 및 디바이스
CN111932056A (zh) 客服质量评分方法、装置、计算机设备和存储介质
Imoto et al. Acoustic scene analysis from acoustic event sequence with intermittent missing event

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant