CN107393527A - 说话人数目的判断方法 - Google Patents

说话人数目的判断方法 Download PDF

Info

Publication number
CN107393527A
CN107393527A CN201710585056.1A CN201710585056A CN107393527A CN 107393527 A CN107393527 A CN 107393527A CN 201710585056 A CN201710585056 A CN 201710585056A CN 107393527 A CN107393527 A CN 107393527A
Authority
CN
China
Prior art keywords
speakers
speaker
voice signal
voice
factor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710585056.1A
Other languages
English (en)
Inventor
李�权
杨有科
余亮
谢泽鑫
陈杰永
冯国梁
邹月荣
郭清霞
陈元林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU MORNING STAR TECHNOLOGY Co Ltd
Original Assignee
GUANGZHOU MORNING STAR TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU MORNING STAR TECHNOLOGY Co Ltd filed Critical GUANGZHOU MORNING STAR TECHNOLOGY Co Ltd
Priority to CN201710585056.1A priority Critical patent/CN107393527A/zh
Publication of CN107393527A publication Critical patent/CN107393527A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种说话人数目的判断方法,包括如下步骤:接收语音数字信号,并对数字信号进行预处理;提取预处理后的语音信号特征;根据所述语音信号特征,将所述语音信号进行初步分割和初步聚类;判断说话人数目是否为多人,若是,所述多人语音特征聚类,判断出说话人的数目,若否,判断出说话人数目是单人或双人;其中,多人为三人或三人以上。本发明提供解决对于双说话人场景或多说话人场景,判断的说话人数目不准确的问题,提高判断说话人数目的准确度。

Description

说话人数目的判断方法
技术领域
本发明涉及语音信号处理、模式识别等技术领域,特别涉及一种基于说话人分割和聚类的说话人数目判断方法。
背景技术
随着语音处理技术的不断发展,说话人数目的准确判断,能够帮助分析语音记录的场景,优化说话人分离的效果,从而制定相应的策略提升识别的效果。例如,电话记录的双说话人场景;或者会议记录的多说话人场景。
现有的说话人数目判断方法中数目判断结果的准确性完全依赖于说话人分割和聚类的准确性,而由于说话人分割受到步长的影响,步长多是根据经验确定,所以难免出现不合适的情况,从而影响分割及后面的聚类准确性,最终使得说话人数目判断出现误差。
发明内容
本发明提供一种说话人数目的判断方法,解决对于双说话人场景或多说话人场景,判断的说话人数目不准确的问题,提高判断说话人数目的准确度。
本发明采用如下技术方案:
一种说话人数目的判断方法,包括如下步骤:
接收语音数字信号,并对数字信号进行预处理;
提取预处理后的语音信号特征;
根据所述语音信号特征,将所述语音信号进行初步分割和初步聚类;
判断说话人数目是否为多人,若是,所述多人语音特征聚类,判断出说话人的数目,若否,判断出说话人数目是单人或双人;其中,多人为三人或三人以上。
进一步地,所述判断说话人数目是否为多人的步骤包括:
对语音信号的特征重新聚类;
利用总体变化因子模型提取当前各语音信号类的说话人因子向量;
根据所述说话人因子向量之间的距离计算不同语音信号类之间的相似度;
如果得到的最大相似度大于设定的第一阈值,则将最大相似度对应的两个语音信号类进行合并;然后重复计算过程;
否则,计算过程结束。
进一步地,所述多人语音特征聚类,判断出说话人的数目的步骤为:
利用总体变化因子模型提取当前各语音信号类的说话人因子向量;
利用概率线性鉴别分析PLDA技术从所述说话人因子向量中提取信道无关的说话人因子向量;
根据所述信道无关的说话人因子向量之间的距离计算不同语音信号类之间的相似度;
如果得到的最大相似度大于设定的第二阈值,则将最大相似度对应的两个语音信号类进行合并;然后重复计算过程;
否则,计算过程结束;
其中,将当前语音信号类的数目作为说话人数目。
进一步地,所述判断出说话人数目是单人或双人的步骤为:
利用总体变化因子模型提取当前各语音信号类的说话人因子向量;
利用大量离线数据训练的PLDA模型来计算各语音信号类的说话人因子向量之间与信道无关的PLDA得分;
如果得到的最大PLDA得分大于设定的第三阈值,则将最大PLDA得分对应的两个语音信号类进行合并;然后重复计算过程;
否则,计算过程结束;
其中,将当前语音信号类的数目作为说话人数目。
有益效果
本发明根据重分割后语音信号类中各分割信号段的语音信号特征计算重分割后各语音信号类的相似度,根据所述相似度计算结果获取说话人数目。由于对语音信号进行重分割,可以消除现有技术中对语音信号进行分割时的步长限制的影响,提高说话人分割的准确性,从而提高后续说话人数目判断的准确性,以提升语音识别效果。
附图说明
图1是本发明提供的的一个实施例的说话人数目判断方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明提供的一个实施例的说话人数目判断方法具体流程。该方法包括如下步骤:
S1:接收语音数字信号,并对数字信号进行预处理。
所述预处理主要是对数字信号进行端点检测,在信号中找到有效语音段,去除非语音段。
S2:提取预处理后语音信号特征。
所述语音信号特征,可以是PLP特征,当然也可以是MFCC、PLC等语音特征。
S3:根据所述语音信号特征,将所述语音信号进行初步分割和初步聚类。
具体的,按照贝叶斯信息准则,对语音段进行说话人变化点检测,实现语音段分割,其中变化点的选取考虑效率问题是有选取范围的,即如某个5s的语音段,在步长为1s的情况下,可能的变化点只有语音的1s,2s,3s,4s的位置。
基于分割后的语音子段的特征数据,按照贝叶斯准则进行聚类,调整聚类门限参数,使得最后聚成3类。
S4:判断说话人数目是否多人,若是转步骤S5,否则转步骤S6;
本案利用Ivector因子分析技术判定说话人数目是否为多人,具体实现方法如下所述。
需要说明的是:本案中定义的多人为说话人人数大于等于三。
S5:多人聚类,判断出说话人数目;
同样利用Ivector因子分析技术和PLDA技术判断多人情况下的说话人数目,具体实现方法如下所述。
S6:判断出说话人数目是单人还是双人。
利用Ivector因子分析技术和PLDA技术判断说话人数目是单人还是双人,具体实现方法如下所述。
进一步地,所述步骤S4,判断说话人数目是否多人的步骤,利用Ivector因子分析技术判定说话人数目是否为多人,具体实现流程步骤如下:
S401:获取用于说话人因子提取的TV模型参数;
所述参数包括语音段均值超矢量M和离线数据均值超矢量的均值m。
语音段均值超矢量获取方法:首先,利用离线数据训练好的通用背景模型,使用最大后验的自适应方法来得到每段语音的混合高斯模型,从而将对应的混合高斯模型各高斯的均值拼接起来得到均值超矢量。
离线数据均值超矢量的均值:直接根据离线数据训练好的通用背景模型的各高斯均值做平均。
S402:获取说话人因子w;
具体的,基于大量离线数据,采用EM算法训练好的TV(Total Variability)模型,提取说话人的因子w,称为Ivector(Ivector是一个N维的向量,能够表征语音数据的说话人信息和信道信息,在说话人识别领域广泛使用)。模型公式如下:
M=m+Tw (1)
其中,M为从当前语音提取的均值超矢量,m为离线数据均值超矢量的均值,T为因子载荷矩阵,w为说话人因子向量。
基于EM算法训练T V模型得到T,再根据式一估算出说话人因子w,设这三类语音段的说话人因子分别为I1,I2,I3
S403:计算说话人相似度,判断是否为多说话人。
计算上述三个因子两两之间的相似度,即它们的cos距离C12,C13,C23
选取Cmax=max{C12,C13,C23}。
若Cmax<Cthreshold,Cthreshold是根据实验开发集合上参数调节的结果,这里可以取Cthreshold=0.25,表示三个因子两两之间最大的相似度都相对较小,可以认为这3类的语音代表至少3个类别,而不能够继续聚类得到2类或者1类。所以判断说话人数目是多人;反之,判断说话人数目是单人或双人。
进一步地,所述步骤S5,多人聚类,判断出说话人数目步骤,利用Ivector因子分析技术和PLDA技术判断多人情况下的说话人数目,具体实现方法步骤如下:
S501:对语音段数据进行重新聚类,对语音段类别数初始化;
具体的,设定说话人数目的上限值F,F的取值可根据实际应用情况设定,如我们这里取F=6,然后对所有语音子段的PLP特征数据,按照贝叶斯信息准则进行聚类处理,调整聚类的门限参数,使得最后聚类的类别数为F,即语音段类别数T初始化为F。
S502:判断T类说话人是否可以再进行聚类,若是步骤S503,否则转步骤S504;
首先,利用Ivector因子分析技术计算T类说话人因子向量I1,I2,I3,...,IT,并计算T个类的说话人因子两两之间的相似度,即它们的cos距离,选取cos距离最大的两个类a和b(代表这两个类的语音特征数据最相似)。
再利用Ivector因子分析技术和PLDA技术判断这两个类是否是一个说话人,即这两类语音是单人还是双人,若是单人,则判定T类说话人可以再进行聚类,否则判定T类说话人不可以再进行聚类。利用Ivector因子分析技术和PLDA技术判断是否是一个说话人的具体方法在下面详细描述,此处不再重复说明。
S503:T=T-1,并判断T是否等于三,若是转步骤S505,否则转步骤S502;
S504:判定说话人数目为T,结束;
S505:判定说话人数目为三,结束。
进一步地,所述步骤S6,判断出说话人数目是单人还是双人步骤,利用Ivector因子分析技术和PLDA技术判断说话人数目是单人还是双人,具体实现方法步骤如下:
S601:对语音段的特征数据重新聚类;
将初步聚类后的3类的语音段的特征数据按照贝叶斯信息准则进行再次聚类,得到2类语音段的特征数据。
S602:对聚类后的语音段特征数据进行重分割;
利用2类语音段的特征数据进行GMM模型训练,然后利用训练得到的2个GMM模型,对所有的语音数据进行基于Viterbi解码的重分割,得到新的2类语音段的特征数据,然后利用新的2类语音段的特征数据继续重分割操作。进行2~4次重分割,得到最后的2类语音段的特征数据结果。
本次步骤可以消除步骤三中说话人分割的步长限制带来的消极影响,同时减少某些语音段数据的聚类错误带来的消极影响,为后面说话人数目的判断提供优化的2类语音段的特征数据结果。
S603:利用Ivector因子分析技术和PLDA技术判断说话人数目是单人还是双人
首先,对2类语音段的特征数据进行因子分析,提取说话人的因子Ivector(Ivector是一个N维的向量,能够表征语音数据的说话人信息和信道信息),假设这两个Ivector分别为Ia,Ib
然后,由于说话人因子Ivector中同时包含说话人信息和信道的信息,为了消除说话人因子中信道信息的干扰,突出说话人信息的影响,对Ivector进一步进行因子分析PLDA:
D=μ+Vy+ε (3)
其中,D为提取的Ivector,μ表示所有说话人的Ivector的均值,V为说话人因子载荷矩阵,y为PLDA说话人因子,ε为残渣项(说话人识别研究中常用方法)。采用EM算法进行模型训练,得到V和ε,进而估算出PLDA说话人因子y。
再者,对上述两个Ivector因子计算PLDA得分Pab,Pab的值越大,2类语音段的特征数据被判决成1类的可能性越高。
Pab的计算方法如下:
Pab=(Ia-μ)TΓ(Ia-μ)+(Ib-μ)TΓ(Ib-μ)+2(Ia-μ)TΛ(Ib-μ) (4)
其中, TOT=V·VT+ε,AC=V·VT,μ,V,ε都是因子分析PLDA过程中得到的矩阵常量。
若Pab>Pthreshold,根据实验开发集合上参数调节的结果,这里取Pthreshold=20,表示目前得到的2类语音段的特征数据更像是1类的语音段的特征数据而不是2类的语音段的特征数据,所以判断说话人数目是单人;反之,判断说话人数目是双人。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (4)

1.说话人数目的判断方法,其特征在于,包括如下步骤:
接收语音数字信号,并对数字信号进行预处理;
提取预处理后的语音信号特征;
根据所述语音信号特征,将所述语音信号进行初步分割和初步聚类;
判断说话人数目是否为多人,若是,所述多人语音特征聚类,判断出说话人的数目,若否,判断出说话人数目是单人或双人;其中,多人为三人或三人以上。
2.如权利要求1所述的说话人数目的判断方法,其特征在于,所述判断说话人数目是否为多人的步骤包括:
对语音信号的特征重新聚类;
利用总体变化因子模型提取当前各语音信号类的说话人因子向量;
根据所述说话人因子向量之间的距离计算不同语音信号类之间的相似度;
如果得到的最大相似度大于设定的第一阈值,则将最大相似度对应的两个语音信号类进行合并;然后重复计算过程;
否则,计算过程结束。
3.如权利要求1所述的说话人数目的判断方法,其特征在于,所述多人语音特征聚类,判断出说话人的数目的步骤为:
利用总体变化因子模型提取当前各语音信号类的说话人因子向量;
利用概率线性鉴别分析PLDA技术从所述说话人因子向量中提取信道无关的说话人因子向量;
根据所述信道无关的说话人因子向量之间的距离计算不同语音信号类之间的相似度;
如果得到的最大相似度大于设定的第二阈值,则将最大相似度对应的两个语音信号类进行合并;然后重复计算过程;
否则,计算过程结束;
其中,将当前语音信号类的数目作为说话人数目。
4.如权利要求1所述的说话人数目的判断方法,其特征在于,所述判断出说话人数目是单人或双人的步骤为:
利用总体变化因子模型提取当前各语音信号类的说话人因子向量;
利用大量离线数据训练的PLDA模型来计算各语音信号类的说话人因子向量之间与信道无关的PLDA得分;
如果得到的最大PLDA得分大于设定的第三阈值,则将最大PLDA得分对应的两个语音信号类进行合并;然后重复计算过程;
否则,计算过程结束;
其中,将当前语音信号类的数目作为说话人数目。
CN201710585056.1A 2017-07-17 2017-07-17 说话人数目的判断方法 Pending CN107393527A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710585056.1A CN107393527A (zh) 2017-07-17 2017-07-17 说话人数目的判断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710585056.1A CN107393527A (zh) 2017-07-17 2017-07-17 说话人数目的判断方法

Publications (1)

Publication Number Publication Date
CN107393527A true CN107393527A (zh) 2017-11-24

Family

ID=60340973

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710585056.1A Pending CN107393527A (zh) 2017-07-17 2017-07-17 说话人数目的判断方法

Country Status (1)

Country Link
CN (1) CN107393527A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108847245A (zh) * 2018-08-06 2018-11-20 北京海天瑞声科技股份有限公司 语音检测方法和装置
CN108908377A (zh) * 2018-07-06 2018-11-30 达闼科技(北京)有限公司 说话人识别方法、装置和机器人
CN109036386A (zh) * 2018-09-14 2018-12-18 北京网众共创科技有限公司 一种语音处理方法及装置
CN109981970A (zh) * 2017-12-28 2019-07-05 深圳市优必选科技有限公司 一种确定拍摄场景的方法、装置和机器人
CN110265060A (zh) * 2019-06-04 2019-09-20 广东工业大学 一种基于密度聚类的说话人数目自动检测方法
CN111462758A (zh) * 2020-03-02 2020-07-28 深圳壹账通智能科技有限公司 智能会议角色分类的方法、装置、设备及存储介质
CN111524527A (zh) * 2020-04-30 2020-08-11 合肥讯飞数码科技有限公司 话者分离方法、装置、电子设备和存储介质
CN111767793A (zh) * 2020-05-25 2020-10-13 联想(北京)有限公司 一种数据处理方法及装置
CN112001454A (zh) * 2020-09-08 2020-11-27 中国联合网络通信集团有限公司 一种集客专线的聚类方法和装置
CN112216285A (zh) * 2020-08-28 2021-01-12 厦门快商通科技股份有限公司 多人会话检测方法、系统、移动终端及存储介质
CN113555032A (zh) * 2020-12-22 2021-10-26 腾讯科技(深圳)有限公司 多说话人场景识别及网络训练方法、装置
CN115457973A (zh) * 2022-09-06 2022-12-09 云知声智能科技股份有限公司 说话人分割方法、系统、终端及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6681205B1 (en) * 1999-07-12 2004-01-20 Charles Schwab & Co., Inc. Method and apparatus for enrolling a user for voice recognition
CN101419799A (zh) * 2008-11-25 2009-04-29 浙江大学 基于混合t模型的说话人识别方法
CN103258536A (zh) * 2013-03-08 2013-08-21 北京理工大学 一种大规模说话人辨认方法
CN105161093A (zh) * 2015-10-14 2015-12-16 科大讯飞股份有限公司 一种判断说话人数目的方法及系统
CN105469784A (zh) * 2014-09-10 2016-04-06 中国科学院声学研究所 概率线性鉴别分析模型生成方法和说话人聚类方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6681205B1 (en) * 1999-07-12 2004-01-20 Charles Schwab & Co., Inc. Method and apparatus for enrolling a user for voice recognition
CN101419799A (zh) * 2008-11-25 2009-04-29 浙江大学 基于混合t模型的说话人识别方法
CN103258536A (zh) * 2013-03-08 2013-08-21 北京理工大学 一种大规模说话人辨认方法
CN105469784A (zh) * 2014-09-10 2016-04-06 中国科学院声学研究所 概率线性鉴别分析模型生成方法和说话人聚类方法及系统
CN105161093A (zh) * 2015-10-14 2015-12-16 科大讯飞股份有限公司 一种判断说话人数目的方法及系统

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109981970A (zh) * 2017-12-28 2019-07-05 深圳市优必选科技有限公司 一种确定拍摄场景的方法、装置和机器人
CN109981970B (zh) * 2017-12-28 2021-07-27 深圳市优必选科技有限公司 一种确定拍摄场景的方法、装置和机器人
CN108908377A (zh) * 2018-07-06 2018-11-30 达闼科技(北京)有限公司 说话人识别方法、装置和机器人
CN108847245A (zh) * 2018-08-06 2018-11-20 北京海天瑞声科技股份有限公司 语音检测方法和装置
CN109036386A (zh) * 2018-09-14 2018-12-18 北京网众共创科技有限公司 一种语音处理方法及装置
CN110265060A (zh) * 2019-06-04 2019-09-20 广东工业大学 一种基于密度聚类的说话人数目自动检测方法
CN111462758A (zh) * 2020-03-02 2020-07-28 深圳壹账通智能科技有限公司 智能会议角色分类的方法、装置、设备及存储介质
CN111524527A (zh) * 2020-04-30 2020-08-11 合肥讯飞数码科技有限公司 话者分离方法、装置、电子设备和存储介质
CN111524527B (zh) * 2020-04-30 2023-08-22 合肥讯飞数码科技有限公司 话者分离方法、装置、电子设备和存储介质
CN111767793A (zh) * 2020-05-25 2020-10-13 联想(北京)有限公司 一种数据处理方法及装置
CN112216285B (zh) * 2020-08-28 2023-06-23 厦门快商通科技股份有限公司 多人会话检测方法、系统、移动终端及存储介质
CN112216285A (zh) * 2020-08-28 2021-01-12 厦门快商通科技股份有限公司 多人会话检测方法、系统、移动终端及存储介质
CN112001454A (zh) * 2020-09-08 2020-11-27 中国联合网络通信集团有限公司 一种集客专线的聚类方法和装置
CN112001454B (zh) * 2020-09-08 2023-06-23 中国联合网络通信集团有限公司 一种集客专线的聚类方法和装置
CN113555032A (zh) * 2020-12-22 2021-10-26 腾讯科技(深圳)有限公司 多说话人场景识别及网络训练方法、装置
CN113555032B (zh) * 2020-12-22 2024-03-12 腾讯科技(深圳)有限公司 多说话人场景识别及网络训练方法、装置
CN115457973A (zh) * 2022-09-06 2022-12-09 云知声智能科技股份有限公司 说话人分割方法、系统、终端及存储介质

Similar Documents

Publication Publication Date Title
CN107393527A (zh) 说话人数目的判断方法
CN105161093B (zh) 一种判断说话人数目的方法及系统
CN110853666B (zh) 一种说话人分离方法、装置、设备及存储介质
CN111524527B (zh) 话者分离方法、装置、电子设备和存储介质
CN112204657A (zh) 利用提前停止聚类的讲话者分离
CN106297776B (zh) 一种基于音频模板的语音关键词检索方法
WO2014029099A1 (en) I-vector based clustering training data in speech recognition
CN110211594B (zh) 一种基于孪生网络模型和knn算法的说话人识别方法
CN104485103B (zh) 一种基于矢量泰勒级数的多环境模型孤立词识别方法
CN110176250B (zh) 一种基于局部学习的鲁棒声学场景识别方法
CN112530407B (zh) 一种语种识别方法及系统
CN113808612B (zh) 语音处理方法、设备及存储介质
US20240135956A1 (en) Method and apparatus for measuring speech-image synchronicity, and method and apparatus for training model
CN111508505A (zh) 一种说话人识别方法、装置、设备及存储介质
CN107452403A (zh) 一种说话人标记方法
CN107103311A (zh) 一种连续手语的识别方法及其装置
CN110164417A (zh) 一种语种向量获得、语种识别的方法和相关装置
CN113850243A (zh) 模型训练、人脸识别方法、电子设备及存储介质
CN101216886B (zh) 一种基于谱分割理论的镜头聚类方法
CN111091840A (zh) 一种建立性别识别模型的方法及性别识别方法
CN112906544A (zh) 一种适用于多目标的基于声纹和人脸的匹配方法
EP3816996B1 (en) Information processing device, control method, and program
Song et al. Audio-visual based emotion recognition using tripled hidden markov model
CN115985315A (zh) 说话人标注方法、装置、电子设备和存储介质
US20230238002A1 (en) Signal processing device, signal processing method and program

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171124