CN110782879A - 基于样本量的声纹聚类方法、装置、设备及存储介质 - Google Patents
基于样本量的声纹聚类方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN110782879A CN110782879A CN201910880452.6A CN201910880452A CN110782879A CN 110782879 A CN110782879 A CN 110782879A CN 201910880452 A CN201910880452 A CN 201910880452A CN 110782879 A CN110782879 A CN 110782879A
- Authority
- CN
- China
- Prior art keywords
- voiceprint
- clustering
- sample
- clustered
- sample set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000005192 partition Methods 0.000 claims abstract description 26
- 239000013598 vector Substances 0.000 claims description 68
- 230000006870 function Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 5
- 230000000694 effects Effects 0.000 abstract description 8
- 230000008569 process Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000000556 factor analysis Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于样本量的声纹聚类方法、装置、设备及存储介质,即所述处理器将所述待聚类声纹样本集存储至所述缓存模块,并判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集;若为所述大样本量样本集,则在所述存储模块中确定所述大样本量样本集对应的声纹聚类模型,作为目标声纹聚类模型;基于所述目标声纹聚类模型中的训练后的分区聚类算法对所述待聚类声纹样本集进行聚类,并输出所述待聚类声纹样本的聚类结果。本发明对不同规模的样本量采用不同的聚类模型,并通过分区聚类缩短了大样本量的待聚类声纹样本集的聚类时间,提升了聚类效果。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种基于样本量的声纹聚类方法、装置、设备及计算机可读存储介质。
背景技术
聚类是一种重要的无监督机器学习数据分析方法,声纹聚类是指从多个无标签的声纹样本中通过聚类算法判断出这些声纹样本由几个独立用户提供,即对多个无标签的声纹样本按其特征聚类。现有的声纹聚类方法,均是对需要聚类的声纹样本集直接采用聚类算法聚类,从而在对样本量大的样本集聚类时,不仅计算耗时久而且聚类效果不理想。因此,如何解决现有声纹聚类方法聚类效率低下的技术问题,是目前亟需解决的问题。
发明内容
本发明的主要目的在于提供一种基于样本量的声纹聚类方法、装置、设备及计算机可读存储介质,旨在解决现有声纹聚类方法聚类效率低下的技术问题。
为实现上述目的,本发明提供一种基于样本量的声纹聚类方法,所述基于样本量的声纹聚类方法应用于所述基于样本量的声纹聚类系统,所述声纹聚类系统包括缓存模块、存储模块以及处理器,所述基于样本量的声纹聚类方法包括以下步骤:
所述处理器在接收到用户端发送的待聚类声纹样本集,将所述待聚类声纹样本集存储至所述缓存模块,并根据所述待聚类声纹样本集的样本数量,判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集;
若所述处理器判定所述待聚类声纹样本集为所述大样本量样本集,则在所述存储模块中确定所述大样本量样本集对应的声纹聚类模型,作为目标声纹聚类模型;
所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型,基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类,并输出所述待聚类声纹样本的聚类结果。
可选地,所述处理器在接收到用户端发送的待聚类声纹样本集的步骤之后,还包括:
对所述待聚类声纹样本集进行数据预处理和特征提取,并提取出所述待聚类声纹样本集的声纹样本特征MFCC、MFCC的一阶差分和MFCC的二阶差分;
所述处理器基于预设方式以及所述待聚类声纹样本集的MFCC、MFCC的一阶差分和MFCC的二阶差分,确定所述待聚类声纹样本集中各条声纹数据对应的声纹向量I-vector,并将所述各条声纹数据对应的声纹向量I-vector存储至所述存储模块。
可选地,所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型,基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类,并输出所述待聚类声纹样本的聚类结果的步骤具体包括:
所述处理器将所述存储模块中的所述待聚类声纹样本集对应的各条声纹数据对应的声纹向量I-vector输入至所述目标声纹聚类模型;
所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间;
所述目标声纹聚类模型通过聚类算法对各个区间内的各条声纹数据进行并行聚类,并输出所述待聚类声纹样本的聚类结果。
可选地,所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间的步骤之后,还包括:
所述目标声纹聚类模型根据预设个数阈值在划分后的区间中确定稠密区间以及稀疏区间,其中,若落在当前区间的声纹样本量大于所述个数阈值,则所述当前区间为稠密区间,若否,则所述当前区间为稀疏区间;
所述目标声纹聚类模型获取所述稠密区间相邻的稀疏区间的区间密度,并将所述区间密度与预设密度阈值进行比较,判断所述稠密区间相邻的稀疏区间是否为稀疏区间的稠密部分;
若所述目标声纹聚类模型判定所述稠密区间相邻的稀疏区间为稀疏区间的稠密部分,则将所述稠密区间相邻的稀疏区间并入所述稠密区间;
所述目标声纹聚类模型将相邻的稠密区间进行合并,并更新所述待聚类声纹样本集对应的稠密区间与稀疏区间。
可选地,所述目标声纹聚类模型通过聚类算法对各个区间内的各条声纹数据进行并行聚类,并输出所述待聚类声纹样本的聚类结果的步骤具体包括:
所述目标声纹聚类模型通过cure算法在各个稠密区间以及各个稀疏区间中进行并行局部聚类;
所述目标声纹聚类模型通过Map函数以及Reduce函数对并行局部聚类后的声纹数据进行聚类处理,并合并输出各个区间的聚类结果。
可选地,所述处理器在接收到用户端发送的待聚类声纹样本集,将所述待聚类声纹样本集存储至所述缓存模块,并根据所述待聚类声纹样本集的样本数量,判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集的步骤之后,还包括:
若所述处理器判定所述待聚类声纹样本集为不超过所述样本量阈值的小样本量样本集,则在所述存储模块中确定所述小样本量样本集对应的声纹聚类模型,作为目标声纹聚类模型;
所述处理器将所述存储模块中的所述待聚类声纹样本集对应的各条声纹数据对应的声纹向量I-vector输入至所述目标声纹聚类模型;
所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间;
所述目标声纹聚类模型获取各个区间内各个声纹数据两两对应的类间距以及PLDA打分,基于所述类间距以及所述PLDA打分对所述各个区间内各个声纹数据进行聚类,并输出所述待聚类声纹样本集对应的聚类结果。
可选地,所述目标声纹聚类模型获取各个区间内各个声纹数据两两对应的类间距以及PLDA打分,基于所述类间距以及所述PLDA打分对所述各个区间内各个声纹数据进行聚类,并输出所述待聚类声纹样本集对应的聚类结果的步骤具体包括:
所述目标声纹聚类模型将各个区间内的各条声纹数据,分别记为一类,作为初始类;
根据预设类间距计算公式,得到各个区间内各个声纹数据两两对应的类间距,并根据一个类与其他各类的类间距均值的大小对所述初始类构造一个堆,其中,所述类间距=1-代表两类的两条声纹数据标准化后的PLDA打分,且所述类间距满足正态分布;
基于所述各条声纹数据对应的类间距进行聚类,并输出所述待聚类声纹样本集对应的聚类结果。
此外,为实现上述目的,本发明还提供一种基于样本量的声纹聚类装置,所述基于样本量的声纹聚类装置包括:
样本量确定模块,用于所述处理器在接收到用户端发送的待聚类声纹样本集,将所述待聚类声纹样本集存储至所述缓存模块,并根据所述待聚类声纹样本集的样本数量,判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集;
聚类模型确定模块,用于若所述处理器判定所述待聚类声纹样本集为所述大样本量样本集,则在所述存储模块中确定所述大样本量样本集对应的声纹聚类模型,作为目标声纹聚类模型;
第一分区聚类模块,用于所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型,基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类,并输出所述待聚类声纹样本的聚类结果。
此外,为实现上述目的,本发明还提供一种基于样本量的声纹聚类设备,所述基于样本量的声纹聚类设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的基于样本量的声纹聚类程序,其中所述基于样本量的声纹聚类程序被所述处理器执行时,实现如上述的基于样本量的声纹聚类方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于样本量的声纹聚类程序,其中所述基于样本量的声纹聚类程序被处理器执行时,实现如上述的基于样本量的声纹聚类方法的步骤。
本发明提供一种基于样本量的声纹聚类方法,即所述处理器在接收到用户端发送的待聚类声纹样本集,将所述待聚类声纹样本集存储至所述缓存模块,并根据所述待聚类声纹样本集的样本数量,判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集;若所述处理器判定所述待聚类声纹样本集为所述大样本量样本集,则在所述存储模块中确定所述大样本量样本集对应的声纹聚类模型,作为目标声纹聚类模型;所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型,基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类,并输出所述待聚类声纹样本的聚类结果。通过上述方式,本发明对不同规模的样本量采用不同的聚类模型,并通过分区聚类缩短了大样本量的待聚类声纹样本集的聚类时间,提升了聚类效果,解决了现有声纹聚类方法聚类效率低下的技术问题。
附图说明
图1为本发明实施例方案中涉及的基于样本量的声纹聚类设备的硬件结构示意图;
图2为本发明基于样本量的声纹聚类方法第一实施例的流程示意图;
图3为本发明基于样本量的声纹聚类方法第二实施例的流程示意图;
图4为本发明基于样本量的声纹聚类方法第三实施例的流程示意图;
图5为本发明基于样本量的声纹聚类装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例涉及的基于样本量的声纹聚类方法主要应用于基于样本量的声纹聚类设备,该基于样本量的声纹聚类设备可以是PC、便携计算机、移动终端等具有显示和处理功能的设备。
参照图1,图1为本发明实施例方案中涉及的基于样本量的声纹聚类设备的硬件结构示意图。本发明实施例中,基于样本量的声纹聚类设备可以包括处理器1001(例如CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口);存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的硬件结构并不构成对基于样本量的声纹聚类设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种计算机可读存储介质的存储器1005可以包括操作系统、网络通信模块以及基于样本量的声纹聚类程序。
在图1中,网络通信模块主要用于连接服务器,与服务器进行数据通信;而处理器1001可以调用存储器1005中存储的基于样本量的声纹聚类程序,并执行本发明实施例提供的基于样本量的声纹聚类方法。
本发明实施例提供了一种基于样本量的声纹聚类方法。
参照图2,图2为本发明基于样本量的声纹聚类方法第一实施例的流程示意图。
本实施例中,所述基于样本量的声纹聚类方法应用于所述基于样本量的声纹聚类系统,所述声纹聚类系统包括缓存模块、存储模块以及处理器,所述基于样本量的声纹聚类方法包括以下步骤:
步骤S10,所述处理器在接收到用户端发送的待聚类声纹样本集,将所述待聚类声纹样本集存储至所述缓存模块,并根据所述待聚类声纹样本集的样本数量,判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集;
现有的声纹聚类方法,均是对需要聚类的声纹样本集直接采用聚类算法聚类,从而在对样本量大的样本集聚类时,不仅计算耗时久而且聚类效果不理想。为了解决上述问题,本实施例中对不同规模的样本量采用不同的聚类模型,并通过分区聚类缩短了大样本量的待聚类声纹样本集的聚类时间,提升了聚类效果。具体地,根据声纹聚类应用场景的不同,待聚类声纹样本集中声纹样本的数量也是存在很大差异的,对于样本量较小的样本集,聚类计算时不需要占用并行运算的计算资源和配置,也可以在较短的时间内得到聚类结果,而对于样本量较大的样本集,聚类计算耗时则会较久,本实施例提供的声纹聚类方法对不同样本量的待聚类声纹样本集采用不同的聚类模型做聚类计算。所述处理器在接收到用户通过用户端发送的待聚类声纹样本集时,先将所述待聚类声纹样本集存储至所述缓存模块,以便后续调用对应聚类模型对所述待聚类声纹样本集进行聚类。预先设定声纹样本的数量阈值,然后获取所述缓存模块中所述待聚类声纹样本集对应的样本数量,并将所述样本数量与预设样本量阈值进行比较,以判断所述待聚类声纹样本集是否为样本量超过所述样本量阈值的大样本量样本集。
步骤S20,若所述处理器判定所述待聚类声纹样本集为所述大样本量样本集,则在所述存储模块中确定所述大样本量样本集对应的声纹聚类模型,作为目标声纹聚类模型;
本实施例中,若待聚类声纹样本集的样本数量小于该数量阈值,即待聚类声纹样本集为小样本量,则采用小样本量样本集对应的声纹聚类模型,若待聚类声纹样本集中声纹样本的数量大于该阈值,即待聚类声纹样本集为大样本量,则采用大样本量样本集对应的声纹聚类模型,作为目标声纹聚类模型。其中,大样本量样本集对应的声纹聚类模型加入了并行模型,在聚类算法的运算过程中运用Map以及Reduce(Map:映射,Reduce:归约)的方法。
步骤S30,所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型,基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类,并输出所述待聚类声纹样本的聚类结果。
本实施例中,所述处理器将所述缓存模块中的待聚类声纹样本集输入至对应的目标声纹聚类模型中进行聚类,以便所述目标声纹聚类模型基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类,得到所述待聚类声纹样本集对应的声纹提供者,并输出所述待聚类声纹样本的聚类结果。
本实施例提供一种基于样本量的声纹聚类方法,即所述处理器在接收到用户端发送的待聚类声纹样本集,将所述待聚类声纹样本集存储至所述缓存模块,并根据所述待聚类声纹样本集的样本数量,判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集;若所述处理器判定所述待聚类声纹样本集为所述大样本量样本集,则在所述存储模块中确定所述大样本量样本集对应的声纹聚类模型,作为目标声纹聚类模型;所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型,基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类,并输出所述待聚类声纹样本的聚类结果。通过上述方式,本发明对不同规模的样本量采用不同的聚类模型,并通过分区聚类缩短了大样本量的待聚类声纹样本集的聚类时间,提升了聚类效果,解决了现有声纹聚类方法聚类效率低下的技术问题。
参照图3,图3为本发明基于样本量的声纹聚类方法第二实施例的流程示意图。
基于上述图2所示实施例,本实施例中,所述步骤S20之后,还包括:
步骤S40,对所述待聚类声纹样本集进行数据预处理和特征提取,并提取出所述待聚类声纹样本集的声纹样本特征MFCC、MFCC的一阶差分和MFCC的二阶差分;
步骤S50,所述处理器基于预设方式以及所述待聚类声纹样本集的MFCC、MFCC的一阶差分和MFCC的二阶差分,确定所述待聚类声纹样本集中各条声纹数据对应的声纹向量I-vector,并将所述各条声纹数据对应的声纹向量I-vector存储至所述存储模块。
本实施例中,声纹样本有多个特征,对所述待聚类声纹样本集进行数据预处理和特征提取,选取声纹样本的特征为:MFCC(Mel Frequency Cepstral Coefficents,梅尔频率倒谱系数)和MFCC的一阶差分、MFCC的二阶差分,即本实施例选择MFCC和MFCC的一阶差分,MFCC的二阶差分作为聚类模型的输入;将处理好的声纹特征数据采用GMM+UBM+JFA的方式,得到每条声纹数据对应的I-vector,I-vector是低维定长且只包含说话者空间信息的向量,GMM+UBM+JFA方式是基于GMM(Gaussian Mixture Model,高斯混合模型)-UBM(Universal Background Model,通用背景模型)的联合因子分析(Joint FactorAnalysis,JFA)的方式。并将所述各条声纹数据对应的声纹向量I-vector存储至所述存储模块,以便后续基于所述各条声纹数据对应的声纹向量I-vector进行声纹数据的聚类。
参照图4,图4为本发明基于样本量的声纹聚类方法第三实施例的流程示意图。
基于上述图2所示实施例,本实施例中,所述步骤S10之后,还包括:
步骤S60,若所述处理器判定所述待聚类声纹样本集为不超过所述样本量阈值的小样本量样本集,则在所述存储模块中确定所述小样本量样本集对应的声纹聚类模型,作为目标声纹聚类模型;
步骤S70,所述处理器将所述存储模块中的所述待聚类声纹样本集对应的各条声纹数据对应的声纹向量I-vector输入至所述目标声纹聚类模型;
步骤S80,所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间;
步骤S90,所述目标声纹聚类模型获取各个区间内各个声纹数据两两对应的类间距以及PLDA打分,基于所述类间距以及所述PLDA打分对所述各个区间内各个声纹数据进行聚类,并输出所述待聚类声纹样本集对应的聚类结果。
其中,所述步骤S90具体包括:
所述目标声纹聚类模型将各个区间内的各条声纹数据,分别记为一类,作为初始类;
根据预设类间距计算公式,得到各个区间内各个声纹数据两两对应的类间距,并根据一个类与其他各类的类间距均值的大小对所述初始类构造一个堆,其中,所述类间距=1-代表两类的两条声纹数据标准化后的PLDA打分,且所述类间距满足正态分布;
基于所述各条声纹数据对应的类间距进行聚类,并输出所述待聚类声纹样本集对应的聚类结果。
本实施例中,选择向量的长度为600,若由上述步骤S10确定声纹聚类模型是小样本量的样本集对应的聚类模型,则将经过特征处理后的待聚类声纹样本集中每条声纹数据对应的I-vector,输入至第一聚类模型,进入以下步骤:
步骤a,第一聚类模型首先将600维长度的I-vector的每一维均匀划分为k个长度相等的区间:[a1,b1),[a2,b2),...[ak,bk);其中,K的取值可以是待聚类声纹样本集包括的总声纹样本量的10%;
步骤b,在每一个区间内,将每个声纹样本都看做一类,记为初始类,此时类间距=1-代表两类的两个样本标准化后的PLDA打分,得到类间距,按照其中一个类与其他各类的类间距均值的大小对初始类构造一个堆;其中,类间距满足正态分布;
步骤c,基于类间距的自动聚类;
选择类间距最小的两个类Ai,Bj,μi为类Ai的类间距服从分布的均值,μj为类Bj的类间距服从分布的均值,具体地:
若类间距-u≤αμi且类间距-u≤αμj,则合并Ai,Bj;
若类间距-u>αμi且类间距-u>αμj,则分离Ai,Bj,α取值为3,u为Ai,Bj之间的类间距。
作为一种实施方式,若Ai和/或Bj的个数大于1时,选择用代表点的方式来计算二者之间的类间距用于聚类,代表点的选择方法具体为:先筛选出两两PLDA打分最小的两个点,再选择剩余的点中与这两个点两两PLDA打分最小的点;以代表点方式来计算二者之间的类间距聚类时,类间距=(∑i-类内代表点标准化后两两PLDA打分)/类中样本个数,直到剩余一个类,或者没有类剩余,得到最终的聚类结果,采用自动分离子类的方法,直接得到所聚的类别数,不需要人工给定超参数,提升聚类速度。
进一步地,所述步骤S30具体包括:
所述处理器将所述存储模块中的所述待聚类声纹样本集对应的各条声纹数据对应的声纹向量I-vector输入至所述目标声纹聚类模型;
所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间;
所述目标声纹聚类模型通过聚类算法对各个区间内的各条声纹数据进行并行聚类,并输出所述待聚类声纹样本的聚类结果。
其中,所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间的步骤之后,还包括:
所述目标声纹聚类模型根据预设个数阈值在划分后的区间中确定稠密区间以及稀疏区间,其中,若落在当前区间的声纹样本量大于所述个数阈值,则所述当前区间为稠密区间,若否,则所述当前区间为稀疏区间;
所述目标声纹聚类模型获取所述稠密区间相邻的稀疏区间的区间密度,并将所述区间密度与预设密度阈值进行比较,判断所述稠密区间相邻的稀疏区间是否为稀疏区间的稠密部分;
若所述目标声纹聚类模型判定所述稠密区间相邻的稀疏区间为稀疏区间的稠密部分,则将所述稠密区间相邻的稀疏区间并入所述稠密区间;
所述目标声纹聚类模型将相邻的稠密区间进行合并,并更新所述待聚类声纹样本集对应的稠密区间与稀疏区间。
其中,所述目标声纹聚类模型通过聚类算法对各个区间内的各条声纹数据进行并行聚类,并输出所述待聚类声纹样本的聚类结果的步骤具体包括:
所述目标声纹聚类模型通过cure算法在各个稠密区间以及各个稀疏区间中进行并行局部聚类;
所述目标声纹聚类模型通过Map函数以及Reduce函数对并行局部聚类后的声纹数据进行聚类处理,并合并输出各个区间的聚类结果。
本实施例中,若由上述步骤S10确定声纹聚类模型是大样本量的样本集对应的聚类模型,将经过特征处理后的待聚类声纹样本集中每条声纹数据对应的I-vector,输入至大样本量的样本集对应的聚类模型,进入以下步骤:
步骤a,第一聚类模型首先将600维长度的I-vector的每一维均匀划分为k个长度相等的区间:[a1,b1),[a2,b2),...[ak,bk);其中,K的取值可以是待聚类声纹样本集包括的总声纹样本量的10%;该步骤与上述小样本量的样本集对应的聚类模型的步骤相同,将数据区间划分网格,缩短了聚类时间,提高聚类效果。
步骤d,利用阈值判断稠密区间和稀疏区间;本实施例阈值设置为总声纹样本量的60%,当落在当前区间内的声纹样本量大于设置的阈值,则该区间为稠密区间,否则则为稀疏区间;
步骤e,更新稠密区间;如果稠密区间[ai,bi)相邻的稀疏区间的0.5区间,即[ai+d,ai+d/2)的密度阈值>0.5*密度阈值,其中d为区间长度,则标记该区间为稀疏区间的稠密部分,将该区间并入稠密区间,稠密区间更新为[ai,bi+d/2),若该稠密区间[ai,bi)相邻的稀疏区间的0.5区间<0.5*密度阈值,不做任何处理;
步骤f,对每个维度的所有稠密区间的相邻区间进行处理,合并相邻的稠密区间;
步骤g,在每个网格单元中采用聚类算法聚类;如cure算法进行局部聚类,当网格的大小达到设定的大小的时候,落入该网格的多个样本是相似的,而不同网格的样本点是不相似的,不同网格的样本间的距离是大于相同网格的样本间的距离的,由此,先在距离小的样本集合中进行聚类,提高聚类的效率,进一步地,在本实施例中,计算任务被分为Map和Reduce两个阶段,Map函数在多个节点上运行,处理一个或多个本地的数据分区;Reduce函数处理Map函数输出的中间结果,也可以并行运行,所有Reduce的输出合并后得到所有的分区的结果,Reduce对每个数据区间进行局部聚类得到的各类综合在一起,得到最终的聚类结果,本实施例采用分区聚类且聚类算法并行计算,对于样本数量大的待聚类声纹样本集也能达到快速聚类的效果。
此外,本发明实施例还提供一种基于样本量的声纹聚类装置。
参照图5,图5为本发明基于样本量的声纹聚类装置第一实施例的功能模块示意图。
本实施例中,所述基于样本量的声纹聚类装置包括:
样本量确定模块10,用于所述处理器在接收到用户端发送的待聚类声纹样本集,将所述待聚类声纹样本集存储至所述缓存模块,并根据所述待聚类声纹样本集的样本数量,判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集;
第一模型确定模块20,用于若所述处理器判定所述待聚类声纹样本集为所述大样本量样本集,则在所述存储模块中确定所述大样本量样本集对应的声纹聚类模型,作为目标声纹聚类模型;
第一分区聚类模块30,用于所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型,基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类,并输出所述待聚类声纹样本的聚类结果。
进一步地,所述基于样本量的声纹聚类装置还包括:
样本特征提取模块,用于对所述待聚类声纹样本集进行数据预处理和特征提取,并提取出所述待聚类声纹样本集的声纹样本特征MFCC、MFCC的一阶差分和MFCC的二阶差分;
声纹向量确定模块,用于所述处理器基于预设方式以及所述待聚类声纹样本集的MFCC、MFCC的一阶差分和MFCC的二阶差分,确定所述待聚类声纹样本集中各条声纹数据对应的声纹向量I-vector,并将所述各条声纹数据对应的声纹向量I-vector存储至所述存储模块。
进一步地,所述第一分区聚类模块30具体包括:
声纹向量输入单元,用于所述处理器将所述存储模块中的所述待聚类声纹样本集对应的各条声纹数据对应的声纹向量I-vector输入至所述目标声纹聚类模型;
数据区间划分单元,用于所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间;
分区并行聚类单元,用于所述目标声纹聚类模型通过聚类算法对各个区间内的各条声纹数据进行并行聚类,并输出所述待聚类声纹样本的聚类结果。
进一步地,所述第一分区聚类模块30还用于:
所述目标声纹聚类模型根据预设个数阈值在划分后的区间中确定稠密区间以及稀疏区间,其中,若落在当前区间的声纹样本量大于所述个数阈值,则所述当前区间为稠密区间,若否,则所述当前区间为稀疏区间;
所述目标声纹聚类模型获取所述稠密区间相邻的稀疏区间的区间密度,并将所述区间密度与预设密度阈值进行比较,判断所述稠密区间相邻的稀疏区间是否为稀疏区间的稠密部分;
若所述目标声纹聚类模型判定所述稠密区间相邻的稀疏区间为稀疏区间的稠密部分,则将所述稠密区间相邻的稀疏区间并入所述稠密区间;
所述目标声纹聚类模型将相邻的稠密区间进行合并,并更新所述待聚类声纹样本集对应的稠密区间与稀疏区间。
进一步地,所述第一分区聚类模块30还用于:
所述目标声纹聚类模型通过cure算法在各个稠密区间以及各个稀疏区间中进行并行局部聚类;
所述目标声纹聚类模型通过Map函数以及Reduce函数对并行局部聚类后的声纹数据进行聚类处理,并合并输出各个区间的聚类结果。
进一步地,所述基于样本量的声纹聚类装置还包括:
第二模型确定模块,用于若所述处理器判定所述待聚类声纹样本集为不超过所述样本量阈值的小样本量样本集,则在所述存储模块中确定所述小样本量样本集对应的声纹聚类模型,作为目标声纹聚类模型;
样本数据输入模块,用于所述处理器将所述存储模块中的所述待聚类声纹样本集对应的各条声纹数据对应的声纹向量I-vector输入至所述目标声纹聚类模型;
声纹数据分区模块,用于所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间;
第一分区聚类模块,用于所述目标声纹聚类模型获取各个区间内各个声纹数据两两对应的类间距以及PLDA打分,基于所述类间距以及所述PLDA打分对所述各个区间内各个声纹数据进行聚类,并输出所述待聚类声纹样本集对应的聚类结果。
进一步地,所述第一分区聚类模块还用于:
所述目标声纹聚类模型将各个区间内的各条声纹数据,分别记为一类,作为初始类;
根据预设类间距计算公式,得到各个区间内各个声纹数据两两对应的类间距,并根据一个类与其他各类的类间距均值的大小对所述初始类构造一个堆,其中,所述类间距=1-代表两类的两条声纹数据标准化后的PLDA打分,且所述类间距满足正态分布;
基于所述各条声纹数据对应的类间距进行聚类,并输出所述待聚类声纹样本集对应的聚类结果。
其中,上述基于样本量的声纹聚类装置中各个模块与上述基于样本量的声纹聚类方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
此外,本发明实施例还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有基于样本量的声纹聚类程序,其中所述基于样本量的声纹聚类程序被处理器执行时,实现如上述的基于样本量的声纹聚类方法的步骤。
其中,基于样本量的声纹聚类程序被执行时所实现的方法可参照本发明基于样本量的声纹聚类方法的各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于样本量的声纹聚类方法,其特征在于,所述基于样本量的声纹聚类方法应用于所述基于样本量的声纹聚类系统,所述声纹聚类系统包括缓存模块、存储模块以及处理器,所述基于样本量的声纹聚类方法包括以下步骤:
所述处理器在接收到用户端发送的待聚类声纹样本集,将所述待聚类声纹样本集存储至所述缓存模块,并根据所述待聚类声纹样本集的样本数量,判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集;
若所述处理器判定所述待聚类声纹样本集为所述大样本量样本集,则在所述存储模块中确定所述大样本量样本集对应的声纹聚类模型,作为目标声纹聚类模型;
所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型,基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类,并输出所述待聚类声纹样本的聚类结果。
2.如权利要求1所述的基于样本量的声纹聚类方法,其特征在于,所述处理器在接收到用户端发送的待聚类声纹样本集的步骤之后,还包括:
对所述待聚类声纹样本集进行数据预处理和特征提取,并提取出所述待聚类声纹样本集的声纹样本特征MFCC、MFCC的一阶差分和MFCC的二阶差分;
所述处理器基于预设方式以及所述待聚类声纹样本集的MFCC、MFCC的一阶差分和MFCC的二阶差分,确定所述待聚类声纹样本集中各条声纹数据对应的声纹向量I-vector,并将所述各条声纹数据对应的声纹向量I-vector存储至所述存储模块。
3.如权利要求2所述的基于样本量的声纹聚类方法,其特征在于,所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型,基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类,并输出所述待聚类声纹样本的聚类结果的步骤具体包括:
所述处理器将所述存储模块中的所述待聚类声纹样本集对应的各条声纹数据对应的声纹向量I-vector输入至所述目标声纹聚类模型;
所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间;
所述目标声纹聚类模型通过聚类算法对各个区间内的各条声纹数据进行并行聚类,并输出所述待聚类声纹样本的聚类结果。
4.如权利要求3所述的基于样本量的声纹聚类方法,其特征在于,所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间的步骤之后,还包括:
所述目标声纹聚类模型根据预设个数阈值在划分后的区间中确定稠密区间以及稀疏区间,其中,若落在当前区间的声纹样本量大于所述个数阈值,则所述当前区间为稠密区间,若否,则所述当前区间为稀疏区间;
所述目标声纹聚类模型获取所述稠密区间相邻的稀疏区间的区间密度,并将所述区间密度与预设密度阈值进行比较,判断所述稠密区间相邻的稀疏区间是否为稀疏区间的稠密部分;
若所述目标声纹聚类模型判定所述稠密区间相邻的稀疏区间为稀疏区间的稠密部分,则将所述稠密区间相邻的稀疏区间并入所述稠密区间;
所述目标声纹聚类模型将相邻的稠密区间进行合并,并更新所述待聚类声纹样本集对应的稠密区间与稀疏区间。
5.如权利要求4所述的基于样本量的声纹聚类方法,其特征在于,所述目标声纹聚类模型通过聚类算法对各个区间内的各条声纹数据进行并行聚类,并输出所述待聚类声纹样本的聚类结果的步骤具体包括:
所述目标声纹聚类模型通过cure算法在各个稠密区间以及各个稀疏区间中进行并行局部聚类;
所述目标声纹聚类模型通过Map函数以及Reduce函数对并行局部聚类后的声纹数据进行聚类处理,并合并输出各个区间的聚类结果。
6.如权利要求2至5任意一项所述的基于样本量的声纹聚类方法,其特征在于,所述处理器在接收到用户端发送的待聚类声纹样本集,将所述待聚类声纹样本集存储至所述缓存模块,并根据所述待聚类声纹样本集的样本数量,判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集的步骤之后,还包括:
若所述处理器判定所述待聚类声纹样本集为不超过所述样本量阈值的小样本量样本集,则在所述存储模块中确定所述小样本量样本集对应的声纹聚类模型,作为目标声纹聚类模型;
所述处理器将所述存储模块中的所述待聚类声纹样本集对应的各条声纹数据对应的声纹向量I-vector输入至所述目标声纹聚类模型;
所述目标声纹聚类模型基于所述各条声纹数据对应的声纹向量I-vector将所述待聚类声纹样本集中的各条声纹数据划分为长度相等的区间;
所述目标声纹聚类模型获取各个区间内各个声纹数据两两对应的类间距以及PLDA打分,基于所述类间距以及所述PLDA打分对所述各个区间内各个声纹数据进行聚类,并输出所述待聚类声纹样本集对应的聚类结果。
7.如权利要求6所述的基于样本量的声纹聚类方法,其特征在于,所述目标声纹聚类模型获取各个区间内各个声纹数据两两对应的类间距以及PLDA打分,基于所述类间距以及所述PLDA打分对所述各个区间内各个声纹数据进行聚类,并输出所述待聚类声纹样本集对应的聚类结果的步骤具体包括:
所述目标声纹聚类模型将各个区间内的各条声纹数据,分别记为一类,作为初始类;
根据预设类间距计算公式,得到各个区间内各个声纹数据两两对应的类间距,并根据一个类与其他各类的类间距均值的大小对所述初始类构造一个堆,其中,所述类间距=1-代表两类的两条声纹数据标准化后的PLDA打分,且所述类间距满足正态分布;
基于所述各条声纹数据对应的类间距进行聚类,并输出所述待聚类声纹样本集对应的聚类结果。
8.一种基于样本量的声纹聚类装置,其特征在于,所述基于样本量的声纹聚类装置包括:
样本量确定模块,用于所述处理器在接收到用户端发送的待聚类声纹样本集,将所述待聚类声纹样本集存储至所述缓存模块,并根据所述待聚类声纹样本集的样本数量,判断所述待聚类声纹样本集是否为样本量超过预设样本量阈值的大样本量样本集;
聚类模型确定模块,用于若所述处理器判定所述待聚类声纹样本集为所述大样本量样本集,则在所述存储模块中确定所述大样本量样本集对应的声纹聚类模型,作为目标声纹聚类模型;
第一分区聚类模块,用于所述处理器将所述缓存模块中的待聚类声纹样本集输入至所述目标声纹聚类模型,基于训练后的分区聚类算法对所述待聚类声纹样本集进行聚类,并输出所述待聚类声纹样本的聚类结果。
9.一种基于样本量的声纹聚类设备,其特征在于,所述基于样本量的声纹聚类设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的基于样本量的声纹聚类程序,其中所述基于样本量的声纹聚类程序被所述处理器执行时,实现如权利要求1至7中任一项所述的基于样本量的声纹聚类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于样本量的声纹聚类程序,其中所述基于样本量的声纹聚类程序被处理器执行时,实现如权利要求1至7中任一项所述的基于样本量的声纹聚类方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910880452.6A CN110782879B (zh) | 2019-09-18 | 2019-09-18 | 基于样本量的声纹聚类方法、装置、设备及存储介质 |
PCT/CN2019/116474 WO2021051505A1 (zh) | 2019-09-18 | 2019-11-08 | 基于样本量的声纹聚类方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910880452.6A CN110782879B (zh) | 2019-09-18 | 2019-09-18 | 基于样本量的声纹聚类方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110782879A true CN110782879A (zh) | 2020-02-11 |
CN110782879B CN110782879B (zh) | 2023-07-07 |
Family
ID=69383815
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910880452.6A Active CN110782879B (zh) | 2019-09-18 | 2019-09-18 | 基于样本量的声纹聚类方法、装置、设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110782879B (zh) |
WO (1) | WO2021051505A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117809070B (zh) * | 2024-03-01 | 2024-05-14 | 唐山市食品药品综合检验检测中心(唐山市农产品质量安全检验检测中心、唐山市检验检测研究院) | 一种用于蔬菜农药残留检测的光谱数据智能处理方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107993071A (zh) * | 2017-11-21 | 2018-05-04 | 平安科技(深圳)有限公司 | 电子装置、基于声纹的身份验证方法及存储介质 |
CN108922543A (zh) * | 2018-06-11 | 2018-11-30 | 平安科技(深圳)有限公司 | 模型库建立方法、语音识别方法、装置、设备及介质 |
CN109065028A (zh) * | 2018-06-11 | 2018-12-21 | 平安科技(深圳)有限公司 | 说话人聚类方法、装置、计算机设备及存储介质 |
CN109473112A (zh) * | 2018-10-16 | 2019-03-15 | 中国电子科技集团公司第三研究所 | 一种脉冲声纹识别方法、装置、电子设备及存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106156856A (zh) * | 2015-03-31 | 2016-11-23 | 日本电气株式会社 | 用于混合模型选择的方法和装置 |
CN105869645B (zh) * | 2016-03-25 | 2019-04-12 | 腾讯科技(深圳)有限公司 | 语音数据处理方法和装置 |
US20180329951A1 (en) * | 2017-05-11 | 2018-11-15 | Futurewei Technologies, Inc. | Estimating the number of samples satisfying the query |
-
2019
- 2019-09-18 CN CN201910880452.6A patent/CN110782879B/zh active Active
- 2019-11-08 WO PCT/CN2019/116474 patent/WO2021051505A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107993071A (zh) * | 2017-11-21 | 2018-05-04 | 平安科技(深圳)有限公司 | 电子装置、基于声纹的身份验证方法及存储介质 |
CN108922543A (zh) * | 2018-06-11 | 2018-11-30 | 平安科技(深圳)有限公司 | 模型库建立方法、语音识别方法、装置、设备及介质 |
CN109065028A (zh) * | 2018-06-11 | 2018-12-21 | 平安科技(深圳)有限公司 | 说话人聚类方法、装置、计算机设备及存储介质 |
CN109473112A (zh) * | 2018-10-16 | 2019-03-15 | 中国电子科技集团公司第三研究所 | 一种脉冲声纹识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2021051505A1 (zh) | 2021-03-25 |
CN110782879B (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110827924B (zh) | 基因表达数据的聚类方法、装置、计算机设备及存储介质 | |
TW202119288A (zh) | 圖像分類模型訓練方法、影像處理方法、資料分類模型訓練方法、資料處理方法、電腦設備、儲存媒介 | |
CN104538035B (zh) | 一种基于Fisher超向量的说话人识别方法及系统 | |
CN110503143B (zh) | 基于意图识别的阈值选取方法、设备、存储介质及装置 | |
EP4020305A1 (en) | Pre-trained language model fine-tuning method and apparatus and non-transitory computer-readable medium | |
CN108320026B (zh) | 机器学习模型训练方法和装置 | |
CN113488023B (zh) | 一种语种识别模型构建方法、语种识别方法 | |
CN111259189B (zh) | 一种音乐分类方法及装置 | |
CN110969172A (zh) | 一种文本的分类方法以及相关设备 | |
CN111626346A (zh) | 数据分类方法、设备、存储介质及装置 | |
CN112214576B (zh) | 舆情分析方法、装置、终端设备及计算机可读存储介质 | |
CN110889009A (zh) | 一种声纹聚类方法、装置、处理设备以及计算机存储介质 | |
CN111783843A (zh) | 一种特征选择方法、装置及计算机系统 | |
CN106776543B (zh) | 新词发现方法、装置、终端及服务器 | |
CN108021544B (zh) | 对实体词的语义关系进行分类的方法、装置和电子设备 | |
CN109272340B (zh) | 参数阈值确定方法、装置及计算机存储介质 | |
CN114141235A (zh) | 语音语料库生成方法、装置、计算机设备和存储介质 | |
CN110782879A (zh) | 基于样本量的声纹聚类方法、装置、设备及存储介质 | |
CN110377741B (zh) | 文本分类方法、智能终端及计算机可读存储介质 | |
CN111640450A (zh) | 多人声音频处理方法、装置、设备及可读存储介质 | |
CN107665443B (zh) | 获取目标用户的方法及装置 | |
CN113408571B (zh) | 一种基于模型蒸馏的图像分类方法、装置、存储介质及终端 | |
CN108009150A (zh) | 一种基于循环神经网络的输入方法及装置 | |
CN111651979A (zh) | 一种车辆属性的纠错方法、装置、存储介质及终端 | |
CN111708884A (zh) | 文本分类方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |