CN111243601B - 声纹聚类方法、装置、电子设备和计算机可读存储介质 - Google Patents

声纹聚类方法、装置、电子设备和计算机可读存储介质 Download PDF

Info

Publication number
CN111243601B
CN111243601B CN201911416676.8A CN201911416676A CN111243601B CN 111243601 B CN111243601 B CN 111243601B CN 201911416676 A CN201911416676 A CN 201911416676A CN 111243601 B CN111243601 B CN 111243601B
Authority
CN
China
Prior art keywords
voiceprint
original
clustering
library
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911416676.8A
Other languages
English (en)
Other versions
CN111243601A (zh
Inventor
汪法兵
李健
武卫东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sinovoice Technology Co Ltd
Original Assignee
Beijing Sinovoice Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sinovoice Technology Co Ltd filed Critical Beijing Sinovoice Technology Co Ltd
Priority to CN201911416676.8A priority Critical patent/CN111243601B/zh
Publication of CN111243601A publication Critical patent/CN111243601A/zh
Application granted granted Critical
Publication of CN111243601B publication Critical patent/CN111243601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/14Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/22Interactive procedures; Man-machine interfaces

Abstract

本发明提供了一种声纹聚类方法、装置、电子设备和计算机可读存储介质,涉及声纹识别技术领域。本发明提供的声纹聚类方法,可以利用现有的聚类声纹库,在现有的聚类声纹库的基础上执行本发明实施例的方法,节约在声纹库中做声纹辨认的时间,并且采用本申请实施例的声纹聚类方法,可以将原始声纹同时聚类到多个可能存在的第二声纹类别中,在大规模聚类声纹库中对待识别声纹进行识别时,保证根据待识别声纹查找到的目标声纹类别中存在该原始声纹,在减少声纹识别时间的同时,也能够保证声纹识别时的准确率。

Description

声纹聚类方法、装置、电子设备和计算机可读存储介质
技术领域
本发明涉及声纹识别技术领域,特别是涉及一种声纹聚类方法、装置、电子设备和计算机可读存储介质。
背景技术
目前,在公共安全和金融安全领域,声纹应用越来越广泛。但是,随着声纹应用越来越广泛,导致用户声纹数据巨大,声纹库规模往往达到100万,1000万或者更大规模。在声纹库中进行声纹辨认时耗用时间与声纹库规模成正比,因此,声纹库规模较大时,做声纹识别需要耗费大量时间,导致声纹识别效率低,同时,在声纹库规模较大时,做声纹识别准确率也比较低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种声纹聚类方法、装置、电子设备和计算机可读存储介质。
依据本发明的第一方面,提供了一种声纹聚类方法,该方法包括:
获取聚类声纹库,所述聚类声纹库包括多个声纹类别,所述聚类声纹库包括多个原始声纹,每个所述原始声纹聚类于唯一的原始声纹类别;
获取所述原始声纹的声纹矢量;
确定所述原始声纹的声纹矢量与每个所述声纹类别的类中心矢量的第一相似度;
根据各个所述第一相似度和预设阈值,对所述原始声纹进行二次聚类,获得所述原始声纹的第二声纹类别,所述第二声纹类别至少包括所述原始声纹类别。
可选地,根据各个所述第一相似度和预设阈值,对所述原始声纹进行二次聚类,包括:
按照以下步骤,对所述原始声纹进行二次聚类:
若|D(vk,ci)-D(vk,cj)|<thr,则vk∈ci,vk∈cj
其中,D为第一相似度,vk为第k个原始声纹的声纹矢量,k取大于0,且小于等于N的整数,N是聚类声纹库中的原始声纹数量,ci表示原始声纹聚类的原始声纹类别的类中心矢量,cj表示第j个声纹类别的类中心矢量,i和j均取大于0,且小于等于M的整数,M是聚类类别数,thr表示预设阈值。
可选地,在获取聚类声纹库之前,所述方法还包括:
利用第一聚类方法对多个所述原始声纹进行聚类,获得所述聚类声纹库。
可选地,在将所述原始声纹同时聚类到所述第二声纹类别之后,所述方法还包括:
根据每个所述原始声纹的第二声纹类别,对所述聚类声纹库进行更新,获得更新后的聚类声纹库;
获取待识别声纹;
根据所述待识别声纹和所述更新后的聚类声纹库,确定所述待识别声纹所属的目标声纹类别;
根据所述待识别声纹,从所述目标声纹类别中识别出所述待识别声纹对应的原始声纹。
可选地,所述根据所述待识别声纹和所述更新后的聚类声纹库,确定所述待识别声纹所属的目标声纹类别,包括:
获取所述待识别声纹的声纹矢量;
获取所述更新后的聚类声纹库中每个所述声纹类别的类中心矢量;
确定所述待识别声纹的声纹矢量与每个所述声纹类别的类中心矢量的第二相似度;
将所述第二相似度最大的所述声纹类别确定为所述目标声纹类别。
依据本发明的第二方面,提供了一种声纹聚类装置,该装置包括:
第一获取模块,用于获取聚类声纹库,所述聚类声纹库包括多个声纹类别,所述聚类声纹库包括多个原始声纹,每个所述原始声纹聚类于唯一的原始声纹类别;
第二获取模块,用于获取所述原始声纹的声纹矢量;
第一确定模块,用于确定所述原始声纹的声纹矢量与每个所述声纹类别的类中心矢量的第一相似度;
第二声纹类别获得模块,用于根据各个所述第一相似度和预设阈值,对所述原始声纹进行二次聚类,获得所述原始声纹的第二声纹类别,所述第二声纹类别至少包括所述原始声纹类别。
可选地,所述第二声纹类别获得模块还用于:
按照以下步骤,对所述原始声纹进行二次聚类:
若|D(vk,ci)-D(vk,cj)|<thr,则vk∈ci,vk∈cj;
其中,D为第一相似度,vk为第k个原始声纹的声纹矢量,k取大于0,且小于等于N的整数,N是聚类声纹库中的原始声纹数量,ci表示原始声纹聚类的原始声纹类别的类中心矢量,cj表示第j个声纹类别的类中心矢量,i和j均取大于0,且小于等于M的整数,M是聚类类别数,thr表示预设阈值。
可选地,所述装置还包括:
聚类声纹库获得模块,用于利用第一聚类方法对多个所述原始声纹进行聚类,获得所述聚类声纹库。
可选地,所述装置还包括:
更新模块,用于根据每个所述原始声纹的第二声纹类别,对所述聚类声纹库进行更新,获得更新后的聚类声纹库;
第三获取模块,用于获取待识别声纹;
第二确定模块,用于根据所述待识别声纹和所述更新后的聚类声纹库,确定所述待识别声纹所属的目标声纹类别;
识别模块,用于根据所述待识别声纹,从所述目标声纹类别中识别出所述待识别声纹对应的原始声纹。
可选地,所述第二确定模块,包括:
第四获取模块,用于获取所述待识别声纹的声纹矢量;
第五获取模块,用于获取所述更新后的聚类声纹库中每个所述声纹类别的类中心矢量;
第三确定模块,用于确定所述待识别声纹的声纹矢量与每个所述声纹类别的类中心矢量的第二相似度;
第四确定模块,用于将所述第二相似度最大的所述声纹类别确定为所述目标声纹类别。
依据本发明的第三方面,提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述任一项所述的声纹聚类方法的步骤。
依据本发明的第四方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的声纹聚类方法的步骤。
本发明实施例提供的一种声纹聚类方法,可以利用现有的聚类声纹库,在现有的聚类声纹库的基础上执行本发明实施例的方法并且采用本申请实施例的声纹聚类方法,可以将原始声纹同时聚类到多个可能存在的第二声纹类别中,在大规模聚类声纹库中对待识别声纹进行识别时,保证根据待识别声纹查找到的目标声纹类别中存在该原始声纹,在减少声纹识别时间的同时,也能够保证声纹识别时的准确率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1是本发明实施例提供的一种声纹聚类方法的步骤流程图;
图2是本发明实施例提供的一种声纹聚类装置的框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
在公共安全和金融安全领域,用户数据巨大,声纹库规模往往达到100万,1000万或者更大规模。在声纹库中进行声纹辨认时耗用时间与声纹库规模成正比,因此,声纹库规模较大时,做声纹辨认需要耗费大量时间。为解决这一问题,现有的解决方法是事先将声纹库内的N条声纹,按特征相似度聚类为M类,做声纹辨认时分为两步,第一步待辨认声纹与M个类别作比较,第二步在相似度较高的类别中做声纹辨认,声纹辨认时间比例系数由N减少为N/M。
例如,现有技术中做声纹聚类时,事先根据不同属性将声纹库聚类为M类,例如可以根据声纹性别属性,地域属性,等将相同属性声纹分为一类,待辨认声纹的属性,从对应属性类别中去辨认。
但是采用上述聚类方法,可能存在待识别声纹不在上述M类中,因为,常规聚类算法中,对声纹库进行硬分类。即任声纹库中任一声纹,只能被分类到一个类别中,这就导致对声纹进行分类时只能将声纹分到特定的类,而在实际声纹识别中,种种原因可能导致待识别声纹并不在所分的类中,因此导致声纹辨认准确率有一定程度下降。未命中的候选声纹多分布在声纹类别的边界附近。
本发明实施例基于上述现有技术的缺陷,提出本发明的核心构思之一,在对原始声纹进行聚类时,不同声纹类别保持一定比例的重叠,即将声纹类别边界上的原始声纹同时聚类到边界所属的声纹类别,这样可以同时兼顾聚类的效率和识别的准确率。
请参考图1,图1是本发明实施例提供的一种声纹聚类方法的步骤流程图,如图1所示,该方法可以包括以下步骤:
步骤11,获取聚类声纹库。
其中,所述聚类声纹库包括多个声纹类别,所述聚类声纹库包括多个原始声纹,每个所述原始声纹聚类于唯一的原始声纹类别。
本实施例中的聚类声纹库可以是已经建立好的聚类声纹库,该聚类声纹库已经对所有的原始声纹进行了聚类,该聚类声纹库中包括多个声纹类别,所有的原始声纹均聚类到了唯一的原始声纹类别。原始声纹类别指的是该聚类声纹库中的原始声纹唯一属于的声纹类别。例如,在获取到的聚类声纹库中,包括10个声纹类别,1号原始声纹唯一属于第10个声纹类别,那么第10个声纹类别就是1号原始声纹的原始声纹类别。
在本发明一种实施方式中,可以通过任意一种现有的第一聚类方法对所有的原始声纹进行聚类,从而得到建立好的聚类声纹库,例如可以采用K-means算法、AHC算法或者其他算法对所有声纹进行处理,以建立聚类声纹库。
在一种实施方式中,还可以通过以下聚类算法对所有的原始声纹进行聚类:
若D(vk,ca)>=D(vk,cb)则vk∈ca
若D(vk,ca)<D(vk,cb)则vk∈cb
其中,D为相似度,vk为第k个原始声纹的声纹矢量,k取大于0,且小于等于N的整数,N是聚类声纹库中的原始声纹数量,ca表示第a个声纹类别,cb表示第b个声纹类别,声纹类别根据实际情况预先设定。
步骤12,获取所述原始声纹的声纹矢量。
本实施例中,原始声纹在进行处理时可以用数学矢量进行表示,因此,可以获取原始声纹对应的声纹矢量。
步骤13,确定所述原始声纹的声纹矢量与每个所述声纹类别的类中心矢量的第一相似度。
本实施例中,每个声纹类别均有一个类中心,同样的,每个声纹类别的类中心也可以用数学矢量进行表示,因此,可以获取每个所述声纹类别的类中心矢量。在获取到原始声纹的声纹矢量和每个声纹类别的类中心矢量之后,可以计算原始声纹的声纹矢量分别与每一个声纹类别的类中心矢量之间的第一相似度,其中,也包括原始声纹的声纹矢量与原始声纹类别的类中心矢量之间的第一相似度。
本实施例中的第一相似度,可以是cosine距离、plda相似度等。
示例地,假设聚类声纹库中有1-10这10个声纹类别,其中第5号声纹类别为原始声纹的原始声纹类别,在获取到1号原始声纹的声纹矢量和1-10这10个声纹类别的各自的类中心矢量之后,分别计算1号原始声纹的声纹矢量和1-10这10个声纹类别的各自的类中心矢量的第一相似度,总共10个第一相似度。
步骤14,根据各个所述第一相似度和预设阈值,对所述原始声纹进行二次聚类,获得所述原始声纹的第二声纹类别,所述第二声纹类别至少包括所述原始声纹类别。
聚类标准是人工选定的,因此并不能保证聚类的绝对准确,也就是说由于聚类数据库中的原始声纹聚类于唯一的原始声纹类别,并不能保证后续在对待识别声纹进行识别时能够在原始声纹类别中找到该待识别声纹对应的原始声纹,未命中的原始声纹多分布在声纹类别的边界附近,因此,可以根据各个所述第一相似度和预设阈值,对所述原始声纹进行二次聚类,即使得不同声纹类别保持一定的边界重叠,将分布于声纹类别边界附近的原始声纹进行二次聚类,本实施例中,二次聚类也可以理解为重新聚类,从而获得所述原始声纹的第二声纹类别,所述第二声纹类别至少包括所述原始声纹类别。在一种实施方式中,可以按照以下步骤,对所述原始声纹进行二次聚类:
若|D(vk,ci)-D(vk,cj)|<thr,则vk∈ci,vk∈cj
其中,D为第一相似度,vk为第k个原始声纹的声纹矢量,k取大于0,且小于等于N的整数,N是聚类声纹库中的原始声纹数量,ci表示原始声纹聚类的原始声纹类别的类中心矢量,cj表示第j个声纹类别的类中心矢量,i和j均取大于0,且小于等于M的整数,M是聚类类别数,thr表示预设阈值。
本实施例中,预设阈值thr可以根据需要进行调整。
在一种实施方式中,具体地,可以取D(vk,ci)的一个百分比作为预设阈值thr,也可以取D(vk,cj)的一个百分比作为预设阈值thr,也可以取D(vk,ci)和D(vk,cj)两个的平均值的一个百分比作为预设阈值thr,具体选用哪个值作为预设阈值thr根据实际需求而定,此处不作具体限定。需要说明的是,预设阈值thr越小,说明声纹类别之间的重叠范围越小,若取为0,则代表不存在重叠范围,即原始声纹只能存在与唯一的声纹类别,即原始声纹类别;预设阈值thr越大,代表重叠范围越大,即一个声纹类别中包括的原始声纹数量相对越多。
示例地,假设计算出原始声纹矢量与原始声纹类别的类中心矢量的D(vk,ci)为2,原始声纹矢量与除去原始声纹类别的其他声纹类别的类中心矢量的D(vk,cj)为2.1,取D(vk,ci)的百分之十作为预设阈值thr,即预设阈值thr为0.2,此时满足|D(vk,ci)-D(vk,cj)|<thr条件,获得原始声纹vk的第二声纹类别ci和cj,第二声纹类别可以为多个,但是至少包括原始声纹类别ci。例如,假设原始声纹的原始声纹类别ci为第5声纹类别,满足条件的cj为第1号声纹类别、第3号声纹类别和第4号声纹类别,此时,对所述原始声纹进行二次聚类后获得的原始声纹的第二声纹类别为第1号声纹类别、第3号声纹类别、第4号声纹类别和第5号声纹类别。
综上所述,本发明实施例提供的声纹聚类方法,可以利用现有的聚类声纹库,在现有的聚类声纹库的基础上执行本发明实施例的方法并且采用本申请实施例的声纹聚类方法,可以将原始声纹同时聚类到多个可能存在的第二声纹类别中,在减少声纹识别时间的同时,也能够保证声纹识别时的准确率。
在本发明一种实施方式中,在步骤14中,在获得所述原始声纹的第二声纹类别之后,根据本发明实施例的方法还可以包括以下步骤:
步骤15,根据每个所述原始声纹的第二声纹类别,对所述聚类声纹库进行更新,获得更新后的聚类声纹库;
步骤16,获取待识别声纹;
步骤17,根据所述待识别声纹和所述更新后的聚类声纹库,确定所述待识别声纹所属的目标声纹类别;
步骤18,根据所述待识别声纹,从所述目标声纹类别中识别出所述待识别声纹对应的原始声纹
本实施例中,在将所述原始声纹同时聚类到所述第二声纹类别之后,可以将原始声纹复制到第二声纹类别,也就是说聚类声纹库中的每个声纹类别存储的原始声纹可能发生了变化,相当于对聚类声纹库进行了更新,得到更新后的聚类声纹库。在得到更新后的聚类声纹库之后,便可以利用此更新后的聚类声纹库进行待识别声纹的识别。
在利用此更新后的聚类声纹库进行待识别声纹的识别时,需要先获取待识别声纹,再根据待识别声纹和所述更新后的聚类声纹库,确定所述待识别声纹所属的目标声纹类别,最后再根据所述待识别声纹,从所述目标声纹类别中识别出所述待识别声纹对应的原始声纹。
本实施例中,可以采用任一合适的现有技术从从所述目标声纹类别中识别出所述待识别声纹对应的原始声纹,此处不再赘述。
本实施例中,在获取到一条待识别语音之后,可以采用任意现有技术对待识别语音进行处理即可得到待识别声纹。即,本实施例提供的方法也可以用于对待识别语音进行识别。
在一种实施方式中,步骤17中,根据所述待识别声纹和所述更新后的聚类声纹库,确定所述待识别声纹所属的目标声纹类别,具体可以包括以下步骤:
步骤171,获取所述待识别声纹的声纹矢量。
步骤172,获取所述更新后的聚类声纹库中每个所述声纹类别的类中心矢量。
步骤173,确定所述待识别声纹的声纹矢量与每个所述声纹类别的类中心矢量的第二相似度。
步骤174,将所述第二相似度最大的所述声纹类别确定为所述目标声纹类别。
本实施例中,利用更新后的聚类声纹库进行待识别声纹的识别,首先需要获取待识别声纹,将待识别声纹表示为数学矢量,即得到待识别声纹的声纹矢量,同时,还需要获取更新后的聚类声纹库中每个所述声纹类别的类中心矢量,在获取到待识别声纹的声纹矢量和每个声纹类别的类中心矢量之后,可以计算待识别声纹的声纹矢量分别与每一个声纹类别的类中心矢量之间的第二相似度,在得到第二相似度之后,可以确定出最大的第二相似度,待识别声纹离第二相似度最大的声纹类别最近,因此,可以将第二相似度最大的所述声纹类别确定为所述目标声纹类别。
本实施例中的第二相似度与第一相似度的计算方式相同,也可以是cosine距离、plda相似度等。
综上所述,采用本实施例中提供的声纹聚类方法得到的聚类声纹库对带识别声纹进行识别,由于原始声纹同时聚类到多个可能存在的第二声纹类别中,因此在大规模聚类声纹库中对待识别声纹进行识别时可以提高待识别声纹的识别效率以及识别准确率。
基于相同的发明构思,参照图2,图2示出了本发明实施例提供的一种声纹聚类装置的框图,如图2所示,该装置20可以包括:
第一获取模块21,用于获取聚类声纹库,所述聚类声纹库包括多个声纹类别,所述聚类声纹库包括多个原始声纹,每个所述原始声纹聚类于唯一的原始声纹类别;
第二获取模块22,用于获取所述原始声纹的声纹矢量;
第一确定模块23,用于确定所述原始声纹的声纹矢量与每个所述声纹类别的类中心矢量的第一相似度;
第二声纹类别获得模块24,用于根据各个所述第一相似度和预设阈值,对所述原始声纹进行二次聚类,获得所述原始声纹的第二声纹类别,所述第二声纹类别至少包括所述原始声纹类别。
可选地,所述第二声纹类别获得模块还用于:
按照以下步骤,对所述原始声纹进行二次聚类:
若|D(vk,ci)-D(vk,cj)|<thr,则vk∈ci,vk∈cj
其中,D为第一相似度,vk为第k个原始声纹的声纹矢量,k取大于0,且小于等于N的整数,N是聚类声纹库中的原始声纹数量,ci表示原始声纹聚类的原始声纹类别的类中心矢量,cj表示第j个声纹类别的类中心矢量,i和j均取大于0,且小于等于M的整数,M是聚类类别数,thr表示预设阈值。
可选地,所述装置还包括:
聚类声纹库获得模块,用于利用第一聚类方法对多个所述原始声纹进行聚类,获得所述聚类声纹库,所述第一聚类方法为K-means算法或者AHC算法。
可选地,所述装置还包括:
更新模块,用于根据每个所述原始声纹的第二声纹类别,对所述聚类声纹库进行更新,获得更新后的聚类声纹库;
第三获取模块,用于获取待识别声纹;
第二确定模块,用于根据所述待识别声纹和所述更新后的聚类声纹库,确定所述待识别声纹所属的目标声纹类别;
识别模块,用于根据所述待识别声纹,从所述目标声纹类别中识别出所述待识别声纹对应的原始声纹。
可选地,所述第二确定模块,包括:
第四获取模块,用于获取所述待识别声纹的声纹矢量;
第五获取模块,用于获取所述更新后的聚类声纹库中每个所述声纹类别的类中心矢量;
第三确定模块,用于确定所述待识别声纹的声纹矢量与每个所述声纹类别的类中心矢量的第二相似度;
第四确定模块,用于将所述第二相似度最大的所述声纹类别确定为所述目标声纹类别。
综上所述,本发明实施例提供的声纹聚类装置,可以利用现有的聚类声纹库,在现有的聚类声纹库的基础上执行本发明实施例的方法,并且采用本申请实施例的声纹聚类方法,可以将原始声纹同时聚类到多个可能存在的第二声纹类别中,在大规模聚类声纹库中对待识别声纹进行识别时,保证根据待识别声纹查找到的目标声纹类别中存在该原始声纹,在减少声纹识别时间的同时,也能够保证声纹识别时的准确率。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明实施例还提供一种电子设备,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述声纹聚类方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述声纹聚类方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例可提供为方法、系统、装置或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、装置、电子设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理电子设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理电子设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理电子设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品,该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理电子设备上,使得在计算机或其他可编程电子设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程电子设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者电子设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者电子设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者电子设备中还存在另外的相同要素。
以上对本发明所提供的一种声纹聚类方法、装置、电子设备和计算机可读存储介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种声纹聚类方法,其特征在于,所述方法包括:
获取聚类声纹库,所述聚类声纹库包括多个声纹类别,所述聚类声纹库包括多个原始声纹,每个所述原始声纹聚类于唯一的原始声纹类别;
获取所述原始声纹的声纹矢量;
确定所述原始声纹的声纹矢量与每个所述声纹类别的类中心矢量的第一相似度;
根据各个所述第一相似度和预设阈值,对所述原始声纹进行二次聚类,获得所述原始声纹的第二声纹类别,所述第二声纹类别至少包括所述原始声纹类别;
根据每个所述原始声纹的第二声纹类别,将所述原始声纹复制到所述第二声纹类别,对所述聚类声纹库进行更新,获得更新后的聚类声纹库。
2.根据权利要求1所述的方法,其特征在于,根据各个所述第一相似度和预设阈值,对所述原始声纹进行二次聚类,包括:
按照以下步骤,对所述原始声纹进行二次聚类:
若|D(vk,ci)-D(vk,cj)|<thr,则vk∈ci,vk∈cj
其中,D为第一相似度,vk为第k个原始声纹的声纹矢量,k取大于0,且小于等于N的整数,N是聚类声纹库中的原始声纹数量,ci表示原始声纹聚类的原始声纹类别的类中心矢量,cj表示第j个声纹类别的类中心矢量,i和j均取大于0,且小于等于M的整数,M是聚类类别数,thr表示预设阈值。
3.根据权利要求1所述的方法,其特征在于,在获取聚类声纹库之前,所述方法还包括:
利用第一聚类方法对多个所述原始声纹进行聚类,获得所述聚类声纹库。
4.根据权利要求1-3任一项所述的方法,其特征在于,在获得所述原始声纹的第二声纹类别之后,所述方法还包括:
根据每个所述原始声纹的第二声纹类别,对所述聚类声纹库进行更新,获得更新后的聚类声纹库;
获取待识别声纹;
根据所述待识别声纹和所述更新后的聚类声纹库,确定所述待识别声纹所属的目标声纹类别;
根据所述待识别声纹,从所述目标声纹类别中识别出所述待识别声纹对应的原始声纹。
5.根据权利要求4所述的方法,其特征在于,所述根据所述待识别声纹和所述更新后的聚类声纹库,确定所述待识别声纹所属的目标声纹类别,包括:
获取所述待识别声纹的声纹矢量;
获取所述更新后的聚类声纹库中每个所述声纹类别的类中心矢量;
确定所述待识别声纹的声纹矢量与每个所述声纹类别的类中心矢量的第二相似度;
将所述第二相似度最大的所述声纹类别确定为所述目标声纹类别。
6.一种声纹聚类装置,其特征在于,所述装置包括:
第一获取模块,用于获取聚类声纹库,所述聚类声纹库包括多个声纹类别,所述聚类声纹库包括多个原始声纹,每个所述原始声纹聚类于唯一的原始声纹类别;
第二获取模块,用于获取所述原始声纹的声纹矢量;
第一确定模块,用于确定所述原始声纹的声纹矢量与每个所述声纹类别的类中心矢量的第一相似度;
第二声纹类别获得模块,用于根据各个所述第一相似度和预设阈值,对所述原始声纹进行二次聚类,获得所述原始声纹的第二声纹类别,所述第二声纹类别至少包括所述原始声纹类别;
所述装置还包括:
更新模块,用于根据每个所述原始声纹的第二声纹类别,将所述原始声纹复制到所述第二声纹类别,对所述聚类声纹库进行更新,获得更新后的聚类声纹库。
7.根据权利要求6所述的装置,其特征在于,所述第二声纹类别获得模块还用于:
按照以下步骤,对所述原始声纹进行二次聚类:
若|D(vk,ci)-D(vk,cj)|<thr,则vk∈ci,vk∈cj
其中,D为第一相似度,vk为第k个原始声纹的声纹矢量,k取大于0,且小于等于N的整数,N是聚类声纹库中的原始声纹数量,ci表示原始声纹聚类的原始声纹类别的类中心矢量,cj表示第j个声纹类别的类中心矢量,i和j均取大于0,且小于等于M的整数,M是聚类类别数,thr表示预设阈值。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
聚类声纹库获得模块,用于利用第一聚类方法对多个所述原始声纹进行聚类,获得所述聚类声纹库。
9.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至5中任一项所述的声纹聚类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的声纹聚类方法的步骤。
CN201911416676.8A 2019-12-31 2019-12-31 声纹聚类方法、装置、电子设备和计算机可读存储介质 Active CN111243601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911416676.8A CN111243601B (zh) 2019-12-31 2019-12-31 声纹聚类方法、装置、电子设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911416676.8A CN111243601B (zh) 2019-12-31 2019-12-31 声纹聚类方法、装置、电子设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111243601A CN111243601A (zh) 2020-06-05
CN111243601B true CN111243601B (zh) 2023-04-07

Family

ID=70864650

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911416676.8A Active CN111243601B (zh) 2019-12-31 2019-12-31 声纹聚类方法、装置、电子设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111243601B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420069A (zh) * 2020-11-18 2021-02-26 北京云从科技有限公司 一种语音处理方法、装置、机器可读介质及设备
CN112735432B (zh) * 2020-12-24 2023-05-02 北京百度网讯科技有限公司 音频识别的方法、装置、电子设备及存储介质
CN112750440B (zh) * 2020-12-30 2023-12-29 北京捷通华声科技股份有限公司 一种信息处理方法及装置
CN112562693B (zh) * 2021-02-24 2021-05-28 北京远鉴信息技术有限公司 一种基于聚类的说话人确定方法、确定装置及电子设备
CN113257254B (zh) * 2021-07-01 2021-10-08 深圳市声扬科技有限公司 声纹识别方法、装置、电子设备及存储介质
CN113793592A (zh) * 2021-10-29 2021-12-14 浙江核新同花顺网络信息股份有限公司 一种区分说话人的方法和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017080239A1 (zh) * 2015-11-15 2017-05-18 乐视控股(北京)有限公司 录音标记方法及录音装置
CN108460081A (zh) * 2018-01-12 2018-08-28 平安科技(深圳)有限公司 语音数据库创建方法、声纹注册方法、装置、设备及介质
CN109243465A (zh) * 2018-12-06 2019-01-18 平安科技(深圳)有限公司 声纹认证方法、装置、计算机设备以及存储介质
CN109378003A (zh) * 2018-11-02 2019-02-22 科大讯飞股份有限公司 一种声纹模型训练的方法和系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9305553B2 (en) * 2010-04-28 2016-04-05 William S. Meisel Speech recognition accuracy improvement through speaker categories
CN102760434A (zh) * 2012-07-09 2012-10-31 华为终端有限公司 一种声纹特征模型更新方法及终端
US9368109B2 (en) * 2013-05-31 2016-06-14 Nuance Communications, Inc. Method and apparatus for automatic speaker-based speech clustering
CN106683680B (zh) * 2017-03-10 2022-03-25 百度在线网络技术(北京)有限公司 说话人识别方法及装置、计算机设备及计算机可读介质
CN107993663A (zh) * 2017-09-11 2018-05-04 北京航空航天大学 一种基于Android的声纹识别方法
CN109657186A (zh) * 2018-12-27 2019-04-19 广州势必可赢网络科技有限公司 一种人数统计方法、系统及相关装置
CN109637547B (zh) * 2019-01-29 2020-11-03 北京猎户星空科技有限公司 音频数据标注方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017080239A1 (zh) * 2015-11-15 2017-05-18 乐视控股(北京)有限公司 录音标记方法及录音装置
CN108460081A (zh) * 2018-01-12 2018-08-28 平安科技(深圳)有限公司 语音数据库创建方法、声纹注册方法、装置、设备及介质
CN109378003A (zh) * 2018-11-02 2019-02-22 科大讯飞股份有限公司 一种声纹模型训练的方法和系统
CN109243465A (zh) * 2018-12-06 2019-01-18 平安科技(深圳)有限公司 声纹认证方法、装置、计算机设备以及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于随机映射的声纹模板保护方法;朱华虹等;《华南理工大学学报(自然科学版)》;20130531(第05期);全文 *

Also Published As

Publication number Publication date
CN111243601A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
CN111243601B (zh) 声纹聚类方法、装置、电子设备和计算机可读存储介质
EP2657884B1 (en) Identifying multimedia objects based on multimedia fingerprint
CN109978060B (zh) 一种自然语言要素抽取模型的训练方法及装置
JP5214760B2 (ja) 学習装置、方法及びプログラム
Kiktova-Vozarikova et al. Feature selection for acoustic events detection
CN110134777B (zh) 问题去重方法、装置、电子设备和计算机可读存储介质
CN110019779B (zh) 一种文本分类方法、模型训练方法及装置
CN110110325B (zh) 一种重复案件查找方法和装置、计算机可读存储介质
CN110858217A (zh) 微博敏感话题的检测方法、装置及可读存储介质
CN109299263B (zh) 文本分类方法、电子设备
CN109697240A (zh) 一种基于特征的图像检索方法及装置
CN111177403B (zh) 样本数据的处理方法和装置
CN111125329B (zh) 一种文本信息筛选方法、装置及设备
CN109657710B (zh) 数据筛选方法、装置、服务器及存储介质
CN112738724B (zh) 一种区域目标人群的精准识别方法、装置、设备和介质
CN113139379B (zh) 信息识别方法和系统
CN110263196B (zh) 图像检索方法、装置、电子设备及存储介质
CN114970467A (zh) 基于人工智能的作文初稿生成方法、装置、设备及介质
KR102476334B1 (ko) 딥러닝 기반 일기 생성 방법 및 장치
CN112699908B (zh) 标注图片的方法、电子终端、计算机可读存储介质及设备
CN113934833A (zh) 训练数据的获取方法、装置、系统及存储介质
CN111859917A (zh) 主题模型构建方法、设备及计算机可读存储介质
CN111625468A (zh) 一种测试案例去重方法及装置
CN111191689B (zh) 样本数据的处理方法和装置
Miao et al. Informative core identification in complex networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant