CN108597525B - 语音声纹建模方法及装置 - Google Patents
语音声纹建模方法及装置 Download PDFInfo
- Publication number
- CN108597525B CN108597525B CN201810382499.5A CN201810382499A CN108597525B CN 108597525 B CN108597525 B CN 108597525B CN 201810382499 A CN201810382499 A CN 201810382499A CN 108597525 B CN108597525 B CN 108597525B
- Authority
- CN
- China
- Prior art keywords
- voice
- voice data
- client
- server
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000001755 vocal effect Effects 0.000 title claims abstract description 43
- 238000000926 separation method Methods 0.000 claims abstract description 35
- 238000012795 verification Methods 0.000 claims description 24
- 230000005540 biological transmission Effects 0.000 claims description 10
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 230000008569 process Effects 0.000 abstract description 9
- 238000012545 processing Methods 0.000 abstract description 9
- 230000011218 segmentation Effects 0.000 description 11
- 238000001514 detection method Methods 0.000 description 8
- 230000008901 benefit Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- NGVDGCNFYWLIFO-UHFFFAOYSA-N pyridoxal 5'-phosphate Chemical compound CC1=NC=C(COP(O)(O)=O)C(C=O)=C1O NGVDGCNFYWLIFO-UHFFFAOYSA-N 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供了一种语音声纹建模方法及装置,通过与实际应用场景相结合,提出了一套面向多人交谈语音的声纹自动建模框架,基于客户端与服务器端的实现方式,结合先验信息,包括预先设定说话人数、预先采集参考人语音数据等方式,对问题进行约束,更有效地满足多人合路语音的分离与建模需求。对硬件要求低、避免耗时耗力的人工语音编辑。由客户端完成采集、服务器端完成处理,不需要额外的采集设备,且可以支持分布式部署。避免了利用音频编辑软件进行人工剪辑等耗时耗力的工作,在单靠人力已无法实现的情况下,全流程自动完成声纹注册,有效提升工作效率。
Description
技术领域
本发明涉及语音处理技术领域,具体而言,涉及一种语音声纹建模方法及装置。
背景技术
声纹识别,又称说话人识别,通过语音波形中反映说话人生理和行为特征的语音参数,进而分辨出说话人身份。具有安全性高、数据采集方便等特点。
本专利面向的应用场景包括两人及两人以上的交谈语音,例如笔录同步录音、会议交谈语音等。在多人交谈条件下,声纹应用的难点在于如何从多人合路语音中分离出多条单人的语音,特别是在训练声纹模型的过程中,给定一条多人语音需要分离出多条单人语音,完成声纹自动建模。
多说话人识别应用主要解决两个问题,即谁在说话和在什么时候说话。“谁在说话”这一问题研究声纹识别技术,而“在什么时候说话”则由分割(Segmentation)和聚类(Clustering)技术来解决。文献中通常将分割和聚类技术合并,统称为说话人摘要(Speaker diarization)、说话人分离或语音分离。
说话人分离的任务是在不知道说话人身份的前提下,自动地将语音中分属不同说话人的区域标记出来,即要回答“who spoke when”的问题。说话人分离的一般性思路为先分再合,首先根据一定的规则将原始语音切成短语音片段(通常采用过切分Over-segmentation),并假定每个片段内只包含一个说话人,然后再利用聚类算法按一定的距离度量准则将相似的片段聚到一起,最后再用重分割技术进行迭代修正。
评价说话人分离算法的优劣主要看三类错误:误报(False alarm)、漏报(Miss)和说话人混淆(Speaker confusion)。说话人分离的总错误率(Diarization error rate,DER)是三者之和。误报是指将静音段识别为任意一个说话人的语音,漏报指将语音段识别为静音段,混淆是指语音段的说话人对应关系错误。
声纹识别是要判断两段语音是否属于同一个人,并给出相应的置信度。目前声纹识别算法的研究也是基于单人分路语音,因此说话人分离的性能直接影响到后续的模型注册和置信度计算。
在合路语音条件下,声纹模型是否精准直接影响到后续的识别性能,因此通常情况下可以人工判断这些语音中的说话人,确定目标说话人的声音特质,然后利用音频编辑软件进行人工剪辑,最后将剪辑后的、只含目标人的语音输入声纹系统训练。但这种人工方式不仅耗时耗力,而且当目标人数目激增并且需要快速完成模型训练时,单靠人力已无法实现。
发明内容
针对上述现有技术中存在的问题,本发明提供了一种语音声纹建模方法。
第一方面,本发明实施例提供了一种语音声纹建模方法,应用于客户端,所述方法包括:
接收用户输入的请求信息,并且所述请求信息传输给服务器,以触发所述服务器对所述请求信息进行验证;
接收所述服务器传输的所述请求信息的验证结果;
当所述验证结果为有效并且接收到用户采集语音的指令时,采集原始语音数据,并将所述原始语音数据传输给所述服务器,以使所述服务器对所述原始语音数据进行处理。
进一步的,所述请求信息包括用户标识和语音参与人数。
进一步的,接收所述服务器传输的所述请求信息的验证结果的步骤之后,所述方法还包括:
当所述验证结果为有效时,采集参考人语音,并将所述参考人语音传输给所述服务器。
第二方面,本发明实施例还提供了一种语音声纹建模方法,应用于服务器,所述方法包括:
接收客户端发送的请求信息,对所述请求信息进行验证,并且将验证结果传输给所述客户端;
当所述验证结果为有效时,接收所述客户端发送的原始语音数据,并且将所述原始语音数据按照其对应的说话者进行分离;
依次对分离后的语音数据进行合并,直到合并后的语音数据对应的说话者数量达到预设数值;
对合并后的语音数据创建声纹模型,并且将声纹模型创建信息传输给客户端。
进一步的,当所述验证结果为有效时,接收所述客户端发送的语音数据,并且将所述语音数据按照其对应的说话者进行分离的步骤之后,所述方法还包括:
当所述验证结果为有效时,接收所述客户端传输的参考人语音;
依次对分离后的语音数据进行合并,直到合并后的语音数据对应的说话者数量达到预设数值的步骤之后,所述方法还包括:
根据所述参考人语音,去除合并后的语音数据中所述参考人语音对应的说话者的语音数据。
进一步的,所述请求信息包括用户标识和语音参与人数。
进一步的,对合并后的语音数据创建声纹模型,并且将声纹模型创建信息传输给客户端,包括:
对合并后的语音数据提取声纹特征,创建声纹模型。
第三方面,本发明实施例还提供了一种语音声纹建模装置,应用于客户端,所述装置包括:
输入模块,用于接收用户输入的请求信息,并且所述请求信息传输给服务器,以触发所述服务器对所述请求信息进行验证;
接收模块,用于接收所述服务器传输的所述请求信息的验证结果;
采集模块,用于当所述验证结果为有效并且接收到用户采集语音的指令时,采集原始语音数据,并将所述原始语音数据传输给所述服务器,以使所述服务器对所述原始语音数据进行处理。
第四方面,本发明实施例还提供了一种语音声纹建模装置,应用于服务器,所述装置包括:
验证模块,用于接收客户端发送的请求信息,对所述请求信息进行验证,并且将验证结果传输给所述客户端;
分离模块,用于当所述验证结果为有效时,接收所述客户端发送的原始语音数据,并且将所述原始语音数据按照其对应的说话者进行分离;
合并模块,用于依次对分离后的语音数据进行合并,直到合并后的语音数据对应的说话者数量达到预设数值;
模型模块,用于对合并后的语音数据创建声纹模型,并且声纹模型创建信息传输给客户端。
第五方面,本发明实施例提供了一种计算机存储介质,用于储存为第三方面和第四方面所述的装置所用的计算机软件指令。
本发明实施例带来了以下有益效果:
本发明实施例提供了一种语音声纹建模方法及装置,通过与实际应用场景相结合,提出了一套面向多人交谈语音的声纹自动建模框架,基于客户端与服务器端的实现方式,结合先验信息,包括预先设定说话人数、预先采集参考人语音数据等方式,对问题进行约束,更有效地满足多人合路语音的分离与建模需求。对硬件要求低、避免耗时耗力的人工语音编辑。由客户端完成采集、服务器端完成处理,不需要额外的采集设备,且可以支持分布式部署。避免了利用音频编辑软件进行人工剪辑等耗时耗力的工作,在单靠人力已无法实现的情况下,全流程自动完成声纹注册,有效提升工作效率。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的地和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明第一实施例所提供的一种语音声纹建模方法的流程图;
图2为本发明第二实施例所提供的一种语音声纹建模方法的流程图;
图3为本发明第三实施例所提供的一种语音声纹建模装置的结构框图;
图4为本发明第四实施例所提供的一种语音声纹建模装置的结构框图。
具体实施方式
为使本发明实施例的目的地、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参加图1所示的一种语音声纹建模方法的流程图,该方法应用于客户端,具体包括如下步骤:
S101.接收用户输入的请求信息,并且所述请求信息传输给服务器,以触发所述服务器对所述请求信息进行验证;
具体的,用户通过客户端提交采集请求,通过服务器端进行用户ID及参数有效性检测。多人交谈中自动估计说话人数量是语音分离的难点,本发明结合实际应用场景,由用户填写参与交谈的实际人数,使得可以更聚焦地解决语音分割与聚类的问题;
S102.接收所述服务器传输的所述请求信息的验证结果;
S103.当所述验证结果为有效并且接收到用户采集语音的指令时,采集原始语音数据,并将所述原始语音数据传输给所述服务器,以使所述服务器对所述原始语音数据进行处理。
本发明实施例提供了一种语音声纹建模方法,通过与实际应用场景相结合,提出了一套面向多人交谈语音的声纹自动建模框架,基于客户端与服务器端的实现方式,结合先验信息,包括预先设定说话人数、预先采集参考人语音数据等方式,对问题进行约束,更有效地满足多人合路语音的分离与建模需求。对硬件要求低、避免耗时耗力的人工语音编辑。由客户端完成采集、服务器端完成处理,不需要额外的采集设备,且可以支持分布式部署。避免了利用音频编辑软件进行人工剪辑等耗时耗力的工作,在单靠人力已无法实现的情况下,全流程自动完成声纹注册,有效提升工作效率。
实施例二
参加图2所示的一种语音声纹建模的流程图,该方法在实施例一中提供的语音声纹建模的基础上实现,应用于服务器,具体包括如下步骤:
S201.接收客户端发送的请求信息,对所述请求信息进行验证,并且将验证结果传输给所述客户端;
服务器端响应注册请求后,在客户端显示设备提示是否预先采集参考人语音数据。在实际应用中,交谈主持人或会议主持人相对固定,且通常不关注其声纹,因此可设置为无效信息去除。如果未预先采集参考人语音,则表示参与交谈的所有说话人均为被关注人员;
S202.当所述验证结果为有效时,接收所述客户端发送的原始语音数据,并且将所述原始语音数据按照其对应的说话者进行分离;
在本发明实施例中,所述语音特征采用频谱特征,如梅尔频率倒谱系数MFCC、感知线性预测PLP。说话人分离的特征提取中,通常采用未作归一化的原始静态特征。本发明中语音分离单元如图3所示,具体过程为:
(1)初始分割
通常在说话人分离之前,需要先进行语音/非语音检测(Speech activitydetection,SAD)。SAD通常基于短时能量检测或基于基频检测,前者采用双高斯或者三高斯建模,根据最大似然准则找到低能量帧与高能量帧的合适阈值,去除静音和低能量部分;后者假设能检测到基频的区域为语音区。
在得到静音边界后,需要对语音区域进行进一步切分以便获得只含一人的短语音片段。基于贝叶斯信息准则(Bayesian information criterion,BIC)的说话人跳变点检测是一种常见的方法。BIC的一般做法是利用滑动窗检测每个窗内是否可能存在跳变点。如果某个时刻存在说话人跳变,等价于左边片段和右边片段分属两个不同的说话人,实现方式为判断用一个模型还是用两个模型来描述这段语音更合理。在实际应用中,BIC计算量大、效率低,因此本发明中采用以等长切分替代说话人跳变点检测。
等长切分是指在丢弃静音和低能量帧之后,将剩下的语音片段按相等的长度(0.5~2秒)分为若干连续等长的片段,将这些片段作为后续聚类算法的初始类中心。初始每一类的样本数均衡,不会出现因为样本悬殊的两类之间的相似度计算而导致模型偏倚。等长切分通常采取过切分,在多人交谈实际场景中可根据切换是否频繁来设定等长切分的片段长度,因此可以保证大部分片段中只包含一个人。这为后续的聚类过程提供了一个很好的初始状态。
实验表明,在初始分割阶段用跳变点检测的方式并不能获得比简单的等长切分更好的性能。这主要是因为跳变点检测容易出现漏检,且基于跳变点获得的语音片段时长分布不均,导致后续的聚类出现偏差。而在等长切分中,语音部分被分为许多很短的片段,其中纯净的片段占了大部分,而且各片段时长一致,使得在后续的层次聚类中初始模型相对平衡。
(2)聚类
通过初始分割得到若干语音片段后,需要利用语音聚类技术将它们聚类合并。本发明中,由用户在客户端填写参与交谈的实际人数N,因此理想情况下这些短语音片段被聚为N类,每类对应一个说话人。用得最多的是自底向上的聚合式层次聚类,其基本思想是把单个样本看做单独的类,然后利用一定的距离度量准则(例如广义似然比)每次合并两个距离最近的子类,类的数目逐渐减少,直到最后聚到所需的类数。由于每步都是找到距离最近两类进行操作,因此容易陷入局部最优,开始阶段的决策错误会持续传播到聚类结束。
若能将每个片段表示为一个向量,多个类的中心用均值来描述,就可以利用K均值或者期望最大(Expectation maximization,EM)算法进行聚类。将声纹识别中的总体差异空间模型(Total variability model,TVM,也称为iVector)技术应用于说话人分离,基本思想是把初始分割后的每个短语音片段用一个iVector表示,然后利用iVector之间的相似度度量进行聚类。
在K均值算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化。这个初始聚类中心的选择对聚类结果有较大的影响,一旦初始值选择的不好,可能无法得到有效的聚类结果。
在上述K均值聚类过程中,为了尽量保证每一片段内只含一个人,初始片段一般都设的很短(0.5~2秒)。由此造成的问题是,由于iVector是基于全局背景模型(UBM)统计量的,从统计意义上看,片段内的帧数太少会导致iVector估计的方差过大。若简单增加每个语音片段的长度,又会使每个片段内的混淆度增加。原因是我们在非常少量的样本上做了硬决策,认为该语音片段一定属于某个说话人。
类似于EM的思想,本发明采用软决策的方式,不再认为每个语音片段一定属于N人中的一个,而是以一定的概率属于某个人。变分贝叶斯(Variational Bayesian)的方法正是基于这个设想,通过引入一些隐含变量用EM的方法不断迭代优化分类结果。
给定初始语音片段S1,S2,...,Sx,...,SX,UBM以及总体变化空间矩阵T,首先计算每个初始语音片段的Baum-Welch统计量。定义第x个片段属于第n个说话人的概率为qxn,第n个说话人的iVector为wn。固定qxn,每个说话人的统计量为片段统计量的加权平均,基于统计量更新每个说话人对应的iVector。固定wn,计算对数似然度并将其转化为后验概率qxn,
重复以上步骤直至算法收敛。变分贝叶斯算法保证每一步更新都会使得对数似然的下界单调递增。语音分离的最终结果是将每个片段x赋予后验概率最大的一个说话人n,即argmax(n)qxn。
与K均值相比,变分贝叶斯方法未对每个语音片段提取iVector,而是以概率的形式将所有片段分为N部分,每部分的所有片段集中在一起计算iVector,避免了K均值方法中由于每个片段样本太少而导致iVector估计方差过大问题。变分贝叶斯根据每个人当前的iVector来更新每个片段的后验概率的方法,保证每一步迭代都能使模型变得更好。
实验表明,变分贝叶斯相比K均值在性能上有明显改善。将变分贝叶斯与iVector模型相结合,以取代传统的片段之间按层次聚类的方法,在每一次迭代中以软决策的方式来避免初始的分类错误一直扩散到最终结果。
(3)重分割
在经过说话人聚类后,所有语音片段被分为N类,分别对应于参与交谈的N个说话人。如背景技术中所述,这时说话人分离的结果存在三类错误:误报、漏报和说话人混淆。由于聚类不会改变语音和非语音的边界,因此在说话人分割时产生的误报和漏报会一直存在。而导致说话人混淆的主要原因,首先是初始分割所产生的语音片段不纯,单个片段内含有两个说话人,其次是聚类算法不够理想,将分属两个或多个说话人的语音片段被聚到一起。
因此,说话人分离系统在聚类之后通常会加上重分割模块。在已有说话人分离的结果基础上,利用全局的模型来修正已有的分类结果。通常是对每一类建立高斯混合模型,然后通过维特比解码的方式获得一个新的最优状态序列,其中每个状态对应静音或者某个说话人。利用这个新的序列重估每一类的高斯混合模型,迭代优化。由于聚类结果将每个片段强制分为某一类,这导致分类错误的最小颗粒度为一个片段。为了在重分割过程中修正这类错误,重估高斯混合模型时不采用将语音帧强制对齐到某个状态,而是采用后验加权的方式来实现,即采用基于帧的后验概率,获取加权后的Baum-Welch统计量,然后重估高斯混合模型,从而实现软对齐方式的重分割迭代过程。
S203.依次对分离后的语音数据进行合并,直到合并后的语音数据对应的说话者数量达到预设数值;
具体的,所述服务器端的实时接收单元获取实时语音数据送入在线语音分离单元。通常情况下,交谈持续时间较长,为提高处理效率,开辟语音缓冲区,对累积之后满足一定时间的语音片段进行在线分离。所述语音归并单元对所有在线分离的结果进行归并,根据预先设定说话人数,得到最终的归并语音;
S204.对合并后的语音数据创建声纹模型,并且将声纹模型创建信息传输给客户端。
提取用户的声纹特征,创建声纹模型;若声纹模型创建失败则声纹注册失败并将声纹注册失败的结果信息反馈至客户端;若声纹模型创建成功则将用户的声纹信息加入到当前的声纹模板库中,并将注册成功的结果信息反馈至客户端。
本发明实施例提供了一种语音声纹建模方法,通过与实际应用场景相结合,提出了一套面向多人交谈语音的声纹自动建模框架,基于客户端与服务器端的实现方式,结合先验信息,包括预先设定说话人数、预先采集参考人语音数据等方式,对问题进行约束,更有效地满足多人合路语音的分离与建模需求。针对语音分离,提出了一种基于变分贝叶斯软决策聚类和后验概率加权的软对齐重分割的技术方法;在服务器端对实时接收的语音数据设置缓冲区,支持在线语音分离,提高了声纹自动注册过程的响应速度;对硬件要求低、避免耗时耗力的人工语音编辑。由客户端完成采集、服务器端完成处理,不需要额外的采集设备,且可以支持分布式部署。避免了利用音频编辑软件进行人工剪辑等耗时耗力的工作,在单靠人力已无法实现的情况下,全流程自动完成声纹注册,有效提升工作效率。
实施例三
对于前述实施例一所提供的语音声纹建模方法,本发明实施例提供了一种语音声纹建模的装置,参见图3所示的一种语音声纹建模的装置的结构框图,应用于客户端,该装置包括如下部分:
输入模块31,用于接收用户输入的请求信息,并且所述请求信息传输给服务器,以触发所述服务器对所述请求信息进行验证;
接收模块32,用于接收所述服务器传输的所述请求信息的验证结果;
采集模块33,用于当所述验证结果为有效并且接收到用户采集语音的指令时,采集原始语音数据,并将所述原始语音数据传输给所述服务器,以使所述服务器对所述原始语音数据进行处理。
本发明实施例提供了一种语音声纹建模装置,通过与实际应用场景相结合,提出了一套面向多人交谈语音的声纹自动建模框架,基于客户端与服务器端的实现方式,结合先验信息,包括预先设定说话人数、预先采集参考人语音数据等方式,对问题进行约束,更有效地满足多人合路语音的分离与建模需求。对硬件要求低、避免耗时耗力的人工语音编辑。由客户端完成采集、服务器端完成处理,不需要额外的采集设备,且可以支持分布式部署。避免了利用音频编辑软件进行人工剪辑等耗时耗力的工作,在单靠人力已无法实现的情况下,全流程自动完成声纹注册,有效提升工作效率。
实施例四
对于前述实施例二所提供的语音声纹建模方法,本发明实施例提供了一种语音声纹建模的装置,参见图4所示的一种语音声纹建模的装置的结构框图,该装置应用于服务器,包括如下部分:
验证模块41,用于接收客户端发送的请求信息,对所述请求信息进行验证,并且将验证结果传输给所述客户端;
分离模块42,用于当所述验证结果为有效时,接收所述客户端发送的原始语音数据,并且将所述原始语音数据按照其对应的说话者进行分离;
合并模块43,用于依次对分离后的语音数据进行合并,直到合并后的语音数据对应的说话者数量达到预设数值;
模型模块44,用于对合并后的语音数据创建声纹模型,并且声纹模型创建信息传输给客户端。
本发明实施例提供了一种语音声纹建模装置,通过与实际应用场景相结合,提出了一套面向多人交谈语音的声纹自动建模框架,基于客户端与服务器端的实现方式,结合先验信息,包括预先设定说话人数、预先采集参考人语音数据等方式,对问题进行约束,更有效地满足多人合路语音的分离与建模需求。对硬件要求低、避免耗时耗力的人工语音编辑。由客户端完成采集、服务器端完成处理,不需要额外的采集设备,且可以支持分布式部署。避免了利用音频编辑软件进行人工剪辑等耗时耗力的工作,在单靠人力已无法实现的情况下,全流程自动完成声纹注册,有效提升工作效率。
本发明实施例还提供了一种计算机存储介质,用于储存为上述实施例提供的装置所用的计算机软件指令。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
需要说明的是,在本发明所提供的实施例中,应该理解到,所揭露系统和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的地。
另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (6)
1.一种语音声纹建模方法,应用于客户端,其特征在于,所述方法包括:
接收用户输入的请求信息,并且所述请求信息传输给服务器,以触发所述服务器对所述请求信息进行验证;
接收所述服务器传输的所述请求信息的验证结果;
当所述验证结果为有效并且接收到用户采集语音的指令时,采集原始语音数据,并将所述原始语音数据传输给所述服务器,以使所述服务器对所述原始语音数据进行处理;
所述请求信息包括用户标识和语音参与人数。
2.一种语音声纹建模方法,应用于服务器,其特征在于,所述方法包括:
接收客户端发送的请求信息,对所述请求信息进行验证,并且将验证结果传输给所述客户端;
当所述验证结果为有效时,接收所述客户端发送的原始语音数据,并且将所述原始语音数据按照其对应的说话者进行分离;
依次对分离后的语音数据进行合并,直到合并后的语音数据对应的说话者数量达到预设数值;
对合并后的语音数据创建声纹模型,并且将声纹模型创建信息传输给客户端。
3.根据权利要求2所述的方法,其特征在于,所述请求信息包括用户标识和语音参与人数。
4.根据权利要求2所述的方法,其特征在于,对合并后的语音数据创建声纹模型,并且将声纹模型创建信息传输给客户端,包括:
对合并后的语音数据提取声纹特征,创建声纹模型。
5.一种语音声纹建模装置,应用于服务器,其特征在于,所述装置包括:
验证模块,用于接收客户端发送的请求信息,对所述请求信息进行验证,并且将验证结果传输给所述客户端;
分离模块,用于当所述验证结果为有效时,接收所述客户端发送的原始语音数据,并且将所述原始语音数据按照其对应的说话者进行分离;
合并模块,用于依次对分离后的语音数据进行合并,直到合并后的语音数据对应的说话者数量达到预设数值;
模型模块,用于对合并后的语音数据创建声纹模型,并且声纹模型创建信息传输给客户端。
6.一种计算机存储介质,其特征在于,用于储存为权利要求1至4任意一项所述的方法所用的计算机软件指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810382499.5A CN108597525B (zh) | 2018-04-25 | 2018-04-25 | 语音声纹建模方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810382499.5A CN108597525B (zh) | 2018-04-25 | 2018-04-25 | 语音声纹建模方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108597525A CN108597525A (zh) | 2018-09-28 |
CN108597525B true CN108597525B (zh) | 2019-05-03 |
Family
ID=63610034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810382499.5A Active CN108597525B (zh) | 2018-04-25 | 2018-04-25 | 语音声纹建模方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108597525B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179940A (zh) * | 2018-11-12 | 2020-05-19 | 阿里巴巴集团控股有限公司 | 一种语音识别方法、装置及计算设备 |
CN110782902A (zh) * | 2019-11-06 | 2020-02-11 | 北京远鉴信息技术有限公司 | 音频数据确定方法、装置、设备和介质 |
CN111081258B (zh) * | 2019-11-07 | 2022-12-06 | 厦门快商通科技股份有限公司 | 一种声纹模型管理方法、系统、存储介质及装置 |
CN113129901A (zh) * | 2020-01-10 | 2021-07-16 | 华为技术有限公司 | 一种语音处理方法、介质及系统 |
CN111414511B (zh) * | 2020-03-25 | 2023-08-22 | 合肥讯飞数码科技有限公司 | 自动声纹建模入库方法、装置以及设备 |
CN111782867B (zh) * | 2020-05-20 | 2022-12-30 | 厦门快商通科技股份有限公司 | 声纹检索方法、系统、移动终端及存储介质 |
CN112001454B (zh) * | 2020-09-08 | 2023-06-23 | 中国联合网络通信集团有限公司 | 一种集客专线的聚类方法和装置 |
CN113488063B (zh) * | 2021-07-02 | 2023-12-19 | 国网江苏省电力有限公司电力科学研究院 | 一种基于混合特征及编码解码的音频分离方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11067661B2 (en) * | 2015-11-17 | 2021-07-20 | Sony Corporation | Information processing device and information processing method |
US20180018973A1 (en) * | 2016-07-15 | 2018-01-18 | Google Inc. | Speaker verification |
CN107171816A (zh) * | 2017-06-21 | 2017-09-15 | 歌尔科技有限公司 | 电话会议中的数据处理方法及装置 |
CN107492379B (zh) * | 2017-06-30 | 2021-09-21 | 百度在线网络技术(北京)有限公司 | 一种声纹创建与注册方法及装置 |
CN107845386B (zh) * | 2017-11-14 | 2020-04-21 | 维沃移动通信有限公司 | 声音信号处理方法、移动终端和服务器 |
-
2018
- 2018-04-25 CN CN201810382499.5A patent/CN108597525B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108597525A (zh) | 2018-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108597525B (zh) | 语音声纹建模方法及装置 | |
US11900947B2 (en) | Method and system for automatically diarising a sound recording | |
TWI643184B (zh) | 語音分割的方法及裝置 | |
US11776547B2 (en) | System and method of video capture and search optimization for creating an acoustic voiceprint | |
US11276407B2 (en) | Metadata-based diarization of teleconferences | |
CN105702263B (zh) | 语音重放检测方法和装置 | |
US11682401B2 (en) | Matching speakers to meeting audio | |
US9875743B2 (en) | Acoustic signature building for a speaker from multiple sessions | |
US9589560B1 (en) | Estimating false rejection rate in a detection system | |
CN107886949A (zh) | 一种内容推荐方法及装置 | |
EP3513404A1 (en) | Microphone selection and multi-talker segmentation with ambient automated speech recognition (asr) | |
Eyben et al. | Affect recognition in real-life acoustic conditions-a new perspective on feature selection | |
WO2014029099A1 (en) | I-vector based clustering training data in speech recognition | |
CN106683661A (zh) | 基于语音的角色分离方法及装置 | |
WO2019048063A1 (en) | VOICE COMMAND MANAGEMENT OF USER PROFILES | |
CN111785291A (zh) | 语音分离方法和语音分离装置 | |
KR20200100332A (ko) | 화자 모델을 업데이트하는 음성 인식 장치, 방법 및 컴퓨터 프로그램 | |
CN109448732A (zh) | 一种数字串语音处理方法及装置 | |
US20220157322A1 (en) | Metadata-based diarization of teleconferences | |
US8954327B2 (en) | Voice data analyzing device, voice data analyzing method, and voice data analyzing program | |
CN106486114A (zh) | 改进语言模型的方法和装置以及语音识别方法和装置 | |
CN112992155A (zh) | 一种基于残差神经网络的远场语音说话人识别方法及装置 | |
KR102396136B1 (ko) | 멀티디바이스 기반 화자분할 성능 향상을 위한 방법 및 시스템 | |
CN109378007A (zh) | 一种基于智能语音对话实现性别识别的方法 | |
CN113178205B (zh) | 语音分离方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP03 | Change of name, title or address |
Address after: 80001-2, floor 7, building 1, No.158, West Fourth Ring North Road, Haidian District, Beijing 100000 Patentee after: Beijing Yuanjian Information Technology Co., Ltd Address before: 615000 3 people's West Road, new town, Zhaojue County, Liangshan Yi Autonomous Prefecture, Sichuan 1-1 Patentee before: Sichuan Yuan Jian Technology Co., Ltd. |
|
CP03 | Change of name, title or address |