CN111785302A - 说话人分离方法、装置及电子设备 - Google Patents
说话人分离方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111785302A CN111785302A CN202010580781.1A CN202010580781A CN111785302A CN 111785302 A CN111785302 A CN 111785302A CN 202010580781 A CN202010580781 A CN 202010580781A CN 111785302 A CN111785302 A CN 111785302A
- Authority
- CN
- China
- Prior art keywords
- voice
- speaker
- characteristic
- processed
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000926 separation method Methods 0.000 title claims abstract description 37
- 230000000694 effects Effects 0.000 claims abstract description 44
- 238000001514 detection method Methods 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000003062 neural network model Methods 0.000 claims description 12
- 238000013527 convolutional neural network Methods 0.000 claims description 11
- 230000000306 recurrent effect Effects 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 239000000203 mixture Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提供一种说话人分离方法、装置及电子设备,所述方法包括:对待处理语音进行语音活动检测,以将所述待处理语音划分成至少一个语音段;分别将所述至少一个语音段输入声纹识别模型,得到所述至少一个语音段中每个语音段对应的说话人特征;分别基于所述每个语音段对应的说话人特征,确定所述每个语音段对应的说话人。本发明实施例能够提高进行说话人分离的准确率。
Description
技术领域
本发明涉及语音处理技术领域,尤其涉及一种说话人分离方法、装置及电子设备。
背景技术
语音是人与人之间进行交流的最自然、最方便及最有效的方式。可以通过说话人分离从海量的语音中获取感兴趣的语音。在对语音进行说话人分离的过程中,需要将语音进行切分,再对切分的语音片段标注说话人信息。
目前,根据经验对语音进行切分,切分的语音片段很有可能会包含两个或多个说话人的语音,从而导致进行说话人分离的准确率较低。
发明内容
本发明实施例提供一种说话人分离方法、装置及电子设备,以解决现有技术中根据经验对语音进行切分导致进行说话人分离的准确率较低的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种说话人分离方法,应用于电子设备,所述方法包括:
对待处理语音进行语音活动检测,以将所述待处理语音划分成至少一个语音段;
分别将所述至少一个语音段输入声纹识别模型,得到所述至少一个语音段中每个语音段对应的说话人特征;
分别基于所述每个语音段对应的说话人特征,确定所述每个语音段对应的说话人。
第二方面,本发明实施例提供了一种说话人分离装置,应用于电子设备,所述说话人分离装置包括:
检测模块,用于对待处理语音进行语音活动检测,以将所述待处理语音划分成至少一个语音段;
输入模块,用于分别将所述至少一个语音段输入声纹识别模型,得到所述至少一个语音段中每个语音段对应的说话人特征;
确定模块,用于分别基于所述每个语音段对应的说话人特征,确定所述每个语音段对应的说话人。
第三方面,本发明实施例提供了一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如第一方面所述的说话人分离方法中的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的说话人分离方法中的步骤。
本发明实施例中,对待处理语音进行语音活动检测,以将所述待处理语音划分成至少一个语音段;分别将所述至少一个语音段输入声纹识别模型,得到所述至少一个语音段中每个语音段对应的说话人特征;分别基于所述每个语音段对应的说话人特征,确定所述每个语音段对应的说话人。通过对待处理语音进行语音活动检测,以将所述待处理语音划分成至少一个语音段,能够降低切分的语音片段包含两个或多个说话人的语音的概率,从而能够提高进行说话人分离的准确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种说话人分离方法的流程图;
图2是本发明实施例提供的对语音进行说话人分离的示意图;
图3是本发明实施例提供的一种说话人分离装置的结构示意图之一;
图4是本发明实施例提供的一种说话人分离装置的结构示意图之二;
图5是本发明实施例提供的一种说话人分离装置的结构示意图之三;
图6是本发明实施例提供的一种说话人分离装置的结构示意图之四;
图7是本发明实施例提供的一种说话人分离装置的结构示意图之五;
图8是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载移动终端、可穿戴设备、以及计步器等。
参见图1,图1是本发明实施例提供的一种说话人分离方法的流程图,所述方法应用于电子设备,如图1所示,包括以下步骤:
步骤101、对待处理语音进行语音活动检测,以将所述待处理语音划分成至少一个语音段。
其中,所述至少一个语音段中每个语音段均可以包括多个语音帧。所述对待处理语音进行VAD(Voice Activity Detection,语音活动检测),以将所述待处理语音划分成至少一个语音段,可以包括:依次对待处理语音的每个语音帧进行语音活动检测,以确定所述每个语音帧是否为人声语音帧,将所述待处理语音的人声语音帧中间隔小于第一预设值的人声语音帧划分至同一语音段,并将所述待处理语音的人声语音帧中间隔大于或等于第一预设值的人声语音帧划分至不同的语音段,其中,间隔小于第一预设值可以是帧数间隔小于第一预设值。以第一预设值为20为例,若待处理语音的第15帧信号和第25帧信号均为人声语音帧,则第15帧信号和第25帧信号的帧数间隔为10,待处理语音的第15帧信号和第25帧信号可以划分至同一语音段。
或者,所述对待处理语音进行VAD,以将所述待处理语音划分成至少一个语音段,还可以包括:依次对待处理语音的每个语音帧进行语音活动检测,以将所述待处理语音划分成至少一个语音段,所述至少一个语音段中每个语音段的第一帧信号为人声语音帧,每个语音段的最后一帧信号为非人声语音帧,每个语音段均包括多帧连续的人声语音帧以及多帧连续的非人声语音帧,等等,本发明实施例对此不进行限定。
需要说明的是,所述待处理语音可以为语音采集设备实时采集的语音;和/或,所述电子设备可以为服务器;和/或,所述待处理语音可以为电子设备实时采集的语音,等等,本发明实施例对此不进行限定。
步骤102、分别将所述至少一个语音段输入声纹识别模型,得到所述至少一个语音段中每个语音段对应的说话人特征。
其中,所述声纹识别模型可以预先训练获得,可以预先通过离线方式训练得到声纹识别模型。可以通过声纹识别模型得到声纹特征,作为说话人特征。所述声纹识别模型可以为用于声纹特征提取的神经网络模型,例如,声纹识别模型可以为多层全连接神经网络模型。可以提取每个语音帧的声学特征,例如,可以通过高斯混合模型或者HMM(HiddenMarkov Model,隐马尔可夫模型)等提取每个语音帧的声学特征。所述声学特征可以为MFCC(Mel-Frequency Ceptral Coefficients,Mel频率倒谱系数)特征。可以在提取的声学特征的基础上增加一阶差分和二阶差分以扩充声学特征的动态性能,并将扩充后的声学特征输入声纹识别模型,将声纹识别模型的输出作为语音段对应的说话人特征,该说话人特征可以用于表征语音段所属用户的发音特征。
在实际应用中,作为一种实施方式,对于所述至少一个语音段中每个语音段,可以对其进行分帧、加窗和傅里叶变换,得到每个语音段对应的FFT特征,可以将每个语音段对应的FFT特征组成a行b列的矩阵,a为每个语音段包含的语音帧的数量,b为FFT特征的维度。可以将该a行b列的矩阵输入声纹识别模型,得到a行c列的矩阵,作为语音段对应的说话人特征,c为预设值,可以设置为512。
步骤103、分别基于所述每个语音段对应的说话人特征,确定所述每个语音段对应的说话人。
其中,所述分别基于所述每个语音段对应的说话人特征,确定所述每个语音段对应的说话人,可以包括:分别将所述每个语音段对应的说话人特征输入用于确定说话人的递归神经网络模型,以确定所述每个语音段对应的说话人;或者,还可以包括:在所述电子设备存储有至少一个第一说话人特征的情况下,将第二说话人特征与所述至少一个第一说话人特征中每个第一说话人特征进行匹配,所述第二说话人特征为所述至少一个语音段中任意一个语音段对应的说话人特征,若所述第二说话人特征与目标说话人特征匹配一致,则确定所述第二说话人特征对应的说话人为所述目标说话人特征对应的说话人,其中,所述至少一个第一说话人特征包括所述目标说话人特征;或者还可以以其他方式基于所述每个语音段对应的说话人特征,确定所述每个语音段对应的说话人,本发明实施例对此不进行限定。
在实际应用中,可以通过语音采集设备将连续语音发送至电子设备进行说话人分离,可以通过实时vad,将不断传输进来的语音进行分段,提高语音的质量,从而提高说话人分离的准确率,如图2所示,以包括说话人A和B为例,可以将每个语音段与对应的说话人进行对应,从而可以实现实时地判断说话人。
本发明实施例中,对待处理语音进行语音活动检测,以将所述待处理语音划分成至少一个语音段;分别将所述至少一个语音段输入声纹识别模型,得到所述至少一个语音段中每个语音段对应的说话人特征;分别基于所述每个语音段对应的说话人特征,确定所述每个语音段对应的说话人。通过对待处理语音进行语音活动检测,以将所述待处理语音划分成至少一个语音段,能够降低切分的语音片段包含两个或多个说话人的语音的概率,从而能够提高进行说话人分离的准确率。
可选的,所述对待处理语音进行语音活动检测,以将所述待处理语音划分成至少一个语音段,包括:
依次对待处理语音的每个语音帧进行语音活动检测,以确定所述每个语音帧是否为人声语音帧;
将所述待处理语音的人声语音帧中间隔小于第一预设值的人声语音帧划分至同一语音段,并将所述待处理语音的人声语音帧中间隔大于或等于第一预设值的人声语音帧划分至不同的语音段。
其中,所述第一预设值可以为20,或者可以为25,或者可以为30,等等,本发明实施例对此不进行限定。所述依次对待处理语音的每个语音帧进行语音活动检测,以确定所述每个语音帧是否为人声语音帧,可以是,依次将待处理语音的每个语音帧输入用于语音活动检测的卷积神经网络模型,以确定所述每个语音帧是否为人声语音帧;或者,可以是依次将待处理语音的每个语音帧输入用于语音活动检测的其他神经网络模型,以确定所述每个语音帧是否为人声语音帧;或者,还可以是通过每个语音帧的短时能量和短时过零率确定每个语音帧是否为人声语音帧,等等,本发明实施例对此不进行限定。
在实际应用中,可以实时对待处理语音的每个语音帧进行语音活动检测,以确定所述每个语音帧是否为人声语音帧。若当前检测的语音帧为人声语音帧,则可以将当前检测的语音帧存储至缓冲数组中,并统计缓冲数组中存储的人声语音帧的数量;若当前检测的语音帧为非人声语音帧,则可以统计包括当前检测的语音帧在内的多帧连续的非人声语音帧的数量。若缓冲数组中存储的人声语音帧的数量大于第二预设值,或者,包括当前检测的语音帧在内的多帧连续的非人声语音帧的数量大于第一预设值或等于第一预设值,则可以将缓冲数组中存储的人声语音帧输入声纹识别模型,得到缓冲数组中存储的人声语音帧对应的说话人特征。缓冲数组中存储的人声语音帧可以作为划分的一个语音段中的语音帧。进一步的,在得到缓冲数组中存储的人声语音帧对应的说话人特征之后,可以删除缓冲数组中存储的人声语音帧,便于存储下一次划分的语音段中的语音帧。
另外,所述待处理语音的人声语音帧中间隔大于或等于第一预设值的人声语音帧,可以认为,说话人中断了说话。以第一预设值为15为例,若待处理语音中的第5帧信号和第25帧信号均为人声语音帧,第6帧信号至第24帧信号为静音帧,则可以认为,第5帧信号对应的说话人在第5帧信号后停止了说话,第25帧信号对应的说话人可能与第5帧信号对应的说话人相同,也可能不相同。因此,可以以第5帧信号为分割点,划分语音段。
该实施方式中,提取待处理语音中的人声语音帧进行说话人分离,避免待处理语音中的静音部分影响说话人分离结果,能够提高进行说话人分离的准确率。
可选的,所述至少一个语音段中每个语音段包含的语音帧的数量小于或等于第二预设值。
其中,所述第二预设值可以为70,或者可以为80,或者可以为90,等等,本发明实施例对此不进行限定。可以通过语音采集设备实时采集语音,对采集的连续语音实时进行语音活动检测。以第一预设值为80,第二预设值为20为例,若检测到第1帧信号至第30帧信号均为人声语音帧,第31帧至第71帧信号均为静音帧,第72帧信号至第172帧信号均为人声语音帧,则可以将第1帧信号至第30帧信号划分为一个语音段,第72帧信号至第152帧信号划分为一个语音段,第153帧信号至第172帧信号划分为一个语音段。可以认为,A说话人在第30帧信号对应的时刻停止说话,B说话人在第72帧信号对应的时刻开始说话,A说话人和B说话人可以是同一说话人,也可以是不同的说话人。
该实施方式中,所述至少一个语音段中每个语音段包含的语音帧的数量小于或等于第二预设值,避免划分的语音段过长,从而能够进一步提高进行说话人分离的准确率。
可选的,所述依次对待处理语音的每个语音帧进行语音活动检测,以确定所述每个语音帧是否为人声语音帧,包括:
依次将待处理语音的每个语音帧输入用于语音活动检测的卷积神经网络模型,以确定所述每个语音帧是否为人声语音帧。
其中,所述卷积神经网络模型可以预先训练获得,可以预先通过离线方式训练得到卷积神经网络模型。可以提取每个语音帧的声学特征,例如,可以通过高斯混合模型或者HMM模型等提取每个语音帧的声学特征。所述声学特征可以为MFCC特征。所述依次将待处理语音的每个语音帧输入用于语音活动检测的卷积神经网络模型,以确定所述每个语音帧是否为人声语音帧,可以是,依次将待处理语音的每个语音帧的声学特征输入用于语音活动检测的卷积神经网络模型,以确定所述每个语音帧是否为人声语音帧。所述卷积神经网络模型的输出可以包括1和0,1可以表示该语音帧为人声语音帧,0可以表示该语音帧为静音帧。通过卷积神经网络模型可以得到一段语音的有效语音部分和静音部分。
该实施方式中,通过卷积神经网络模型进行语音活动检测,能够提高语音活动检测划分语音段的准确率,并且可以去除噪声,避免噪声影响说话人特征,从而能够进一步提高进行说话人分离的准确率。
可选的,所述分别基于所述每个语音段对应的说话人特征,确定所述每个语音段对应的说话人,包括:
分别将所述每个语音段对应的说话人特征输入用于确定说话人的递归神经网络模型,以确定所述每个语音段对应的说话人。
其中,所述递归神经网络模型可以通过预先训练获得。可以采用在真实场景下收集的大量不同说话人的训练语音对所述递归神经网络模型进行训练,每条训练语音可以对应一个说话人。
该实施方式中,通过递归神经网络模型确定说话人,递归神经网络模型能够较好地利用上下文信息,实现较为准确地基于所述每个语音段对应的说话人特征,确定所述每个语音段对应的说话人,从而能够提高进行说话人分离的准确率。
可选的,所述分别基于所述每个语音段对应的说话人特征,确定所述每个语音段对应的说话人,包括:
在所述电子设备存储有至少一个第一说话人特征的情况下,将第二说话人特征与所述至少一个第一说话人特征中每个第一说话人特征进行匹配,所述第二说话人特征为所述至少一个语音段中任意一个语音段对应的说话人特征;
若所述第二说话人特征与目标说话人特征匹配一致,则确定所述第二说话人特征对应的说话人为所述目标说话人特征对应的说话人;
其中,所述至少一个第一说话人特征包括所述目标说话人特征。
其中,所述将第二说话人特征与所述至少一个第一说话人特征中每个第一说话人特征进行匹配,可以是,分别计算所述第二说话人特征与每个第一说话人特征的相似度,若第二说话人特征与目标说话人特征的相似度大于预设阈值,则可以认为第二说话人特征与目标说话人特征匹配一致。所述预设阈值可以为0.5,或者0.7,或者0.8等等,本发明实施例对此不进行限定。进一步的,可以将与第二说话人特征的相似度最大且该最大的相似度值大于预设阈值的第一说话人特征作为目标说话人特征。所述分别计算所述第二说话人特征与每个第一说话人特征的相似度,可以是,分别计算用于表征第二说话人特征的特征向量与每个用于表征第一说话人特征的特征向量的相似度,所述相似度可以为cosine(余弦)相似度。
另外,在所述电子设备未存储有第一说话人特征的情况下,可以存储第二说话人特征,并将存储的第二说话人特征作为第一说话人特征。在实际应用中,所述至少一个第一说话人特征中每个第一说话人特征可以对应一个说话人,在电子设备上可以存储有每个第一说话人特征与说话人的对应的关系,例如,可以对每个第一说话人特征设置标签。电子设备存储有第一说话人特征,可以认为已在电子设备上为第一说话人特征对应的说话人进行了注册。
在实际应用中,可以通过语音采集设备实时采集语音,对采集的连续语音实时进行语音活动检测,在划分得到第一个语音段A1时,电子设备未存储有第一说话人特征,可以存储A1的说话人特征作为第一说话人特征,并可以为A1对应的说话人设置说话人标签,例如,可以设置标签为标签1。在划分得到第二个语音段A2时,电子设备存储有A1的说话人特征,可以将A2的说话人特征与A1的说话人特征进行匹配,若A2的说话人特征与A1的说话人特征匹配一致,则A2对应的说话人与A1对应的说话人相同。若A2的说话人特征与A1的说话人特征匹配不一致,则A2对应的说话人与A1对应的说话人不相同,可以存储A2的说话人特征作为第一说话人特征,并可以为A2对应的说话人设置说话人标签,例如,可以设置标签为标签2。
该实施方式中,通过分别将每个语音段对应的说话人特征与存储的第一说话人特征进行匹配,从而确定每个语音段对应的说话人,能够较为准确地确定所述每个语音段对应的说话人,从而能够提高进行说话人分离的准确率。
可选的,所述将第二说话人特征与所述至少一个第一说话人特征中每个第一说话人特征进行匹配之后,所述方法还包括:
若所述第二说话人特征与所述至少一个第一说话人特征中每个第一说话人特征均不匹配,则将所述第二说话人特征添加至所述至少一个第一说话人特征中。
其中,所述第二说话人特征与所述至少一个第一说话人特征中每个第一说话人特征均不匹配,可以是,所述第二说话人特征与每个第一说话人特征的相似度均小于或等于预设阈值。
该实施方式中,对于未曾存储的说话人的特征,将其添加为第一说话人特征,从而可以提取出待处理语音中所有的说话人的说话人特征,从而便于匹配说话人,能够提高进行说话人分离的准确率。
可选的,所述确定所述第二说话人特征对应的说话人为所述目标说话人特征对应的说话人之后,所述方法还包括:
基于所述第二说话人特征和所述目标说话人特征获取第三说话人特征;
将所述目标说话人特征更新为所述第三说话人特征。
其中,所述基于所述第二说话人特征和所述目标说话人特征获取第三说话人特征,可以是,计算所述第二说话人特征和所述目标说话人特征的平均值,将所述平均值作为第三说话人特征;或者还可以是,将第二说话人特征与第一预设系数相乘,得到第一乘积,将目标说话人特征与第二预设系数相乘,得到第二乘积,计算第一乘积和第二乘积的平均值,作为第三说话人特征,所述第一预设系数可以大于0且小于1,所述第二预设系数可以大于0且小于1;或者还可以采用其他方式基于所述第二说话人特征和所述目标说话人特征获取第三说话人特征,等等,本发明实施例对此不进行限定。可以将获取到的第三说话人特征替换存储在电子设备上的目标说话人特征。
该实施方式中,通过实时更新第一说话人特征,在进行说话人特征匹配时,能够提高匹配的准确率,从而能够提高进行说话人分离的准确率。
可选的,所述待处理语音为语音采集设备实时采集的语音;和/或,所述电子设备为服务器。
其中,可以通过语音采集设备实时采集语音,电子设备可以接收语音采集设备实时采集的语音,对所述实时采集的语音进行语音活动检测,以将所述实时采集的语音划分成至少一个语音段;分别将所述至少一个语音段输入声纹识别模型,得到所述至少一个语音段中每个语音段对应的说话人特征;分别基于所述每个语音段对应的说话人特征,确定所述每个语音段对应的说话人。从而实现在线语音交互场景下的说话人分离。
另外,所述电子设备可以为服务器,可以通过语音采集设备实时采集语音,由服务器对语音采集设备实时采集的语音进行说话人分离。
该实施方式中,所述待处理语音为语音采集设备实时采集的语音,和/或,所述电子设备为服务器,这样,本发明实施例能够在在线语音交互场景下实现说话人分离,相对于现有技术中在线语音交互场景下根据经验对语音进行切分进行说话人分离而言,本发明实施例通过对实时采集的语音进行语音活动检测以划分语音段,在实现快速地进行说话人分离的同时,能够降低切分的语音片段包含两个或多个说话人的语音的概率,提高进行说话人分离的准确率。
参见图3,图3是本发明实施例提供的一种说话人分离装置的结构示意图之一,所述说话人分离装置应用于电子设备,如图3所示,说话人分离装置200包括:
检测模块201,用于对待处理语音进行语音活动检测,以将所述待处理语音划分成至少一个语音段;
输入模块202,用于分别将所述至少一个语音段输入声纹识别模型,得到所述至少一个语音段中每个语音段对应的说话人特征;
确定模块203,用于分别基于所述每个语音段对应的说话人特征,确定所述每个语音段对应的说话人。
可选的,如图4所示,所述检测模块201包括:
检测单元2011,用于依次对待处理语音的每个语音帧进行语音活动检测,以确定所述每个语音帧是否为人声语音帧;
划分单元2012,用于将所述待处理语音的人声语音帧中间隔小于第一预设值的人声语音帧划分至同一语音段,并将所述待处理语音的人声语音帧中间隔大于或等于第一预设值的人声语音帧划分至不同的语音段。
可选的,所述至少一个语音段中每个语音段包含的语音帧的数量小于或等于第二预设值。
可选的,所述检测单元201具体用于:
依次将待处理语音的每个语音帧输入用于语音活动检测的卷积神经网络模型,以确定所述每个语音帧是否为人声语音帧。
可选的,所述确定模块203具体用于:
分别将所述每个语音段对应的说话人特征输入用于确定说话人的递归神经网络模型,以确定所述每个语音段对应的说话人。
可选的,如图5所示,所述确定模块203包括:
匹配单元2031,用于在所述电子设备存储有至少一个第一说话人特征的情况下,将第二说话人特征与所述至少一个第一说话人特征中每个第一说话人特征进行匹配,所述第二说话人特征为所述至少一个语音段中任意一个语音段对应的说话人特征;
确定单元2032,用于若所述第二说话人特征与目标说话人特征匹配一致,则确定所述第二说话人特征对应的说话人为所述目标说话人特征对应的说话人;
其中,所述至少一个第一说话人特征包括所述目标说话人特征。
可选的,如图6所示,所述确定模块203还包括:
添加单元2033,用于若所述第二说话人特征与所述至少一个第一说话人特征中每个第一说话人特征均不匹配,则将所述第二说话人特征添加至所述至少一个第一说话人特征中。
可选的,如图7所示,所述确定模块203还包括:
获取单元2034,用于基于所述第二说话人特征和所述目标说话人特征获取第三说话人特征;
更新单元2035,用于将所述目标说话人特征更新为所述第三说话人特征。
可选的,所述待处理语音为语音采集设备实时采集的语音;和/或,所述电子设备为服务器。
说话人分离装置能够实现图1的方法实施例中实现的各个过程,为避免重复,这里不再赘述。
请参见图8,图8是本发明实施例提供的一种电子设备的结构示意图,如图8所示,电子设备300包括:存储器302、处理器301及存储在所述存储器302上并可在所述处理器301上运行的程序,其中:
所述处理器301读取存储器302中的程序,用于执行:
对待处理语音进行语音活动检测,以将所述待处理语音划分成至少一个语音段;
分别将所述至少一个语音段输入声纹识别模型,得到所述至少一个语音段中每个语音段对应的说话人特征;
分别基于所述每个语音段对应的说话人特征,确定所述每个语音段对应的说话人。
可选的,所述处理器301用于执行的所述对待处理语音进行语音活动检测,以将所述待处理语音划分成至少一个语音段,包括:
依次对待处理语音的每个语音帧进行语音活动检测,以确定所述每个语音帧是否为人声语音帧;
将所述待处理语音的人声语音帧中间隔小于第一预设值的人声语音帧划分至同一语音段,并将所述待处理语音的人声语音帧中间隔大于或等于第一预设值的人声语音帧划分至不同的语音段。
可选的,所述至少一个语音段中每个语音段包含的语音帧的数量小于或等于第二预设值。
可选的,所述处理器301用于执行的所述依次对待处理语音的每个语音帧进行语音活动检测,以确定所述每个语音帧是否为人声语音帧,包括:
依次将待处理语音的每个语音帧输入用于语音活动检测的卷积神经网络模型,以确定所述每个语音帧是否为人声语音帧。
可选的,所述处理器301用于执行的所述分别基于所述每个语音段对应的说话人特征,确定所述每个语音段对应的说话人,包括:
分别将所述每个语音段对应的说话人特征输入用于确定说话人的递归神经网络模型,以确定所述每个语音段对应的说话人。
可选的,所述处理器301用于执行的所述分别基于所述每个语音段对应的说话人特征,确定所述每个语音段对应的说话人,包括:
在所述电子设备存储有至少一个第一说话人特征的情况下,将第二说话人特征与所述至少一个第一说话人特征中每个第一说话人特征进行匹配,所述第二说话人特征为所述至少一个语音段中任意一个语音段对应的说话人特征;
若所述第二说话人特征与目标说话人特征匹配一致,则确定所述第二说话人特征对应的说话人为所述目标说话人特征对应的说话人;
其中,所述至少一个第一说话人特征包括所述目标说话人特征。
可选的,所述处理器301还用于执行:
若所述第二说话人特征与所述至少一个第一说话人特征中每个第一说话人特征均不匹配,则将所述第二说话人特征添加至所述至少一个第一说话人特征中。
可选的,所述处理器301还用于执行:
基于所述第二说话人特征和所述目标说话人特征获取第三说话人特征;
将所述目标说话人特征更新为所述第三说话人特征。
可选的,所述待处理语音为语音采集设备实时采集的语音;和/或,所述电子设备为服务器。
在图8中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器301代表的一个或多个处理器和存储器302代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。
处理器301负责管理总线架构和通常的处理,存储器302可以存储处理器301在执行操作时所使用的数据。
需要说明的是,本发明实施例方法实施例中的任意实施方式都可以被本实施例中的上述电子设备所实现,以及达到相同的有益效果,此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述说话人分离方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。
Claims (11)
1.一种说话人分离方法,应用于电子设备,其特征在于,所述方法包括:
对待处理语音进行语音活动检测,以将所述待处理语音划分成至少一个语音段;
分别将所述至少一个语音段输入声纹识别模型,得到所述至少一个语音段中每个语音段对应的说话人特征;
分别基于所述每个语音段对应的说话人特征,确定所述每个语音段对应的说话人。
2.根据权利要求1所述的方法,其特征在于,所述对待处理语音进行语音活动检测,以将所述待处理语音划分成至少一个语音段,包括:
依次对待处理语音的每个语音帧进行语音活动检测,以确定所述每个语音帧是否为人声语音帧;
将所述待处理语音的人声语音帧中间隔小于第一预设值的人声语音帧划分至同一语音段,并将所述待处理语音的人声语音帧中间隔大于或等于第一预设值的人声语音帧划分至不同的语音段。
3.根据权利要求1所述的方法,其特征在于,所述至少一个语音段中每个语音段包含的语音帧的数量小于或等于第二预设值。
4.根据权利要求2所述的方法,其特征在于,所述依次对待处理语音的每个语音帧进行语音活动检测,以确定所述每个语音帧是否为人声语音帧,包括:
依次将待处理语音的每个语音帧输入用于语音活动检测的卷积神经网络模型,以确定所述每个语音帧是否为人声语音帧。
5.根据权利要求1所述的方法,其特征在于,所述分别基于所述每个语音段对应的说话人特征,确定所述每个语音段对应的说话人,包括:
分别将所述每个语音段对应的说话人特征输入用于确定说话人的递归神经网络模型,以确定所述每个语音段对应的说话人。
6.根据权利要求1所述的方法,其特征在于,所述分别基于所述每个语音段对应的说话人特征,确定所述每个语音段对应的说话人,包括:
在所述电子设备存储有至少一个第一说话人特征的情况下,将第二说话人特征与所述至少一个第一说话人特征中每个第一说话人特征进行匹配,所述第二说话人特征为所述至少一个语音段中任意一个语音段对应的说话人特征;
若所述第二说话人特征与目标说话人特征匹配一致,则确定所述第二说话人特征对应的说话人为所述目标说话人特征对应的说话人;
其中,所述至少一个第一说话人特征包括所述目标说话人特征。
7.根据权利要求6所述的方法,其特征在于,所述将第二说话人特征与所述至少一个第一说话人特征中每个第一说话人特征进行匹配之后,所述方法还包括:
若所述第二说话人特征与所述至少一个第一说话人特征中每个第一说话人特征均不匹配,则将所述第二说话人特征添加至所述至少一个第一说话人特征中。
8.根据权利要求6所述的方法,其特征在于,所述确定所述第二说话人特征对应的说话人为所述目标说话人特征对应的说话人之后,所述方法还包括:
基于所述第二说话人特征和所述目标说话人特征获取第三说话人特征;
将所述目标说话人特征更新为所述第三说话人特征。
9.根据权利要求1所述的方法,其特征在于,所述待处理语音为语音采集设备实时采集的语音;和/或,所述电子设备为服务器。
10.一种说话人分离装置,应用于电子设备,其特征在于,所述说话人分离装置包括:
检测模块,用于对待处理语音进行语音活动检测,以将所述待处理语音划分成至少一个语音段;
输入模块,用于分别将所述至少一个语音段输入声纹识别模型,得到所述至少一个语音段中每个语音段对应的说话人特征;
确定模块,用于分别基于所述每个语音段对应的说话人特征,确定所述每个语音段对应的说话人。
11.一种电子设备,其特征在于,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至9中任一项所述的说话人分离方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010580781.1A CN111785302A (zh) | 2020-06-23 | 2020-06-23 | 说话人分离方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010580781.1A CN111785302A (zh) | 2020-06-23 | 2020-06-23 | 说话人分离方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111785302A true CN111785302A (zh) | 2020-10-16 |
Family
ID=72757699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010580781.1A Pending CN111785302A (zh) | 2020-06-23 | 2020-06-23 | 说话人分离方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111785302A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113178205A (zh) * | 2021-04-30 | 2021-07-27 | 平安科技(深圳)有限公司 | 语音分离方法、装置、计算机设备及存储介质 |
CN113707173A (zh) * | 2021-08-30 | 2021-11-26 | 平安科技(深圳)有限公司 | 基于音频切分的语音分离方法、装置、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005084071A (ja) * | 2003-09-04 | 2005-03-31 | Kddi Corp | 音声認識装置 |
US8199927B1 (en) * | 2007-10-31 | 2012-06-12 | ClearOnce Communications, Inc. | Conferencing system implementing echo cancellation and push-to-talk microphone detection using two-stage frequency filter |
CN107886943A (zh) * | 2017-11-21 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种声纹识别方法及装置 |
CN107967912A (zh) * | 2017-11-28 | 2018-04-27 | 广州势必可赢网络科技有限公司 | 一种人声分割方法及装置 |
CN109473102A (zh) * | 2017-09-07 | 2019-03-15 | 上海新同惠自动化系统有限公司 | 一种机器人秘书智能会议记录方法及系统 |
CN109616097A (zh) * | 2019-01-04 | 2019-04-12 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、设备及存储介质 |
CN109658951A (zh) * | 2019-01-08 | 2019-04-19 | 北京雷石天地电子技术有限公司 | 混合信号检测方法及系统 |
CN110544481A (zh) * | 2019-08-27 | 2019-12-06 | 华中师范大学 | 一种基于声纹识别的s-t分类方法、装置及设备终端 |
CN110910863A (zh) * | 2019-11-29 | 2020-03-24 | 上海依图信息技术有限公司 | 从音频文件中提取有声片段的方法、装置设备及存储介质 |
-
2020
- 2020-06-23 CN CN202010580781.1A patent/CN111785302A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005084071A (ja) * | 2003-09-04 | 2005-03-31 | Kddi Corp | 音声認識装置 |
US8199927B1 (en) * | 2007-10-31 | 2012-06-12 | ClearOnce Communications, Inc. | Conferencing system implementing echo cancellation and push-to-talk microphone detection using two-stage frequency filter |
CN109473102A (zh) * | 2017-09-07 | 2019-03-15 | 上海新同惠自动化系统有限公司 | 一种机器人秘书智能会议记录方法及系统 |
CN107886943A (zh) * | 2017-11-21 | 2018-04-06 | 广州势必可赢网络科技有限公司 | 一种声纹识别方法及装置 |
CN107967912A (zh) * | 2017-11-28 | 2018-04-27 | 广州势必可赢网络科技有限公司 | 一种人声分割方法及装置 |
CN109616097A (zh) * | 2019-01-04 | 2019-04-12 | 平安科技(深圳)有限公司 | 语音数据处理方法、装置、设备及存储介质 |
CN109658951A (zh) * | 2019-01-08 | 2019-04-19 | 北京雷石天地电子技术有限公司 | 混合信号检测方法及系统 |
CN110544481A (zh) * | 2019-08-27 | 2019-12-06 | 华中师范大学 | 一种基于声纹识别的s-t分类方法、装置及设备终端 |
CN110910863A (zh) * | 2019-11-29 | 2020-03-24 | 上海依图信息技术有限公司 | 从音频文件中提取有声片段的方法、装置设备及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113178205A (zh) * | 2021-04-30 | 2021-07-27 | 平安科技(深圳)有限公司 | 语音分离方法、装置、计算机设备及存储介质 |
CN113707173A (zh) * | 2021-08-30 | 2021-11-26 | 平安科技(深圳)有限公司 | 基于音频切分的语音分离方法、装置、设备及存储介质 |
CN113707173B (zh) * | 2021-08-30 | 2023-12-29 | 平安科技(深圳)有限公司 | 基于音频切分的语音分离方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108198547B (zh) | 语音端点检测方法、装置、计算机设备和存储介质 | |
CN110364143B (zh) | 语音唤醒方法、装置及其智能电子设备 | |
US8478591B2 (en) | Phonetic variation model building apparatus and method and phonetic recognition system and method thereof | |
JP3114975B2 (ja) | 音素推定を用いた音声認識回路 | |
CN109147796B (zh) | 语音识别方法、装置、计算机设备及计算机可读存储介质 | |
CN108735201B (zh) | 连续语音识别方法、装置、设备和存储介质 | |
EP4018437B1 (en) | Optimizing a keyword spotting system | |
CN102013253B (zh) | 基于语音单元语速的差异的语音识别方法及语音识别系统 | |
CN109036471B (zh) | 语音端点检测方法及设备 | |
JP6908045B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
CN114121006A (zh) | 虚拟角色的形象输出方法、装置、设备以及存储介质 | |
CN110570870A (zh) | 一种文本无关的声纹识别方法、装置及设备 | |
Linh et al. | MFCC-DTW algorithm for speech recognition in an intelligent wheelchair | |
CN111785302A (zh) | 说话人分离方法、装置及电子设备 | |
CN113823323A (zh) | 一种基于卷积神经网络的音频处理方法、装置及相关设备 | |
CN111798846A (zh) | 语音命令词识别方法、装置、会议终端及会议终端系统 | |
CN109065026B (zh) | 一种录音控制方法及装置 | |
CN110853669A (zh) | 音频识别方法、装置及设备 | |
Kamble et al. | Emotion recognition for instantaneous Marathi spoken words | |
CN111554270A (zh) | 训练样本筛选方法及电子设备 | |
CN111640423A (zh) | 一种词边界估计方法、装置及电子设备 | |
JP5091202B2 (ja) | サンプルを用いずあらゆる言語を識別可能な識別方法 | |
Yavuz et al. | A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model. | |
CN112820281B (zh) | 一种语音识别方法、装置及设备 | |
CN112397053B (zh) | 语音识别方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |